Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
Programas de Pós Graduação em
Economia e
Administração da
PUC-SP
BOLETIM DE ANÁLISES ESTATÍSTICO
BASTA 2017 Vol. 2
IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL
ATLAS BRASIL
DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA
Danilo Nunes
1º SEMESTRE
São Paulo – SP
2017
A Importância e Impacto do Ensino Médio no País
2
SUMÁRIO
INTRODUÇÃO ........................................................................................................................... 4
CAPITULO 1. O Portal Atlas no Brasil .................................................................................... 4
1.1. Entendendo os Dados ........................................................................................................... 4
1.1.1. Os Indivíduos ..................................................................................................................... 4
1.1.2. As Variáveis ....................................................................................................................... 5
CAPÍTULO 2. ESTATÍSTICA DESCRITIVA DAS VARIÁVEIS ....................................... 9
2.1 Análise das Variáveis ............................................................................................................ 10
2.1.1 Variáveis Categóricas ......................................................................................................... 10
2.1.2 Variáveis Municípios .......................................................................................................... 10
2.1.3 Variáveis Quantitativas ...................................................................................................... 12
2.1.4 Comparações da Análise Descritíva .................................................................................. 30
CAPÍTULO 3. RELAÇÃO ENTRE AS VARIÁVEIS ............................................................. 33
3.1 Correlação dos Valores ......................................................................................................... 33
3.2 Gráfico das Dispersões .......................................................................................................... 36
3.3 Dendograma ........................................................................................................................... 38
CAPITULO 4. ANÁLISES DE TENDÊNCIAS ....................................................................... 40
4.1 Entendendo o Conceito dos Indicadores ............................................................................. 45
4.2 Entendendo os Conceitos dos Gráficos ................................................................................ 45
CAPITULO 5. REGRESSÃO LINEAR .................................................................................... 55
5.1 Correlações das Variáveis Validades ................................................................................... 56
5.2 Variável Dependente ............................................................................................................. 56
5.3 Variável Independente .......................................................................................................... 56
5.3.1 Utilizando e demonstrando no Minitab ………………………………………………… 56
5.3.2 Resultado das variáveis estudadas .................................................................................... 58
5.3.3 Regressão Utilizando a Response com a Predictor de maior Representativa ............. 59
5.3.4 Dendograma das Variáveis Correlacionadas .................................................................. 59
3
CAPÍTULO 6. TESTES DE HIPÓTESES E INTERVALOR DE CONFIANÇA ................ 60
6.1 Análise de Dados .................................................................................................................... 60
6.2 Resgatando as Variáveis ....................................................................................................... 61
CAPITULO 7. AMOSTRAGEM ............................................................................................... 70
7.1 Pesquisa por Amostragem .................................................................................................... 70
7.2 Amostra Aleatória ................................................................................................................. 70
7.3 Construção no Minitab ......................................................................................................... 71
CAPITULO 8. COMPONENTES PRINCIPAIS ..................................................................... 78
8.1 Análise de Dados ................................................................................................................... 80
8.2 Criando os Principais Componentes ................................................................................... 80
CAPITULO 9. ANÁLISES DE CONGLOMERADOS ........................................................... 93
9.1 Base de Dados ........................................................................................................................ 93
9.2 Nova Base de Dados Considerada com as Médias por Estado .......................................... 98
9.3 Distribuição no Mapa do Brasil ........................................................................................... 105
9.4 O Novo Mapa dos Clusters ................................................................................................... 109
CAPITULO 10. ANÁLISE DISCRIMINANTE ...................................................................... 110
10.1 Busca de proximidade de Distância .................................................................................. 113
CAPITULO 11. REGRESSÃO LOGÍSTICA .......................................................................... 123
CAPÍTULO 12. ANÁLISE DE CORRESPONDÊNCIAS ...................................................... 132
12.1 Análise de Correspondência Simples ................................................................................. 132
12.2 Rodando a Análise de Correspondência ........................................................................... 137
CAPÍTULO 13. ÁRVORES DE CLASSIFICAÇÃO .............................................................. 145
13.1 Preparação das Cinco Variáveis no SPSS ......................................................................... 146
13.2 Árvore Classificatória ......................................................................................................... 152
CAPITULO 14. RANKING POR ESTADO ............................................................................. 157
CONSIDERAÇÕES FINAIS ..................................................................................................... 162
REFERÊNCIAS .......................................................................................................................... 162
4
INTRODUÇÃO
O presente trabalho tem por finalidade efetuar uma análise exploratória, utilizando os dados
disponibilizados no portal Atlas Brasil tomando como base o Atlas de Desenvolvimento Humano no
Brasil, dos 5.565 municípios pertencentes aos 27 estados e 01 distrito federal do Brasil.
A abertura e dimensão dos dados disponibilizados nos oferecem uma dimensão muito grande
das várias formas e enfoques de, sob a perspectiva do pesquisador, conhecer, avaliar e interpretar as
informações.
Esclarece-se que a base adotada refere-se exclusivamente aos relatórios de 2010, incluindo a
definição das variáveis, classificadas em categóricas ou qualitativas e as unidades de medida
utilizadas.
Para melhor entendimento, das 08 dimensões exploradas no relatório, ou seja: demografia,
educação, renda, trabalho, habitação, vulnerabilidade, população e o IDHM propriamente dito, por
metodologia adotada pelo professor, foram escolhidas por identidade de estudo, duas variáveis das
sete primeiras dimensões mais as quatro variáveis que compõem os IDHM (longevidade, educação,
renda e geral) que serão apresentados no desenvolvimento do trabalho.
Os indicadores escolhidos e as respectivas aberturas nos 5.565 municípios brasileiros foram
trabalhados utilizando-se o software estatístico MINITAB 16, ferramenta esta que nos permite
trabalhar com gráficos, medidas numéricas, testes de normalidade e intervalos de confiança.
CAPÍTULO 1. O PORTAL ATLAS NO BRASIL
Concebido como uma ferramenta simples e amigável de disponibilização de informações,
o Atlas Brasil facilita o manuseio de dados e estimula análises. A ferramenta oferece um panorama
do desenvolvimento humano e da desigualdade interna dos municípios, estados e regiões
metropolitanas. A relevância do Atlas do Desenvolvimento Humano nos Municípios vem justamente
da capacidade de fornecer informações sobre a unidade político-administrativa mais próxima do
cotidiano dos cidadãos: o município. Por sua vez, o Atlas do Desenvolvimento Humano nas Regiões
Metropolitanas permite conhecer as desigualdades intramunicipais, entre “bairros” de uma mesma
região metropolitana (atlasbrasil.org.br).
1.1. Entendendo os Dados
1.1.1 Os Indivíduos
O foco de estudo deste trabalho são todos os municípios brasileiros, com os 232 indicadores
disponibilizados no portal Atlas Brasil, dados de 2010, abertos em 08 categorias, a saber:
• Demografia
• Educação
5
• Renda
• Trabalho
• Habitação
• Vulnerabilidade
• População
• IDHM (Longevidade, Renda e Educação
O IDHM demonstrado no Atlas de Desenvolvimento Humano é baseado exclusivamente nos
dados dos Censos Geográficos e tem por objetivo disponibilizar informações aos gestores público e
privado, bem como, professores, alunos e todas as pessoas interessadas em conhecer e poder atuar
em ações que nos levem a melhorar nossos referenciais de cidadania.
Por proposta de estudo, o objetivo focou-se nos resultados que expressam os indicadores
referentes à formação do Ensino Médio no cenário nacional, e na escolha das variáveis de certa forma,
buscou-se uma associação direta com este foco de estudo, bem como, com as diretrizes estipuladas
para cada exercício desenvolvido.
1.1.2 As variáveis
Dos 232 indicadores que compõem a base de dados disponibilizada no Atlas Brasil, por
metodologia previamente definida, foram escolhidas 02 variáveis de cada uma das 07 classificações
que somadas aos 04 indicadores dos IDHM, perfazem o total de 18 (dezoito) variáveis a serem
abordadas, exploradas e analisadas neste trabalho.
Na busca por esses indicadores procurou-se, mesmo que de forma empírica, uma provável
associação que possa nos levar a conhecer melhor a composição dos dados e, consequentemente, ter
mais subsídios em ações que possam ser adotadas.
Quadro 01 – As variáveis Código Indicador Abrangência Tipo Medida
ESPVIDA Esperança de vida ao nascer Número médio de anos que
as pessoas deverão viver a
partir do nascimento, se
permanecerem constantes
ao longo da vida o nível e o
padrão de mortalidade por
idade prevalecentes no ano
do Censo.
Variável
Quantitativa
Anos
T_ENV Taxa de envelhecimento Razão entre a população
de 65 anos ou mais de
idade e a população total
multiplicado por 100.
Variável
Quantitativa
Percentual
6
T_FUND15A17 Percentual da população de 15
a 17 anos com fundamental
completo
Razão entre a população
de 15 a 17 anos de idade
que concluiu o ensino
fundamental, em qualquer
de suas modalidades
(regular seriado, não
seriado, EJA ou supletivo),
e o total de pessoas nesta
faixa etária, multiplicada por
100.
Variável
Quantitativa
Percentual
T_MED18a20 Percentual da população de 18
a 20 anos de idade com o
ensino médio completo
Razão entre a população
de 18 a 20 anos de idade
que já concluiu o ensino
médio em qualquer de suas
modalidades (regular
seriado, não seriado, EJA
ou supletivo), e o total de
pessoas nesta faixa etária,
multiplicada por 100. As
pessoas de 18 a 20 anos
frequentando a 4ª série do
ensino médio foram
consideradas como já tendo
concluído esse nível de
ensino.
Variável
Quantitativa
Percentual
RIND Renda domiciliar per capita
média dos extremamente
pobres
Média da renda domiciliar
per capita das pessoas com
renda domiciliar per capita
igual ou inferior a R$ 70,00
mensais, a preços de
agosto de 2010. O universo
de indivíduos é limitado
àqueles que vivem em
domicílios particulares
permanentes.
Variável
Quantitativa
Absoluto
RDPC Renda per capita média Razão entre o somatório da
renda de todos os
indivíduos residentes em
domicílios particulares
permanentes e o número
total desses indivíduos.
Variável
Quantitativa
Absoluto
7
Valores em reais de
01/agosto de 2010.
TRABCC Percentual de ocupados de 18
anos ou mais que são
empregados com carteira
Razão entre o número de
empregados de 18 anos ou
mais de idade com carteira
de trabalho assinada e o
número total de pessoas
ocupadas nessa faixa
etária, multiplicada por 100.
Variável
Quantitativa
Percentual
TRABSC Percentual de ocupados de 18
anos ou mais que são
empregados sem carteira
Razão entre o número de
empregados de 18 anos ou
mais de idade sem carteira
de trabalho assinada e o
número total de pessoas
ocupadas nessa faixa
etária, multiplicada por 100.
Variável
Quantitativa
Percentual
T_AGUA Percentual da população que
vive em domicílios com água
encanada
Razão entre a população
que vive em domicílios
particulares permanentes
com água canalizada para
um ou mais cômodos e a
população total residente
em domicílios particulares
permanentes, multiplicada
por 100. A água pode ser
proveniente de rede geral,
de poço, de nascente ou de
reservatório abastecido por
água das chuvas ou carro-
pipa.
Variável
Quantitativa
Percentual
T_LUZ Percentual da população que
vive em domicílios com energia
elétrica
Razão entre a população
que vive em domicílios
particulares permanentes
com iluminação elétrica e a
população total residente
em domicílios particulares
permanentes, multiplicada
por 100. Considera-se
iluminação proveniente ou
não de uma rede geral, com
ou sem medidor.
Variável
Quantitativa
Percentual
8
AGUA_ESGOTO Percentual de pessoas em
domicílios com abastecimento
de água e esgotamento
sanitário inadequados
Razão entre as pessoas
que vivem em domicílios
cujo abastecimento de água
não provem de rede geral e
cujo esgotamento sanitário
não é realizado por rede
coletora de esgoto ou fossa
séptica e a população total
residente em domicílios
particulares permanentes,
multiplicada por 100. São
considerados apenas os
domicílios particulares
permanentes.
Variável
Quantitativa
Percentual
T_SLUZ % de pessoas em domicílios
sem energia elétrica
Razão entre as pessoas
que vivem em domicílios
sem energia elétrica e
população total residente
em domicílios particulares
permanentes multiplicado
por 100.
Variável
Quantitativa
Percentual
PESORUR População rural População residente na
área rural
Variável
Quantitativa
Absoluto
PESOURB População urbana População residente na
área urbana
Variável
Quantitativa
Absoluto
IDHM Índice de Desenvolvimento
Humano Municipal
Índice de Desenvolvimento
Humano Municipal. Média
geométrica dos índices das
dimensões Renda,
Educação e Longevidade,
com pesos iguais.
Variável
Quantitativa
Índice
IDHM_E Índice de Desenvolvimento
Humano Municipal - Dimensão
Educação
Índice sintético da
dimensão Educação, é um
dos 3 índices que compõem
o IDHM. É obtido através
da média geométrica do
subíndice de frequência
escolar, com peso de 2/3, e
do subíndice de
escolaridade, com peso de
1/3.
Variável
Quantitativa
Índice
9
IDHM_R Índice de Desenvolvimento
Humano Municipal - Dimensão
Renda
Índice da dimensão Renda,
é um dos 3 índices que
compõem o IDHM. É obtido
a partir do indicador Renda
per capita, através da
fórmula: [ln (valor
observado do indicador) - ln
(valor mínimo)] / [ln (valor
máximo) - ln (valor
mínimo)], onde os valores
mínimo e máximo são R$
8,00 e R$ 4.033,00 (a
preços de agosto de 2010).
Variável
Quantitativa
Índice
IDHM_L Índice de Desenvolvimento
Humano Municipal - Dimensão
Longevidade
Índice da dimensão
Longevidade, é um dos 3
índices que compõem o
IDHM. É obtido a partir do
indicador Esperança de
vida ao nascer, através da
fórmula: [(valor observado
do indicador) - (valor
mínimo)] / [(valor máximo) -
(valor mínimo)], onde os
valores mínimo e máximo
são 25 e 85 anos,
respectivamente.
Variável
Quantitativa
Índice
Município Nome do Município Nome do Município Categórica n/a
UF Unidade da Federação
(Estado)
Unidade da Federação
(Estado)
Categórica n/a
Fonte: Atlas Brasil, 2010
CAPÍTULO 2. ESTATÍSTICA DESCRITIVA DAS VARIÁVEIS
Descriptive Statistics: ESPVIDA; T_ENV; T_FUND15A17; T_MED18A20; RDPC; ...
Variable N N* Mean SE Mean StDev Minimum Q1 Median
ESPVIDA 5565 0 73,089 0,0359 2,681 65,300 71,150 73,470
T_ENV 5565 0 8,3973 0,0325 2,4230 1,4600 6,7800 8,3800
T_FUND15A17 5565 0 54,754 0,208 15,505 6,890 42,915 55,420
T_MED18A20 5565 0 36,091 0,195 14,575 1,910 24,990 35,140
RDPC 5565 0 493,61 3,26 243,27 96,25 281,09 467,65
RIND 5565 0 32,036 0,129 9,603 0,000 27,435 32,510
TRABCC 5565 0 30,250 0,242 18,053 0,900 14,860 26,760
10
TRABSC 5565 0 25,224 0,132 9,853 3,030 17,640 24,750
T_AGUA 5565 0 85,598 0,197 14,721 0,150 79,635 90,280
T_LUZ 5565 0 97,190 0,0808 6,024 27,410 97,645 99,390
AGUA_ESGOTO 5565 0 9,202 0,172 12,839 0,000 0,530 3,260
T_SLUZ 5565 0 2,8104 0,0808 6,0244 0,0000 0,1300 0,6100
pesoRUR 5565 0 5360 89,0 6642 0,0 1599 3233
pesourb 5565 0 28917 2702 201551 174 2838 6263
IDHM 5565 0 0,65916 0,000965 0,07200 0,41800 0,59900 0,66500
IDHM_E 5565 0 0,55909 0,00125 0,09333 0,20700 0,49000 0,56000
IDHM_L 5565 0 0,80156 0,000599 0,04468 0,67200 0,76900 0,80800
IDHM_R 5565 0 0,64287 0,00108 0,08066 0,40000 0,57200 0,65400
Variable Q3 Maximum
ESPVIDA 75,160 78,640
T_ENV 9,9650 20,4200
T_FUND15A17 66,815 96,810
T_MED18A20 46,325 88,030
RDPC 650,64 2043,74
RIND 37,090 70,000
TRABCC 44,620 83,210
TRABSC 32,045 62,230
T_AGUA 96,260 100,000
T_LUZ 99,870 100,000
AGUA_ESGOTO 13,035 85,360
T_SLUZ 2,3550 72,5900
pesoRUR 6769 125336
pesourb 15492 11152344
IDHM 0,71800 0,86200
IDHM_E 0,63100 0,82500
IDHM_L 0,83600 0,89400
IDHM_R 0,70700 0,89100
2.1 Análise das Variáveis
2.1.1 Variáveis categóricas
Como indica o foco de concentração, a análise deve ser feita preferencialmente por gráficos
tipo pie chart ou barras
2.1.2 Variável Município
Os dados correspondem ao 5.565 municípios brasileiros distribuído pelas 05 regiões conforme
demonstrado no gráfico a seguir
11
Gráfico 01 – Municípios por região
Fonte: elaborado pelo autor, com base no Atlas Brasil, 2010
O maior percentual de municípios está localizado na região Nordeste, com 32,3% seguida da
região Sudeste com 30,0 e, respectivamente, Sul, Centro-Oeste e Norte, com 21,3%, 8,4% e 8,1%.
Se analisarmos por Unidade Federativa, 05 estados têm cerca da metade dos municípios do
Brasil, conforme demonstramos:
Gráfico 02 – Municípios por Estado
Fonte: elaborado pelo autor, com base no Atlas Brasil, 2010
Para que possamos ter uma visão geral do IDHM de todos os municípios do Brasil, a figura
abaixo retrata essa distribuição.
449
1794
466
1668
1188Norte
Nordeste
Centro-Oeste
853
645
495
417399
2756
Municípios
Minas Gerais
São Paulo
RS do Sul
Bahia
Paraná
Outros
12
Figura 01 – IDHM dos municípios do Brasil
Fonte: Atlas Brasil, 2010
A Atlas Brasil propõem a seguinte classificação:
• Muito baixo: inferior a 0.500
• Baixo: de 0.500 a 0.599
• Médio: de 0.600 a 0.699
• Alto: de 0.700 a 0.799
• Muito alto: acima de 0.800
2.1.3 Variáveis Quantitativas
Permitem a utilização de várias ferramentas como histogramas, curvas de densidade, box-plot,
nos subsidiando com dados numéricos que compõem as médias, medianas, intervalos e testes de
normalidade como Anderson-Darling.
Neste estudo exploraremos 18 variáveis conforme demonstrações a seguir:
• Variável ESPVIDA: Número médio de anos que as pessoas deverão viver a partir do
nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade
por idade prevalecentes no ano.
13
78767472706866
Median
Mean
73,673,573,473,373,273,173,0
1st Q uartile 71,150
Median 73,470
3rd Q uartile 75,160
Maximum 78,640
73,019 73,159
73,380 73,550
2,632 2,731
A -Squared 34,95
P-V alue < 0,005
Mean 73,089
StDev 2,681
V ariance 7,186
Skewness -0,409315
Kurtosis -0,486787
N 5565
Minimum 65,300
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA
Gráfico 3 – Variável Expectativa de Vida
Fonte: Minitab 16
Forma: Há uma maior distribuição concentrada na faixa de 73 a 75 anos e o posicionamento
da mediana está no inicio desse intervalo, ou seja, estabelecido entre 73,3 e 73,5 anos, o que é
demonstrado pelo box-plot.
Valores atípicos: não houve a indicação nesta análise de valores atípicos significativos, mas
ressaltam-se os dois extremos, Cacimbas (PB) e Roteiro (AL) com expectativa de 65,3 anos e
Blumenau e Brusque, ambas em SC, com 78,64 anos.
Centro e Dispersão: A mediana nos indica que municípios estão divididos proporcionalmente
entre os dois lados, sendo que seu valor para a “ESPVIDA”. é de 73,47 A média dos municípios é de
73,089, tendo um desvio-padrão de 2,681, com intervalo entre 2,632 e 2,731. Com 95% de confiança,
podemos afirmar que a média encontra-se entre os índices de 73,019 e 73,159.
• Variável T_ENV: Razão entre a população de 65 anos ou mais de idade e a população total
multiplicado por 100.
14
181512963
Median
Mean
8,458,408,358,30
1st Q uartile 6,7800
Median 8,3800
3rd Q uartile 9,9650
Maximum 20,4200
8,3337 8,4610
8,3100 8,4700
2,3788 2,4689
A -Squared 1,52
P-V alue < 0,005
Mean 8,3973
StDev 2,4230
V ariance 5,8709
Skewness 0,207206
Kurtosis 0,407769
N 5565
Minimum 1,4600
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_ENV
Gráfico 4: Varíável Taxa de Envelhecimento
Fonte: Minitab 16
Forma: Há uma maior distribuição concentrada na faixa de 07 e 10 e o posicionamento da
mediana está no intervalo, entre 8,3100 e 8,4700, demonstrado pelo box-plot.
Valores atípicos: Esse tipo de concentração sinaliza que há valores atípicos que podem ser
melhor estudados. Pode-se citar com exemplo, pois estão muito distantes da média e da mediana, os
seguintes municípios: Santa Rosa do Purus (AC), Luis Eduardo Magalhães (BA), Campos de Júlio
(MT) e Sapezal (MT), com taxas de 1,75; 1,50; 1,61 e 1,46 respectivamente
Centro e Dispersão: A mediana nos indica que há uma distribuição proporcional de municípios
entre os dois lados, sendo que o seu valor é de 8,3800. A média dos municípios é de 8,3973, tendo
um desvio-padrão de 2,4230. Com 95% de confiança, podemos afirmar que a média encontra-se entre
os índices de 8,3337 e 8,4610.
• Variável T_FUND15A17: Razão entre a população de 15 a 17 anos de idade que concluiu o
ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou
supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.
15
98847056422814
Median
Mean
56,0055,7555,5055,2555,0054,7554,50
1st Q uartile 42,915
Median 55,420
3rd Q uartile 66,815
Maximum 96,810
54,346 55,161
54,819 55,852
15,222 15,799
A -Squared 15,87
P-V alue < 0,005
Mean 54,754
StDev 15,505
V ariance 240,407
Skewness -0,116765
Kurtosis -0,653056
N 5565
Minimum 6,890
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_FUND15A17
Gráfico 5: Variável Taxa Ensino Fundamental
Fonte: Minitab 16
Forma: Há uma maior distribuição na faixa de 42,9 a 66,8 e o posicionamento da mediana
sinaliza maior concentração dos municípios entre 54,8 e 55,8, demonstrado pelo box-plot.
Valores atípicos: não houve a indicação nesta análise de valores atípicos significativos, mas
ressaltam-se os dois extremos, Jacareacanga (PA) e Melgaço (PA) com índices de 9,9 e 6,89
respectivamente e Monções (SP) e Várzea (PB), com 96,81 e 96,56 respectivamente.
Centro e Dispersão: A mediana nos indica que há uma distribuição proporcional de municípios
entre os dois lados, sendo que o seu valor é de 55,420. A média dos municípios é de 54,7540, tendo
um desvio-padrão de 15,5050. Com 95% de confiança, podemos afirmar que a média encontra-se
entre os índices de 54,346 e 55,161. Ressaltam-se os valores próximos da média e mediana com um
desvio padrão relativamente alto o que pode significar uma maior dispersão dos dados obtidos.
• Variável RDPC: Razão entre o somatório da renda de todos os indivíduos residentes em
domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de
01/agosto de 2010.
16
180015001200900600300
Median
Mean
500490480470460450
1st Q uartile 281,09
Median 467,65
3rd Q uartile 650,64
Maximum 2043,74
487,21 500,00
456,26 478,34
238,83 247,88
A -Squared 80,55
P-V alue < 0,005
Mean 493,61
StDev 243,27
V ariance 59179,97
Skewness 0,95965
Kurtosis 1,65248
N 5565
Minimum 96,25
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for RDPC
Gráfico 06: Variável Renda Per Capita
Fonte: Minitab 16
Forma: Há uma distribuição concentrada na faixa entre 281,09 e 650,64. O Box-Plot
demonstra a concentração na faixa acima citada, o posicionamento da mediana confirma essa análise
Valores Atípicos: Há a indicação nesta análise de valores atípicos o que sugere uma análise
mais aprofundada, mas ressaltam-se os dois extremos, Marajá do Sena e Fernando Falcão, ambos no
MA, com respectivamente 96,25 e 106,99 e com indicadores de 2.000,29 e 2.043,74 respectivamente
Niterói (RJ) e São Caetano do Sul (SP)
Centro e Dispersão: A mediana nos indica que os municípios se concentram entre 456,26 e
478,34 e a média dos municípios é de 493,61, tendo um desvio-padrão de 243,27. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os índices de 487,21 e 500,00.
• Variável RIND: Média da renda domiciliar per capita das pessoas com renda domiciliar per
capita igual ou inferior a R$ 70,00 mensais, a preços de agosto de 2010. O universo de
indivíduos é limitado àqueles que vivem em domicílios particulares permanentes.
17
706050403020100
Median
Mean
32,832,632,432,232,031,8
1st Q uartile 27,435
Median 32,510
3rd Q uartile 37,090
Maximum 70,000
31,783 32,288
32,280 32,730
9,428 9,785
A -Squared 60,66
P-V alue < 0,005
Mean 32,036
StDev 9,603
V ariance 92,215
Skewness -0,28293
Kurtosis 2,37275
N 5565
Minimum 0,000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for RIND
Gráfico 07: Renda Individual
Fonte: Minitab 16
Forma: Há uma maior distribuição concentrada na faixa entre 27,435 e 37,090 e o
posicionamento da mediana está no intervalo, entre 32,280 2 32,730, demonstrado pelo box-plot
Valores atípicos: Não houve a indicação nesta análise de valores atípicos significativos, mas
ressaltam-se os dois extremos, com um dado de fato atípico, o menor índice está numa cidade de
Santa Catarina, Luzerna, com 1,40 e o maior em 05 cidades, sendo 03 em Santa Catarina, por
exemplo, Ibirama, com 70,0.
Centro e Dispersão: A mediana nos indica que há uma distribuição maior de municípios na
faixa de 32,280 e 32,730, sendo que o seu valor é de 32,510. A média dos municípios é de 32,036,
tendo um desvio-padrão de 9,603, que pode ser considerado de grau baixo. Com 95% de confiança,
podemos afirmar que a média encontra-se entre os índices de 31,783 e 32,288
• Variável TRABOCC: Razão entre o número de empregados de 18 anos ou mais de idade com
carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária,
multiplicada por 100.
18
847260483624120
Median
Mean
313029282726
1st Q uartile 14,860
Median 26,760
3rd Q uartile 44,620
Maximum 83,210
29,775 30,724
25,958 27,401
17,723 18,394
A -Squared 94,28
P-V alue < 0,005
Mean 30,250
StDev 18,053
V ariance 325,895
Skewness 0,456757
Kurtosis -0,888866
N 5565
Minimum 0,900
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for TRABCC
Gráfico 08: Trabalhador com carteira assinada
Fonte: Minitab 16
Forma: o histograma sinaliza uma distribuição mais concentrada na faixa de 14,860 e 44,620.
O Box-Plot demostra a consideração na faixa acima e o posicionamento da mediana praticamente
valida essa tendência.
Valores Atípicos: Apesar da concentração, há evidências de valores atípicos em virtude do
distanciamento da moda e mediana. Nos dois extremos temos, Sebastião Barros (PI) com indicador
de 0,9 e Pedra Bonita (MG) com 1,19 contra Palmares Paulista e Dobrada, ambas em SP, com 82,27
e 83,21 respectivamente.
Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte
dos municípios variando entre os índices 25,958 e 27,401. A média dos municípios brasileiros é de
30,250 tendo um desvio padrão de 18,053. Com 95% de confiança nos intervalos apurados, podemos
afirmar que a média encontra-se entre os valores 29,775 e 30,724.
• Variável TRABSC: Razão entre o número de empregados de 18 anos ou mais de idade sem
carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária,
multiplicada por 100.
19
5648403224168
Median
Mean
25,5025,2525,0024,7524,50
1st Q uartile 17,640
Median 24,750
3rd Q uartile 32,045
Maximum 62,230
24,965 25,483
24,460 25,071
9,673 10,040
A -Squared 11,46
P-V alue < 0,005
Mean 25,224
StDev 9,853
V ariance 97,081
Skewness 0,324240
Kurtosis -0,261239
N 5565
Minimum 3,030
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for TRABSC
Gráfico 09: Variável Trabalhador sem carteira assinada
Fonte: Minitab 16
Forma: o histograma sinaliza uma distribuição mais concentrada na faixa de 17,640 e 32,045.
O Box-Plot demostra a consideração na faixa acima e o posicionamento da mediana, praticamente
nosso centro dessa distribuição, valida essa tendência.
Valores Atípicos: Pela distribuição e indicadores, não há valores atípicos relativamente
significativos, mas ressalta-se pontos de estudos em municípios mais críticos tais como: Caparaó
(MG) com 66,86 e Luciara (MT) 62,23
Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte
dos municípios variando entre os índices 24,460 e 25,071. A média dos municípios brasileiros é de
25,224 tendo um desvio padrão de 9,853. Com 95% de confiança nos intervalos apurados, podemos
afirmar que a média encontra-se entre os valores 24,965 e 25,483.
• Variável T_AGUA: Razão entre a população que vive em domicílios particulares
permanentes com água canalizada para um ou mais cômodos e a população total residente em
domicílios particulares permanentes, multiplicada por 100. A água pode ser proveniente de
rede geral, de poço, de nascente ou de reservatório abastecido por água das chuvas ou carro-
pipa.
20
988470564228140
Median
Mean
91908988878685
1st Q uartile 79,635
Median 90,280
3rd Q uartile 96,260
Maximum 100,000
85,211 85,985
89,870 90,701
14,453 15,000
A -Squared 270,99
P-V alue < 0,005
Mean 85,598
StDev 14,721
V ariance 216,717
Skewness -1,89166
Kurtosis 4,71167
N 5565
Minimum 0,150
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_AGUA
Gráfico 10: Domicílios com água canalizada
Fonte: Minitab 16
Forma: o histograma sinaliza uma distribuição mais concentrada na faixa de 79,635 e 96,260.
O Box-Plot demostra a consideração na faixa acima e o posicionamento da mediana, praticamente
nosso centro dessa distribuição, valida essa tendência.
Valores Atípicos: A julgar pelos valores próximos e altos da média e mediana, entende-se que
há vários valores atípicos a serem considerados, preponderantemente, os municípios alocados na faixa
esquerda do histograma. Ressaltam-se os mais críticos: Baraúna (PB) com 0,15; Marcolândia (PI)
com 0,50 e Assunção (PB) com 0,77
Centro e Dispersão: A mediana nos indica que há uma concentração à direita, com boa parte
dos municípios variando entre os índices 89,870 e 90,701. A média dos municípios brasileiros é de
85,598 tendo um desvio padrão de 14,721. Com 95% de confiança nos intervalos apurados, podemos
afirmar que a média encontra-se entre os valores 85,211 e 85,985.
• Variável T_LUZ: Razão entre a população que vive em domicílios particulares permanentes
com iluminação elétrica e a população total residente em domicílios particulares permanentes,
multiplicada por 100. Considera-se iluminação proveniente ou não de uma rede geral, com ou
sem medidor.
21
10090807060504030
Median
Mean
99,599,098,598,097,597,0
1st Q uartile 97,645
Median 99,390
3rd Q uartile 99,870
Maximum 100,000
97,031 97,348
99,350 99,430
5,915 6,138
A -Squared 938,37
P-V alue < 0,005
Mean 97,190
StDev 6,024
V ariance 36,293
Skewness -4,2167
Kurtosis 23,1543
N 5565
Minimum 27,410
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_LUZ
Gráfico 11: Domicílios com iluminação elétrica
Fonte: Minitab 16
Forma: Bastante parecida com a análise anterior, mas com um grão ainda maior de
concentração, agora na faixa de 97,645 e 99,870. O Box-Plot demostra a consideração na faixa acima
e o posicionamento da mediana, praticamente nosso centro dessa distribuição, valida essa tendência.
Valores Atípicos: A julgar pelos valores próximos e altos da média e mediana, entende-se que
há vários valores atípicos a serem considerados, preponderantemente, os municípios alocados na faixa
esquerda do histograma. Ressaltam-se os mais críticos: Uiramutã (RR), com a taxa mais critica entre
todos os municípios brasileiros, 27,41 e Jordão (AC), Dom Inocêncio (PI) e São Lourenço do Piau
(PI)´, com 41,83, 44,16 e 44,27 respectivamente.
Centro e Dispersão: A mediana nos indica que há uma concentração à direita, com boa parte dos
municípios variando entre os índices 99,350 e 99,430. A média dos municípios brasileiros é de 97,190
tendo um desvio padrão de 6.024. Com 95% de confiança nos intervalos apurados, podemos afirmar
que a média encontra-se entre os valores 97,031 e 97,348.
• Variável ÁGUA_ESGOTO: Razão entre as pessoas que vivem em domicílios cujo
abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado
por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios
particulares permanentes, multiplicada por 100. São considerados apenas os domicílios
particulares permanentes.
22
847260483624120
Median
Mean
108642
1st Q uartile 0,5300
Median 3,2600
3rd Q uartile 13,0350
Maximum 85,3600
8,8643 9,5391
2,9400 3,5910
12,6050 13,0823
A -Squared 500,69
P-V alue < 0,005
Mean 9,2017
StDev 12,8392
V ariance 164,8446
Skewness 1,99895
Kurtosis 4,21350
N 5565
Minimum 0,0000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for AGUA_ESGOTO
Gráfico 12: Domicílios com abastecimento de água sem rede geral
Fonte: Minitab 16
Forma: Contrapõe, de forma quase proporcional, os dados e análise do indicador T_ÁGUA.
Quanto mais concentrada à esquerda, próximos do eixo vertical, melhor seriam os resultados. Neste
indicador, os dados estão concentrados entre 0,5300 e 13,0350 O Box-Plot demostra a consideração
na faixa acima e o posicionamento da mediana, praticamente dentro dessa distribuição, valida essa
tendência.
Valores Atípicos: A julgar pelos valores relativos próximos da média e mediana, considerando
a população deste estudo, entende-se que há valores atípicos a serem considerados,
preponderantemente, os municípios alocados na faixa direita do histograma. Ressaltam-se os mais
críticos: Chaves e Melgaço (PA) com, respectivamente, 85,36 e 78,93
Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte
dos municípios variando entre os índices 2,9400 e 3,5910. A média dos municípios brasileiros é de
9,2017 tendo um desvio padrão de 12,8392. Com 95% de confiança nos intervalos apurados, podemos
afirmar que a média encontra-se entre os valores 8,8643 e 9,5391.
• Variável T_LUZ: Razão entre as pessoas que vivem em domicílios sem energia elétrica e
população total residente em domicílios particulares permanentes multiplicado por 100.
23
706050403020100
Median
Mean
3,02,52,01,51,00,5
1st Q uartile 0,1300
Median 0,6100
3rd Q uartile 2,3550
Maximum 72,5900
2,6521 2,9687
0,5700 0,6500
5,9145 6,1384
A -Squared 938,10
P-V alue < 0,005
Mean 2,8104
StDev 6,0244
V ariance 36,2931
Skewness 4,2167
Kurtosis 23,1543
N 5565
Minimum 0,0000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_SLUZ
Gráfico 13: Domicílios sem energia elétrica
Fonte: Minitab 16
Forma: Muito similar à análise do indicador anterior. Quanto mais concentrada à esquerda,
próximos do eixo vertical, melhor seriam os resultados. Neste indicador, os dados estão concentrados
entre 0,1300 e 2,3550 O Box-Plot demostra a consideração na faixa acima e o posicionamento da
mediana, praticamente dentro dessa distribuição, valida essa tendência.
Valores Atípicos: Como na análise anterior, se observamos a macro distribuição, sem muito
variação, não teríamos valores atípicos significativos, mas a julgar pelos valores relativos próximos
da média e mediana, considerando a população deste estudo e o indicador propriamente dito, entende-
se que há valores atípicos a serem considerados, preponderantemente, os municípios alocados na
faixa direita do histograma. Ressaltam-se os mais críticos: Uiramutâ (RR) e Jordão (AC) com,
respectivamente, 72,59 e 58,17.
Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte
dos municípios variando entre os índices 0,5700 e 0,.6500. A média dos municípios brasileiros é de
9,2017 tendo um desvio padrão de 2,8104. Com 95% de confiança nos intervalos apurados, podemos
afirmar que a média encontra-se entre os valores 2,6521 e 2,9687.
• Variável pesoRUR: População residente na área rural.
24
12600010800090000720005400036000180000
Median
Mean
550050004500400035003000
1st Q uartile 1599
Median 3233
3rd Q uartile 6769
Maximum 125336
5186 5535
3130 3354
6521 6767
A -Squared 457,97
P-V alue < 0,005
Mean 5360
StDev 6642
V ariance 44111847
Skewness 4,6970
Kurtosis 45,1552
N 5565
Minimum 0
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for pesoRUR
Gráfico 14: População residente na área rural
Fonte: Minitab 16
Forma: Neste indicador, os dados estão concentrados entre 1.599 e 6.769 O Box-Plot demostra
a consideração na faixa acima e o posicionamento da mediana, dentro dessa distribuição, valida essa
tendência.
Valores Atípicos: Por ser indicador absoluto e atendendo às características das cidades
brasileiras, entende-se por não haver valores atípicos neste indicador, mesmo considerando o alto
desvio padrão.
Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte
dos municípios variando com população rural entre 3.130 e 3.354. A média dos municípios brasileiros
é de 5.360 tendo um desvio padrão de 6.642. Com 95% de confiança nos intervalos apurados,
podemos afirmar que a média encontra-se entre os valores 5.186 e 5.535.
• Variável pesourb: População residente na área urbana.
25
112000009600000800000064000004800000320000016000000
Median
Mean
3500030000250002000015000100005000
1st Q uartile 2838
Median 6263
3rd Q uartile 15492
Maximum 11152344
23621 34214
5993 6516
197875 205367
A -Squared 1664,44
P-V alue < 0,005
Mean 28917
StDev 201551
V ariance 40622813581
Skewness 37,77
Kurtosis 1858,03
N 5565
Minimum 174
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for pesourb
Gráfico 15: População residente na área urbana
Fonte: Minitab 16
Forma: Neste indicador, os dados estão concentrados entre 2.838 e 15.492 O Box-Plot
demostra a consideração na faixa acima e o posicionamento da mediana, dentro dessa distribuição,
valida essa tendência. Não há praticamente, distorção de distribuição neste indicador
Valores Atípicos: Por ser indicador absoluto e atendendo às características das cidades
brasileiras, entende-se por não haver valores atípicos neste indicador, mesmo considerando o alto
desvio padrão.
Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte
dos municípios variando com população urbana entre 5.993 e 6.516. A média dos municípios
brasileiros é de 28.917 tendo um desvio padrão de 201.551. Com 95% de confiança nos intervalos
apurados, podemos afirmar que a média encontra-se entre os valores 23.621 e 34.214.
• Variável IDHM: Índice de Desenvolvimento Humano Municipal. Média geométrica dos
índices das dimensões Renda, Educação e Longevidade, com pesos iguais.
26
0,840,770,700,630,560,490,42
Median
Mean
0,6700,6680,6660,6640,6620,6600,658
1st Q uartile 0,59900
Median 0,66500
3rd Q uartile 0,71800
Maximum 0,86200
0,65727 0,66105
0,66200 0,66900
0,07068 0,07336
A -Squared 40,51
P-V alue < 0,005
Mean 0,65916
StDev 0,07200
V ariance 0,00518
Skewness -0,155605
Kurtosis -0,844490
N 5565
Minimum 0,41800
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM
Gráfico 16: Variável IDHM
Fonte: Minitab 16
Forma: O histograma nos apresenta uma distribuição concentrada na faixa entre os índices
0,5990 e 0,7180. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da
mediana confirma o posicionamento.
Valores Atípicos: Não há valores atípicos considerados neste indicador
Centro e Dispersão: A mediana nos indica que há uma distribuição dos municípios
proporcional entre os lados, sendo que o seu valor para IDHM é de 0,6650. O IDHM médio dos
municípios é de 0,6591, tendo um desvio-padrão de 0,0720.. Com 95% de confiança, podemos
afirmar que a média encontra-se entre os índices de 0,6572 e 0,6610.
Destacam-se os municípios que estão nos dois extremos desta análise:
Extremo inferior: Melgaço (PA) com 0,418 e Fernando Falcão (MA) com 0,443
Extremo superior: Águas de São Pedro (SP) com 0,854 e São Caetano do Sul (SP) com 0,862
• Variável IDHM_L: Índice da dimensão Longevidade, é um dos 3 índices que compõem o
IDHM. É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor
observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os
valores mínimos e máximos são 25 e 85 anos, respectivamente.
27
0,870,840,810,780,750,720,69
Median
Mean
0,8100,8080,8060,8040,8020,800
1st Q uartile 0,76900
Median 0,80800
3rd Q uartile 0,83600
Maximum 0,89400
0,80039 0,80274
0,80600 0,80900
0,04387 0,04553
A -Squared 35,06
P-V alue < 0,005
Mean 0,80156
StDev 0,04468
V ariance 0,00200
Skewness -0,409358
Kurtosis -0,486243
N 5565
Minimum 0,67200
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_L
Gráfico 17: Variável IDHM_L
Fonte: Minitab 16
Forma: Por serem indicadores que englobam várias dimensões, o IDHM e os outros três
indicadores que o compõem, neste caso o IDHM_L têm uma análise muito similar. O histograma nos
apresenta uma distribuição concentrada na faixa entre os índices 0,7690 e 0,8360. O Box-Plot
demonstra a concentração na faixa acima citada, o posicionamento da mediana confirma o
posicionamento.
Valores Atípicos: Não há valores atípicos considerados neste indicador
Centro e Dispersão: A mediana nos indica que há uma distribuição dos municípios
proporcional entre os lados, sendo que o seu valor para IDHM_L é de 0,8080. O IDHM_L médio dos
municípios é de 0,8015, tendo um desvio-padrão de 0,0446. Com 95% de confiança, podemos afirmar
que a média encontra-se entre os índices de 0,8003 e 0,8017.
Destacam-se os municípios que estão nos dois extremos desta análise:
Extremo inferior: Cacimbas (PB) e Roteiro (AL), ambos com 0,672
Extremo superior: Balneário Camboriú, Blumenau, Brusque e Rio do Sul, todas de SC e com índice
de 0,894.
• Variável IDHM_R: Índice da dimensão Renda, é um dos 3 índices que compõem o IDHM. É
obtido a partir do indicador Renda per capita, através da fórmula: [ln (valor observado do
indicador) - ln (valor mínimo)] / [ln (valor máximo) - ln (valor mínimo)], onde os valores
mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços de agosto de 2010).
28
0,840,770,700,630,560,490,42
Median
Mean
0,6560,6520,6480,6440,640
1st Q uartile 0,57200
Median 0,65400
3rd Q uartile 0,70700
Maximum 0,89100
0,64075 0,64499
0,65000 0,65700
0,07919 0,08219
A -Squared 55,08
P-V alue < 0,005
Mean 0,64287
StDev 0,08066
V ariance 0,00651
Skewness -0,101024
Kurtosis -0,873212
N 5565
Minimum 0,40000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R
Gráfico 18: Variável IDHM_R
Fonte: Minitab 16
Forma: Por serem indicadores que englobam várias dimensões, o IDHM e os outros três
indicadores que o compõem, neste caso o IDHM_R têm uma análise muito similar. O histograma nos
apresenta uma distribuição concentrada na faixa entre os índices 0,5720 e 0,7070. O Box-Plot
demonstra a concentração na faixa acima citada, o posicionamento da mediana confirma o
posicionamento.
Valores Atípicos: Não há valores atípicos considerados neste indicador
Centro e Dispersão: A mediana nos indica que há uma distribuição dos municípios
proporcional entre os lados, sendo que o seu valor para IDHM_R é de 0,0,6540. O IDHM_R médio
dos municípios é de 0,6428, tendo um desvio-padrão de 0,0806. Com 95% de confiança, podemos
afirmar que a média encontra-se entre os índices de 0,6407 e 0,6449.
Destacam-se os municípios que estão nos dois extremos desta análise:
Extremo inferior: Marajá do Sena com 0,400 e Fernando Falcão e Belágua com 0,417, todas do MA
Extremo superior: Niterói (RJ) com 0,887 e São Caetano do Sul (SP) com 0,891.
• Variável IDHM_E: Índice sintético da dimensão Educação, é um dos 3 índices que compõem o
IDHM. É obtido através da média geométrica do subíndice de frequência escolar, com peso de
2/3, e do subíndice de escolaridade, com peso de 1/3.
29
0,810,720,630,540,450,360,27
Median
Mean
0,5630,5620,5610,5600,5590,5580,557
1st Q uartile 0,49000
Median 0,56000
3rd Q uartile 0,63100
Maximum 0,82500
0,55664 0,56155
0,55700 0,56300
0,09163 0,09509
A -Squared 9,32
P-V alue < 0,005
Mean 0,55909
StDev 0,09333
V ariance 0,00871
Skewness -0,098463
Kurtosis -0,515837
N 5565
Minimum 0,20700
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_E
Gráfico 19: Variável IDHM_E
Fonte: Minitab 16
Forma: Por serem indicadores que englobam várias dimensões, o IDHM e os outros três
indicadores que o compõem, neste caso o IDHM_E, têm uma análise muito similar. O histograma
nos apresenta uma distribuição concentrada na faixa entre os índices 0,4900 e 0,6410. O Box-Plot
demonstra a concentração na faixa acima citada, o posicionamento da mediana confirma o
posicionamento.
Valores Atípicos: Não há valores atípicos considerados neste indicador
Centro e Dispersão: A mediana nos indica que há uma distribuição dos municípios
proporcional entre os lados, sendo que o seu valor para IDHM_E é de 0,5600. O IDHM_E médio dos
municípios é de 0,5590, tendo um desvio-padrão de 0,0933.. Com 95% de confiança, podemos
afirmar que a média encontra-se entre os índices de 0,5566 e 0,5615.
Destacam-se os municípios que estão nos dois extremos desta análise:
Extremo inferior: Melgaço (PA) com 0,0,207 e Chaves (PA) com 0,234
Extremo superior: São Caetano do Sul (SP) com 0,811 e Águas de São Pedro (SP) com 0,825.
• Variável T_MED18A20: Razão entre a população de 18 a 20 anos de idade que já concluiu o
ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou
supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20
anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído
esse nível de ensino.
30
84726048362412
Median
Mean
36,536,035,535,034,5
1st Q uartile 24,990
Median 35,140
3rd Q uartile 46,325
Maximum 88,030
35,708 36,474
34,609 35,621
14,309 14,851
A -Squared 13,93
P-V alue < 0,005
Mean 36,091
StDev 14,575
V ariance 212,425
Skewness 0,324003
Kurtosis -0,311149
N 5565
Minimum 1,910
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_MED18A20
Gráfico 20: Variável Ensino Médio
Fonte: Minitab 16
Forma: Há uma distribuição concentrada na faixa entre 24,990 e 46,325. O box-plot demonstra
a concentração dessa faixa e o posicionamento da mediana praticamente confirma essa tendência.
Valores atípicos: Esse tipo de concentração sinaliza que há valores atípicos que podem ser
melhor estudados. Pode-se citar com exemplo, pois estão muito distantes da média e da mediana, os
seguintes municípios: Chaves (PA) com 1,91; Porto de Pedras (AL) com 3,08 e Jacareacanga (PA)
com 3,37
Centro e Dispersão: A mediana nos indica que há leve concentração, com um pouco mais da
metade dos municípios variando entre os índices 34,609 e 35,621. A média apurada foi de 36,091
tendo um desvio padrão de 14,575, aparentemente não expressivo.Com 95% de confiança, podemos
afirmar que a média encontra-se entre os valores de 35,708 e 36,474.
Considerações: Há uma distribuição bastante diferente se compararmos o IDHM_E, que é o
indicador geral da educação, com os que expressam os indicadores especifico do Ensino Médio, o
que sinaliza uma possível adoção de políticas não uniformes entre este ensino e os demais que
compõem o IDHM_E. Ambos apresentam intervalos de confiança de 95%, mas com distribuição
diferentes das médias e medianas
2.1.4 Comparações da Análise Descritiva
Apresentamos, a seguir, quadro comparando histograma, Box-Plot, Curva de densidade,
Média, Desvio Padrão, Mediana e P-value do teste de normalidade Anderson-Darling, das variáveis
analisadas.
31
VARIÁVEL GRÁFICO MÉDIA DESVIO PADRÃO MEDIANA P-VALUE
ESPVIDA
73,089 2,681 73,47 0,005
T_ENV
8,3973 2,423 8,38 0,005
T_FUND15A17
54,754 15,505 55,42 0,005
T_MED18a20
36,091 14,575 35,14 0,005
RDPC
493,61 243,27 467,65 0,005
RIND
32,036 9,603 32,51 0,005
32
TRABCC
30,25 18,053 26,76 0,005
TRABSC
25,224 9,853 24,75 0,005
T_AGUA
85,598 14,721 90,28 0,005
T_LUZ
97,19 6,024 99,39 0,005
AGUA_ESGOTO
9,2017 12,8392 3,26 0,005
T_SLUZ
2,8104 6,0244 0,61 0,005
PESORUR
5.360 6.642 3.233 0,005
33
PESOURB
28.917 201.551 6.263 0,005
IDHM
0,6591 0,072 0,665 0,005
IDHM_E
0,559 0,0933 0,56 0,005
IDHM_L
0,8015 0,0446 0,808 0,005
IDHM_R
0,6428 0,0806 0,654 0,005
Quadro 02 – Análise comparativa das variáveis
Fonte: Minitab 16, complementado pelo autor
CAPÍTULO 3.RELAÇÃO ENTRE AS VARIÁVEIS
3.1 Correlação dos Valores
Um coeficiente de correlação mede o grau pelo qual duas variáveis tendem a mudar juntas. O
coeficiente descreve a força e a direção da relação.
A correlação de Pearson avalia a relação linear entre duas variáveis contínuas. Uma relação é
linear quando a mudança em uma variável é associada a uma mudança proporcional na outra variável.
Os dados a seguir representam a correlação entre as 18 variáveis selecionadas para este
estudo e abordadas nas análises das variáveis quantitativas
Variáveis e correlações:
Correlations: ESPVIDA; T_ENV; T_FUND15A17; T_MED18A20; RDPC; RIND; TRABCC; ...
34
ESPVIDA T_ENV T_FUND15A17 T_MED18A20 RDPC
T_ENV 0,223
0,000
T_FUND15A17 0,666 0,365
0,000 0,000
T_MED18A20 0,660 0,388 0,833
0,000 0,000 0,000
RDPC 0,784 0,204 0,671 0,717
0,000 0,000 0,000 0,000
RIND -0,000 0,104 0,034 0,076 0,040
0,981 0,000 0,010 0,000 0,003
TRABCC 0,601 -0,070 0,495 0,524 0,664
0,000 0,000 0,000 0,000 0,000
TRABSC -0,519 -0,056 -0,449 -0,473 -0,615
0,000 0,000 0,000 0,000 0,000
T_AGUA 0,549 0,088 0,528 0,515 0,564
0,000 0,000 0,000 0,000 0,000
T_LUZ 0,341 0,302 0,438 0,436 0,386
0,000 0,000 0,000 0,000 0,000
AGUA_ESGOTO -0,604 -0,340 -0,593 -0,582 -0,587
0,000 0,000 0,000 0,000 0,000
T_SLUZ -0,341 -0,302 -0,438 -0,436 -0,386
0,000 0,000 0,000 0,000 0,000
pesoRUR -0,245 -0,284 -0,293 -0,298 -0,216
0,000 0,000 0,000 0,000 0,000
pesourb 0,091 -0,063 0,050 0,075 0,217
0,000 0,000 0,000 0,000 0,000
IDHM 0,852 0,238 0,832 0,851 0,908
0,000 0,000 0,000 0,000 0,000
IDHM_E 0,704 0,212 0,855 0,877 0,791
0,000 0,000 0,000 0,000 0,000
IDHM_L 1,000 0,223 0,666 0,660 0,784
0,000 0,000 0,000 0,000 0,000
IDHM_R 0,834 0,229 0,721 0,748 0,962
0,000 0,000 0,000 0,000 0,000
RIND TRABCC TRABSC T_AGUA T_LUZ
TRABCC 0,046
0,001
TRABSC 0,057 -0,555
0,000 0,000
T_AGUA 0,066 0,549 -0,295
0,000 0,000 0,000
T_LUZ 0,168 0,373 -0,197 0,408
0,000 0,000 0,000 0,000
AGUA_ESGOTO -0,095 -0,523 0,303 -0,640 -0,423
0,000 0,000 0,000 0,000 0,000
T_SLUZ -0,168 -0,373 0,197 -0,408 -1,000
0,000 0,000 0,000 0,000 *
35
pesoRUR -0,044 -0,197 0,099 -0,256 -0,193
0,001 0,000 0,000 0,000 0,000
pesourb 0,046 0,142 -0,090 0,083 0,046
0,001 0,000 0,000 0,000 0,001
IDHM 0,072 0,727 -0,571 0,659 0,490
0,000 0,000 0,000 0,000 0,000
IDHM_E 0,098 0,692 -0,505 0,615 0,491
0,000 0,000 0,000 0,000 0,000
IDHM_L -0,000 0,601 -0,519 0,549 0,341
0,977 0,000 0,000 0,000 0,000
IDHM_R 0,051 0,700 -0,587 0,641 0,448
0,000 0,000 0,000 0,000 0,000
AGUA_ESGOTO T_SLUZ pesoRUR pesourb IDHM
T_SLUZ 0,423
0,000
pesoRUR 0,379 0,193
0,000 0,000
pesourb -0,053 -0,046 0,220
0,000 0,001 0,000
IDHM -0,668 -0,490 -0,272 0,149
0,000 0,000 0,000 0,000
IDHM_E -0,590 -0,491 -0,249 0,147 0,951
0,000 0,000 0,000 0,000 0,000
IDHM_L -0,604 -0,341 -0,245 0,091 0,852
0,000 0,000 0,000 0,000 0,000
IDHM_R -0,671 -0,448 -0,260 0,157 0,948
0,000 0,000 0,000 0,000 0,000
IDHM_E IDHM_L
IDHM_L 0,704
0,000
IDHM_R 0,820 0,834
0,000 0,000
Cell Contents: Pearson correlation
P-Value
Como base na análise das correlações obtidas, nota-se que as variáveis elencadas na tabela a
seguir apresentam forte relação, mas que necessariamente não significa que podem apresentar
causalidade, ou seja, sentido direto entre elas.
Percebe-se que quase todas as correlações têm como pelo menos um indicador o IDHM ou os
outros três indicadores que o compõem: IDHM_L; IDHM_R e IDHM_E.
Premissas:
1) Foram invalidadas as correlações que apresentaram indicadores (denominadores) diferentes
de 0,000
36
2) Correlações utilizadas considerando variáveis maior ou igual a 0,800, positiva ou negativa.
Variável Variável Grau de Correlação
T_MED18A20 T_FUND15A17 0,833
IDHM ESPVIDA 0,852
IDHM T_FUND15A17 0,832
IDHM T_MED18A20 0,851
IDHM RDPC 0,908
IDHM_E T_FUND15A17 0,855
IDHM_E T_MED18A20 0,877
IDHM_L ESPVIDA 1,000
IDHM_R ESPVIDA 0,834
IDHM_R RDPC 0,962
IDHM_E IDHM 0,951
IDHM_L IDHM 0,852
IDHM_R IDHM 0,948
IDHM_R IDHM_E 0,820
IDHM_R IDHM_L 0,834 Quadro 03: Correlações das variáveis validadas
Fonte: elaborador pelo autor
Para efeito do foco deste estudo, têm-se como principais correlações, conforme segue, sendo
a principal delas entre ensino médio e IDHM_E.
Variável Variável Grau de Correlação
T_MED18A20 T_FUND15A17 0,833
IDHM T_MED18A20 0,851
IDHM_E T_MED18A20 0,877
Quadro 04: Correlações das variáveis validadas com Ensino Médio
3.2 Gráfico das Dispersões
Nos gráficos a seguir serão demonstradas as relações entre as variáveis destacadas no quadro
anterior e a composição das dispersões.
2000150010005000
80
70
60
50
40
30
20
10
0
X-Data
Y-D
ata
IDHM_R * RDPC
IDHM_E * IDHM
IDHM_L * IDHM
IDHM_R * IDHM
IDHM_R * IDHM_E
IDHM_R * IDHM_L
ESPVIDA * T_FUND15A17
IDHM * ESPVIDA
IDHM * T_FUND15A17
IDHM * T_MED18A20
IDHM * RDPC
IDHM_E * T_FUND15A17
IDHM_E * T_MED18A20
IDHM_L * ESPVIDA
IDHM_R * ESPVIDA
Variable
Scatterplot of ESPVIDA vs T_FUND15A17; IDHM vs ESPVIDA; IDHM vs T_FUND
Gráfico 21: Scatterplot das variáveis correlacionadas
Fonte: Minitab 16
37
200010000 200010000
80
40
0
80
40
0
80
40
0
200010000
80
40
0
200010000
ESPV IDA *T_FUND15A 17 IDHM*ESPV IDA IDHM*T_FUND15A 17 IDHM*T_MED18A 20
IDHM*RDPC IDHM_E*T_FUND15A 17 IDHM_E*T_MED18A 20 IDHM_L*ESPV IDA
IDHM_R*ESPV IDA IDHM_R*RDPC IDHM_E*IDHM IDHM_L*IDHM
IDHM_R*IDHM IDHM_R*IDHM_E IDHM_R*IDHM_L
Scatterplot of ESPVIDA vs T_FUND15A17; IDHM vs ESPVIDA; IDHM vs T_FUND
Gráfico 22: Scatterplot das variáveis correlacionadas agrupadas
Fonte: Minitab 16
100500
100
50
0
757065
1,00
0,75
0,50
100500
1,00
0,75
0,50
100500
1,00
0,75
0,50
200010000
1,00
0,75
0,50
100500
0,9
0,6
0,3
100500
0,9
0,6
0,3
757065
0,9
0,8
0,7
757065
1,00
0,75
0,50
200010000
1,00
0,75
0,50
0,80,60,4
0,9
0,6
0,3
0,80,60,4
0,9
0,8
0,7
0,80,60,4
1,00
0,75
0,50
0,90,60,3
1,00
0,75
0,50
0,90,80,7
1,00
0,75
0,50
T_MED18A20*T_FUND15A17 IDHM*ESPVIDA IDHM*T_FUND15A17 IDHM*T_MED18A20
IDHM*RDPC IDHM_E*T_FUND15A17 IDHM_E*T_MED18A20 IDHM_L*ESPVIDA
IDHM_R*ESPVIDA IDHM_R*RDPC IDHM_E*IDHM IDHM_L*IDHM
IDHM_R*IDHM IDHM_R*IDHM_E IDHM_R*IDHM_L
Scatterplot of T_MED18A20 vs T_FUND15A17; IDHM vs ESPVIDA; IDHM vs T_F
Gráfico 23: Scatterplot simples, utilizando linha de regressão
Fonte Minitab 16
As análises dos gráficos de dispersão devem ser feitas considerando os padrões gerais os
desvios relativos ao padrão.
Os padrões são definidos quanto à direção, intensidade e forma.
38
a) Quanto à direção: Todas as correlações analisados possuem associações positivas, ou seja,
a alteração ou crescimento e uma variável implica crescimento ou alteração da variável
correlacionada.
b) Quanto à intensidade: Pela análise dos dados apresentados nos gráficos acima,
Configura-se uma relação linear, com intensidade mais moderada (ou menor) nas
correlações IDHM_L x ESPVIDA; IDHM_R x RDPC, IDHM x RDPC
c) Quanto à forma: Os gráficos apresentam conglomerados que sugerem relações lineares,
ressaltando à análise no item anterior.
3.3 Dendograma
É um tipo específico de diagrama ou representação icônica que organiza determinados fatores
e variáveis. Sua representação apresenta-se na forma de um diagrama de similaridade.
A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na
intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas.
Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.
Quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre
elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional
da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo.
Seguem os dendogramas das variáveis analisadas:
Cluster Analysis of Variables: ESPVIDA; T_ENV; T_FUND15A17; T_MED18A20; ... Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 17 99,9990 0,000021 1 17 1 2
2 16 98,0832 0,038336 5 18 5 2
3 15 97,5438 0,049125 15 16 15 2
4 14 97,4161 0,051679 5 15 5 4
5 13 93,8680 0,122641 4 5 4 5
6 12 92,7329 0,145342 3 4 3 6
7 11 92,6074 0,147851 1 3 1 8
8 10 86,3509 0,272982 1 7 1 9
9 9 82,9637 0,340727 1 9 1 10
10 8 74,5288 0,509423 1 10 1 11
11 7 71,1341 0,577319 11 12 11 2
12 6 69,4151 0,611698 1 2 1 12
13 5 68,9679 0,620642 11 13 11 3
14 4 65,1619 0,696762 8 11 8 4
15 3 60,9778 0,780444 8 14 8 5
16 2 60,8659 0,782682 1 8 1 17
17 1 58,4009 0,831982 1 6 1 18
Final Partition
Cluster 1
ESPVIDA T_FUND15A17 T_MED18A20 RDPC TRABCC T_AGUA T_LUZ IDHM IDHM_E
39
IDHM_L IDHM_R
Cluster 2
T_ENV
Cluster 3
RIND
Cluster 4
TRABSC
Cluster 5
AGUA_ESGOTO T_SLUZ
Cluster 6
pesoRUR
Cluster 7
pesourb
Dendograma 01, com a utilização de 01 cluster
RIND
peso
urb
pesoRUR
T_S
LUZ
AGU
A_E
SGOTO
TRA
BSC
T_E
NV
T_LU
Z
T_A
GUA
TRA
BCC
IDHM
_E
IDHM
IDHM
_R
RDPC
T_M
ED18
A20
T_F
UND15
A17
IDHM_L
ESPV
IDA
58,40
72,27
86,13
100,00
Variables
Sim
ila
rit
y
DendrogramSingle Linkage; Correlation Coefficient Distance
Gráfico 24: Dendograma das variáveis com 01 cluster
Fonte: Minitab 16
Dendograma 02, com a utilização de 4 clusters
RIN
D
peso
urb
peso
RUR
T_S
LUZ
AGU
A_E
SGOTO
TRA
BSC
T_E
NV
T_LU
Z
T_A
GUA
TRA
BCC
IDHM
_E
IDHM
IDHM
_R
RDPC
T_M
ED18
A20
T_F
UND15
A17
IDHM_L
ESPV
IDA
58,40
72,27
86,13
100,00
Variables
Sim
ila
rit
y
DendrogramSingle Linkage; Correlation Coefficient Distance
Gráfico 25: Dendograma das variáveis com 04 clusteres
Fonte: Minitab 16
40
Dendograma 03, com a utilização de 7 clusters
RIND
peso
urb
peso
RUR
T_SL
UZ
AGUA
_ESG
OTO
TRAB
SC
T_EN
V
T_LU
Z
T_AG
UA
TRAB
CC
IDHM
_E
IDHM
IDHM
_R
RDPC
T_MED
18A2
0
T_FU
ND15
A17
IDHM
_L
ESPV
IDA
58,40
72,27
86,13
100,00
Variables
Sim
ila
rit
y
DendrogramSingle Linkage; Correlation Coefficient Distance
Gráfico 26: Dendograma das variáveis com 07 clusteres
Fonte: Minitab 16
Considerações: Quando analisamos a distribuição com 01 cluster, observa-se que as
variáveis com maior similaridade são as que seguem. As demais variáveis se relacionam entre si,
confirmando as análises anteriores.
• ESPVIDA e IDHM_L
• RDPC e IDHM_R
• IDHM e IDHM_E
• ÁGUA_ESGOTO e T_LUZ
Quando analisamos a distribuição com 04 clusters, observa-se que as variáveis com maior
similaridade se mantém como na distribuição anterior. As demais variáveis se relacionam entre si,
confirmando as análises anteriores.
Quando analisamos a distribuição com 07 clusters, observa-se que novamente as variáveis
com maior similaridade se mantém. As demais variáveis se relacionam entre si, confirmando as
análises anteriores.
CAPÍTULO 4. ANÁLISES DE TENDÊNCIAS
O presente trabalho tem por objetivo efetuar uma análise de tendência e projeções das
variáveis temporais e quantitativas: Pessoas de 5 anos ou mais de idade alfabetizadas, por grupos de
Idade; Número médio aluno por turma no ensino fundamental, na rede pública e Número médio aluno
por turma no ensino fundamental, na rede privada.
Todos os dados utilizados são referentes ao Brasil. Estas variáveis integram à Plataforma
utilizada: IBGE – SÉRIES HISTÓRICAS E ESTATÍSTICAS.
A análise de cada variável está dividida em três partes. A primeira refere-se a análise do
comportamento histórico através de gráficos. A segunda trata da análise de tendências, buscando
41
encontrar a função que melhor se adapte à cada uma das séries de variáveis analisadas. A terceira
busca a elaboração e análise de projeções através de extrapolações estatísticas. O software estatístico
utilizado é o MINITAB.
1ª Base de dados:
Temas e subtemas » crianças, adolescentes e jovens » educação » educação » alfabetização e
instrução »
Pessoas de 5 anos ou mais de idade alfabetizadas, por grupos de Idade
Tabela 01: Pessoas alfabetizadas com 05 anos ou mais
Pessoas de 5 anos ou mais de idade
Período Alfabetizadas
2001 85,39
2002 85,85
2003 86,31
2004 86,31
2005 86,72
2006 87,56
2007 88,12
2008 88,49
2009 88,83
2011 90,17
Fonte: IBGE.gov.br
http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-anos-mais-
idade-alfabetizadas, acesso em 31/03/2017
• LINEAR
Trend Analysis for Alfabetizadas
Data Alfabetizadas
Length 10
NMissing 0
Fitted Trend Equation
Yt = 84,673 + 0,491*t
Accuracy Measures
MAPE 0,268347
MAD 0,235091
MSD 0,081848
42
Forecasts
Period Forecast
2011 90,0767
2012 90,5679
2013 91,0591
2014 91,5503
2015 92,0415
2016 92,5327
2017 93,0239
2018 93,5152
2019 94,0064
2020 94,4976
2019201720152013201120092007200520032001
95,0
92,5
90,0
87,5
85,0
Index
Alf
ab
eti
za
da
s MAPE 0,268347
MAD 0,235091
MSD 0,081848
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for AlfabetizadasLinear Trend Model
Yt = 84,673 + 0,491*t
Gráfico 27: Trend Analysis for Alfabetizadas - linear
Fonte: Minitab 16
• QUADRATIC
Trend Analysis for Alfabetizadas
Data Alfabetizadas
Length 10
NMissing 0
Fitted Trend Equation
Yt = 85,299 + 0,178*t + 0,0284*t**2
Accuracy Measures
MAPE 0,202877
MAD 0,177879
MSD 0,039121
Forecasts
Period Forecast
2011 90,703
2012 91,535
2013 92,425
2014 93,371
2015 94,374
2016 95,434
2017 96,551
43
2018 97,725
2019 98,956
2020 100,244
2019201720152013201120092007200520032001
100,0
97,5
95,0
92,5
90,0
87,5
85,0
Index
Alf
ab
eti
za
da
s MAPE 0,202877
MAD 0,177879
MSD 0,039121
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for AlfabetizadasQuadratic Trend Model
Yt = 85,299 + 0,178*t + 0,0284*t**2
Gráfico 28: Trend Analysis for Alfabetizadas - Quadratic
Fonte: Minitab 16
• EXPONENTIAL
Trend Analysis for Alfabetizadas
Data Alfabetizadas
Length 10
NMissing 0
Fitted Trend Equation
Yt = 84,7086 * (1,00563**t)
Accuracy Measures
MAPE 0,260918
MAD 0,228645
MSD 0,077821
Forecasts
Period Forecast
2011 90,1009
2012 90,6078
2013 91,1176
2014 91,6302
2015 92,1457
2016 92,6642
2017 93,1855
2018 93,7098
2019 94,2370
2020 94,7671
44
2019201720152013201120092007200520032001
95,0
92,5
90,0
87,5
85,0
Index
Alf
ab
eti
za
da
s MAPE 0,260918
MAD 0,228645
MSD 0,077821
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for AlfabetizadasGrowth Curve Model
Yt = 84,7086 * (1,00563**t)
Gráfico 29: Trend Analysis for Alfabetizadas - Exponential
Fonte: Minitab 16
• S-CURVE
Trend Analysis for Alfabetizadas
Data Alfabetizadas
Length 10
NMissing 0
Fitted Trend Equation
Yt = (10**3) / (12,2919 - 0,545654*(1,07812**t))
Accuracy Measures
MAPE 0,199230
MAD 0,174960
MSD 0,041800
Forecasts
Period Forecast
2011 90,548
2012 91,355
2013 92,241
2014 93,215
2015 94,289
2016 95,475
2017 96,787
2018 98,243
2019 99,862
2020 101,669
45
2019201720152013201120092007200520032001
102,5
100,0
97,5
95,0
92,5
90,0
87,5
85,0
Index
Alf
ab
eti
za
da
s Intercept 77,8964
Asymptote 81,3544
Asym. Rate 1,0781
Curve Parameters
MAPE 0,199230
MAD 0,174960
MSD 0,041800
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for AlfabetizadasS-Curve Trend Model
Yt = (10**3) / (12,2919 - 0,545654*(1,07812**t))
Gráfico 30: Trend Analysis for Alfabetizadas – S-Curve
Fonte: Minitab 16
Pessoas de 5 anos ou mais de idade alfabetizadas, por grupos de Idade
Indicador LINEAR QUADRATIC EXPONENTIAL S-CURVE
MAPE 0,268347 0,202877 0,260918 0,199230
MAD 0,235091 0,177879 0,228645 0,171960
MSD 0,081848 0,039121 0,077821 0,041800 Quadro 05: Comparativo pessoas alfabetizadas
Fonte: elaborado pelo autor
4.1. Entendendo o Conceito dos Indicadores
Análise:
Erro percentual absoluto médio (MAPE)
Expressa precisão como porcentagem do erro. Como esse número é uma porcentagem, ele
pode ser mais fácil de compreender do que outras estatísticas.
Desvio absoluto médio (MAD)
Expressa precisão nas mesmas unidades dos dados, o que ajuda a conceituar a magnitude do
erro.
Desvio quadrado médio (MSD)
Uma medida comumente usada da exatidão dos valores de séries temporais ajustados.
4.2. Entendendo os Conceitos dos Gráficos
Análise:
Linear: Análise de tendências por padrão.
46
Quadratic: O modelo de tendência quadrática explicar a curvatura simples dos dados
Exponential: O modelo exponencial de tendência de crescimento explica o crescimento exponencial
ou decadência.
S-curve: O modelo de tendência da curva S se ajusta ao modelo de tendência logística Pearl-Reed.
Ao analisarmos os índices apresentados no MAPE, MAD e MSD, sugere-se, para esta base
de dados, a aplicação da matriz S-CURVE, pois, por se tratar de indicadores relacionados a erros, os
resultados apresentados nessa matriz são menores quando comparados com as demais.
2ª Base de dados:
Temas e Subtemas » educação » qualidade da oferta de ensino » Número médio aluno por
turma no ensino fundamental, na rede pública.
Tabela 02: Média por aluno no fundamental rede pública
Número médio aluno por turma
Período Rede publica de ensino
1999 34,3
2000 33,7
2001 29,2
2002 28,9
2003 28,6
2004 28,2
2005 27,9
2006 27,4
Fonte: IBGE.gov.br
http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-medio-aluno-turma-ensino-fundamental, acesso em 31/03/2017
• LINEAR
Trend Analysis for Rede publica de ensino
Data Rede publica de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = 34,09 - 0,959524*t
Accuracy Measures
MAPE 3,48682
MAD 1,05000
47
MSD 1,41577
Forecasts
Period Forecast
2007 25,4571
2008 24,4976
2009 23,5381
2010 22,5786
2011 21,6190
2012 20,6595
2013 19,7000
2014 18,7405
2015 17,7810
2016 16,8214
201520132011200920072005200320011999
35
30
25
20
15
Index
Re
de
pu
blic
a d
e e
nsin
o
MAPE 3,48682
MAD 1,05000
MSD 1,41577
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede publica de ensinoLinear Trend Model
Yt = 34,09 - 0,959524*t
Gráfico 31: Trend analysis media aluno fundamental rede pública - Linear
Fonte: Minitab 16
• QUADRATIC
Trend Analysis for Rede publica de ensino
Data Rede publica de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = 37,11 - 2,770*t + 0,2012*t**2
Accuracy Measures
MAPE 2,01593
MAD 0,60655
MSD 0,56574
Forecasts
Period Forecast
2007 28,4750
2008 29,5274
2009 30,9821
2010 32,8393
2011 35,0988
2012 37,7607
48
2013 40,8250
2014 44,2917
2015 48,1607
2016 52,4321
201520132011200920072005200320011999
55
50
45
40
35
30
Index
Re
de
pu
blic
a d
e e
nsin
o
MAPE 2,01593
MAD 0,60655
MSD 0,56574
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede publica de ensinoQuadratic Trend Model
Yt = 37,11 - 2,770*t + 0,2012*t**2
Gráfico 32: Trend analysis media aluno fundamental rede pública – Quadratic
Fonte: Minitab 16
• EXPONENTIAL
Trend Analysis for Rede publica de ensino
Data Rede publica de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = 34,1682 * (0,96916**t)
Accuracy Measures
MAPE 3,27351
MAD 0,99170
MSD 1,30120
Forecasts
Period Forecast
2007 25,7734
2008 24,9785
2009 24,2081
2010 23,4615
2011 22,7379
2012 22,0366
2013 21,3569
2014 20,6982
2015 20,0598
2016 19,4411
49
201520132011200920072005200320011999
36
34
32
30
28
26
24
22
20
Index
Re
de
pu
blic
a d
e e
nsin
oMAPE 3,27351
MAD 0,99170
MSD 1,30120
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede publica de ensinoGrowth Curve Model
Yt = 34,1682 * (0,96916**t)
Gráfico 33: Trend analysis media aluno fundamental rede pública - Exponential
Fonte: Minitab 16
• S-CURVE
Trend Analysis for Rede publica de ensino
Data Rede publica de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = (10**3) / (30,7134 + 2,64557*(1,10115**t))
Accuracy Measures
MAPE 3,29506
MAD 1,11651
MSD 4,82774
Forecasts
Period Forecast
2007 27,0194
2008 26,5623
2009 26,0765
2010 25,5617
2011 25,0179
2012 24,4452
2013 23,8441
2014 23,2156
2015 22,5607
2016 21,8810
50
201520132011200920072005200320011999
36
34
32
30
28
26
24
22
Index
Re
de
pu
blic
a d
e e
nsin
o
Intercept 29,9770
Asymptote 32,5591
Asym. Rate 1,1011
Curve Parameters
MAPE 3,29506
MAD 1,11651
MSD 4,82774
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede publica de ensinoS-Curve Trend Model
Yt = (10**3) / (30,7134 + 2,64557*(1,10115**t))
Gráfico 34: Trend analysis media aluno fundamental rede pública – S-Curve
QUADRO COMPARATIVO
Aluno fundamental rede pública
Número médio aluno por turma – rede pública de ensino
Indicador LINEAR QUADRATIC EXPONENTIAL S-CURVE
MAPE 3,48682 2,01593 3,27351 3,29506
MAD 1,05000 0,60655 0,99170 1,11651
MSD 1,41577 0,56574 1,30120 4,82774 Fonte: Elaborado pelo autor
Análise: Tomando-se como base os conceitos abordados no estudo anterior, e ao analisarmos
os índices apresentados no MAPE, MAD e MSD sugere-se, para esta base de dados, a aplicação da
matriz QUADRATIC, pois, por se tratar de indicadores relacionados a erros, os resultados
apresentados nessa matriz são menores quando comparados com as demais.
3ª Base de dados :
Temas e subtemas » educação » qualidade da oferta de ensino » Número médio aluno por
turma no ensino fundamental, na rede privada
Tabela 03: Média aluno fundamental rede privada
Número médio aluno por turma
Período Rede privada de ensino
1999 23
2000 22,4
2001 21,8
51
2002 21,6
2003 21,5
2004 21,5
2005 21,5
2006 21,3
Fonte: IBGE.gov.br
http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-medio-
aluno-turma-ensino-fundamental, acesso em 31/03/2017
• LINEAR
Trend Analysis for Rede privada de ensino
Data Rede privada de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = 22,757 - 0,207143*t
Accuracy Measures
MAPE 1,02564
MAD 0,22500
MSD 0,06911
Forecasts
Period Forecast
2007 20,8929
2008 20,6857
2009 20,4786
2010 20,2714
2011 20,0643
2012 19,8571
2013 19,6500
2014 19,4429
2015 19,2357
2016 19,0286
201520132011200920072005200320011999
23
22
21
20
19
Index
Re
de
pri
va
da
de
en
sin
o
MAPE 1,02564
MAD 0,22500
MSD 0,06911
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede privada de ensinoLinear Trend Model
Yt = 22,757 - 0,207143*t
Gráfico 35: Trend Analysis média aluno fundamental rede privada - Linear
Fonte: Minitab 16
52
• QUADRATIC
Trend Analysis for Rede privada de ensino
Data Rede privada de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = 23,525 - 0,668*t + 0,0512*t**2
Accuracy Measures
MAPE 0,475940
MAD 0,103274
MSD 0,014077
Forecasts
Period Forecast
2007 21,6607
2008 21,9655
2009 22,3726
2010 22,8821
2011 23,4940
2012 24,2083
2013 25,0250
2014 25,9440
2015 26,9655
2016 28,0893
201520132011200920072005200320011999
29
28
27
26
25
24
23
22
21
Index
Re
de
pri
va
da
de
en
sin
o
MAPE 0,475940
MAD 0,103274
MSD 0,014077
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede privada de ensinoQuadratic Trend Model
Yt = 23,525 - 0,668*t + 0,0512*t**2
Gráfico 36: Trend Analysis média aluno fundamental rede privada - Quadratic
Fonte: Minitab 16
• EXPONENTIAL
Trend Analysis for Rede privada de ensino
Data Rede privada de ensino
Length 8
NMissing 0
Fitted Trend Equation
53
Yt = 22,7601 * (0,99065**t)
Accuracy Measures
MAPE 1,00751
MAD 0,22115
MSD 0,06708
Forecasts
Period Forecast
2007 20,9157
2008 20,7202
2009 20,5265
2010 20,3347
2011 20,1446
2012 19,9564
2013 19,7698
2014 19,5851
2015 19,4020
2016 19,2207
201520132011200920072005200320011999
23
22
21
20
19
Index
Re
de
pri
va
da
de
en
sin
o
MAPE 1,00751
MAD 0,22115
MSD 0,06708
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede privada de ensinoGrowth Curve Model
Yt = 22,7601 * (0,99065**t)
Gráfico 37: Trend Analysis média aluno fundamental rede privada - Exponential
Fonte: Minitab 16
• S-CURVE
Trend Analysis for Rede privada de ensino
Data Rede privada de ensino
Length 8
NMissing 0
Fitted Trend Equation
Yt = (10**2) / (4,69578 - 0,279419*(0,714531**t))
Accuracy Measures
MAPE 0,828911
MAD 0,186571
MSD 0,098062
Forecasts
Period Forecast
2007 21,3574
54
2008 21,3398
2009 21,3272
2010 21,3182
2011 21,3118
2012 21,3072
2013 21,3039
2014 21,3016
2015 21,2999
2016 21,2987
201520132011200920072005200320011999
23,0
22,5
22,0
21,5
Index
Re
de
pri
va
da
de
en
sin
o
Intercept 20,0997
Asymptote 21,2957
Asym. Rate 0,7145
Curve Parameters
MAPE 0,828911
MAD 0,186571
MSD 0,098062
Accuracy Measures
Actual
Fits
Forecasts
Variable
Trend Analysis Plot for Rede privada de ensinoS-Curve Trend Model
Yt = (10**2) / (4,69578 - 0,279419*(0,714531**t))
Gráfico 38: Trend Analysis média aluno fundamental rede privada – S-Curve
Fonte: Minitab 16
Número médio aluno por turma – rede privada de ensino
Indicador LINEAR QUADRATIC EXPONENTIAL S-
CURVE
MAPE 1,02564 0,475940 1,00751 0,828911
MAD 0,22500 0,103274 0,22115 0,186571
MSD 0,06911 0,014077 0,06708 0,098062 Quadro 07: Comparativo média aluno fundamental rede privada
Análise: Tomando-se como base os conceitos abordados nos estudos anteriores, e ao
analisarmos os índices apresentados no MAPE, MAD e MSD sugere-se, para esta base de dados, a
aplicação da matriz QUADRATIC, pois, por se tratar de indicadores relacionados a erros, os
resultados apresentados nessa matriz são menores quando comparados com as demais.
Considerações: O objetivo deste estudo foi mapear alguns indicadores da educação brasileira
e verificar que tipos de matrizes tendem a ser mais adequadas para tal análise. Os resultados apurados
são de uma certa forma, incompatíveis com o que se esperaria da educação em nosso país. A educação
básica compreende três níveis, o infantil, o fundamental e o médio. A tendência é que o ensino médio,
de forma direta, acabe refletindo os problemas que veem das séries iniciais. Buscando um recorte
desse cenário, no caso pontual a formação de professores,têm-se:
55
http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE10&t=docentes-curso-
superior-ensino-medio-rede, acesso em 17/06/2017
Brasil OPCAO 1999 2000 2001 2002 2003 2004 2005 2006
Brasil Privado 89,4 89,1 89,9 90,1 91,3 93,2 96,9 95,9
Brasil Publico 87,6 88,2 88,5 89 89,8 91,7 95,3 95,3 Quadro 08: Professores do ensino médio com formação superior
Fonte: IBGE.gov.br, adaptado pelo autor
Os dados acima referem-se ao percentual de professores com formação superior que lecionam
no ensino médio. Entendendo-se que o ideal (e legal) é 100%, melhoramos bastante nos últimos anos,
mas ainda não atingimos esse percentual. O fato relativamente positivo é que não há discrepância
entre os ensinos público e privado.
CAPÍTULO 5. REGRESSÃO LINEAR
Tem por objetivo efetuar uma análise de regressões multivariadas tomando como base as
variáveis com maior grau de correlação, conforme análise feita na parte 02.
Iniciamos, na primeira parte, com o entendimento dos dados, incluindo a definição dos indivíduos e
das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades
de medida, além da apresentação da tabela de dados. Na segunda parte, analisamos as variáveis quanto
à sua forma de distribuição. Na sequência passamos para a análise da relação entre variáveis,
incluindo gráficos de dispersão e matrizes de correlação, buscando encontrar as equações de regressão
linear. O software estatístico utilizado é o MINITAB.
Resgatando a análise de dados anterior: Para um melhor entendimento deste estudo, buscou-se as
variáveis que entre sim, apresentaram maior grau de correlação, conforme abordado nos estudos
anteriores. Para determinação desse grau de correlação, adotou-se as seguintes premissas:
• Foram invalidadas as correlações que apresentaram indicadores (denominadores) diferentes
de 0,000
• Correlações utilizadas considerando variáveis maior ou igual a 0,800, positiva ou negativa.
Atendidas às condições anteriores, chegou-se nas seguintes correlações:
5.1. Correlações das Variáveis Validades
Variável Variável Grau de Correlação
T_MED18A20 T_FUND15A17 0,833
IDHM ESPVIDA 0,852
IDHM T_FUND15A17 0,832
IDHM T_MED18A20 0,851
IDHM RDPC 0,908
56
IDHM_E T_FUND15A17 0,855
IDHM_E T_MED18A20 0,877
IDHM_L ESPVIDA 1,000
IDHM_R ESPVIDA 0,834
IDHM_R RDPC 0,962
IDHM_E IDHM 0,951
IDHM_L IDHM 0,852
IDHM_R IDHM 0,948
IDHM_R IDHM_E 0,820
IDHM_R IDHM_L 0,834
Devido à abrangência dos indicadores IDHM, IDHM_E, IDHM_R e IDHM_L, com o alto
grau de correlação entre eles e entre as variáveis, adotou-se, então, como premissa para a análise de
regressão, a exclusão desses indicadores, permanecendo, então, as seguintes variáveis:
Código Indicador Abrangência Tipo Medida
ESPVIDA Esperança de vida ao nascer Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.
Variável Quantitativa
Anos
T_FUND15A17 Percentual da população de 15 a 17 anos com fundamental completo
Razão entre a população de 15 a 17 anos de idade que concluiu o ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
T_MED18a20 Percentual da população de 18 a 20 anos de idade com o ensino médio completo
Razão entre a população de 18 a 20 anos de idade que já concluiu o ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.
Variável Quantitativa
Percentual
RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Variável Quantitativa
Absoluto
Quadro 09: Variáveis com grau de correlação sem os indicadores IDHM
Fonte: Elaborador pelo autor
5.2. Variável Dependente
São as Variáveis de interesse em um experimento (aquelas medidas ou observadas). São
também chamadas de variáveis de resposta.
Nesta análise, trabalharemos com a variável ESPVIDA – Expectativa de vida ao nascer, que
nas demonstrações e alimentações no Minitab será denominada RESPONSE
5.3. Variável Independente
São as outras variáveis no experimento que afetam a resposta e podem ser definidas ou
medidas pelo experimentado. São também chamadas variáveis explanatórias. Na alimentação no
Minitab serão denominadas predictors (preditoras)
5.3.1. Utilizando e demonstrando no Minitab
Regression Analysis: ESPVIDA versus T_FUND15A17; T_MED18A20; RDPC The regression equation is
ESPVIDA = 67,4 + 0,0406 T_FUND15A17 + 0,00576 T_MED18A20 + 0,00666 RDPC
Predictor Coef SE Coef T P
57
Constant 67,3735 0,0800 841,66 0,000
T_FUND15A17 0,040551 0,002524 16,07 0,000
T_MED18A20 0,005758 0,002855 2,02 0,044
RDPC 0,0066600 0,0001276 52,20 0,000
S = 1,58447 R-Sq = 65,1% R-Sq(adj) = 65,1%
Analysis of Variance
Source DF SS MS F P
Regression 3 26023,0 8674,3 3455,14 0,000
Residual Error 5561 13961,2 2,5
Total 5564 39984,2
Source DF Seq SS
T_FUND15A17 1 17740,7
T_MED18A20 1 1440,9
RDPC 1 6841,4
Unusual Observations
Obs T_FUND15A17 ESPVIDA Fit SE Fit Residual St Resid
131 28,4 66,6100 69,8765 0,0443 -3,2665 -2,06R
137 26,3 73,9000 69,3692 0,0511 4,5308 2,86R
138 32,6 73,7800 70,1935 0,0465 3,5865 2,26R
.......
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
Esta análise apresenta um grau de acerto (probabilidade estatística) de 65,1%, muito provável
em virtude da correlação que existe entre as varáveis selecionadas, lembrando que a maior associação
foi o indicador IDHM e suas variáveis, não contempladas neste estudo.
• SCATERPLOT
Explora a relação potencial entre um par de variáveis contínuas. Esses padrões podem
revelar uma associação entre as variáveis e ajudar a determinar o próximo passo das suas análises
de dados
Response (ESPVIDA) com as 03 variáveis Predictors
58
1007550250 806040200
85
80
75
70
65
2000150010005000
85
80
75
70
65
T_FUND15A17
ES
PV
IDA
T_MED18A20
RDPC
Scatterplot of ESPVIDA vs T_FUND15A17; T_MED18A20; RDPC
Gráfico 39: Scatterplot com predictor ESPVIDA
Fonte: Minitab 16
A visualização gráfica nos permite ratificar a correlação e significância que a variável RDPC
tem em relação à ESPVIDA. Percebemos que a distribuição das outras duas variáveis apresenta um
grau maior de dispersão.
Podemos observar, por exemplo, que o ponto com maior distribuição nessa variável, é a cidade
de São Caetano do Sul/SP, que tem a maior renda per capita dentre todos os municípios do Brasil, R$
2.043,74 e é o 19º em Expectativa de Vida.
• REGRESSÃO STEPWISE
É uma ferramenta automática usada nos estágios exploratórios da construção de modelos para
identificar um subconjunto útil de preditores. O processo sistematicamente adiciona a variável mais
significante ou remove a variável menos significante durante cada etapa.
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/basics/basics-of-stepwise-
regression/#what-is-stepwise-regression, acesso em 07/04/2017
5.3.2. Resultado das variáveis estudadas Stepwise Regression: ESPVIDA versus T_FUND15A17; T_MED18A20; RDPC Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is ESPVIDA on 3 predictors, with N = 5565
Step 1 2 3
Constant 68,82 67,34 67,37
RDPC 0,00864 0,00676 0,00666
T-Value 94,25 57,39 52,20
P-Value 0,000 0,000 0,000
T_FUND15A17 0,0440 0,0406
T-Value 23,82 16,07
59
P-Value 0,000 0,000
T_MED18A20 0,0058
T-Value 2,02
P-Value 0,044
S 1,66 1,58 1,58
R-Sq 61,49 65,06 65,08
R-Sq(adj) 61,49 65,05 65,06
Mallows Cp 571,8 6,1 4,0
* NOTE * Command canceled.
Percebemos que a variável de maior impacto sobre a response ESPVIDA (expectativa de vida)
é a RDPC (renda per capita média, com representatividade de 61,49%.
5.3.3. Regressão Utilizando a Response com a Predictor de maior Representativa
Regression Analysis: ESPVIDA versus RDPC The regression equation is
ESPVIDA = 68,8 + 0,00864 RDPC
Predictor Coef SE Coef T P
Constant 68,8236 0,0505 1364,18 0,000
RDPC 0,00864126 0,00009168 94,25 0,000
S = 1,66364 R-Sq = 61,5% R-Sq(adj) = 61,5%
Analysis of Variance
Source DF SS MS F P
Regression 1 24588 24588 8883,82 0,000
Residual Error 5563 15397 3
Total 5564 39984
Unusual Observations
Obs RDPC ESPVIDA Fit SE Fit Residual St Resid
107 227 67,2400 70,7886 0,0331 -3,5486 -2,13R
131 194 66,6100 70,4998 0,0354 -3,8898 -2,34R
137 121 73,9000 69,8720 0,0408 4,0280 2,42R
………….
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
O baixo valor do P-value nos mostra que as variáveis são significativas para a regressão.
5.3.4. Dendograma das Variáveis Correlacionadas
É utilizado para ilustrar as informações de uma tabela de amalgamação (o que liga uma ou
mais variáveis) na forma de um diagrama de árvore.
Cluster Analysis of Variables: ESPVIDA; T_FUND15A17; T_MED18A20; RDPC Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
60
Step clusters level level joined cluster cluster
1 3 91,6586 0,166829 2 3 2 2
2 2 89,2088 0,215824 1 4 1 2
3 1 85,8414 0,283172 1 2 1 4
T_MED18A20T_FUND15A17RDPCESPVIDA
85,84
90,56
95,28
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Gráfico 40: Dendograma das variáveis com similaridades
Fonte: Minitab 16
Considerações: Constata-se, a correlação existente a Response (ESPVIDA) e a Preditora com maior
impacto (RDPC).
Em virtude da pequena amostra da base de dados estudada, quando se observou a maior
similaridade entre os IDHM, IDHM_L, IDHM_R e IDHM_E e sendo que por opção, estes foram
retirados da análise de regressão, constatou-se que a correlação com maior impacto está na response
ESPVIDA com a predictor RDPC.
No gráfico, o ponto (cidade) com maior distribuição é a cidade de São Caetano do Sul /SP,
que validada essa correlação, pois é a maior renda per capita dentre todos os municípios do Brasil e
uma das primeiras em expectativa de vida.
Olhando os indicadores do ensino médio neste agrupamento, verificou-se que a similaridade
com a response Expectativa de Vida é pequena (0,0040551) e sua maior correlação é com a variável
Ensino Fundamental, conforme pode-se observar no dendograma anterior, com cerca de 92% de
similiaridade entre ambas, reforçando, neste tipo de análise, com estas variáveis.
CAPÍTULO 6. TESTES DE HIPÓTESES E INTERVALOR DE CONFIANÇA
Tem por objetivo efetuar uma análise de comparação utilizando os testes de hipóteses e
intervalos de confiança. O principal propósito é comparar as varáveis escolhidas na base de dados
original, tendo como principal referência o IDHM_L (Longevidade) e outros 05 variáveis que tem
correlação com esse indicador. Os fatores a serem analisados são as regiões do Brasil. O software
estatístico utilizado é o MINITAB.
6.1. Análise de Dados
61
Buscando um foco direto nos indicadores que interessam a este pesquisador, sobretudo
àqueles que podem ter uma ligação direta com o desenvolvimento da futura tese, foram selecionadas
as seguintes variáveis, que de forma direta ou indireta também podem ter ligação com o foco de
estudo (ensino médio) incluindo-se a variável categórica “REGIÃO”.
6.2. Resgatando as Variáveis
Código Indicador Abrangência Tipo Medida
ESPVIDA Esperança de vida ao nascer Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.
Variável Quantitativa
Anos
T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a população total multiplicado por 100.
Variável Quantitativa
Percentual
RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Variável Quantitativa
Absoluto
AGUA_ESGOTO Percentual de pessoas em domicílios com abastecimento de água e esgotamento sanitário inadequados
Razão entre as pessoas que vivem em domicílios cujo abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios particulares permanentes, multiplicada por 100. São considerados apenas os domicílios particulares permanentes.
Variável Quantitativa
Percentual
T_SLUZ % de pessoas em domicílios sem energia elétrica
Razão entre as pessoas que vivem em domicílios sem energia elétrica e população total residente em domicílios particulares permanentes multiplicado por 100.
Variável Quantitativa
Percentual
IDHM_L Índice de Desenvolvimento Humano Municipal - Dimensão Longevidade
Índice da dimensão Longevidade, é um dos 3 índices que compõem o IDHM. É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os valores mínimo e máximo são 25 e 85 anos, respectivamente.
Variável Quantitativa
Índice
Município Nome do Município Nome do Município Categórica n/a
UF Unidade da Federação (Estado) Unidade da Federação (Estado) Categórica n/a
Região Nome das regiões do Brasil Norte, Nordeste, Centro-Oeste, Sudeste e Sul Categórica n/a
• Variável Dependente
São as Variáveis de interesse em um experimento (aquelas medidas ou observadas). São também
chamadas de variáveis de resposta, ou RESPONSE
A saber:
ESPVIDA, T_ENV, RDPC, AGUA_ESGOTO, T_SLUZ e IDHM_l
• Variável Independente
62
São as outras variáveis no experimento que afetam a resposta e podem ser definidas ou
medidas pelo experimentado. São também chamadas variáveis explanatórias. Na alimentação no
Minitab, para este tipo de análise, são denominadas FACTOR
A saber: NORTE, NORDESTE, CENTRO-OESTE, SUDESTE e SUL
• Variável ESPVIDA - Esperança de vida ao nascer
One-way ANOVA: ESPVIDA versus Região
Source DF SS MS F P
Região 4 24999,62 6249,91 2319,02 0,000
Error 5560 14984,57 2,70
Total 5564 39984,19
S = 1,642 R-Sq = 62,52% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
Centro-Oeste 466 74,340 1,108 (*)
Nordeste 1794 70,255 1,809 *)
Norte 449 71,818 1,724 (*)
Sudeste 1668 74,686 1,604 (*
Sul 1188 75,116 1,570 (*
--+---------+---------+---------+-------
70,5 72,0 73,5 75,0
Pooled StDev = 1,642
SulSudesteNorteNordesteCentro-Oeste
80,0
77,5
75,0
72,5
70,0
67,5
65,0
Região
ES
PV
IDA
Boxplot of ESPVIDA
Gráfico 41: Boxplot da variável ESPVIDA
Fonte: Minitab 16
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE, n=1794
Q1 74,0225 69,05
Mediana 75,15 70,445
Q3 76,1675 71,49
Média 75,1156 70,2549
63
Percebe-se que na leitura por região, os melhores indicadores estão na região SUL e os mais
críticos na região NORDESTE e, na análise individual dos municípios, e nesta região que estão os
dois com a menor taxa de perspectiva de envelhecimento ao nascer, a saber: Cacimbas (Paraíba) e
Roteiro (Alagoas) com taxa de 65,30. Na região SUL, as médias e medianas estão muitos próximas,
assim como os quartis, o que sinaliza que não há muita dispersão entre todos os municípios dessa
região. Essa mesma distribuição encontramos na região Nordeste, mas com taxas bem inferiores se
comparadas com as outras regiões.
• Variável T_ENV - Taxa de envelhecimento
One-way ANOVA: T_ENV versus Região
Source DF SS MS F P
Região 4 7853,45 1963,36 439,95 0,000
Error 5560 24812,31 4,46
Total 5564 32665,76
S = 2,112 R-Sq = 24,04% R-Sq(adj) = 23,99%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Centro-Oeste 466 7,146 2,314 (-*)
Nordeste 1794 8,087 1,869 *)
Norte 449 5,237 1,637 (-*)
Sudeste 1668 9,083 2,116 (*)
Sul 1188 9,588 2,496 (*)
--------+---------+---------+---------+-
6,0 7,2 8,4 9,6
Pooled StDev = 2,112
SulSudesteNorteNordesteCentro-Oeste
20
15
10
5
0
Região
T_
EN
V
Boxplot of T_ENV
Gráfico 42: Boxplot da variável T_ENV
Fonte: Minitab 16
64
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORTE, n=449
Q1 7,8525 3,915
Mediana 9,43 5,18
Q3 11,11 6,36
Média 9,58763 5,2374
Percebe-se que na leitura por região, os melhores indicadores estão na região SUL e os mais
críticos na região NORTE e, mas na análise individual dos municípios, o de pior resultado está
localizado na região Nordeste, a saber: Luis Eduardo Magalhães (Bahia), com índice de 1,50. Na
região SUL, as médias e medianas estão muitos próximas, o que sinaliza que há distribuição
relativamente uniforme entre os municípios dessa região. Essa mesma distribuição encontramos na
região Norte, mas com taxas bem inferiores se comparadas com as outras regiões.
• Variável RDPC – Renda per capita
One-way ANOVA: RDPC versus Região
Source DF SS MS F P
Região 4 166580553 41645138 1423,18 0,000
Error 5560 162696792 29262
Total 5564 329277345
S = 171,1 R-Sq = 50,59% R-Sq(adj) = 50,55%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Centro-Oeste 466 586,6 161,9 (*)
Nordeste 1794 276,9 97,7 (*)
Norte 449 345,1 141,1 (-*)
Sudeste 1668 590,6 214,9 *)
Sul 1188 704,2 200,0 (*
--------+---------+---------+---------+-
360 480 600 720
Pooled StDev = 171,1
SulSudesteNorteNordesteCentro-Oeste
2000
1500
1000
500
0
Região
RD
PC
Boxplot of RDPC
Gráfico 43: Boxplot da variável RDPC
Fonte: Minitab 16
65
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE, n=1794
Q1 560,663 221,967
Mediana 675,025 259,295
Q3 823,298 302,005
Média 704,243 276,919
Percebe-se que na leitura por região, os melhores indicadores estão na região SUL e os mais
críticos na região NORDESTE e, na análise individual dos municípios, o de pior resultado está
localizado nessa mesma região, a saber: Marajá do Sena (Maranhão), com índice de 96,25. Na região
SUL, há uma dispersão relativamente significativa, ou seja, os números de média e mediana e,
sobretudo, os desvios padrões, sinalizam que há uma pequena dispersão entre os municípios, mas
mesmo assim, os de menor resultado, apresentam rendas maiores que a média de outros
estados/regiões.
• Variável ÁGUA_ESGOTO - Percentual de pessoas em domicílios
com abastecimento de água e esgotamento sanitário inadequados
One-way ANOVA: AGUA_ESGOTO versus Região
Source DF SS MS F P
Região 4 415490,7 103872,7 1151,14 0,000
Error 5560 501704,4 90,2
Total 5564 917195,1
S = 9,499 R-Sq = 45,30% R-Sq(adj) = 45,26%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
Centro-Oeste 466 4,738 5,732 (*)
Nordeste 1794 17,733 12,951 *)
Norte 449 25,888 18,225 (*)
Sudeste 1668 2,231 4,066 *)
Sul 1188 1,550 2,808 (*)
---------+---------+---------+---------+
7,0 14,0 21,0 28,0
Pooled StDev = 9,499
SulSudesteNorteNordesteCentro-Oeste
90
80
70
60
50
40
30
20
10
0
Região
AGU
A_E
SGO
TO
Boxplot of AGUA_ESGOTO
Gráfico 44: Boxplot da variável ÁGUA_ESGOTO
Fonte: Minitab 16
66
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORTE, n=449
Q1 0,19 9,69
Mediana 0,64 22,2
Q3 1,74 38,69
Média 1,5504 25,8822
Novamente, percebe-se que na leitura por região, os melhores indicadores estão na região SUL
e os mais críticos, desta vez, na região NORTE e, na análise individual dos municípios, o de pior
resultado está localizado nessa região, a saber: Chaves (Pará), com 85,36. Na região SUL, há uma
distância relativamente grande entre a mediana e a média, sendo que a média está muito próxima do
Quartil 03 o que sinaliza que não há uma distribuição relativamente uniforme entre os municípios
dessa região. O valor da mediana valida essa leitura. Essa mesma distribuição encontramos na região
Norte, mas com taxas bem superiores se comparadas com as outras regiões, ou seja, há muito mais
municípios com pessoas morando com condições de água e esgoto em condições inadequadas.
• Variável T_LUZ - % de pessoas em domicílios sem energia elétrica One-way ANOVA: T_SLUZ versus Região
Source DF SS MS F P
Região 4 49909,8 12477,5 456,34 0,000
Error 5560 152025,1 27,3
Total 5564 201934,9
S = 5,229 R-Sq = 24,72% R-Sq(adj) = 24,66%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
Centro-Oeste 466 2,323 4,979 (-*)
Nordeste 1794 4,214 6,737 (*)
Norte 449 11,386 10,850 (-*-)
Sudeste 1668 0,763 1,744 (*
Sul 1188 0,515 1,052 (*)
---------+---------+---------+---------+
3,0 6,0 9,0 12,0
Pooled StDev = 5,229
SulSudesteNorteNordesteCentro-Oeste
80
70
60
50
40
30
20
10
0
Região
T_SL
UZ
Boxplot of T_SLUZ
Gráfico 45: Boxplot da variável T_SLUZ
Fonte: Minitab 16
67
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORTE, n=449
Q1 0,0125 3,3
Mediana 0,19 7,8
Q3 0,56 16,81
Média 0,5153 11,3856
Novamente, percebe-se que na leitura por região, os melhores indicadores estão na região SUL e
os mais críticos, desta vez, na região NORTE e, na análise individual dos municípios, o de pior
resultado está localizado nessa região, a saber: Uirimatã (Roraima), com 72,59, indicador muito alto
e muito distante, inclusive da média da região. Evidencia-se um ponto muito fora da curva.
• Variável IDHM_L - Índice de Desenvolvimento Humano Municipal - Dimensão
Longevidade
One-way ANOVA: IDHM_L versus Região
Source DF SS MS F P
Região 4 6,94392 1,73598 2318,02 0,000
Error 5560 4,16393 0,00075
Total 5564 11,10785
S = 0,02737 R-Sq = 62,51% R-Sq(adj) = 62,49%
Level N Mean StDev
Centro-Oeste 466 0,82244 0,01846
Nordeste 1794 0,75433 0,03016
Norte 449 0,78038 0,02871
Sudeste 1668 0,82819 0,02674
Sul 1188 0,83533 0,02616
Individual 95% CIs For Mean Based on Pooled StDev
Level ---------+---------+---------+---------+
Centro-Oeste (*)
Nordeste (*
Norte (*)
Sudeste *)
Sul *)
---------+---------+---------+---------+
0,775 0,800 0,825 0,850
Pooled StDev = 0,02737
SulSudesteNorteNordesteCentro-Oeste
0,90
0,85
0,80
0,75
0,70
Região
IDH
M_
L
Boxplot of IDHM_L
Fonte: M Gráfico 46: Boxplot da variável IDHM_L
Minitab 16
68
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,
n=1794
Q1 0,817 0,734
Mediana 0,836 0,7575
Q3 0,853 0,775
Média 0,8353 0,7543
Como nos outros indicadores, a Região SUL apresenta o melhor índice de Longevidade,
comparando-a com as outras regiões do Brasil e a região Nordeste apresenta os indicadores mais
críticos. Pelos resultados e indicadores estudados, podemos validar as hipóteses de que os factors
abordados (renda, expectativa de vida, envelhecimento, condições de água, saneamento e luz)
convergem entre si e têm correlação e relação de causa com o IDHM-L
Em outro recorte para análise, faremos a comparação com os testes de hipóteses, agora
abordando os estados brasileiros.
One-way ANOVA: IDHM_L versus UF
Source DF SS MS F P
UF 26 7,30833 0,28109 409,70 0,000
Error 5538 3,79953 0,00069
Total 5564 11,10785
S = 0,02619 R-Sq = 65,79% R-Sq(adj) = 65,63%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
Acre 22 0,76659 0,02769 (-*--)
Alagoas 102 0,73954 0,03242 (*)
Amapá 16 0,78394 0,01969 (--*-)
Amazonas 62 0,76555 0,02660 (*)
Bahia 417 0,75958 0,03016 (*
Brasilia 1 0,87300 * (----------*---------)
Ceará 184 0,76134 0,02209 *)
Esp. Santo 78 0,82574 0,01743 (*)
Góias 246 0,82549 0,01567 (*)
Maranhão 217 0,74060 0,02812 (*)
Mato Grosso 141 0,81733 0,01800 *)
MG do Sul 78 0,82145 0,02399 (*)
Minas Gerais 853 0,82381 0,02985 (*
Pará 143 0,77448 0,02121 (*)
Paraíba 223 0,75574 0,03064 (*)
Paraná 399 0,82045 0,02097 *)
Pernambuco 185 0,75566 0,03498 (*)
Piaui 224 0,74954 0,02803 (*)
RG do Sul 496 0,84043 0,02227 *)
Rio de Janeiro 92 0,81610 0,01816 (*)
RN do Norte 167 0,76276 0,02651 (*
Rondônia 52 0,78883 0,02439 (-*)
Roraima 15 0,79807 0,01531 (--*-)
São Paulo 645 0,83599 0,02195 *)
Sergipe 75 0,75583 0,02831 (*)
Sta Catarina 293 0,84697 0,02933 *)
Tocantins 139 0,78977 0,03438 (*)
---+---------+---------+---------+------
0,750 0,800 0,850 0,900
Pooled StDev = 0,02619
69
Toca
ntins
Sta
Cata
rina
Serg
ipe
São Pa
ulo
Rora
ima
Rond
ônia
RN do No
rte
Rio
de Jan
eiro
RG do Su
l
Piau
i
Pern
ambu
co
Para
ná
Para
íba
Pará
Minas
Ger
ais
MG do
Sul
Mat
o Gr
osso
Mar
anhã
o
Góias
Esp.
San
to
Cear
á
Bras
ilia
Bahia
Amaz
onas
Amap
á
Alag
oas
Acre
0,90
0,85
0,80
0,75
0,70
UF
IDH
M_
L
Boxplot of IDHM_L
Gráfico 47: Boxplot da variável IDHM_L por Estado
Fonte: Minitab 16
Considerações: Observando o boxplot do IDHM_L (Longevidade) e traçando uma linha aleatória,
praticamente dividindo o eixo vertical em duas partes, encontramos na parte superior (cidades com
melhores índices de longevidade) praticamente os estados das regiões SUL, SUDESTE e CENTR-
OESTE, e na parte inferior (cidades com piores índices de longevidade), os da região NORTE e
NORDESTE.
Essa análise valida as hipóteses de relação existentes entre os responses escolhidos ESPVIDA,
T_ENV, RDPC, AGUA_ESGOTO, T_SLUZ e IDHM_l com os factors explorados, as regiões
brasileiras.
Considerando a variável Ensino Médio:
One-way ANOVA: T_MED18A20 versus Região Source DF SS MS F P
Região 4 503377 125844 1031,15 0,000
Error 5560 678557 122
Total 5564 1181934
S = 11,05 R-Sq = 42,59% R-Sq(adj) = 42,55%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
Centro-Oeste 466 38,68 10,19 (*-)
Nordeste 1794 24,96 8,78 (*
Norte 449 24,02 10,81 (*-)
Sudeste 1668 43,14 12,77 (*
Sul 1188 46,54 11,88 *)
-------+---------+---------+---------+--
28,0 35,0 42,0 49,0
Pooled StDev = 11,05
70
SulSudesteNorteNordesteCentro-Oeste
90
80
70
60
50
40
30
20
10
0
Região
T_
MED
18
A2
0
Boxplot of T_MED18A20
Gráfico 48: Boxplot da variável Ensino Médio
Fonte: Minitab 16
O resultado apresentado não é diferente da análise feita com o outro grupo de variáveis, ou
seja, os melhores resultados encontram-se na região SUL (média 46,53), Sudeste (média 43,14),
Centro-Oeste (36,68), Nordeste (24,02) e Norte (24,02). O outlier de maior expressão na região
Sudeste é o munícipio de Monções no estado de SP e o de menor expressão da região SUL é o
munícipio Dr. Ulysses, no estado do Paraná.
7. AMOSTRAGEM
Tem por objetivo efetuar uma pesquisa por amostragem de dados dimensionadores do IDHM,
representado pelos índices IDHM_L, EspVida, T_Env, RDPC, Agua_Esgoto, T_SLuz, , das cidades
do Brasil, indicadores publicados pelo IBGE, senso 2010, portal Atlas Brasil. O software estatístico
utilizado é o MINITAB.
7.1 Pesquisa por amostragem
A pesquisa por amostragem foi feita com três amostras aleatórias: uma com 25 municípios,
outra com 100 munícipios e a terceira com 400 municípios. Para cada amostra foram efetuadas
análises exploratória de dados, utilizando a ferramenta BoxPlot, com o objetivo de ver com das
amostragens tem mais peso quando validada. Utilizou-se como referência, os indicadores totais das
06 variáveis estudadas.
7.2 Amostra aleatória
http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and-graphs/introductory-
concepts/data-concepts/why-collect-random-sample/ em 22/04/2017
71
Uma amostra aleatória é um subconjunto de uma população selecionado por um processo que
torna todas as amostras de um determinado tamanho igualmente prováveis de ocorrer. Em estatística,
amostras aleatórias são usadas pata fazer generalizações ou inferências sobre uma população.
As amostras devem ser aleatórias para eliminar vícios de seleção. Vício de seleção significa
que alguns sujeitos têm mais probabilidade de estarem na amostra do que outros sujeitos. Se a amostra
for viciada você só poderá fazer inferências sobre assuntos na amostra, não para toda a população.
7.3 Construção no Minitab
CALC / RANDOM DATE / SAMPLE FROM
• Variável ESPVIDA - Esperança de vida ao nascer
One-way ANOVA: ESPVIDA; EspV25; EspV100; EspV400
Source DF SS MS F P
Factor 3 49,25 16,42 2,28 0,077
Error 6086 43746,62 7,19
Total 6089 43795,87
S = 2,681 R-Sq = 0,11% R-Sq(adj) = 0,06%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
ESPVIDA 5565 73,089 2,681 (*)
EspV25 25 73,592 3,063 (-----------------*----------------)
EspV100 100 73,639 2,656 (-------*--------)
EspV400 400 73,291 2,667 (----*---)
-+---------+---------+---------+--------
72,60 73,20 73,80 74,40
Pooled StDev = 2,681
EspV400EspV100EspV25ESPVIDA
80,0
77,5
75,0
72,5
70,0
67,5
65,0
Da
ta
Boxplot of ESPVIDA; EspV25; EspV100; EspV400
Gráfico 49: Boxplot da variável ESPVIDA com 3 graus de amostragem
Fonte: Minitab 16
72
Indicadores EspVida EspVida25 EspVida100 EspVida400
Média 73,0890 73,5924 73,6393 73,2905
Mediana 73,47 74,02 74,2 73,7
Q1 71,15 71,46 72,3075 71,4225
Q3 75,16 75,98 75,32 75,275
Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos
observar no gráfico, como não há uma dispersão uniforme atentando para a distribuição nos Quartil
superior e Quartil Inferior, a amostragem que melhor reflete o resultado, tomando como base os
indicadores absolutos desta variável (ESPVIDA), é a amostragem que utiliza 400 municípios, pois
apresenta a menor diferença entre as médias e medianas (EspVida400 / EspVida), respectivamente
0,27 % e 0,31 % o que representaria uma pequena margem de erro, se assim fosse adotada.
• Variável T_Env - Taxa de envelhecimento
One-way ANOVA: T_ENV; TEnv25; TEnv100; TEnv400
Source DF SS MS F P
Factor 3 7,98 2,66 0,45 0,715
Error 6086 35747,43 5,87
Total 6089 35755,42
S = 2,424 R-Sq = 0,02% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
T_ENV 5565 8,397 2,423 (*)
TEnv25 25 8,316 1,763 (------------------*------------------)
TEnv100 100 8,675 2,587 (--------*---------)
TEnv400 400 8,428 2,424 (----*---)
---+---------+---------+---------+------
7,50 8,00 8,50 9,00
Pooled StDev = 2,424
TEnv400TEnv100TEnv25T_ENV
20
15
10
5
0
Da
ta
Boxplot of T_ENV; TEnv25; TEnv100; TEnv400
Gráfico 50: Boxplot da variável T_ENV com 3 graus de amostragem
Fonte: Minitab 16
73
Indicadores T_Env T_Env25 T_Env100 T_Env400
Média 8,3973 8,316 8,6745 8,4277
Mediana 8,38 8,33 8,45 8,375
Q1 6,78 7,105 7,075 6,9425
Q3 9,965 9,15 10,365 9,96
Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos
observar no gráfico, há uma dispersão bem uniforme nos Quartil superior e Quartil Inferior. A
amostragem que melhor reflete o resultado, tomando como base os indicadores absolutos desta
variável (T_Env), é a amostragem que utiliza 400 municípios, pois apresenta a menor diferença entre
as médias e medianas (T_Env400 / T_Env), respectivamente 0,36 % e 0,01 % o que representaria
uma pequena margem de erro, se assim fosse adotada.
• Variável RDPC – Renda per capita média
One-way ANOVA: RDPC; Rpc25; Rpc100; Rpc400
Source DF SS MS F P
Factor 3 224929 74976 1,27 0,283
Error 6086 359592553 59085
Total 6089 359817482
S = 243,1 R-Sq = 0,06% R-Sq(adj) = 0,01%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
RDPC 5565 493,6 243,3 (-*)
Rpc25 25 442,0 193,0 (------------------*------------------)
Rpc100 100 455,2 237,7 (--------*---------)
Rpc400 400 486,2 244,4 (----*----)
-+---------+---------+---------+--------
350 400 450 500
Pooled StDev = 243,1
Rpc400Rpc100Rpc25RDPC
2000
1500
1000
500
0
Da
ta
Boxplot of RDPC; Rpc25; Rpc100; Rpc400
Gráfico 51: Boxplot da variável RDPC com 3 graus de amostragem
Fonte: Minitab 16
74
Indicadores RDPC RDPC25 RDPC100 RDPC400
Média 493,606 442,034 455,203 486,246
Mediana 467,65 380,52 372,845 447,565
Q1 281,085 275,36 262,462 283,485
Q3 650,645 577,495 611,207 623,085
Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos
observar no gráfico, como não há uma dispersão uniforme atentando para a distribuição nos Quartil
superior e Quartil Inferior, a amostragem que melhor reflete o resultado, tomando como base os
indicadores absolutos desta variável (RDPC), é a amostragem que utiliza 400 municípios, pois
apresenta a menor diferença entre as médias e medianas (RDPC400 / RDPC), respectivamente 1,49
% e 4,29 % o que representaria a margem de erro, se assim fosse adotada.
• Variável ÁGUA_ESGOTO - Percentual de pessoas em domicílios
com abastecimento de água e esgotamento sanitário inadequados
One-way ANOVA: AGUA_ESGOTO; AgEs25; AgEs100; AgEs400
Source DF SS MS F P
Factor 3 358 119 0,72 0,539
Error 6086 1006103 165
Total 6089 1006460
S = 12,86 R-Sq = 0,04% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
AGUA_ESGOTO 5565 9,20 12,84 (*)
AgEs25 25 11,45 17,27 (----------------*----------------)
AgEs100 100 7,92 11,69 (-------*--------)
AgEs400 400 9,61 13,08 (---*---)
--+---------+---------+---------+-------
6,0 9,0 12,0 15,0
Pooled StDev = 12,86
AgEs400AgEs100AgEs25AGUA_ESGOTO
90
80
70
60
50
40
30
20
10
0
Dat
a
Boxplot of AGUA_ESGOTO; AgEs25; AgEs100; AgEs400
Gráfico 52: Boxplot da variável ÁGUA_ESGOTO Com 3 graus de amostragem
Fonte: Minitab 16
75
Indicadores AG_ESG AG_ESG25 AG_ESG100 AG_ESG400
Média 9,20172 11,4452 7,9152 9,61265
Mediana 3,26 2,46 2,595 4,144
Q1 0,53 0,31 0,325 0,4925
Q3 13,035 15,645 10,99 13,495
Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos
observar no gráfico, há uma grande dispersão atentando para a distribuição nos Quartil superior e
Quartil Inferior. Neste caso especifico, a amostragem que melhor reflete o resultado, tomando como
base os indicadores absolutos desta variável (Agua_Esgoto), é a amostragem que utiliza 100
municípios, pois apresenta a menor diferença entre as medianas (AG_ESG100 / AG_ESG), 20,3% %
o que representaria uma alta margem de erro, se assim fosse adotada. Indica-se uma nova amostragem
para ver como os novos municípios se comportariam nesta variável.
Numa nova amostragem teste realizada, com a mesma quantidade de municípios, o percentual
da diferença da mediana foi de 21,6%, o que aumentou ainda mais a margem de erro.
• T_SLuz - % de pessoas em domicílios sem energia elétrica
One-way ANOVA: T_SLUZ; TSluz25; TSluz100; TSluz400
Source DF SS MS F P
Factor 3 39,1 13,0 0,37 0,778
Error 6086 217458,8 35,7
Total 6089 217497,9
S = 5,978 R-Sq = 0,02% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
T_SLUZ 5565 2,810 6,024 (*-)
TSluz25 25 1,985 3,220 (-------------------*------------------)
TSluz100 100 2,451 4,152 (--------*---------)
TSluz400 400 2,639 5,831 (----*----)
---+---------+---------+---------+------
0,0 1,2 2,4 3,6
Pooled StDev = 5,978
Boxplot of T_SLUZ; TSluz25; TSluz100; TSluz400
76
TSluz400TSluz100TSluz25T_SLUZ
80
70
60
50
40
30
20
10
0
Da
ta
Boxplot of T_SLUZ; TSluz25; TSluz100; TSluz400
Gráfico 53: Boxplot da variável T_ SLUZ com 3 graus de amostragem
Fonte: Minitab 16
Indicadores T_SLuz T_SLuz25 T_SLuz100 T_SLuz400
Média 2,81039 1,9848 2,4514 2,6386
Mediana 0,61 1,21 0,805 0,5
Q1 0,13 0,165 0,15 0,1225
Q3 2,225 2,2 3,2075 2,16
Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos
observar no gráfico, como não há uma dispersão uniforme atentando para a distribuição nos Quartil
superior e Quartil Inferior, a amostragem que melhor reflete o resultado, tomando como base os
indicadores absolutos desta variável (T_SLuz), é a amostragem que utiliza 400 municípios, pois
apresenta a menor diferença entre as médias e medianas (T_SLuz400 / T_SLuz), respectivamente
6,10 % e 18,03 % o que representaria a margem de erro, se assim fosse adotada.
• Variável IDHM_L – índice de desenvolvimento humano - longevidade
One-way ANOVA: IDHM_L; IDHML25; IDHML100; IDHML400
Source DF SS MS F P
Factor 3 0,00192 0,00064 0,32 0,811
Error 6086 12,18013 0,00200
Total 6089 12,18205
S = 0,04474 R-Sq = 0,02% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
IDHM_L 5565 0,80156 0,04468 (-*)
IDHML25 25 0,79960 0,04662 (-----------------*----------------)
IDHML100 100 0,80440 0,04566 (-------*--------)
IDHML400 400 0,79995 0,04516 (---*---)
77
--------+---------+---------+---------+-
0,790 0,800 0,810 0,820
Pooled StDev = 0,04474
Boxplot of IDHM_L; IDHML25; IDHML100; IDHML400
IDHML400IDHML100IDHML25IDHM_L
0,90
0,85
0,80
0,75
0,70
Da
ta
Boxplot of IDHM_L; IDHML25; IDHML100; IDHML400
Gráfico 54: Boxplot da variável IDHM_L com 3 graus de amostragem
Fonte: Minitab 16
Indicadores IDHM_L IDHM_L 25 IDHM_L100 IDHM_L400
Média 0,8015 0,7996 0,8044 0,7999
Mediana 0,808 0,808 0,8145 0,806
Q1 0,769 0,762 0,7707 0,77
Q3 0,836 0,831 0,8397 0,8337
Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos
observar no gráfico, há uma grande dispersão atentando para a distribuição nos Quartil superior e
Quartil Inferior, a amostragem que melhor reflete o resultado, tomando como base os indicadores
absolutos desta variável (IDHM_L), é a amostragem que utiliza 400 municípios, pois, apesar de não
apresentar nenhuma distorção na média se tomarmos em conta a amostragem com 25 municípios,
apresenta a menor diferença entre as medianas (IDHM_L400 / IDHM_L), de 0,2% o que representaria
a margem pequena de erro, se assim fosse adotada.
Considerações: Assim, podemos concluir que para as variáveis ESPVIDA, T_ENV, RDPC,
T_SLuz e IDHM_L foram bem representadas pelas amostras aleatórias de 400 municípios. A variável
AGUA_ESGOTO foi melhor representada pela amostra aleatória de 100 municípios. Percebeu-se,
também, que tão importante quanto observar as amostras se afastam da média e mediana da variável
78
dependente, é observar a distribuição nos quartis, superior e inferior, até para escolher qual
o melhor caminho para escolha da amostra representativa.
Considerando a variável Ensino Médio
EMedio25EMedio400EMedio100T_MED18A20
90
80
70
60
50
40
30
20
10
0
Da
ta
Boxplot of T_MED18A20; EMedio100; EMedio400; EMedio25
Gráfico 55: Boxplot da variável Ensino Médio com 3 graus de amostragem
Fonte: Minitab 16
Indicadores EnsMédio EnsMedio25 EnsMedio100 EnsMedio400
Média 36,0909 35,73 36,94 36,08
Mediana 35,14 37,65 36,86 34,91
Q1 24,99 28,80 26,36 25,25
Q3 46,32 42,97 49,59 46,86
A amostra que melhor representa esta variável é a de 400 munícipios, pois apresenta dados
muito próximos da variável principal, quer seja na média, mediana e quartis.
8. COMPONENTES PRINCIPAIS
Tem por objetivo efetuar uma análise das correlações e dos componentes principais (análise
multivariada) de dados dimensionadores do IDHM, Plataforma Atlas Brasil, Base IBGE. Para tal,
iniciamos com análise da estatística descritiva. Em seguida passamos para a análise das correlações
e dendogramas. Na terceira parte utilizamos a análise dos componentes principais utilizando o
stepwise.
8.1 Análise de Dados
79
Buscando um foco direto nos indicadores que interessam a este pesquisador, sobretudo
àqueles que podem ter uma ligação direta com o desenvolvimento da tese, foram selecionadas as
seguintes variáveis para o estudo dos componentes principais:
Código Indicador Abrangência Tipo Medida
ESPVIDA Esperança de vida ao nascer Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.
Variável Quantitativa
Anos
T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a população total multiplicado por 100.
Variável Quantitativa
Percentual
T_FUND15A17 Percentual da população de 15 a 17 anos com fundamental completo
Razão entre a população de 15 a 17 anos de idade que concluiu o ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
T_MED18a20 Percentual da população de 18 a 20 anos de idade com o ensino médio completo
Razão entre a população de 18 a 20 anos de idade que já concluiu o ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.
Variável Quantitativa
Percentual
RIND Renda domiciliar per capita média dos extremamente pobres
Média da renda domiciliar per capita das pessoas com renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, a preços de agosto de 2010. O universo de indivíduos é limitado àqueles que vivem em domicílios particulares permanentes.
Variável Quantitativa
Absoluto
RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Variável Quantitativa
Absoluto
TRABCC Percentual de ocupados de 18 anos ou mais que são empregados com carteira
Razão entre o número de empregados de 18 anos ou mais de idade com carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
TRABSC Percentual de ocupados de 18 anos ou mais que são empregados sem carteira
Razão entre o número de empregados de 18 anos ou mais de idade sem carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
T_AGUA Percentual da população que vive em domicílios com água encanada
Razão entre a população que vive em domicílios particulares permanentes com água canalizada para um ou mais cômodos e a população total residente em domicílios particulares permanentes, multiplicada por 100. A água pode ser proveniente de rede geral, de poço, de nascente ou de reservatório abastecido por água das chuvas ou carro-pipa.
Variável Quantitativa
Percentual
T_LUZ Percentual da população que vive em domicílios com energia elétrica
Razão entre a população que vive em domicílios particulares permanentes com iluminação elétrica e a população total residente em domicílios particulares permanentes, multiplicada por 100. Considera-se iluminação proveniente ou não de uma rede geral, com ou sem medidor.
Variável Quantitativa
Percentual
AGUA_ESGOTO Percentual de pessoas em domicílios com abastecimento de água e esgotamento sanitário inadequados
Razão entre as pessoas que vivem em domicílios cujo abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios particulares permanentes, multiplicada por 100. São considerados apenas os domicílios particulares permanentes.
Variável Quantitativa
Percentual
T_SLUZ % de pessoas em domicílios sem energia elétrica
Razão entre as pessoas que vivem em domicílios sem energia elétrica e população total residente em domicílios particulares permanentes multiplicado por 100.
Variável Quantitativa
Percentual
PESORUR População rural População residente na área rural Variável Quantitativa
Absoluto
PESOURB População urbana População residente na área urbana Variável Quantitativa
Absoluto
Resgatando as variáveis selecionadas
Fonte: Atlas Brasil, 2010
80
8.1.1 Base de dados
A base de dados normalizada para a análise deste trabalho teve como referência as 14 variáveis
descritas na tabela acima, sendo que, 03 delas, foram positivadas, a saber:
TRABSC Percentual de
ocupados de 18
anos ou mais que
são empregados
sem carteira
Razão entre o número de
empregados de 18 anos ou mais
de idade sem carteira de
trabalho assinada e o número
total de pessoas ocupadas nessa
faixa etária, multiplicada por
100.
Variável
Quantitativa
Percentual
AGUA_ESGOTO Percentual de
pessoas em
domicílios com
abastecimento de
água e
esgotamento
sanitário
inadequados
Razão entre as pessoas que
vivem em domicílios cujo
abastecimento de água não
provem de rede geral e cujo
esgotamento sanitário não é
realizado por rede coletora de
esgoto ou fossa séptica e a
população total residente em
domicílios particulares
permanentes, multiplicada por
100. São considerados apenas
os domicílios particulares
permanentes.
Variável
Quantitativa
Percentual
T_SLUZ % de pessoas em
domicílios sem
energia elétrica
Razão entre as pessoas que
vivem em domicílios sem
energia elétrica e população
total residente em domicílios
particulares permanentes
multiplicado por 100.
Variável
Quantitativa
Percentual
• Fórmulas utilizadas: Passos no Minitab: CALC / CALCULADORA
• Para normalização: Construir equação selecionando na caixa de opções funções a opção
MINIMO e MAXIMO. A equação: (c9-MIN(c9))/(MAX(c9)-MIN(c9))
• Para positivação: Para os dados que representam valores:
A Equação: 1-((c8-MIN(c8))/(MAX(c8)-MIN(c8)))
8.2 Criando os principais componentes
Passos no Minitab: STAT / MULTIVARIATE / PRINCIPAL COMPONENTS Correlations: EVIDA_N; TENVE_N; FUND15_N; MED18_N; RENDA_N; RENDOM_N; ... EVIDA_N TENVE_N FUND15_N MED18_N RENDA_N
TENVE_N 0,223
0,000
FUND15_N 0,666 0,365
0,000 0,000
MED18_N 0,660 0,388 0,833
0,000 0,000 0,000
81
RENDA_N 0,784 0,204 0,671 0,717
0,000 0,000 0,000 0,000
RENDOM_N -0,000 0,104 0,034 0,076 0,040
0,981 0,000 0,010 0,000 0,003
EMPCREG_N 0,601 -0,070 0,495 0,524 0,664
0,000 0,000 0,000 0,000 0,000
EMPSREG_NP 0,519 0,056 0,449 0,473 0,615
0,000 0,000 0,000 0,000 0,000
CÁGUA_N 0,549 0,088 0,528 0,515 0,564
0,000 0,000 0,000 0,000 0,000
CLUZ_N 0,341 0,302 0,438 0,436 0,386
0,000 0,000 0,000 0,000 0,000
AESGINAD_NP 0,604 0,340 0,593 0,582 0,587
0,000 0,000 0,000 0,000 0,000
SLUZ_NP 0,341 0,302 0,438 0,436 0,386
0,000 0,000 0,000 0,000 0,000
PORURAL_N -0,245 -0,284 -0,293 -0,298 -0,216
0,000 0,000 0,000 0,000 0,000
POURB_N 0,091 -0,063 0,050 0,075 0,217
0,000 0,000 0,000 0,000 0,000
RENDOM_N EMPCREG_N EMPSREG_NP CÁGUA_N CLUZ_N
EMPCREG_N 0,046
0,001
EMPSREG_NP -0,057 0,555
0,000 0,000
CÁGUA_N 0,066 0,549 0,295
0,000 0,000 0,000
CLUZ_N 0,168 0,373 0,197 0,408
0,000 0,000 0,000 0,000
AESGINAD_NP 0,095 0,523 0,303 0,640 0,423
0,000 0,000 0,000 0,000 0,000
SLUZ_NP 0,168 0,373 0,197 0,408 1,000
0,000 0,000 0,000 0,000 *
PORURAL_N -0,044 -0,197 -0,099 -0,256 -0,193
0,001 0,000 0,000 0,000 0,000
POURB_N 0,046 0,142 0,090 0,083 0,046
0,001 0,000 0,000 0,000 0,001
AESGINAD_NP SLUZ_NP PORURAL_N
SLUZ_NP 0,423
0,000
PORURAL_N -0,379 -0,193
0,000 0,000
POURB_N 0,053 0,046 0,220
0,000 0,001 0,000
Cell Contents: Pearson correlation
P-Value
82
Dendograma com 01 cluster
Pelos dados apurados, as duas variáveis que apresentam uma correlação com
representatividade, estabelecendo-se como diretriz, indicador maior ou igual a 0,800, foram
MED18_N com FUND15_N.
Este resultado sinaliza que, provavelmente, não haverá elementos que permitam uma análise
significativa nos resultados frutos deste estudo, ou seja, a análise de dos componentes principais.
Dendograma – análise considerando 01 cluster
Cluster Analysis of Variables: EVIDA_N; TENVE_N; FUND15_N; MED18_N; ...
Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 13 100,000 0,000000 10 12 10 2
2 12 91,659 0,166829 3 4 3 2
3 11 89,209 0,215824 1 5 1 2
4 10 85,841 0,283172 1 3 1 4
5 9 83,222 0,335558 1 7 1 5
6 8 82,000 0,360007 9 11 9 2
7 7 80,744 0,385119 1 8 1 6
8 6 80,188 0,396245 1 9 1 8
9 5 71,924 0,561512 1 10 1 10
10 4 69,415 0,611698 1 2 1 11
11 3 60,978 0,780444 13 14 13 2
12 2 60,866 0,782682 1 13 1 13
13 1 58,401 0,831982 1 6 1 14
Cluster Analysis of Variables: EVIDA_N; TENVE_N; FUND15_N; MED18_N; ...
RENDOM_N
POURB_
N
PORU
RAL_N
TENVE_
N
SLUZ_
NP
CLUZ_
N
AESGI
NAD_N
P
CÁGUA
_N
EMPS
REG_N
P
EMPC
REG_N
MED18
_N
FUND15
_N
RENDA_N
EVID
A_N
58,40
72,27
86,13
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Gráfico 56: Dendograma das variáveis normalizadas com 01 cluster
Fonte: Minitab 16
83
Dendograma considerando 04 clusters:
Cluster Analysis of Variables: EVIDA_N; TENVE_N; FUND15_N; MED18_N; ...
Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 13 100,000 0,000000 10 12 10 2
2 12 91,659 0,166829 3 4 3 2
3 11 89,209 0,215824 1 5 1 2
4 10 85,841 0,283172 1 3 1 4
5 9 83,222 0,335558 1 7 1 5
6 8 82,000 0,360007 9 11 9 2
7 7 80,744 0,385119 1 8 1 6
8 6 80,188 0,396245 1 9 1 8
9 5 71,924 0,561512 1 10 1 10
10 4 69,415 0,611698 1 2 1 11
11 3 60,978 0,780444 13 14 13 2
12 2 60,866 0,782682 1 13 1 13
13 1 58,401 0,831982 1 6 1 14
Final Partition
Cluster 1
EVIDA_N TENVE_N FUND15_N MED18_N RENDA_N EMPCREG_N EMPSREG_NP CÁGUA_N
CLUZ_N AESGINAD_NP SLUZ_NP
Cluster 2
RENDOM_N
Cluster 3
PORURAL_N
Cluster 4
POURB_N
Dendrogram
RENDOM_N
POURB_
N
PORU
RAL_N
TENVE_
N
SLUZ_
NP
CLUZ_
N
AESGI
NAD_N
P
CÁGUA
_N
EMPS
REG_N
P
EMPC
REG_N
MED18
_N
FUND15
_N
RENDA_N
EVID
A_N
58,40
72,27
86,13
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Fonte: Gráfico 57: Dendograma das variáveis normalizadas com 04 clusteres
Minitab 16
84
Quando analisamos a distribuição com 01 cluster, observa-se que as variáveis com maior
similaridade são as que seguem. As demais variáveis se relacionam entre si.
EVIDA / RENDA
FUND15 / MED18
CAGUA / AESGINAD
POPRURAL / POPURB
CLUZ / SLUZ
Quando analisamos a distribuição com 04 clusters, observa-se que as variáveis com maior
similaridade se mantém como na distribuição anterior. As demais variáveis se relacionam entre si.
Ratificando o estudo feito nas análises anteriores, a variável Ensino Médio tem maior correlação
com a Variável Ensino Fundamental
Componentes Principais:
No Minitab: STAT / MULTIVARIATE / PRINCIPAL COMPONENTS
O que é análise dos componentes principais?
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-
statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/, acesso em
28/04/2017
A análise de componentes principais é usada comumente em ciências sociais, pesquisa de
mercado e outros setores que usam grandes conjuntos de dados. A meta da análise de componentes
principais é explicar a maior quantidade de variância com o menor número de componentes
principais. A análise de componentes principais é usada comumente nas ciências sociais, pesquisa de
mercado e outros setores que usam grandes conjuntos de dados.
A análise de componentes principais é comumente usada como uma etapa em uma série de
análises. Você pode usar a análise de componentes principais para reduzir o número de variáveis e
evitar multicolinearidade, ou quando existem muitos preditores associados ao número de
observações.
Principal Component Analysis: EVIDA_N; TENVE_N; FUND15_N; MED18_N; RENDA_N;
REN Eigenanalysis of the Correlation Matrix
Eigenvalue 5,9312 1,6707 1,3185 0,9825 0,9344 0,7819 0,6203 0,4554
Proportion 0,424 0,119 0,094 0,070 0,067 0,056 0,044 0,033
Cumulative 0,424 0,543 0,637 0,707 0,774 0,830 0,874 0,907
Eigenvalue 0,3645 0,3251 0,2712 0,1961 0,1483 0,0000
Proportion 0,026 0,023 0,019 0,014 0,011 0,000
85
Cumulative 0,933 0,956 0,975 0,989 1,000 1,000
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
EVIDA_N 0,334 0,198 -0,102 -0,053 -0,004 -0,026 -0,125 -0,082
TENVE_N 0,150 -0,406 -0,291 -0,526 -0,279 -0,020 0,020 -0,431
FUND15_N 0,342 0,013 -0,144 -0,165 -0,120 -0,058 -0,209 0,494
MED18_N 0,346 0,021 -0,129 -0,211 -0,090 -0,108 -0,138 0,455
RENDA_N 0,349 0,232 0,016 -0,105 -0,011 -0,076 0,039 -0,035
RENDOM_N 0,044 -0,269 0,250 -0,348 0,766 -0,385 -0,035 0,012
EMPCREG_N 0,299 0,267 0,137 0,274 0,187 -0,066 0,145 -0,075
EMPSREG_NP 0,240 0,351 -0,015 0,041 -0,136 -0,523 0,327 -0,334
CÁGUA_N 0,295 0,055 0,041 0,206 0,252 0,403 -0,337 -0,121
CLUZ_N 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017
AESGINAD_NP 0,319 -0,055 -0,124 -0,012 0,183 0,351 -0,147 -0,412
SLUZ_NP 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017
PORURAL_N -0,157 0,231 0,486 -0,171 -0,269 -0,211 -0,688 -0,214
POURB_N 0,048 0,249 0,511 -0,507 -0,069 0,465 0,411 0,085
Variable PC9 PC10 PC11 PC12 PC13 PC14
EVIDA_N -0,650 -0,349 -0,073 0,441 0,262 0,000
TENVE_N 0,064 0,040 0,414 0,086 -0,054 0,000
FUND15_N 0,174 0,135 -0,172 0,376 -0,556 -0,000
MED18_N 0,155 0,154 0,063 -0,313 0,650 0,000
RENDA_N -0,271 -0,238 0,084 -0,696 -0,428 -0,000
RENDOM_N -0,001 -0,051 -0,037 0,041 -0,016 -0,000
EMPCREG_N -0,107 0,573 0,560 0,157 -0,043 0,000
EMPSREG_NP 0,449 -0,143 -0,253 0,121 0,079 -0,000
CÁGUA_N 0,474 -0,453 0,278 0,062 0,028 -0,000
CLUZ_N -0,046 -0,047 -0,062 -0,003 0,015 0,707
AESGINAD_NP -0,013 0,444 -0,563 -0,125 0,037 0,000
SLUZ_NP -0,046 -0,047 -0,062 -0,003 0,015 -0,707
PORURAL_N 0,009 0,141 0,017 -0,017 0,003 0,000
POURB_N 0,063 -0,017 -0,038 0,114 0,045 -0,000
Scree Plot of EVIDA_N; ...; POURB_N
Loading Plot of EVIDA_N; ...; POURB_N
86
0,40,30,20,10,0-0,1-0,2
0,4
0,3
0,2
0,1
0,0
-0,1
-0,2
-0,3
-0,4
-0,5
First Component
Se
co
nd
Co
mp
on
en
tPOURB_N
PORURAL_N
SLUZ_NP
AESGINAD_NP
CLUZ_N
CÁGUA_N
EMPSREG_NP
EMPCREG_N
RENDOM_N
RENDA_N
MED18_NFUND15_N
TENVE_N
EVIDA_N
Loading Plot of EVIDA_N; ...; POURB_N
Gráfico 58: Loading Plot das Variáveis Normalizadas
Fonte: Minitab 16
Utilizando o Scree Plot:
Um gráfico scree exibe os autovalores associados a um componente ou fator em ordem
decrescente versus o número do componente ou fator. Gráficos scree podem ser usados em análise
de componentes principais e análise de fatores para avaliar visualmente quais componentes ou fatores
explicam a maior parte da variabilidade dos dados.
87
1413121110987654321
6
5
4
3
2
1
0
Component Number
Eig
en
va
lue
Scree Plot of EVIDA_N; ...; POURB_N
Gráfico 59: Scree Plot das Variáveis Normalizadas
Fonte: Minitab 16
Percebe-se, provavelmente pela baixa correlação existente entre as variáveis selecionadas, que
foram abertos 14 componentes e a relação de poder exploratório, entendido este referencial em torno
de 90%, se dá somente no conjunto do 8º componente, quando atingido o percentual acumulado de
90,7 %
A análise do Scree Plot ratifica essa distribuição, onde percebemos que há uma diferença
relativamente grande entre o primeiro e segundo componente (na proporcionalidade, cerca de 43%),
mas a partir desse há pequenos desvios entre os componentes, mantendo-se, praticamente uma
tendência de reta somente nos últimos componentes.
• Montando o Scatterplot com 03 componentes
Principal Component Analysis: EVIDA_N; TENVE_N; FUND15_N; MED18_N; RENDA_N;
REN Eigenanalysis of the Correlation Matrix
Eigenvalue 5,9312 1,6707 1,3185 0,9825 0,9344 0,7819 0,6203 0,4554
Proportion 0,424 0,119 0,094 0,070 0,067 0,056 0,044 0,033
Cumulative 0,424 0,543 0,637 0,707 0,774 0,830 0,874 0,907
Eigenvalue 0,3645 0,3251 0,2712 0,1961 0,1483 0,0000
Proportion 0,026 0,023 0,019 0,014 0,011 0,000
Cumulative 0,933 0,956 0,975 0,989 1,000 1,000
Variable PC1 PC2 PC3
EVIDA_N 0,334 0,198 -0,102
88
TENVE_N 0,150 -0,406 -0,291
FUND15_N 0,342 0,013 -0,144
MED18_N 0,346 0,021 -0,129
RENDA_N 0,349 0,232 0,016
RENDOM_N 0,044 -0,269 0,250
EMPCREG_N 0,299 0,267 0,137
EMPSREG_NP 0,240 0,351 -0,015
CÁGUA_N 0,295 0,055 0,041
CLUZ_N 0,267 -0,421 0,369
AESGINAD_NP 0,319 -0,055 -0,124
SLUZ_NP 0,267 -0,421 0,369
PORURAL_N -0,157 0,231 0,486
POURB_N 0,048 0,249 0,511
Scree Plot of EVIDA_N; ...; POURB_N
Loading Plot of EVIDA_N; ...; POURB_N
0,40,30,20,10,0-0,1-0,2
0,4
0,3
0,2
0,1
0,0
-0,1
-0,2
-0,3
-0,4
-0,5
First Component
Se
co
nd
Co
mp
on
en
t
POURB_NPORURAL_N
SLUZ_NP
AESGINAD_NP
CLUZ_N
CÁGUA_N
EMPSREG_NP
EMPCREG_N
RENDOM_N
RENDA_N
MED18_NFUND15_N
TENVE_N
EVIDA_N
Loading Plot of EVIDA_N; ...; POURB_N
Gráfico 60: Loading Plot das Variáveis Normalizadas com 03 componentes
Fonte: Minitab 16
89
1413121110987654321
6
5
4
3
2
1
0
Component Number
Eig
en
va
lue
Scree Plot of EVIDA_N; ...; POURB_N
Gráfico 61: Scree Plot das Variáveis Normalizadas com 03 componentes
Fonte: Minitab 16
A composição considerando 03 componentes, praticamente não alterou o resultado apresentado
nos gráficos anteriores.
• Utilizando o Scatterplot tendo como categoria as regiões do Brasil:
20
10-10
-5
0
5
0 020
40
C47
C48
C49
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
Região
3D Scatterplot of C47 vs C48 vs C49
Gráfico 62: Scatterplot 3D das Variáveis Normalizadas por região
Fonte: Minitab 16
A distribuição e concentração demonstrada no gráfico acima ratificam as análises anteriores,
percebendo-se uma maior concentração dos municípios das regiões norte e nordeste próximos ao eixo
inferior (o que resulta em piores resultados) e os da região sul e sudeste e centro-oeste, próximos do
eixo superior (o que resulta em melhores resultados).
90
Pesquisou-se quais os três municípios que aparecem como outliers e, tratam-se de, na
ordem:
São Paulo/SP
Rio de Janeiro / RJ
Brasília /DF
• Utilizando o STEPWISE
Stepwise Regression: EVIDA_N versus C47; C48; C49
Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is EVIDA_N on 3 predictors, with N = 5565
Step 1 2 3
Constant 0,5839 0,5839 0,5839
C47 0,06711 0,06711 0,06711
T-Value 104,27 116,06 119,05
P-Value 0,000 0,000 0,000
C48 0,0397 0,0397
T-Value 36,46 37,40
P-Value 0,000 0,000
C49 -0,0204
T-Value -17,08
P-Value 0,000
S 0,117 0,105 0,102
R-Sq 66,15 72,68 74,04
R-Sq(adj) 66,15 72,67 74,03
Mallows Cp 1690,5 293,7 4,0
Ao considerarmos a variável ESPVIDA (de maior impacto), como variável dependente,
constata-se que o agrupamento PC1 tem representatividade de 66,15%. Somando-se os 03
agrupamentos de componentes, chega-se no acumulado de 74,03, quando o aceitável, para este tipo
de análise, estaria próximo de 90%.
Rodando ANOVA/OneWay/Boxplots
Comparando a principal variável, por região, com os resultados obtidos na base inicial com os
da base normalizada
• Variável EVIDA - Esperança de vida ao nascer – base normalizada
One-way ANOVA: EVIDA_N versus Região
Source DF SS MS F P
Região 4 140,4824 35,1206 2319,02 0,000
Error 5560 84,2040 0,0151
Total 5564 224,6863
91
S = 0,1231 R-Sq = 62,52% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
Centro-Oeste 466 0,6777 0,0831 (*)
Nordeste 1794 0,3714 0,1356 *)
Norte 449 0,4886 0,1292 (*)
Sudeste 1668 0,7036 0,1202 *)
Sul 1188 0,7358 0,1177 (*
---+---------+---------+---------+------
0,40 0,50 0,60 0,70
Pooled StDev = 0,1231
Boxplot of EVIDA_N (base normalizada)
SulSudesteNorteNordesteCentro-Oeste
1,0
0,8
0,6
0,4
0,2
0,0
Região
EV
IDA
_N
Boxplot of EVIDA_N
Gráfico 63: Boxplot da Variável EVIDA Normalizada por região
Fonte: Minitab 16
• Variável ESPVIDA - Esperança de vida ao nascer – base original
One-way ANOVA: ESPVIDA versus Região
Source DF SS MS F P
Região 4 24999,62 6249,91 2319,02 0,000
Error 5560 14984,57 2,70
Total 5564 39984,19
S = 1,642 R-Sq = 62,52% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
Centro-Oeste 466 74,340 1,108 (*)
Nordeste 1794 70,255 1,809 *)
Norte 449 71,818 1,724 (*)
Sudeste 1668 74,686 1,604 (*
Sul 1188 75,116 1,570 (*
--+---------+---------+---------+-------
70,5 72,0 73,5 75,0
Pooled StDev = 1,642
92
Boxplot of ESPVIDA (base inicial)
SulSudesteNorteNordesteCentro-Oeste
80,0
77,5
75,0
72,5
70,0
67,5
65,0
Região
ES
PV
IDA
Boxplot of ESPVIDA
Gráfico 64: Boxplot da Variável EVIDA Inicial por região
Fonte: Minitab 16
Base Inicial
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE, n=1794
Q1 74,0225 69,05
Mediana 75,15 70,445
Q3 76,1675 71,49
Média 75,1156 70,2549
Base Normalizada
Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE, n=1794
Q1 0,653861 0,281109
Mediana 0,738381 0,385682
Q3 0,814655 0,464018
Média 0,73588 0,371433
Comparando os dois gráficos, percebe-se o mesmo R-Sq (62,5%), mas há alteração na
composição das médias, medianas e Quartis superior e inferior, consequentemente, na distribuição.
Por exemplo, na base inicial, região sul, a diferença percentual entre os quartis inferior e
superior era de 2,9% passando a 24,6% na base normalizada.
Na região Nordeste essa diferença é maior ainda, passando de 3,5% na base inicial, para 65%
na base normalizada.
Considerações: Como a análise de componentes principais objetiva reduzir o número de
variáveis e evitar a multicolinearidade, ou quando existem muitos preditores associados ao número
de observações, neste estudo percebeu-se que a base de dados escolhida não trouxe um valor
significativa para esta análise, pois o poder exploratório aceitável aconteceu quando do conjunto do
93
8º grupo de componentes, portanto, um dimensionamento relativamente grande considerando que o
estudo contemplou 14 variáveis.
9. ANÁLISES DE CONGLOMERADOS
Tem por objetivo efetuar uma análise de dendogramas e cluster (análise multivariada) de
dados dimensionadores do IDHM, Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises
fazemos as considerações finais, com a distribuição demonstrada no mapa do Brasil, considerados os
Estados correlacionados. O software estatístico utilizado é o MINITAB
9.1 Base de dados
A base de dados normalizada para a análise deste trabalho teve como referência as 14 variáveis
descritas nas análises anteriores
Para determinar as variáveis que compuseram esta análise, utilizou-se o estudo dos
Componentes Principais.
Principal Component Analysis: EVIDA_N; TENVE_N; FUND15_N; MED18_N; RENDA_N;
REN
Eigenanalysis of the Correlation Matrix
Eigenvalue 5,9312 1,6707 1,3185 0,9825 0,9344 0,7819 0,6203 0,4554
Proportion 0,424 0,119 0,094 0,070 0,067 0,056 0,044 0,033
Cumulative 0,424 0,543 0,637 0,707 0,774 0,830 0,874 0,907
Eigenvalue 0,3645 0,3251 0,2712 0,1961 0,1483 0,0000
Proportion 0,026 0,023 0,019 0,014 0,011 0,000
Cumulative 0,933 0,956 0,975 0,989 1,000 1,000
Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
EVIDA_N 0,334 0,198 -0,102 -0,053 -0,004 -0,026 -0,125 -0,082
TENVE_N 0,150 -0,406 -0,291 -0,526 -0,279 -0,020 0,020 -0,431
FUND15_N 0,342 0,013 -0,144 -0,165 -0,120 -0,058 -0,209 0,494
MED18_N 0,346 0,021 -0,129 -0,211 -0,090 -0,108 -0,138 0,455
RENDA_N 0,349 0,232 0,016 -0,105 -0,011 -0,076 0,039 -0,035
RENDOM_N 0,044 -0,269 0,250 -0,348 0,766 -0,385 -0,035 0,012
EMPCREG_N 0,299 0,267 0,137 0,274 0,187 -0,066 0,145 -0,075
EMPSREG_NP 0,240 0,351 -0,015 0,041 -0,136 -0,523 0,327 -0,334
CÁGUA_N 0,295 0,055 0,041 0,206 0,252 0,403 -0,337 -0,121
CLUZ_N 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017
AESGINAD_NP 0,319 -0,055 -0,124 -0,012 0,183 0,351 -0,147 -0,412
SLUZ_NP 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017
PORURAL_N -0,157 0,231 0,486 -0,171 -0,269 -0,211 -0,688 -0,214
POURB_N 0,048 0,249 0,511 -0,507 -0,069 0,465 0,411 0,085
Variable PC9 PC10 PC11 PC12 PC13 PC14
EVIDA_N -0,650 -0,349 -0,073 0,441 0,262 0,000
TENVE_N 0,064 0,040 0,414 0,086 -0,054 0,000
FUND15_N 0,174 0,135 -0,172 0,376 -0,556 -0,000
MED18_N 0,155 0,154 0,063 -0,313 0,650 0,000
RENDA_N -0,271 -0,238 0,084 -0,696 -0,428 -0,000
RENDOM_N -0,001 -0,051 -0,037 0,041 -0,016 -0,000
EMPCREG_N -0,107 0,573 0,560 0,157 -0,043 0,000
EMPSREG_NP 0,449 -0,143 -0,253 0,121 0,079 -0,000
94
CÁGUA_N 0,474 -0,453 0,278 0,062 0,028 -0,000
CLUZ_N -0,046 -0,047 -0,062 -0,003 0,015 0,707
AESGINAD_NP -0,013 0,444 -0,563 -0,125 0,037 0,000
SLUZ_NP -0,046 -0,047 -0,062 -0,003 0,015 -0,707
PORURAL_N 0,009 0,141 0,017 -0,017 0,003 0,000
POURB_N 0,063 -0,017 -0,038 0,114 0,045 -0,000
Quadro 10: Variáveis com maior relevância no CP1 Variable PC1
EVIDA_N 0,334
TENVE_N 0,150
FUND15_N 0,342
MED18_N 0,346
RENDA_N 0,349
RENDOM_N 0,044
EMPCREG_N 0,299
EMPSREG_NP 0,240
CÁGUA_N 0,295
CLUZ_N 0,267
AESGINAD_NP 0,319
SLUZ_NP 0,267
PORURAL_N -0,157
POURB_N 0,048
Fonte: Minitab 16, adaptado pelo autor
Portanto, as variáveis normalizadas e positivadas escolhidas para este estudo foram :
Quadro 11: Variáveis com maior relevância no CP1 para análise EVIDA_N 0,334
FUND15_N 0,342
MED18_N 0,346
RENDA_N 0,349
AESGINAD_NP 0,319
Fonte: Minitab 16, adaptado pelo autor
Criando a nova base de dados com as médias por Estado
One-way ANOVA: EVIDA_N versus UF Source DF SS MS F P
UF 26 147,8366 5,6860 409,75 0,000
Error 5538 76,8498 0,0139
Total 5564 224,6863
S = 0,1178 R-Sq = 65,80% R-Sq(adj) = 65,64%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
Acre 22 0,4267 0,1243 (-*-)
Alagoas 102 0,3049 0,1457 (*)
Amapá 16 0,5044 0,0891 (-*-)
Amazonas 62 0,4216 0,1196 (*)
95
Bahia 417 0,3951 0,1356 (*
Brasilia 1 0,9033 * (--------*--------)
Ceará 184 0,4029 0,0993 (*)
Esp. Santo 78 0,6924 0,0784 (*)
Góias 246 0,6914 0,0705 (*
Maranhão 217 0,3097 0,1264 *)
Mato Grosso 141 0,6547 0,0810 (*)
MG do Sul 78 0,6733 0,1079 (*)
Minas Gerais 853 0,6840 0,1342 *)
Pará 143 0,4621 0,0955 *)
Paraíba 223 0,3777 0,1378 (*)
Paraná 399 0,6690 0,0943 (*
Pernambuco 185 0,3774 0,1576 (*)
Piaui 224 0,3500 0,1261 (*)
RG do Sul 496 0,7587 0,1003 *)
Rio de Janeiro 92 0,6491 0,0816 (*)
RN do Norte 167 0,4093 0,1192 *)
Rondônia 52 0,5266 0,1099 (*)
Roraima 15 0,5685 0,0690 (--*-)
São Paulo 645 0,7387 0,0987 (*
Sergipe 75 0,3782 0,1274 (*)
Sta Catarina 293 0,7880 0,1319 (*
Tocantins 139 0,5308 0,1547 (*)
---------+---------+---------+---------+
0,50 0,75 1,00 1,25
Pooled StDev = 0,1178
Boxplot of EVIDA_N
One-way ANOVA: FUND15_N versus UF Source DF SS MS F P
UF 26 103,9806 3,9993 360,41 0,000
Error 5538 61,4522 0,0111
Total 5564 165,4327
S = 0,1053 R-Sq = 62,85% R-Sq(adj) = 62,68%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
Acre 22 0,3787 0,1324 (--*-)
Alagoas 102 0,2928 0,0898 (*-)
Amapá 16 0,4213 0,0982 (--*---)
Amazonas 62 0,2856 0,1098 (-*)
Bahia 417 0,3733 0,0986 *)
Brasilia 1 0,6609 * (------------*------------)
Ceará 184 0,5340 0,0895 (*)
Esp. Santo 78 0,5980 0,0860 (*-)
Góias 246 0,6084 0,1100 (*)
Maranhão 217 0,3888 0,1132 (*)
Mato Grosso 141 0,5720 0,1100 (*)
MG do Sul 78 0,4896 0,0798 (-*)
Minas Gerais 853 0,5602 0,1135 *
Pará 143 0,2974 0,1115 (*)
Paraíba 223 0,3707 0,1069 (*)
Paraná 399 0,6492 0,1055 (*
Pernambuco 185 0,3881 0,0970 (*)
Piaui 224 0,3527 0,1147 (*)
RG do Sul 496 0,6492 0,1204 (*
Rio de Janeiro 92 0,5027 0,0811 (*-)
RN do Norte 167 0,4025 0,1128 (*)
Rondônia 52 0,4898 0,0863 (-*)
Roraima 15 0,4122 0,1203 (---*--)
São Paulo 645 0,7315 0,0924 (*
Sergipe 75 0,3231 0,0771 (*-)
Sta Catarina 293 0,6822 0,0952 (*
96
Tocantins 139 0,5000 0,1194 (*)
----+---------+---------+---------+-----
0,32 0,48 0,64 0,80
Pooled StDev = 0,1053
One-way ANOVA: MED18_N versus UF Source DF SS MS F P
UF 26 88,3997 3,4000 265,34 0,000
Error 5538 70,9625 0,0128
Total 5564 159,3622
S = 0,1132 R-Sq = 55,47% R-Sq(adj) = 55,26%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
Acre 22 0,2157 0,1047 (--*-)
Alagoas 102 0,1853 0,0768 (*)
Amapá 16 0,2511 0,0986 (--*-)
Amazonas 62 0,1869 0,0853 (*-)
Bahia 417 0,2643 0,0881 *)
Brasilia 1 0,5988 * (----------*----------)
Ceará 184 0,3587 0,0841 (*)
Esp. Santo 78 0,4529 0,0966 (-*)
Góias 246 0,4562 0,1194 (*)
Maranhão 217 0,2339 0,0967 (*
Mato Grosso 141 0,4078 0,1075 (*)
MG do Sul 78 0,3673 0,1035 (*-)
Minas Gerais 853 0,4004 0,1183 *
Pará 143 0,1765 0,0903 (*)
Paraíba 223 0,2841 0,1016 (*)
Paraná 399 0,5027 0,1262 *)
Pernambuco 185 0,2720 0,0916 (*
Piaui 224 0,2244 0,0951 (*)
RG do Sul 496 0,5086 0,1478 *)
Rio de Janeiro 92 0,4461 0,0854 (*)
RN do Norte 167 0,3123 0,1039 (*
Rondônia 52 0,3407 0,1053 (-*-)
Roraima 15 0,2935 0,1159 (--*--)
São Paulo 645 0,5903 0,1243 (*
Sergipe 75 0,2433 0,0848 (*)
Sta Catarina 293 0,5556 0,1296 (*
Tocantins 139 0,3425 0,1096 (*)
--+---------+---------+---------+-------
0,20 0,40 0,60 0,80
Pooled StDev = 0,1132
One-way ANOVA: RENDA_N versus UF
Source DF SS MS F P
UF 26 51,54788 1,98261 311,30 0,000
Error 5538 35,27044 0,00637
Total 5564 86,81832
S = 0,07980 R-Sq = 59,37% R-Sq(adj) = 59,18%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Acre 22 0,11782 0,06561 (-*)
Alagoas 102 0,07957 0,04063 *)
Amapá 16 0,15410 0,06830 (*-)
Amazonas 62 0,07964 0,05045 (*)
97
Bahia 417 0,10389 0,05234 *
Brasilia 1 0,83125 * (-----*------)
Ceará 184 0,08800 0,03920 (*
Esp. Santo 78 0,24630 0,10448 (*)
Góias 246 0,24984 0,07613 *
Maranhão 217 0,06963 0,04627 (*
Mato Grosso 141 0,24828 0,08512 (*
MG do Sul 78 0,25699 0,07552 *)
Minas Gerais 853 0,20249 0,08887 *
Pará 143 0,10542 0,06123 *)
Paraíba 223 0,09299 0,04728 (*
Paraná 399 0,26391 0,07717 (*
Pernambuco 185 0,10459 0,06033 *)
Piaui 224 0,07863 0,03903 *)
RG do Sul 496 0,33201 0,10680 *)
Rio de Janeiro 92 0,29256 0,11173 (*
RN do Norte 167 0,10832 0,05081 *)
Rondônia 52 0,20410 0,06326 (*)
Roraima 15 0,11713 0,08286 (-*)
São Paulo 645 0,31717 0,10136 (*
Sergipe 75 0,10532 0,05442 (*)
Sta Catarina 293 0,34440 0,10255 (*
Tocantins 139 0,14339 0,06787 (*
--------+---------+---------+---------+-
0,25 0,50 0,75 1,00
Pooled StDev = 0,07980
One-way ANOVA: AESGINAD_NP versus UF Source DF SS MS F P
UF 26 75,2167 2,8930 316,24 0,000
Error 5538 50,6622 0,0091
Total 5564 125,8789
S = 0,09565 R-Sq = 59,75% R-Sq(adj) = 59,56%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
Acre 22 0,5912 0,1339 (-*-)
Alagoas 102 0,7628 0,1761 (*)
Amapá 16 0,6018 0,1521 (-*-)
Amazonas 62 0,5595 0,1748 (*)
Bahia 417 0,8329 0,1078 (*
Brasilia 1 0,9916 * (---------*--------)
Ceará 184 0,7948 0,1165 (*
Esp. Santo 78 0,9841 0,0203 (*)
Góias 246 0,9626 0,0401 *)
Maranhão 217 0,6525 0,1838 (*
Mato Grosso 141 0,9191 0,0797 (*)
MG do Sul 78 0,9327 0,0903 (*)
Minas Gerais 853 0,9602 0,0604 *
Pará 143 0,5443 0,1889 (*)
Paraíba 223 0,7720 0,1614 (*
Paraná 399 0,9818 0,0274 *)
Pernambuco 185 0,7851 0,1394 *)
Piaui 224 0,8777 0,1196 (*)
RG do Sul 496 0,9810 0,0375 *
Rio de Janeiro 92 0,9722 0,0315 (*)
RN do Norte 167 0,7986 0,1377 (*)
Rondônia 52 0,8671 0,0924 (*-)
Roraima 15 0,7223 0,1331 (-*--)
São Paulo 645 0,9910 0,0174 (*
Sergipe 75 0,8127 0,1181 (*)
Sta Catarina 293 0,9833 0,0314 *)
Tocantins 139 0,8758 0,0943 (*)
----+---------+---------+---------+-----
0,60 0,80 1,00 1,20
98
Pooled StDev = 0,0956
9.2 Nova base de dados considerada com as médias por estado
Quadro 12: Base de dados com as médias por Estado
MeanEVIDA MeanFUND15 MeanMED18 MeanRENDA
MeanAESFINAD UF ESTADOS
0,4267 0,3787 0,2157 0,11782
0,5912 Acre
0,3049 0,2928 0,1853 0,07957
0,7628 Alagoas
0,5044 0,4213 0,2511 0,1541
0,6018 Amapá
0,4216 0,2856 0,1869 0,07964
0,5595 Amazonas
0,3951 0,3733 0,2643 0,10389
0,8329 Bahia
0,9033 0,6609 0,5988 0,83125
0,9916 Brasilia
0,4029 0,534 0,3587 0,088
0,7948 Ceará
0,6924 0,598 0,4529 0,2463
0,9841 Esp. Santo
0,6914 0,6084 0,4562 0,24984
0,9626 Góias
0,3097 0,3888 0,2339 0,06963
0,6525 Maranhão
0,6547 0,572 0,4078 0,24828
0,9191 Mato Grosso
0,6733 0,4896 0,3673 0,25699
0,9327 MG do Sul
0,684 0,5602 0,4004 0,20249
0,9602 Minas Gerais
0,4621 0,2974 0,1765 0,10542
0,5443 Pará
0,3777 0,3707 0,2841 0,09299
0,772 Paraíba
0,669 0,6492 0,5027 0,26391
0,9818 Paraná
0,3774 0,3881 0,272 0,10459
0,7851 Pernambuco
0,35 0,3527 0,2244 0,07863
0,8777 Piaui
0,7587 0,6492 0,5086 0,33201
0,981 RG do Sul
0,6491 0,5027 0,4461 0,29256
0,9722 Rio de Janeiro
0,4093 0,4025 0,3123 0,10832
0,7986 RN do Norte
0,5266 0,4898 0,3407 0,2041
0,8671 Rondônia
0,5685 0,4122 0,2935 0,11713
0,7223 Roraima
0,7387 0,7315 0,5903 0,31717
0,991 São Paulo
0,3782 0,3231 0,2433 0,10532
0,8127 Sergipe
0,788 0,6822 0,5556 0,3444
0,9833 Sta Catarina
0,5308 0,5 0,3425 0,14339
0,8758 Tocantins
Fonte: Minitab 16, adaptado pelo autor
Determinar os clusters (com distribuição = 01)
STAT / MULTIVARIATE / CLUSTERS OBSERVATIONS
Variables: todas as 05 variáveis com as médias
Case: Estado
Linkage: Single
Distance: Euclidean
Cluster Analysis of Observations: MeanEVIDA; MeanFUND15; MeanMED18; ...
99
Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 26 97,8561 0,024389 8 9 8 2
2 25 97,5840 0,027485 15 17 15 2
3 24 95,3625 0,052757 4 14 4 2
4 23 95,2851 0,053637 5 15 5 3
5 22 95,1492 0,055184 5 21 5 4
6 21 94,6844 0,060471 5 25 5 5
7 20 94,5201 0,062340 22 27 22 2
8 19 94,2256 0,065691 19 26 19 2
9 18 93,8856 0,069559 11 13 11 2
10 17 93,8498 0,069966 8 16 8 3
11 16 92,8073 0,081826 5 18 5 6
12 15 92,7801 0,082135 8 11 8 5
13 14 92,7163 0,082860 19 24 19 3
14 13 91,6438 0,095062 8 12 8 6
15 12 91,3015 0,098955 8 20 8 7
16 11 90,9781 0,102634 1 3 1 2
17 10 90,4704 0,108411 1 4 1 4
18 9 90,0864 0,112779 8 19 8 10
19 8 90,0518 0,113173 2 5 2 7
20 7 87,5956 0,141115 2 7 2 8
21 6 87,5060 0,142135 1 10 1 5
22 5 86,9986 0,147907 1 23 1 6
23 4 86,8740 0,149324 1 2 1 14
24 3 85,4479 0,165547 1 22 1 16
25 2 84,9459 0,171258 1 8 1 26
26 1 55,8113 0,502699 1 6 1 27
Final Partition
Number of clusters: 1
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 27 2,76451 0,286289 0,807029
Dendrogram
100
Bras
ilia
São
Paulo
Sta Ca
tarin
a
RG d
o Su
l
Rio
de Jan
eiro
MG d
o Su
l
Minas
Ger
ais
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
Cear
áPiau
i
Serg
ipe
RN do No
rte
Pern
ambu
co
Para
íba
Bahia
Alag
oas
Rora
ima
Mar
anhã
oPa
rá
Amaz
onas
Amap
áAc
re
55,81
70,54
85,27
100,00
Observations
Sim
ilari
ty
Medias
Gráfico 65: Dendograma das médias por Estado com 01 cluster
Fonte: Minitab 16
Determinar os clusters (com distribuição = 07)
STAT / MULTIVARIATE / CLUSTERS OBSERVATIONS
Variables: todas as 05 variáveis com as médias
Case: Estado
Linkage: Single
Distance: Euclidean
Cluster Analysis of Observations: MeanEVIDA; MeanFUND15; MeanMED18; ... Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 26 97,8561 0,024389 8 9 8 2
2 25 97,5840 0,027485 15 17 15 2
3 24 95,3625 0,052757 4 14 4 2
4 23 95,2851 0,053637 5 15 5 3
5 22 95,1492 0,055184 5 21 5 4
6 21 94,6844 0,060471 5 25 5 5
7 20 94,5201 0,062340 22 27 22 2
8 19 94,2256 0,065691 19 26 19 2
9 18 93,8856 0,069559 11 13 11 2
10 17 93,8498 0,069966 8 16 8 3
11 16 92,8073 0,081826 5 18 5 6
12 15 92,7801 0,082135 8 11 8 5
13 14 92,7163 0,082860 19 24 19 3
14 13 91,6438 0,095062 8 12 8 6
15 12 91,3015 0,098955 8 20 8 7
16 11 90,9781 0,102634 1 3 1 2
101
17 10 90,4704 0,108411 1 4 1 4
18 9 90,0864 0,112779 8 19 8 10
19 8 90,0518 0,113173 2 5 2 7
20 7 87,5956 0,141115 2 7 2 8
21 6 87,5060 0,142135 1 10 1 5
22 5 86,9986 0,147907 1 23 1 6
23 4 86,8740 0,149324 1 2 1 14
24 3 85,4479 0,165547 1 22 1 16
25 2 84,9459 0,171258 1 8 1 26
26 1 55,8113 0,502699 1 6 1 27
Final Partition
Number of clusters: 7
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 4 0,025541 0,076275 0,111915
Cluster2 8 0,074298 0,080661 0,181654
Cluster3 1 0,000000 0,000000 0,000000
Cluster4 10 0,139993 0,107429 0,186490
Cluster5 1 0,000000 0,000000 0,000000
Cluster6 2 0,001943 0,031170 0,031170
Cluster7 1 0,000000 0,000000 0,000000
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6
MeanEVIDA 0,453700 0,374437 0,90330 0,699930 0,30970 0,528700
MeanFUND15 0,345750 0,379650 0,66090 0,604300 0,38880 0,494900
MeanMED18 0,207550 0,268050 0,59880 0,468790 0,23390 0,341600
MeanRENDA 0,114245 0,095164 0,83125 0,275395 0,06963 0,173745
MeanAESFINAD 0,574200 0,804575 0,99160 0,966800 0,65250 0,871450
Grand
Variable Cluster7 centroid
MeanEVIDA 0,56850 0,542537
MeanFUND15 0,41220 0,478330
MeanMED18 0,29350 0,350811
MeanRENDA 0,11713 0,197694
MeanAESFINAD 0,72230 0,833730
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
Cluster1 0,00000 0,25403 1,06904 0,613048 0,17721 0,371131 0,216619
Cluster2 0,25403 0,00000 1,02225 0,505480 0,17094 0,230513 0,215915
Cluster3 1,06904 1,02225 0,00000 0,609143 1,12009 0,825095 0,921760
Cluster4 0,61305 0,50548 0,60914 0,000000 0,62850 0,277290 0,411984
Cluster5 0,17721 0,17094 1,12009 0,628504 0,00000 0,359995 0,279652
Cluster6 0,37113 0,23051 0,82510 0,277290 0,36000 0,000000 0,190231
Cluster7 0,21662 0,21591 0,92176 0,411984 0,27965 0,190231 0,000000
Dendrogram
102
Bras
ilia
São
Paulo
Sta Ca
tarin
a
RG d
o Su
l
Rio
de Jan
eiro
MG d
o Su
l
Minas
Ger
ais
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
Cear
áPiau
i
Serg
ipe
RN do No
rte
Pern
ambu
co
Para
íba
Bahia
Alag
oas
Rora
ima
Mar
anhã
oPa
rá
Amaz
onas
Amap
áAc
re
55,81
70,54
85,27
100,00
Observations
Sim
ilari
ty
Medias
Gráfico 66: Dendograma das médias por Estado com 07 clusteres
Fonte: Minitab 16
Determinar os clusters (com distribuição = 07)
STAT / MULTIVARIATE / CLUSTERS OBSERVATIONS
Variables: todas as 05 variáveis com as médias
Case: Estado
Linkage: Centroid
Distance: Manhathan
Utilizando Linkage = Centroid e Distance = Manhathan
Cluster Analysis of Observations: MeanEVIDA; MeanFUND15; MeanMED18; ... Manhattan Distance, Centroid Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 26 98,3797 0,03974 8 9 8 2
2 25 97,7779 0,05450 15 17 15 2
3 24 96,5094 0,08561 22 27 22 2
4 23 96,4721 0,08653 5 15 5 3
5 22 96,1598 0,09419 5 21 5 4
6 21 95,7727 0,10368 4 14 4 2
7 20 95,7645 0,10388 5 25 5 5
8 19 94,9446 0,12399 19 26 19 2
9 18 94,5485 0,13370 8 16 8 3
10 17 94,4798 0,13539 11 13 11 2
11 16 94,5442 0,13381 8 11 8 5
12 15 93,5767 0,15754 19 24 19 3
13 14 93,5684 0,15774 8 20 8 6
14 13 93,3675 0,16267 8 12 8 7
103
15 12 92,9415 0,17312 5 18 5 6
16 11 92,6560 0,18012 1 4 1 3
17 10 90,2284 0,23966 2 5 2 7
18 9 90,5842 0,23093 2 10 2 8
19 8 89,4385 0,25903 1 3 1 4
20 7 89,6640 0,25350 1 2 1 12
21 6 89,1254 0,26671 1 23 1 13
22 5 88,2028 0,28934 8 19 8 10
23 4 87,5649 0,30498 1 7 1 14
24 3 84,3486 0,38387 1 22 1 16
25 2 68,8438 0,76414 1 8 1 26
26 1 47,0639 1,29832 1 6 1 27
Final Partition
Number of clusters: 7
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 12 0,237631 0,135298 0,203541
Cluster2 1 0,000000 0,000000 0,000000
Cluster3 1 0,000000 0,000000 0,000000
Cluster4 7 0,041279 0,072593 0,109567
Cluster5 3 0,008450 0,050924 0,064767
Cluster6 2 0,001943 0,031170 0,031170
Cluster7 1 0,000000 0,000000 0,000000
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6
MeanEVIDA 0,393092 0,90330 0,4029 0,673414 0,761800 0,528700
MeanFUND15 0,356250 0,66090 0,5340 0,568586 0,687633 0,494900
MeanMED18 0,237483 0,59880 0,3587 0,433343 0,551500 0,341600
MeanRENDA 0,099993 0,83125 0,0880 0,251481 0,331193 0,173745
MeanAESFINAD 0,715925 0,99160 0,7948 0,958957 0,985100 0,871450
Grand
Variable Cluster7 centroid
MeanEVIDA 0,56850 0,542537
MeanFUND15 0,41220 0,478330
MeanMED18 0,29350 0,350811
MeanRENDA 0,11713 0,197694
MeanAESFINAD 0,72230 0,833730
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
Cluster1 0,00000 1,04614 0,229673 0,494006 0,685767 0,279430 0,193315
Cluster2 1,04614 0,00000 0,956714 0,652643 0,522564 0,825095 0,921760
Cluster3 0,22967 0,95671 0,000000 0,365540 0,533799 0,175711 0,229378
Cluster4 0,49401 0,65264 0,365540 0,000000 0,207323 0,220202 0,359272
Cluster5 0,68577 0,52256 0,533799 0,207323 0,000000 0,416228 0,542844
Cluster6 0,27943 0,82510 0,175711 0,220202 0,416228 0,000000 0,190231
Cluster7 0,19331 0,92176 0,229378 0,359272 0,542844 0,190231 0,000000
Dendrogram
104
Bras
ilia
São
Paulo
Sta Ca
tarin
a
RG d
o Su
l
MG d
o Su
l
Rio
de Jan
eiro
Minas
Ger
ais
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
Cear
á
Rora
ima
Mar
anhã
oPiau
i
Serg
ipe
RN d
o No
rte
Pern
ambu
co
Para
íba
Bahia
Alag
oas
Amap
áPa
rá
Amaz
onas
Acre
47,06
64,71
82,35
100,00
Observations
Sim
ilari
ty
Medias
Gráfico 67: Dendograma das médias por Estado com 07 cluster observation
Fonte: Minitab 16
Analisando os gráficos, mesmo a distribuição com 01 cluster, ou a distribuição com 07 clusters
utilizando linkages e distances diferentes, praticamente não há alteração na distribuição dos grupos e
similaridade entre os Estados.
Quando a linkage= single e a distance=euclidean, tanto na distribuição de cluster= 01 quanto
na distribuição de cluster= 07, as similaridades estão entre:
Acre a Amapá
Amazonas e Pará
Paraíba e Pernambuco
Rondônia e Tocantis
Espírito Santo e Góias
Mato Grosso e Minas Gerais
Rio Grande do Sul e Santa Catarina
Quando a linkage= Centroid e a distance=Manhatan, somente utilizada na distribuição de
cluster= 07, as similaridades estão entre:
Amazonas e Pará
Paraíba e Pernambuco
Rondônia e Tocantis
105
Espírito Santo e Góias
Rio Grande do Sul e Santa Catarina
Diminuindo, assim, o número de agrupamentos. Em todas as 03 análises o nível de
similaridade está acima de 85%, conforme indicado na escala apresentada no eixo Y do gráfico.
Gerando nova coluna por estado e grupo.
Com o objetivo de demonstrar no mapa o grau de similaridade entre os Estados no que diz
respeito ao estudo das médias das 05 variáveis estudadas, utilizou-se:
Variables: todas as 05 variáveis com as médias
Case: Estado
Linkage: Single
Distance: Euclidean
Storage: nova coluna de dados
Quadro 13: Distribuição dos Estados em 03 novos clusteres
UF ESTADOS Cluster Observation UF ESTADOS Cluster Observation
Acre 1 Paraíba 2
Alagoas 2 Paraná 4
Amapá 1 Pernambuco 2
Amazonas 1 Piaui 2
Bahia 2 RG do Sul 4
Brasilia 3 Rio de Janeiro 4
Ceará 2 RN do Norte 2
Esp. Santo 4 Rondônia 6
Góias 4 Roraima 7
Maranhão 5 São Paulo 4
Mato Grosso 4 Sergipe 2
MG do Sul 4 Sta Catarina 4
Minas Gerais 4 Tocantins 6
Pará 1 Fonte: Elaborado pelo autor
9.3 Distribuição no mapa do Brasil
106
Figura 02: Mapa do Brasil com a formação dos 03 clusteres
Fonte: Elaborado pelo autor
Com o objetivo de averiguar o quanto o distrito federal (Brasilia) interfere nesta análise, rodar-
se-á um novo Dendograma e distribuição no cluster sem considerar os resultados dessa cidade, a
saber:
Cluster Analysis of Observations: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;
MAESIsBR Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 25 97,0947 0,024389 7 8 7 2
2 24 96,7259 0,027485 14 16 14 2
3 23 93,7155 0,052757 4 13 4 2
4 22 93,6106 0,053637 5 14 5 3
5 21 93,4264 0,055184 5 20 5 4
6 20 92,7966 0,060471 5 24 5 5
7 19 92,5739 0,062340 21 26 21 2
8 18 92,1748 0,065691 18 25 18 2
9 17 91,7140 0,069559 10 12 10 2
10 16 91,6655 0,069966 7 15 7 3
11 15 90,2528 0,081826 5 17 5 6
12 14 90,2159 0,082135 7 10 7 5
13 13 90,1295 0,082860 18 23 18 3
14 12 88,6761 0,095062 7 11 7 6
15 11 88,2123 0,098955 7 19 7 7
16 10 87,7740 0,102634 1 3 1 2
17 9 87,0860 0,108411 1 4 1 4
18 8 86,5656 0,112779 7 18 7 10
107
19 7 86,5187 0,113173 2 5 2 7
20 6 83,1901 0,141115 2 6 2 8
21 5 83,0687 0,142135 1 9 1 5
22 4 82,3811 0,147907 1 22 1 6
23 3 82,2123 0,149324 1 2 1 14
24 2 80,2797 0,165547 1 21 1 16
25 1 79,5995 0,171258 1 7 1 26
Final Partition
Number of clusters: 7
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 4 0,025541 0,076275 0,111915
Cluster2 7 0,036586 0,065816 0,124489
Cluster3 1 0,000000 0,000000 0,000000
Cluster4 10 0,139993 0,107429 0,186490
Cluster5 1 0,000000 0,000000 0,000000
Cluster6 2 0,001943 0,031170 0,031170
Cluster7 1 0,000000 0,000000 0,000000
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
MEVsBR 0,453700 0,370371 0,4029 0,699930 0,30970 0,528700 0,56850
MFUNsBR 0,345750 0,357600 0,5340 0,604300 0,38880 0,494900 0,41220
MMEDsBR 0,207550 0,255100 0,3587 0,468790 0,23390 0,341600 0,29350
MRENsBR 0,114245 0,096187 0,0880 0,275395 0,06963 0,173745 0,11713
MAESIsBR 0,574200 0,805971 0,7948 0,966800 0,65250 0,871450 0,72230
Grand
Variable centroid
MEVsBR 0,528662
MFUNsBR 0,471308
MMEDsBR 0,341273
MRENsBR 0,173327
MAESIsBR 0,827658
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
Cluster1 0,000000 0,251772 0,331991 0,613048 0,177215 0,371131 0,216619
Cluster2 0,251772 0,000000 0,207605 0,522604 0,171355 0,248403 0,226164
Cluster3 0,331991 0,207605 0,000000 0,412298 0,256770 0,175711 0,229378
Cluster4 0,613048 0,522604 0,412298 0,000000 0,628504 0,277290 0,411984
Cluster5 0,177215 0,171355 0,256770 0,628504 0,000000 0,359995 0,279652
Cluster6 0,371131 0,248403 0,175711 0,277290 0,359995 0,000000 0,190231
Cluster7 0,216619 0,226164 0,229378 0,411984 0,279652 0,190231 0,000000
Dendrogram
108
São
Paulo
Sta Ca
tarin
a
RG do
Sul
Rio
de Jan
eiro
MG do
Sul
Minas
Ger
a is
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
Cear
áPiau
i
Serg
ipe
RN do No
rte
Pern
ambu
co
Para
íba
Bahia
Alag
oas
Rora
ima
Mar
anhã
oPa
rá
Amaz
onas
Amap
áAc
re
79,60
86,40
93,20
100,00
Observations
Sim
ilari
ty
Medias
Gráfico 68: Dendograma das médias por Estado com 07 cluster - Centroids
Fonte: Minitab 16
As similaridades se mantém entre os estados a seguir, mas altera a distribuição e o percentual.
O que antes girara em torno de 85%, agora está por volta dos 90%. O Estado do Ceará teve o maior
reflexo dessa nova análise.
Acre a Amapá
Amazonas e Pará
Paraíba e Pernambuco
Rondônia e Tocantis
Espírito Santo e Góias
Mato Grosso e Minas Gerais
Rio Grande do Sul e Santa Catarina
109
Quadro 14: Nova distribuição dos Estados pelos clusteres sem Brasilia
UF ESTADOS Cluster Observation UF ESTADOS Cluster Observation
Acre 1 Paraíba 2
Alagoas 2 Paraná 4
Amapá 1 Pernambuco 2
Amazonas 1 Piaui 2
Bahia 2 RG do Sul 4
Ceará 3 Rio de Janeiro 4
Esp. Santo 4 RN do Norte 2
Góias 4 Rondônia 6
Maranhão 5 Roraima 7
Mato Grosso 4 São Paulo 4
MG do Sul 4 Sergipe 2
Minas Gerais 4 Sta Catarina 4
Pará 1 Tocantins 6 Fonte: Elaborado pelo autor
9.4 O novo mapa dos clusters
Figura 03: Mapa do Brasil com a formação dos 03 clusteres sem Brasilia
Fonte: Elaborado pelo autor
Não houve alteração significativa com a exclusão de Brasília, passando o estado do Ceará a
ficar sem similaridade no cluster, assim como Maranhão e Roraima.
Considerações: Dada a similaridade dentre os Estados, tanto pela análise dos dendogramas,
como pela análise do mapa geográfico, como os focos de estudo são as média das variáveis utilizadas
de maior expressão quando da análise dos componentes principais, a saber: EVIDA, FUND15,
MEDIO18, RENDA E AESGINAD, fica evidente que mesmo com o parâmetro utilizado de sete
clusters, há um recorte de duas grandezas: o Brasil do Norte e Nordeste, com indicadores mais baixos,
e um Brasil do Centro, Sul e Sudeste, com indicadores mais altos.
110
Esta análise corrobora com as análises anteriores sinalizando, infelizmente, “DOIS BRASIS”.
Dois Estados que carecem de uma análise mais detalhada são Roraima e Maranhão, pois na
distribuição proposta não apresentam similaridade com os outros estados.
10.ANÁLISE DISCRIMINANTE
Tem por objetivo efetuar a análise discrimiante de dados dimensionadores do IDHM,
Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises fazemos as considerações finais, com
a distribuição demonstrada no mapa do Brasil, considerados os Estados correlacionados. O software
estatístico utilizado é o MINITAB
O primeiro passo para esta análise foi resgatar a base de dados utilizada no trabalho anterior,
ou seja, análise de conglomerados, e as variáveis naquele nesse estudo consideradas e suas médias
por Estado, a seguir, reforçando que já foram normalizadas e no caso da agua_esgoto, positivada.
Resgatando as variáveis
T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a população total multiplicado por 100.
Variável Quantitativa
Percentual
T_FUND15A17 Percentual da população de 15 a 17 anos com fundamental completo
Razão entre a população de 15 a 17 anos de idade que concluiu o ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
T_MED18a20 Percentual da população de 18 a 20 anos de idade com o ensino médio completo
Razão entre a população de 18 a 20 anos de idade que já concluiu o ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.
Variável Quantitativa
Percentual
RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Variável Quantitativa
Absoluto
AGUA_ESGOTO Percentual de pessoas em domicílios com abastecimento de água e esgotamento sanitário inadequados
Razão entre as pessoas que vivem em domicílios cujo abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios particulares permanentes, multiplicada por 100. São considerados apenas os domicílios particulares permanentes.
Variável Quantitativa
Percentual
O Dendograma base desse estudo apresentou as características a seguir, reforçando que foram
excluídos desta análise, os dados referentes ao Distrito Federal, Brasília.
Cluster Analysis of Observations: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;
MAESIsBR Euclidean Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 25 97,0947 0,024389 7 8 7 2
2 24 96,7259 0,027485 14 16 14 2
111
3 23 93,7155 0,052757 4 13 4 2
4 22 93,6106 0,053637 5 14 5 3
5 21 93,4264 0,055184 5 20 5 4
6 20 92,7966 0,060471 5 24 5 5
7 19 92,5739 0,062340 21 26 21 2
8 18 92,1748 0,065691 18 25 18 2
9 17 91,7140 0,069559 10 12 10 2
10 16 91,6655 0,069966 7 15 7 3
11 15 90,2528 0,081826 5 17 5 6
12 14 90,2159 0,082135 7 10 7 5
13 13 90,1295 0,082860 18 23 18 3
14 12 88,6761 0,095062 7 11 7 6
15 11 88,2123 0,098955 7 19 7 7
16 10 87,7740 0,102634 1 3 1 2
17 9 87,0860 0,108411 1 4 1 4
18 8 86,5656 0,112779 7 18 7 10
19 7 86,5187 0,113173 2 5 2 7
20 6 83,1901 0,141115 2 6 2 8
21 5 83,0687 0,142135 1 9 1 5
22 4 82,3811 0,147907 1 22 1 6
23 3 82,2123 0,149324 1 2 1 14
24 2 80,2797 0,165547 1 21 1 16
25 1 79,5995 0,171258 1 7 1 26
Final Partition
Number of clusters: 7
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 4 0,025541 0,076275 0,111915
Cluster2 7 0,036586 0,065816 0,124489
Cluster3 1 0,000000 0,000000 0,000000
Cluster4 10 0,139993 0,107429 0,186490
Cluster5 1 0,000000 0,000000 0,000000
Cluster6 2 0,001943 0,031170 0,031170
Cluster7 1 0,000000 0,000000 0,000000
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
MEVsBR 0,453700 0,370371 0,4029 0,699930 0,30970 0,528700 0,56850
MFUNsBR 0,345750 0,357600 0,5340 0,604300 0,38880 0,494900 0,41220
MMEDsBR 0,207550 0,255100 0,3587 0,468790 0,23390 0,341600 0,29350
MRENsBR 0,114245 0,096187 0,0880 0,275395 0,06963 0,173745 0,11713
MAESIsBR 0,574200 0,805971 0,7948 0,966800 0,65250 0,871450 0,72230
Grand
Variable centroid
MEVsBR 0,528662
MFUNsBR 0,471308
MMEDsBR 0,341273
MRENsBR 0,173327
MAESIsBR 0,827658
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
Cluster1 0,000000 0,251772 0,331991 0,613048 0,177215 0,371131 0,216619
Cluster2 0,251772 0,000000 0,207605 0,522604 0,171355 0,248403 0,226164
Cluster3 0,331991 0,207605 0,000000 0,412298 0,256770 0,175711 0,229378
Cluster4 0,613048 0,522604 0,412298 0,000000 0,628504 0,277290 0,411984
Cluster5 0,177215 0,171355 0,256770 0,628504 0,000000 0,359995 0,279652
Cluster6 0,371131 0,248403 0,175711 0,277290 0,359995 0,000000 0,190231
Cluster7 0,216619 0,226164 0,229378 0,411984 0,279652 0,190231 0,000000
112
Resgatando o Dendograma anterior
São
Paulo
Sta Ca
tarin
a
RG do
Sul
Rio
de Jan
eiro
MG do
Sul
Minas
Ger
a is
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
Cear
áPiau
i
Serg
ipe
RN do No
rte
Pern
ambu
co
Para
íba
Bahia
Alag
oas
Rora
ima
Mar
anhã
oPa
rá
Amaz
onas
Amap
áAc
re
79,60
86,40
93,20
100,00
Observations
Sim
ilari
tyMedias
Observa-se que as similaridades entre os Estados na distribuição com os 07 clusters está por
volta dos 90%.
O Estado do Ceará teve o maior reflexo dessa nova análise (com a exclusão de Brasília)
Acre a Amapá
Amazonas e Pará
Paraíba e Pernambuco
Rondônia e Tocantis
Espírito Santo e Góias
Mato Grosso e Minas Gerais
Rio Grande do Sul e Santa Catarina
Para análise discriminante, o objetivo proposto foi trabalhar com 03 clusters, cabendo ao autor
a construção das novas similaridades.
O primeiro passo foi determinar com os 03 clusters principais que permaneceriam na análise,
sendo que o critério estabelecido foi a escolha do que já continham o maior número de observações.
Vejamos um recorte da distribuição anterior:
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 4 0,025541 0,076275 0,111915
Cluster2 7 0,036586 0,065816 0,124489
Cluster3 1 0,000000 0,000000 0,000000
113
Cluster4 10 0,139993 0,107429 0,186490
Cluster5 1 0,000000 0,000000 0,000000
Cluster6 2 0,001943 0,031170 0,031170
Cluster7 1 0,000000 0,000000 0,000000
Respeitado os critérios estabelecidos, os clusters escolhidos foram os clusters 01, 02 e 04.
O próximo passo é associar os clusters eliminados com os clusters escolhidos e o critério
adotado foi as menores distâncias entre eles.
Clusters a serem associados
CLUSTER 3, COM 01 COMPONENTE DE OBSERVAÇÃO
CLUSTER 5, COM 01 COMPONENTE DE OBSERVAÇÃO
CLUSTER 6, COM 02 COMPONENTES DE OBSERVAÇÃO
CLUSTER 7, COM 01 COMPONENTE DE OBSERVAÇÃO
10.1 Busca de proximidade de distância
Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7
Cluster1 0,000000 0,251772 0,331991 0,613048 0,177215 0,371131 0,216619
Cluster2 0,251772 0,000000 0,207605 0,522604 0,171355 0,248403 0,226164
Cluster3 0,331991 0,207605 0,000000 0,412298 0,256770 0,175711 0,229378
Cluster4 0,613048 0,522604 0,412298 0,000000 0,628504 0,277290 0,411984
Cluster5 0,177215 0,171355 0,256770 0,628504 0,000000 0,359995 0,279652
Cluster6 0,371131 0,248403 0,175711 0,277290 0,359995 0,000000 0,190231
Cluster7 0,216619 0,226164 0,229378 0,411984 0,279652 0,190231 0,000000
Cluster 03 tem maior proximidade, dentre os clusters considerados, com o cluster 2
Cluster 05 tem maior proximidade, dentre os clusters considerados, com o cluster 2
Cluster 06 tem maior proximidade, dentre os clusters considerados, com o cluster 2
Cluster 07 tem maior proximidade, dentre os clusters considerados, com o cluster 1
Discriminant Analysis: AnDisc versus MEVsBR; MFUNsBR; ...
Linear Method for Response: AnDisc
Predictors: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR; MAESIsBR
Group 1 2 4
Count 5 11 10
Summary of classification
True Group
Put into Group 1 2 4
1 5 0 0
2 0 11 0
4 0 0 10
Total N 5 11 10
N correct 5 11 10
Proportion 1,000 1,000 1,000
114
N = 26 N Correct = 26 Proportion Correct = 1,000
Squared Distance Between Groups
1 2 4
1 0,0000 54,0367 60,0787
2 54,0367 0,0000 26,2981
4 60,0787 26,2981 0,0000
Linear Discriminant Function for Groups
1 2 4
Constant -80,36 -144,66 -179,87
MEVsBR 42,73 -167,44 -82,32
MFUNsBR 158,22 219,70 204,26
MMEDsBR -238,04 -245,92 -257,69
MRENsBR -34,50 44,66 87,74
MAESIsBR 233,51 412,50 403,98
Percebe-se que, com a nova distribuição, o percentual de acerto (proportion= 1,000) entre os
novos clusters definidos é de 100%
O próximo passo é elaborar o novo Dendograma para verificar como fica a distribuição por
Estados.
Construção Do Novo Dendograma Com 3 Clusters:
Cluster Analysis of Observations: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;
MAESIsBR
Manhattan Distance, Complete Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 25 97,8348 0,03974 7 8 7 2
2 24 97,0307 0,05450 14 16 14 2
3 23 95,3357 0,08561 21 26 21 2
4 22 94,3512 0,10368 4 13 4 2
5 21 94,0216 0,10973 5 24 5 2
6 20 93,2446 0,12399 18 25 18 2
7 19 92,7249 0,13353 14 20 14 3
8 18 92,6235 0,13539 10 12 10 2
9 17 92,1375 0,14431 7 15 7 3
10 16 90,4295 0,17566 5 17 5 3
11 15 89,5845 0,19117 11 19 11 2
12 14 88,9628 0,20258 1 3 1 2
13 13 88,6217 0,20884 18 23 18 3
14 12 86,9148 0,24017 10 11 10 4
15 11 85,3092 0,26964 2 9 2 2
16 10 84,1514 0,29089 6 14 6 4
17 9 81,1510 0,34596 2 5 2 5
18 8 80,6410 0,35532 7 10 7 7
19 7 79,0300 0,38489 1 22 1 3
20 6 71,0798 0,53081 6 21 6 6
21 5 68,6455 0,57549 2 4 2 7
22 4 65,7121 0,62933 1 2 1 10
23 3 64,6524 0,64878 7 18 7 10
24 2 51,2343 0,89506 1 6 1 16
115
25 1 0,0000 1,83543 1 7 1 26
Final Partition
Number of clusters: 3
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 10 0,238199 0,152136 0,193578
Cluster2 6 0,074873 0,108755 0,139195
Cluster3 10 0,139993 0,107429 0,186490
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 centroid
MEVsBR 0,412120 0,437450 0,699930 0,528662
MFUNsBR 0,352590 0,447517 0,604300 0,471308
MMEDsBR 0,227490 0,318383 0,468790 0,341273
MRENsBR 0,101115 0,123565 0,275395 0,173327
MAESIsBR 0,695770 0,815567 0,966800 0,827658
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
Cluster1 0,000000 0,181024 0,555202
Cluster2 0,181024 0,000000 0,402521
Cluster3 0,555202 0,402521 0,000000
Dendogramas:
São
Paulo
Sta Ca
tarin
a
RG do
Sul
Rio
de Jan
eiro
MG do
Sul
Minas
Ger
a is
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
RN do No
rte
Pern
ambu
co
Para
íba
Cear
áPa
rá
Amaz
onas
Piau
i
Serg
ipe
Bahia
Mar
anhã
o
Alag
oas
Rora
ima
Amap
áAc
re
0,00
33,33
66,67
100,00
Observations
Sim
ilari
ty
Medias
Gráfico 69: Dendograma com cluster criados por proximidade
Fonte: Minitab 16
Os Estados, dentre as variáveis analisadas, como maior similaridade são:
116
Acre com Amapá; Alagoas com Maranhão; Bahia com Sergipe, Amazonas com Pará, Paraíba
com Pernambuco, Rondônia com Tocantins, Espírito Santo com Góias, Mato Grosso com Minas
Gerais, Mato Grosso do Sul com Rio de Janeiro, Rio Grande do Sul com Santa Catarina.
Quadro 15: Estados distribuídos por cluster / proximidade
UF ESTADOS Cluster Observation UF ESTADOS Cluster Observation
Acre 1 Paraíba 2
Alagoas 1 Paraná 3
Amapá 1 Pernambuco 2
Amazonas 1 Piaui 1
Bahia 1 RG do Sul 3
Ceará 2 Rio de Janeiro 3
Esp. Santo 3 RN do Norte 2
Góias 3 Rondônia 2
Maranhão 1 Roraima 1
Mato Grosso 3 São Paulo 3
MG do Sul 3 Sergipe 1
Minas Gerais 3 Sta Catarina 3
Pará 1 Tocantins 2 Fonte: Elaborado pelo autor
Figura 04: Mapa do Brasil com a formação dos 03 cluster por proximidade
Fonte: Elaborado pelo autor
117
Considerações: Percebeu-se que com a nova distribuição dos clusters baseada na menor
distância entre os clusters analisados, no início com 07, há mais estados em similaridades entre si, e
uma boa parte delas próximas ao percentual de 80%.
Observa-se, nitidamente, que há um recorte de 03 “BRASIS” diferentes, ficando todo NORTE
e NORDESTE distribuídos em 02 clusters e o terceiro ocupado, integralmente, pelas regiões SUL,
SUDESTE e CENTRO-OESTE
Isto sinaliza, pelas variáveis estudadas, que as questões sociais e econômicas interferem
diretamente nas condições de vida e pode demostrar um ineficácia nas questões de políticas públicas,
já que estamos falando de um único país.
Com o objetivo de subsidiar as próximas análises, a seguir a construção e demonstração pelos
BOXPLOTS, das ANOVAS das variáveis estudadas, obedecidas esta nova distribuição, abertas por
regiões.
• Variável: Expectativa de vida (dados normalizados)
One-way ANOVA: MEVsBR versus EST REG
Source DF SS MS F P
EST REG 4 0,51922 0,12981 40,02 0,000
Error 21 0,06811 0,00324
Total 25 0,58734
S = 0,05695 R-Sq = 88,40% R-Sq(adj) = 86,19%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
Centro-Oeste 3 0,67313 0,01835 (-----*-----)
Nordeste 8 0,37444 0,03363 (--*---)
Norte 8 0,46880 0,08259 (--*---)
Sudeste 4 0,69105 0,03689 (----*----)
Sul 3 0,73857 0,06200 (-----*----)
--+---------+---------+---------+-------
0,36 0,48 0,60 0,72
Pooled StDev = 0,05695
Boxplot of MEVsBR
118
SulSudesteNorteNordesteCentro-Oeste
0,8
0,7
0,6
0,5
0,4
0,3
EST REG
MEV
sB
R
Boxplot of MEVsBR
Gráfico 70: Boxplot Variável T_ENV Média Normalizada por Região
Fonte: Minitab 16
As relações não se alteraram em comparação com as análises anteriores, ou seja, a REGIÃO
SUL com os melhores indicadores e a região NORDESTE com os piores indicadores. Não nota-se
outliers nesta análise.
• Variável: Taxa conclusão do ensino fundamental, de 15 a 17(dados normalizados)
One-way ANOVA: MFUNsBR versus EST REG
Source DF SS MS F Pll
EST REG 4 0,30491 0,07623 13,89 0,000
Error 21 0,11525 0,00549
Total 25 0,42016
S = 0,07408 R-Sq = 72,57% R-Sq(adj) = 67,35%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
Centro-Oeste 3 0,55667 0,06087 (------*-------)
Nordeste 8 0,37965 0,07172 (----*---)
Norte 8 0,39673 0,07817 (---*----)
Sudeste 4 0,59810 0,09718 (------*-----)
Sul 3 0,66020 0,01905 (------*------)
---+---------+---------+---------+------
0,36 0,48 0,60 0,72
Pooled StDev = 0,07408
Boxplot of MFUNsBR
119
SulSudesteNorteNordesteCentro-Oeste
0,7
0,6
0,5
0,4
0,3
EST REG
MFU
NsB
R
Boxplot of MFUNsBR
Gráfico 71: Boxplot Variável T_FUND Média Normalizada por Região
Fonte: Minitab 16
Segue a mesma distribuição da análise anterior, com a região SUL apresentando as melhores
médias e a região nordeste as menores médias. Observa-se um grande dispersão entre os municípios
da região Norte porém com a média e mediana próximas, mas no eixo inferior, ou seja, abaixo da
média nacional. Essa mesma dispersão é encontrada na região SUL, mas no eixo superior, com
pequeno distanciamento entre a média e a mediana.
• Variável: Taxa conclusão do ensino médio, de 18 a 20(dados normalizados)
One-way ANOVA: MMEDsBR versus EST REG
Source DF SS MS F P
EST REG 4 0,28376 0,07094 19,89 0,000
Error 21 0,07491 0,00357
Total 25 0,35868
S = 0,05973 R-Sq = 79,11% R-Sq(adj) = 75,14%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
Centro-Oeste 3 0,41043 0,04451 (------*------)
Nordeste 8 0,26805 0,05322 (----*---)
Norte 8 0,25510 0,06468 (----*---)
Sudeste 4 0,47242 0,08197 (-----*-----)
Sul 3 0,52230 0,02899 (------*------)
---------+---------+---------+---------+
0,30 0,40 0,50 0,60
120
Pooled StDev = 0,05973
Boxplot of MMEDsBR
SulSudesteNorteNordesteCentro-Oeste
0,6
0,5
0,4
0,3
0,2
EST REG
MM
ED
sB
R
Boxplot of MMEDsBR
Gráfico 72: Boxplot Variável Ensino Médio Média Normalizada por Região
Fonte: Minitab 16
Segue a mesma distribuição da análise anterior, com a região SUL apresentando as melhores
médias e neste item, a região norte apresenta a menor média. Observa-se uma distribuição não
uniforme na região Sul, com uma concentração muito grande dos municípios entre a mediana e o
quartil superior. As outras regiões apresentam uma distribuição mais uniforme.
• Variável: Renda per capita (dados normalizados)
One-way ANOVA: MRENsBR versus EST REG
Source DF SS MS F P
EST REG 4 0,17909 0,04477 36,72 0,000
Error 21 0,02560 0,00122
Total 25 0,20469
S = 0,03492 R-Sq = 87,49% R-Sq(adj) = 85,11%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
Centro-Oeste 3 0,25170 0,00464 (----*-----)
Nordeste 8 0,09516 0,01203 (--*--)
Norte 8 0,12390 0,04318 (--*---)
Sudeste 4 0,26463 0,05079 (---*----)
Sul 3 0,31344 0,04334 (----*----)
-+---------+---------+---------+--------
121
0,080 0,160 0,240 0,320
Pooled StDev = 0,03492
Boxplot of MRENsBR
SulSudesteNorteNordesteCentro-Oeste
0,35
0,30
0,25
0,20
0,15
0,10
EST REG
MR
EN
sB
R
Boxplot of MRENsBR
Gráfico 73: Boxplot Variável RDPC Média Normalizada por Região
Fonte: Minitab 16
Nesta análise evidencia-se a diferença do poder aquisitivo, pois a variável estudada é renda
per capita, entre os Estados do SUL e os Estados do Norte do Brasil. Enquanto a região SUL apresenta
a melhor média nacional, mas mesmo assim percebemos uma grande concentração dos municípios
dos estados dessa região situados entre a mediana e o quartil inferior, a região Nordeste apresenta a
menor média nacional, com o agravante de ter a maior parte dos seus municípios situados entre a
• Variável: Domicílios sem água e saneamento (dados normalizados e positivados)
One-way ANOVA: MAESIsBR versus EST REG
Source DF SS MS F P
EST REG 4 0,38347 0,09587 15,04 0,000
Error 21 0,13382 0,00637
Total 25 0,51729
S = 0,07983 R-Sq = 74,13% R-Sq(adj) = 69,20%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
122
Centro-Oeste 3 0,9381 0,0223 (-------*-------)
Nordeste 8 0,8046 0,0369 (----*----)
Norte 8 0,6768 0,1324 (---*----)
Sudeste 4 0,9769 0,0136 (------*------)
Sul 3 0,9820 0,0012 (-------*-------)
--------+---------+---------+---------+-
0,72 0,84 0,96 1,08
Pooled StDev = 0,0798
Boxplot of MAESIsBR
One-way ANOVA: MAESIsBR versus EST REG
Source DF SS MS F P
EST REG 4 0,38347 0,09587 15,04 0,000
Error 21 0,13382 0,00637
Total 25 0,51729
S = 0,07983 R-Sq = 74,13% R-Sq(adj) = 69,20%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Centro-Oeste 3 0,9381 0,0223 (-------*-------)
Nordeste 8 0,8046 0,0369 (----*----)
Norte 8 0,6768 0,1324 (---*----)
Sudeste 4 0,9769 0,0136 (------*------)
Sul 3 0,9820 0,0012 (-------*-------)
--------+---------+---------+---------+-
0,72 0,84 0,96 1,08
Pooled StDev = 0,0798
Boxplot of MAESIsBR
SulSudesteNorteNordesteCentro-Oeste
1,0
0,9
0,8
0,7
0,6
0,5
EST REG
MA
ES
IsB
R
Boxplot of MAESIsBR
Gráfico 74: Boxplot Variável AGUA_ESGOTO Média Normalizada por Região
Fonte: Minitab 16
123
Praticamente essa condição inexiste nos municípios da região SUL, o que seria excelente se
acontecesse em todo o Brasil. Mas não é isso que observamos na análise. Há um percentual baixo nos
municípios que compõem as regiões Sudeste e Centro-Oeste, porém alto nas regiões Nordeste e,
principalmente na região NORTE e esta ainda apresenta uma distribuição não uniforme observadas a
média, a mediana e a distribuição entre os quartis.
11. REGRESSÃO LOGÍSTICA
Tem por objetivo efetuar a REGRESSÃO LOGÍSTICA de dados dimensionadores do IDHM,
Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises fazemos as considerações finais, com
a distribuição demonstrada no mapa do Brasil, considerados os Estados correlacionados. O software
estatístico utilizado é o MINITAB
O primeiro passo para esta análise foi resgatar a base de dados utilizada no trabalho anterior,
ou seja, análise discriminante, e as variáveis naquele estudo consideradas e suas médias por Estado,
a seguir, reforçando que já foram normalizadas e no caso da agua_esgoto, positivada.
T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a
população total multiplicado por 100. Variável Quantitativa
Percentual
T_FUND15A17 Percentual da população de 15 a 17 anos com fundamental completo
Razão entre a população de 15 a 17 anos de idade que concluiu o ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
T_MED18a20 Percentual da população de 18 a 20 anos de idade com o ensino médio completo
Razão entre a população de 18 a 20 anos de idade que já concluiu o ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.
Variável Quantitativa
Percentual
RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Variável Quantitativa
Absoluto
AGUA_ESGOTO Percentual de pessoas em domicílios com abastecimento de água e esgotamento sanitário inadequados
Razão entre as pessoas que vivem em domicílios cujo abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios particulares permanentes, multiplicada por 100. São considerados apenas os domicílios particulares permanentes.
Variável Quantitativa
Percentual
1º Passo
Aproveitando a análise feita no trabalho 09, Análise Discriminante, confirmar o novo
Dendograma em 03 clusters, estruturado em razão da maior similaridade (menor distâncias) entre os
clusters analisados
STAT / MULTIVARIATE / CLUSTERS OBSERVATION
As variáveis são as mesmas utilizadas na análise anterior, linkage: complete e distance: Manhattan e,
em storage, desginar a nova coluna a ser criada, nomeando-a.
124
Cluster Analysis of Observations: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;
MAESIsBR
Manhattan Distance, Complete Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 25 97,8348 0,03974 7 8 7 2
2 24 97,0307 0,05450 14 16 14 2
3 23 95,3357 0,08561 21 26 21 2
4 22 94,3512 0,10368 4 13 4 2
5 21 94,0216 0,10973 5 24 5 2
6 20 93,2446 0,12399 18 25 18 2
7 19 92,7249 0,13353 14 20 14 3
8 18 92,6235 0,13539 10 12 10 2
9 17 92,1375 0,14431 7 15 7 3
10 16 90,4295 0,17566 5 17 5 3
11 15 89,5845 0,19117 11 19 11 2
12 14 88,9628 0,20258 1 3 1 2
13 13 88,6217 0,20884 18 23 18 3
14 12 86,9148 0,24017 10 11 10 4
15 11 85,3092 0,26964 2 9 2 2
16 10 84,1514 0,29089 6 14 6 4
17 9 81,1510 0,34596 2 5 2 5
18 8 80,6410 0,35532 7 10 7 7
19 7 79,0300 0,38489 1 22 1 3
20 6 71,0798 0,53081 6 21 6 6
21 5 68,6455 0,57549 2 4 2 7
22 4 65,7121 0,62933 1 2 1 10
23 3 64,6524 0,64878 7 18 7 10
24 2 51,2343 0,89506 1 6 1 16
25 1 0,0000 1,83543 1 7 1 26
Final Partition
Number of clusters: 3
Average Maximum
Within distance distance
Number of cluster sum from from
observations of squares centroid centroid
Cluster1 10 0,238199 0,152136 0,193578
Cluster2 6 0,074873 0,108755 0,139195
Cluster3 10 0,139993 0,107429 0,186490
Cluster Centroids
Grand
Variable Cluster1 Cluster2 Cluster3 centroid
MEVsBR 0,412120 0,437450 0,699930 0,528662
MFUNsBR 0,352590 0,447517 0,604300 0,471308
MMEDsBR 0,227490 0,318383 0,468790 0,341273
MRENsBR 0,101115 0,123565 0,275395 0,173327
MAESIsBR 0,695770 0,815567 0,966800 0,827658
Distances Between Cluster Centroids
Cluster1 Cluster2 Cluster3
125
Cluster1 0,000000 0,181024 0,555202
Cluster2 0,181024 0,000000 0,402521
Cluster3 0,555202 0,402521 0,000000
Dendrogram
São
Paulo
Sta Ca
tarin
a
RG do
Sul
Rio
de Jan
eiro
MG do
Sul
Minas
Ger
a is
Mat
o Gr
osso
Para
ná
Góias
Esp.
San
to
Toca
ntins
Rond
ônia
RN do No
rte
Pern
ambu
co
Para
íba
Cear
áPa
rá
Amaz
onas
Piau
i
Serg
ipe
Bahia
Mar
anhã
o
Alag
oas
Rora
ima
Amap
áAc
re
0,00
33,33
66,67
100,00
Observations
Sim
ilari
ty
Medias
Resgatando o Dendograma anterior
Os Estados, dentre as variáveis analisadas, como maior similaridade são:
Acre com Amapá; Alagoas com Maranhão; Bahia com Sergipe, Amazonas com Pará, Paraíba com
Pernambuco, Rondônia com Tocantins, Espírito Santo com Góias, Mato Grosso com Minas Gerais,
Mato Grosso do Sul com Rio de Janeiro, Rio Grande do Sul com Santa Catarina, mas percebe-se que
há notoriamente 03 “Brasis” pela forma como são distribuídos os clusters.
Passo 02
Rodar a análise discriminante
STAT/MULTIVARIATE/DISCRIMINANTY ANALYSIS
Discriminant Analysis: AnDisc versus MEVsBR; MFUNsBR; ...
Linear Method for Response: AnDisc
Predictors: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR; MAESIsBR
Group 1 2 4
Count 5 11 10
126
Summary of classification
True Group
Put into Group 1 2 4
1 5 0 0
2 0 11 0
4 0 0 10
Total N 5 11 10
N correct 5 11 10
Proportion 1,000 1,000 1,000
N = 26 N Correct = 26 Proportion Correct = 1,000
Squared Distance Between Groups
1 2 4
1 0,0000 54,0367 60,0787
2 54,0367 0,0000 26,2981
4 60,0787 26,2981 0,0000
Linear Discriminant Function for Groups
1 2 4
Constant -80,36 -144,66 -179,87
MEVsBR 42,73 -167,44 -82,32
MFUNsBR 158,22 219,70 204,26
MMEDsBR -238,04 -245,92 -257,69
MRENsBR -34,50 44,66 87,74
MAESIsBR 233,51 412,50 403,98
Percebe-se que, com a nova distribuição, o percentual de acerto (proportion= 1,000) entre os
novos clusters definidos é de 100%
Passo 03
Rodar ANOVA de cada uma das variáveis
STAT/ANOVA/ONE-WAY, sem a necessidade de rodar o BoxPlot
Response: cada uma das variáveis
Factor: a nova coluna com o cluster 03
• Variável: Expectativa de vida (dados normalizados)
One-way ANOVA: MEVsBR versus AnDisc Source DF SS MS F P
AnDisc 2 0,47907 0,23953 50,88 0,000
Error 23 0,10827 0,00471
Total 25 0,58734
S = 0,06861 R-Sq = 81,57% R-Sq(adj) = 79,96%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
1 10 0,41212 0,08370 (---*----)
2 6 0,43745 0,07187 (-----*-----)
3 10 0,69993 0,04642 (---*---)
---+---------+---------+---------+------
127
0,40 0,50 0,60 0,70
Pooled StDev = 0,06861
• Variável: Taxa conclusão do ensino fundamental, de 15 a 17 (dados normalizados) One-way ANOVA: MFUNsBR versus AnDisc Source DF SS MS F P
AnDisc 2 0,32120 0,16060 37,33 0,000
Error 23 0,09896 0,00430
Total 25 0,42016
S = 0,06559 R-Sq = 76,45% R-Sq(adj) = 74,40%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
1 10 0,35259 0,05019 (---*----)
2 6 0,44752 0,06853 (-----*----)
3 10 0,60430 0,07660 (---*----)
---------+---------+---------+---------+
0,40 0,50 0,60 0,70
Pooled StDev = 0,06559
• Variável: Taxa conclusão do ensino médio, de 18 a 20(dados normalizados) One-way ANOVA: MMEDsBR versus AnDisc Source DF SS MS F P
AnDisc 2 0,29522 0,14761 53,49 0,000
Error 23 0,06346 0,00276
Total 25 0,35868
S = 0,05253 R-Sq = 82,31% R-Sq(adj) = 80,77%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
1 10 0,22749 0,03762 (---*----)
2 6 0,31838 0,03484 (-----*----)
3 10 0,46879 0,07044 (----*---)
------+---------+---------+---------+---
0,240 0,320 0,400 0,480
Pooled StDev = 0,05253
• Variável: Renda per capita (dados normalizados) One-way ANOVA: MRENsBR versus AnDisc Source DF SS MS F P
AnDisc 2 0,17118 0,08559 58,75 0,000
Error 23 0,03351 0,00146
Total 25 0,20469
S = 0,03817 R-Sq = 83,63% R-Sq(adj) = 82,21%
Individual 95% CIs For Mean Based on
Pooled StDev
128
Level N Mean StDev -------+---------+---------+---------+--
1 10 0,10111 0,02541 (---*---)
2 6 0,12357 0,04398 (-----*----)
3 10 0,27539 0,04476 (---*---)
-------+---------+---------+---------+--
0,120 0,180 0,240 0,300
Pooled StDev = 0,03817
• Variável: Domicílios sem água e saneamento (dados normalizados e positivados)
One-way ANOVA: MAESIsBR versus AnDisc Source DF SS MS F P
AnDisc 2 0,36843 0,18421 28,46 0,000
Error 23 0,14886 0,00647
Total 25 0,51729
S = 0,08045 R-Sq = 71,22% R-Sq(adj) = 68,72%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
1 10 0,6958 0,1220 (-----*----)
2 6 0,8156 0,0443 (------*-----)
3 10 0,9668 0,0238 (-----*----)
------+---------+---------+---------+---
0,70 0,80 0,90 1,00
Pooled StDev = 0,0805
Tabela ANOVA das variáveis, tomando como base o valor “F” de cada uma, entendendo que,
quanto maior esse valor, maior a representatividade da variável na amostra estudada, bem como suas
médias e intervalos de confiança.
Quadro 16: Clusters com o Valor F das variáveis
Variável MEVsBR MFUNsBR MMEDsBR MRENsBR MAESIsBR
Cluster 1 0,41212 0,35259 0,22749 0,10111 0,6958
Cluster 2 0,43745 0,44752 0,31838 0,12357 0,8156
Cluster 3 0,69993 0,60430 0,46879 0,27539 0,9668
Valor F 50,88 37,33 53,49 58,75 28,46 Fonte: elaborado pelo autor
Observa-se que, pelo valor de F, as variáveis com maior representatividade no estudo são,
respectivamente, Renda, Conclusão do Ensino Médio, Expectativa de Vida, Conclusão do Ensino
Fundamental e Água e Saneamento Inadequados.
Porém, observa-se, também que há sobreposição dos intervalos de confiança nas variáveis Renda e
Expectativa de Vida
Passo 04
Construir a Regressão Logística
Calcula a probabilidade de uma variável pertencente a um grupo.
129
STAT / REGRESSION / ORDINAL LOGISTIC
Response: a nova coluna dos 03 clusters
Model: as variáveis
1ª Análise
Utilizaremos todas as variáveis para avaliarmos os resultados
Ordinal Logistic Regression: AnDisc versus MEVsBR; MFUNsBR; ...
* WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
Response Information
Variable Value Count
AnDisc 1 10
2 6
3 10
Total 26
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) 313,252 20325,6 0,02 0,988
Const(2) 475,990 27239,7 0,02 0,986
MEVsBR 497,698 20682,5 0,02 0,981 1,40468E+216 0,00 *
MFUNsBR 451,213 162565 0,00 0,998 9,10708E+195 0,00 *
MMEDsBR -2601,52 237527 -0,01 0,991 0,00 0,00 *
MRENsBR -855,736 47747,8 -0,02 0,986 0,00 0,00 *
MAESIsBR 135,488 17366,8 0,01 0,994 6,94831E+58 0,00 *
Log-Likelihood = -0,000
Test that all slopes are zero: G = 55,816, DF = 5, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 0,0000014 45 1,000
Deviance 0,0000028 45 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 220 100,0 Somers' D 1,00
Discordant 0 0,0 Goodman-Kruskal Gamma 1,00
Ties 0 0,0 Kendall's Tau-a 0,68
Total 220 100,0
130
Comentários: Apesar de a concordância ser de 100%, o que viabilizaria o estudo, todos os “P”
das variáveis estão entre 98 e 100%, o que descaracteriza o estudo.
Como as variáveis Renda e Expectativa de Vida apresentaram intervalos de confiança sobrepostos,
as mesmas serão desconsideradas da análise.
2ª Análise
Utilizaremos todas as variáveis menos as duas com intervalos sobrepostos.
Ordinal Logistic Regression: AnDisc versus MFUNsBR; MMEDsBR; MAESIsBR
Link Function: Logit
Response Information
Variable Value Count
AnDisc 1 10
2 6
3 10
Total 26
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) 66,5127 58,7815 1,13 0,258
Const(2) 81,5904 71,9024 1,13 0,256
MFUNsBR 57,6266 83,6031 0,69 0,491 1,06388E+25 0,00 1,54873E+96
MMEDsBR -211,726 148,637 -1,42 0,154 0,00 0,00 3,70138E+34
MAESIsBR -38,2764 39,9438 -0,96 0,338 0,00 0,00 2,38250E+17
Log-Likelihood = -2,864
Test that all slopes are zero: G = 50,088, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 5,19783 47 1,000
Deviance 5,72897 47 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 218 99,1 Somers' D 0,98
Discordant 2 0,9 Goodman-Kruskal Gamma 0,98
Ties 0 0,0 Kendall's Tau-a 0,66
Total 220 100,0
Nesta análise, o percentual de concordância foi de 99,1%, considerado como aceitável, houve
melhora nos indicadores “P”, mas ainda apresentam problemas
As 3 variáveis apresentam percentuais de 49,1%, 15,4% e 33,8%, lembrando que os valores
aceitáveis restringem-se ao limite de 10%.
131
3ª Análise
Não serão utilizadas as duas variáveis com intervalos sobrepostos e a de menor valor de “F”,
no caso, Agua e Saneamento inadequados.
Ordinal Logistic Regression: AnDisc versus MFUNsBR; MMEDsBR
Link Function: Logit
Response Information
Variable Value Count
AnDisc 1 10
2 6
3 10
Total 26
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) 26,4031 11,7400 2,25 0,025
Const(2) 34,2771 15,0582 2,28 0,023
MFUNsBR 69,9995 58,1077 1,20 0,228 2,51426E+30 0,00 7,27414E+79
MMEDsBR -191,703 100,985 -1,90 0,058 0,00 0,00 504,29
Log-Likelihood = -3,744
Test that all slopes are zero: G = 48,329, DF = 2, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 7,73061 48 1,000
Deviance 7,48729 48 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 219 99,5 Somers' D 0,99
Discordant 1 0,5 Goodman-Kruskal Gamma 0,99
Ties 0 0,0 Kendall's Tau-a 0,67
Total 220 100,0
Comentários: a concordância foi de 99,5%, o que seria bom, porém o valor de “P” da variável
Conclusão do Ensino Fundamental foi de 22,8%, muito alto e o “P” da variável Conclusão do Ensino
Médio foi de 5,8%, este sim com valor ideal
4ª Análise
Conforme analises anteriores, será considerada somente a variável Conclusão do Ensino
Médio, a saber:
Ordinal Logistic Regression: AnDisc versus MMEDsBR
Link Function: Logit
132
Response Information
Variable Value Count
AnDisc 1 10
2 6
3 10
Total 26
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Const(1) 29,4918 14,7318 2,00 0,045
Const(2) 38,6163 19,1687 2,01 0,044
MMEDsBR -105,687 53,0826 -1,99 0,046 0,00 0,00 0,19
Log-Likelihood = -4,823
Test that all slopes are zero: G = 46,170, DF = 1, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 9,14418 49 1,000
Deviance 9,64638 49 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 218 99,1 Somers' D 0,98
Discordant 2 0,9 Goodman-Kruskal Gamma 0,98
Ties 0 0,0 Kendall's Tau-a 0,66
Total 220 100,0
Considerações: Como a Regressão logística ordinal tem a finalidade de modelar a relação
entre preditoras e respostas, para as estas variáveis escolhidas nesta base de dados, entende-se que a
variável que melhor atende às características probabilísticas desta análise é a “Taxa de conclusão de
ensino médio, entre 18 e 20 anos completos”, com uma concordância de 99,1% e um valor de “P” na
ordem de 4,6%.
12.ANÁLISE DE CORRESPONDÊNCIAS
Tem por objetivo efetuar a Análise de Correspondências de dados dimensionadores do IDHM,
Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises fazemos as considerações finais, com
a distribuição demonstrada no mapa do Brasil, considerados os Estados correlacionados. O software
estatístico utilizado é o MINITAB
12.1 Análise de correspondência simples
A análise de correspondência simples decompõe uma tabela de contingência de forma similar
à análise de componentes principais em relação a dados contínuos multivariáveis. A análise de
133
correspondência simples faz uma autoanálise dos dados, decompõe a variabilidade em dimensões
subjacentes e associa variabilidade a linhas e/ou colunas.
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-
statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis, acesso em
24/05/2017
Foi utilizada a mesma base de dados (variáveis) estudada na Regressão Logística
1º Passo
Realizar a análise considerando as 05 variáveis e a correspondência com os Estados
Brasileiros
STAT / MULTIVARIATE / SIMPLE CORRESPONDECE ANALYSIS
Categorial: Estados
Columns: as 5 variáveis
Row: Estados
Column names: a nova coluna criada com a nomenclatura das variáveis
Graphs: Symmetric plot showing rows and columns
Simple Correspondence Analysis: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;
MAESIsBR
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0122 0,6891 0,6891 ******************************
2 0,0031 0,1741 0,8633 *******
3 0,0021 0,1159 0,9791 *****
4 0,0004 0,0209 1,0000
Total 0,0177
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 ac 0,303 0,028 0,012 -0,002 0,001 0,000 0,047 0,302 0,021
2 al 0,902 0,027 0,094 0,235 0,893 0,121 0,023 0,009 0,005
3 ap 0,642 0,032 0,025 -0,076 0,407 0,015 0,057 0,235 0,034
4 am 0,817 0,025 0,032 0,050 0,110 0,005 0,127 0,706 0,131
5 ba 0,962 0,032 0,044 0,152 0,962 0,062 -0,001 0,000 0,000
6 ce 0,720 0,036 0,071 0,100 0,284 0,029 -0,124 0,436 0,177
7 es 0,989 0,049 0,008 -0,054 0,987 0,012 -0,002 0,002 0,000
8 go 0,991 0,049 0,012 -0,066 0,976 0,018 -0,008 0,016 0,001
9 ma 0,839 0,027 0,047 0,143 0,664 0,046 -0,074 0,175 0,048
10 mg 0,928 0,046 0,013 -0,068 0,921 0,017 0,006 0,006 0,000
11 ms 0,742 0,045 0,028 -0,064 0,370 0,015 0,064 0,372 0,060
12 mg 0,703 0,046 0,005 -0,018 0,162 0,001 0,032 0,541 0,015
13 pa 0,909 0,026 0,043 -0,013 0,005 0,000 0,163 0,904 0,223
14 pb 0,953 0,031 0,035 0,134 0,898 0,046 -0,033 0,055 0,011
15 pr 0,998 0,050 0,023 -0,073 0,659 0,022 -0,053 0,339 0,045
16 pe 0,993 0,032 0,031 0,129 0,939 0,043 -0,031 0,054 0,010
134
17 pi 0,961 0,031 0,110 0,246 0,960 0,153 0,007 0,001 0,000
18 rs 0,959 0,053 0,058 -0,136 0,952 0,081 -0,012 0,007 0,002
19 rj 0,473 0,047 0,041 -0,085 0,472 0,028 0,004 0,001 0,000
20 rn 0,929 0,033 0,025 0,104 0,810 0,030 -0,040 0,118 0,017
21 ro 0,077 0,040 0,004 -0,011 0,057 0,000 -0,006 0,020 0,001
22 rr 0,487 0,035 0,027 0,008 0,005 0,000 0,082 0,482 0,075
23 sp 0,993 0,055 0,071 -0,130 0,739 0,077 -0,076 0,254 0,104
24 se 0,852 0,031 0,054 0,162 0,835 0,065 0,023 0,017 0,005
25 sc 0,988 0,055 0,076 -0,153 0,958 0,106 -0,027 0,030 0,013
26 to 0,720 0,039 0,008 0,050 0,710 0,008 -0,006 0,010 0,000
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 env 0,916 0,226 0,162 -0,066 0,344 0,081 0,085 0,572 0,531
2 fun 0,376 0,201 0,071 -0,011 0,020 0,002 -0,047 0,356 0,144
3 med 0,897 0,146 0,099 -0,064 0,336 0,048 -0,082 0,561 0,318
4 ren 0,845 0,074 0,321 -0,255 0,844 0,393 -0,004 0,000 0,000
5 aei 0,945 0,353 0,348 0,128 0,942 0,475 0,007 0,003 0,006
Symmetric Plot
0,30,20,10,0-0,1-0,2-0,3
0,3
0,2
0,1
0,0
-0,1
-0,2
-0,3
Component 1
Co
mp
on
en
t 2
aeiren
med
fun
env
tosc
se
sp
rr
ro
rn
rjrs
pi
pepr
pb
pa
mg
ms
mg
ma
goes
ce
ba
am
ap
alac
Symmetric Plot
Gráfico 75: Symmetric Plot com as correspondências simples
Fonte: Minitab 16
Percebe-se que os estados com maiores correspondências, conforme demonstrado no gráfico são:
a) Com a variável T_ENV (env) Taxa de envelhecimento: Amapá e Mato Grosso do Sul (de
proximidade) e Piaui, Alagoas e Ceará (de distanciamento)
b) Com a variável T_FUND15A17 (fun), Percentual da população de 15 a 17 anos com
fundamental completo: Roraima, Espírito Santo e Tocantins (de proximidade) e Piaui,
Alagoas e Pará (de distanciamento)
135
c) Com a variável T_MED18a20 (med) , Percentual da população de 18 a 20 anos de idade com
o ensino médio completo: Paraná e São Paulo (de proximidade) e Piaui, Alagoas e Pará(de
distanciamento)
d) Com a variável RDPC, (ren) Renda per capita média: Santa Catarina e Rio Grande do Sul (de
proximidade) e Piaui e Alagoas (de distanciamento)
e) Com a variável AGUA_ESGOTO (aei), Percentual de pessoas em domicílios com
abastecimento de água e esgotamento sanitário inadequados Sergipe e Bahia (de proximidade)
e São Paulo, Rio Grande do Sul e Santa Catarina (de distanciamento)
2° Passo
Realizar a análise considerando as 05 variáveis e a correspondência com as Regiões
Brasileiras
STAT / MULTIVARIATE / SIMPLE CORRESPONDECE ANALYSIS
Categorial: regiões
Columns: as 5 variáveis
Row: regiões
Column names: a nova coluna criada com a nomenclatura das variáveis
Graphs: Symmetric plot showing rows and columns
Para esta análise foi necessário criar as médias das cinco variáveis por Região, a seguir:
One-way ANOVA: MEVsBR versus Reg Sigla
Source DF SS MS F P
Reg Sigla 4 0,51922 0,12981 40,02 0,000
Error 21 0,06811 0,00324
Total 25 0,58734
S = 0,05695 R-Sq = 88,40% R-Sq(adj) = 86,19%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
co 3 0,67313 0,01835 (-----*-----)
ne 8 0,37444 0,03363 (--*---)
no 8 0,46880 0,08259 (--*---)
se 4 0,69105 0,03689 (----*----)
su 3 0,73857 0,06200 (-----*----)
--+---------+---------+---------+-------
0,36 0,48 0,60 0,72
Pooled StDev = 0,05695
One-way ANOVA: MFUNsBR versus Reg Sigla
136
Source DF SS MS F P
Reg Sigla 4 0,30491 0,07623 13,89 0,000
Error 21 0,11525 0,00549
Total 25 0,42016
S = 0,07408 R-Sq = 72,57% R-Sq(adj) = 67,35%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
co 3 0,55667 0,06087 (------*-------)
ne 8 0,37965 0,07172 (----*---)
no 8 0,39673 0,07817 (---*----)
se 4 0,59810 0,09718 (------*-----)
su 3 0,66020 0,01905 (------*------)
---+---------+---------+---------+------
0,36 0,48 0,60 0,72
Pooled StDev = 0,07408
One-way ANOVA: MMEDsBR versus Reg Sigla Source DF SS MS F P
Reg Sigla 4 0,28376 0,07094 19,89 0,000
Error 21 0,07491 0,00357
Total 25 0,35868
S = 0,05973 R-Sq = 79,11% R-Sq(adj) = 75,14%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
co 3 0,41043 0,04451 (------*------)
ne 8 0,26805 0,05322 (----*---)
no 8 0,25510 0,06468 (----*---)
se 4 0,47242 0,08197 (-----*-----)
su 3 0,52230 0,02899 (------*------)
---------+---------+---------+---------+
0,30 0,40 0,50 0,60
Pooled StDev = 0,05973
One-way ANOVA: MRENsBR versus Reg Sigla Source DF SS MS F P
Reg Sigla 4 0,17909 0,04477 36,72 0,000
Error 21 0,02560 0,00122
Total 25 0,20469
S = 0,03492 R-Sq = 87,49% R-Sq(adj) = 85,11%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
co 3 0,25170 0,00464 (----*-----)
ne 8 0,09516 0,01203 (--*--)
no 8 0,12390 0,04318 (--*---)
se 4 0,26463 0,05079 (---*----)
su 3 0,31344 0,04334 (----*----)
-+---------+---------+---------+--------
0,080 0,160 0,240 0,320
Pooled StDev = 0,03492
137
One-way ANOVA: MAESIsBR versus Reg Sigla Source DF SS MS F P
Reg Sigla 4 0,38347 0,09587 15,04 0,000
Error 21 0,13382 0,00637
Total 25 0,51729
S = 0,07983 R-Sq = 74,13% R-Sq(adj) = 69,20%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
co 3 0,9381 0,0223 (-------*-------)
ne 8 0,8046 0,0369 (----*----)
no 8 0,6768 0,1324 (---*----)
se 4 0,9769 0,0136 (------*------)
su 3 0,9820 0,0012 (-------*-------)
--------+---------+---------+---------+-
0,72 0,84 0,96 1,08
Pooled StDev = 0,0798
Quadro 17: novas médias por região
regiões env fund med rend Asinad
co 0,67313 0,55667 0,41043 0,2517 0,9381
ne 0,37444 0,37976 0,26805 0,09516 0,8046
no 0,4688 0,39673 0,2551 0,1239 0,6768
se 0,69105 0,5981 0,44242 0,26463 0,9769
su 0,73857 0,6602 0,5223 0,31344 0,982 Fonte: Minitab 16, adaptado pelo autor
12.2 Rodando a análise de correspondência
• Simple Correspondence Analysis: env; fund_1; med; rend; asinad
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0080 0,8826 0,8826 ******************************
2 0,0009 0,0993 0,9818 ***
3 0,0002 0,0178 0,9997
4 0,0000 0,0003 1,0000
Total 0,0090
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 co 0,752 0,220 0,034 -0,030 0,645 0,025 0,012 0,107 0,037
2 ne 1,000 0,149 0,599 0,187 0,968 0,657 -0,034 0,032 0,191
3 no 0,966 0,149 0,109 0,053 0,428 0,053 0,059 0,538 0,589
4 se 0,960 0,231 0,030 -0,033 0,960 0,032 -0,000 0,000 0,000
5 su 0,979 0,250 0,229 -0,086 0,900 0,234 -0,026 0,080 0,184
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 env 0,999 0,229 0,110 -0,046 0,481 0,060 0,047 0,518 0,575
138
2 fun 0,173 0,201 0,008 -0,006 0,117 0,001 0,004 0,056 0,005
3 med 0,961 0,148 0,074 -0,050 0,545 0,046 -0,044 0,416 0,312
4 ren 0,985 0,082 0,387 -0,203 0,965 0,423 -0,030 0,021 0,080
5 aei 0,993 0,340 0,421 0,105 0,987 0,470 -0,009 0,007 0,028
Symmetric Plot
0,20,10,0-0,1-0,2
0,2
0,1
0,0
-0,1
-0,2
Component 1
Co
mp
on
en
t 2
aei
renmed
fun
env
su
se
no
ne
co
Symmetric Plot
Gráfico 76: Symmetric Plot – análise de correspondências
Fonte: Minitab 16
Percebe-se que os estados com maiores correspondências, conforme demonstrado no gráfico são:
a) Com a variável T_ENV (env) Taxa de envelhecimento: Centro-Oeste e Sudeste (de
proximidade) e Nordeste (de distanciamento)
b) Com a variável T_FUND15A17 (fun), Percentual da população de 15 a 17 anos com
fundamental completo: Centro-Oeste e Sudeste (de proximidade) e Nordeste (de
distanciamento)
c) Com a variável T_MED18a20 (med) , Percentual da população de 18 a 20 anos de idade com
o ensino médio completo: Sul (de proximidade) e Nordeste (de distanciamento)
d) Com a variável RDPC, (ren) Renda per capita média: Sul (de proximidade) e Nordeste (de
distanciamento).
e) Com a variável AGUA_ESGOTO (aei), Percentual de pessoas em domicílios com
abastecimento de água e esgotamento sanitário inadequados : Norte e Nordeste (de
proximidade) e Sul (de distanciamento)
3º Passo
139
Realizar a análise considerando as 05 variáveis e a correspondência com as Regiões
Brasileiras
STAT / MULTIVARIATE / SIMPLE CORRESPONDECE ANALYSIS
Categorial: novas regiões (3 clusters analisados)
Columns: as 5 variáveis
Row: (3 clusters analisados)
Column names: a nova coluna criada com a nomenclatura das variáveis
Graphs: Symmetric plot showing rows and columns
Para esta análise foi necessário criar as médias das cinco variáveis por Nova Região criada
(quando da divisão pelos 03 clusters nos trabalhos anteriores)
Resgatando as análises anteriores.
As novas regiões estão assim subdivididas:
Região 01: Acre, Roraima, Amazonas, Pará, Amapá, Maranhão, Piaui, Bahia, Sergipe e Alagoas
Região 02: Rondônia, Tocantins, Ceará, Rio Grande do Norte, Paraíba e Pernambuco
Região 03: Mato Grosso, Mato Grosso do Sul, Goias, Minas Gerais, Espírito Santo, Rio de Janeiro,
São Paulo, Paraná, Santa Catarina e Rio Grande do Sul.
Figura 05: Mapa do Brasil com as três novas regiões
Fonte: elaborado pelo autor
140
One-way ANOVA: MEVsBR versus 3 Regiões Source DF SS MS F P
3 Regiões 2 0,47907 0,23953 50,88 0,000
Error 23 0,10827 0,00471
Total 25 0,58734
S = 0,06861 R-Sq = 81,57% R-Sq(adj) = 79,96%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
1 10 0,41212 0,08370 (---*----)
2 6 0,43745 0,07187 (-----*-----)
3 10 0,69993 0,04642 (---*---)
---+---------+---------+---------+------
0,40 0,50 0,60 0,70
Pooled StDev = 0,06861
One-way ANOVA: MFUNsBR versus 3 Regiões Source DF SS MS F P
3 Regiões 2 0,32120 0,16060 37,33 0,000
Error 23 0,09896 0,00430
Total 25 0,42016
S = 0,06559 R-Sq = 76,45% R-Sq(adj) = 74,40%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
1 10 0,35259 0,05019 (---*----)
2 6 0,44752 0,06853 (-----*----)
3 10 0,60430 0,07660 (---*----)
---------+---------+---------+---------+
0,40 0,50 0,60 0,70
Pooled StDev = 0,06559
One-way ANOVA: MMEDsBR versus 3 Regiões Source DF SS MS F P
3 Regiões 2 0,29522 0,14761 53,49 0,000
Error 23 0,06346 0,00276
Total 25 0,35868
S = 0,05253 R-Sq = 82,31% R-Sq(adj) = 80,77%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
1 10 0,22749 0,03762 (---*----)
2 6 0,31838 0,03484 (-----*----)
3 10 0,46879 0,07044 (----*---)
------+---------+---------+---------+---
0,240 0,320 0,400 0,480
Pooled StDev = 0,05253
One-way ANOVA: MRENsBR versus 3 Regiões Source DF SS MS F P
3 Regiões 2 0,17118 0,08559 58,75 0,000
141
Error 23 0,03351 0,00146
Total 25 0,20469
S = 0,03817 R-Sq = 83,63% R-Sq(adj) = 82,21%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
1 10 0,10111 0,02541 (---*---)
2 6 0,12357 0,04398 (-----*----)
3 10 0,27539 0,04476 (---*---)
-------+---------+---------+---------+--
0,120 0,180 0,240 0,300
Pooled StDev = 0,03817
One-way ANOVA: MAESIsBR versus 3 Regiões Source DF SS MS F P
3 Regiões 2 0,36843 0,18421 28,46 0,000
Error 23 0,14886 0,00647
Total 25 0,51729
S = 0,08045 R-Sq = 71,22% R-Sq(adj) = 68,72%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ------+---------+---------+---------+---
1 10 0,6958 0,1220 (-----*----)
2 6 0,8156 0,0443 (------*-----)
3 10 0,9668 0,0238 (-----*----)
------+---------+---------+---------+---
0,70 0,80 0,90 1,00
Pooled StDev = 0,0805
Clusters Nenv Nfund Nmed Nrend Nasinad
Região 1 0,41212 0,35259 0,22749 0,10111 0,6957
Região 2 0,43745 0,44752 0,31838 0,12357 0,8156
Região 3 0,69993 0,6043 0,46879 0,27539 0,9668
Rodando a Análise de Correspondência
Simple Correspondence Analysis: Nenv; Nfund; Nmed; Nrend; Nasinad
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0076 0,8867 0,8867 ******************************
2 0,0010 0,1133 1,0000 ***
Total 0,0085
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Região 1 1,000 0,258 0,272 0,085 0,792 0,243 0,043 0,208 0,499
2 Região 2 1,000 0,308 0,228 0,069 0,752 0,193 -0,040 0,248 0,498
3 Região 3 1,000 0,434 0,500 -0,099 0,999 0,563 0,002 0,001 0,003
142
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 env 1,000 0,223 0,084 -0,033 0,332 0,031 0,046 0,668 0,493
2 fun 1,000 0,202 0,013 0,006 0,069 0,001 -0,022 0,931 0,104
3 med 1,000 0,146 0,106 -0,060 0,580 0,069 -0,051 0,420 0,393
4 ren 1,000 0,072 0,467 -0,235 0,998 0,526 0,010 0,002 0,007
5 aei 1,000 0,357 0,331 0,089 0,999 0,373 0,003 0,001 0,003
Symmetric Plot
0,100,050,00-0,05-0,10-0,15-0,20-0,25
0,10
0,05
0,00
-0,05
-0,10
-0,15
-0,20
-0,25
Component 1
Co
mp
on
en
t 2
aeiren
med
fun
env
Região 3
Região 2
Região 1
Symmetric Plot
Gráfico 77: Symmetric Plot das três novas regiões
Fonte: Minitab 16
Percebe-se que as regiões com maiores correspondências, conforme demonstrado no gráfico
são:
a) Com a variável T_ENV (env) Taxa de envelhecimento: região 03 (de proximidade) e região
02 (de distanciamento)
b) Com a variável T_FUND15A17 (fun), Percentual da população de 15 a 17 anos com
fundamental completo: região 02 (de proximidade) e região 03 (de distanciamento)
c) Com a variável T_MED18a20 (med) , Percentual da população de 18 a 20 anos de idade com
o ensino médio completo: região 03 (de proximidade) e região 02 (de distanciamento)
d) Com a variável RDPC, (ren) Renda per capita média: região 03 (de proximidade) e região 01
(de distanciamento)
e) Com a variável AGUA_ESGOTO (aei), Percentual de pessoas em domicílios com
abastecimento de água e esgotamento sanitário inadequados: região 02 (de proximidade) e
região 03 (de distanciamento)
143
4º Passo
Realizar a análise considerando as 03 variáveis de maior representatividade nos resultados da
análise da regressão logística
STAT / MULTIVARIATE / SIMPLE CORRESPONDECE ANALYSIS
Categorial: Estados
Columns: as 3 variáveis
Row: Estados
Column names: a nova coluna criada com a nomenclatura das 3 variáveis
Graphs: Symmetric plot showing rows and columns
Simple Correspondence Analysis: MFUNsBR; MMEDsBR; MAESIsBR
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0087 0,8892 0,8892 ******************************
2 0,0011 0,1108 1,0000 ***
Total 0,0098
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 ac 1,000 0,028 0,020 0,002 0,001 0,000 0,083 0,999 0,178
2 al 1,000 0,029 0,149 0,223 1,000 0,167 -0,002 0,000 0,000
3 ap 1,000 0,030 0,028 -0,052 0,290 0,009 0,081 0,710 0,180
4 am 1,000 0,024 0,017 0,080 0,947 0,018 0,019 0,053 0,008
5 ba 1,000 0,034 0,054 0,123 0,986 0,060 -0,014 0,014 0,007
6 ce 1,000 0,040 0,021 -0,061 0,716 0,017 0,039 0,284 0,055
7 es 1,000 0,048 0,010 -0,044 0,961 0,011 -0,009 0,039 0,003
8 go 1,000 0,048 0,018 -0,061 0,998 0,020 -0,003 0,002 0,000
9 ma 1,000 0,030 0,013 0,025 0,148 0,002 0,059 0,852 0,096
10 mg 1,000 0,045 0,008 -0,040 0,909 0,008 0,013 0,091 0,007
11 ms 1,000 0,042 0,005 0,031 0,756 0,005 -0,017 0,244 0,012
12 mg 1,000 0,045 0,001 -0,008 0,660 0,000 0,006 0,340 0,002
13 pa 1,000 0,024 0,019 0,070 0,640 0,013 0,053 0,360 0,061
14 pb 1,000 0,033 0,019 0,069 0,835 0,018 -0,031 0,165 0,029
15 pr 1,000 0,050 0,044 -0,092 0,988 0,049 -0,010 0,012 0,005
16 pe 1,000 0,034 0,021 0,078 0,999 0,024 -0,003 0,001 0,000
17 pi 1,000 0,034 0,141 0,201 1,000 0,158 0,001 0,000 0,000
18 rs 1,000 0,050 0,048 -0,096 0,979 0,053 -0,014 0,021 0,009
19 rj 1,000 0,045 0,024 -0,009 0,017 0,000 -0,071 0,983 0,209
20 rn 1,000 0,035 0,010 0,042 0,649 0,007 -0,031 0,351 0,031
21 ro 1,000 0,040 0,001 0,015 0,618 0,001 0,011 0,382 0,005
22 rr 1,000 0,033 0,000 0,003 0,289 0,000 0,005 0,711 0,001
23 sp 1,000 0,054 0,140 -0,157 0,988 0,155 -0,017 0,012 0,015
24 se 1,000 0,032 0,096 0,165 0,944 0,101 -0,040 0,056 0,048
25 sc 1,000 0,052 0,093 -0,130 0,966 0,101 -0,024 0,034 0,029
26 to 1,000 0,040 0,002 0,013 0,380 0,001 0,017 0,620 0,011
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
144
1 fund 1,000 0,287 0,218 -0,073 0,728 0,178 0,045 0,272 0,534
2 med 1,000 0,208 0,353 -0,119 0,858 0,341 -0,048 0,142 0,451
3 aei 1,000 0,505 0,429 0,091 0,996 0,481 -0,006 0,004 0,014
Symmetric Plot
0,20,10,0-0,1-0,2
0,2
0,1
0,0
-0,1
-0,2
Component 1
Co
mp
on
en
t 2
aei
med
fund
to
scse
sp
rrro
rn
rj
rspipepr
pb
pa
mg
ms
mg
ma
goes
ce
ba
am
ap
al
ac
Symmetric Plot
Gráfico 78: Symmetric Plot das três variáveis por Estado
Fonte: Minitab 16
As melhores representações são:
a) Com a variável T_FUND15A17 (fun), Percentual da população de 15 a 17 anos com
fundamental completo: Ceará e Minas Gerais (de proximidade) e Piaui, Alagoas (de
distanciamento)
b) Com a variável T_MED18a20 (med) , Percentual da população de 18 a 20 anos de idade com
o ensino médio completo: Santa Catarina, Paraná e São Paulo (de proximidade) e Piaui e
Alagoas (de distanciamento)
c) Com a variável AGUA_ESGOTO (aei), Percentual de pessoas em domicílios com
abastecimento de água e esgotamento sanitário inadequados Pernambuco e Amazonas (de
proximidade) e São Paulo e Santa Catarina (de distanciamento).
Considerações: Esta análise praticamente ratifica as análises anteriores, pois a análise de
correspondência simples decompõe uma tabela de contingência de forma similar à análise de
componentes principais em relação a dados contínuos multivariáveis, e o que se apurou retrata um
cenário onde existem três “brasis” e, numa análise mais circunstanciada, perceberemos a existência
de dois “brasis”. Em todos os recortes de análises trabalhados evidenciou-se disparidade nos
145
resultados encontrados nos estados que compõem as regiões sul, sudeste e centro-oeste com os
resultados das regiões norte e sul. Isso sinaliza um distanciamento grande entre as políticas sociais e
econômicas desses dois grupos de Estados, o que é muito ruim se estamos falando de um Pais com
as dimensões e particularidades existentes no Brasil.
13.ÁRVORES DE CLASSIFICAÇÃO
Tem por objetivo efetuar a ÁRVORE DE CLASSIFICAÇÃO de dados dimensionadores do
IDHM, Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises fazemos as considerações
finais, com a distribuição demonstrada no mapa do Brasil, considerados os Estados correlacionados.
O software estatístico utilizado é o MINITAB para as bases preliminares e o SPSS (IBM) para a
análise deste trabalho.
O primeiro passo para esta análise foi resgatar a base de dados utilizada nos trabalhos
anteriores (sem os dados de Brasília).
Resgatando o base de dados (variável)
T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a população total multiplicado por 100.
Variável Quantitativa
Percentual
T_FUND15A17 Percentual da população de 15 a 17 anos com fundamental completo
Razão entre a população de 15 a 17 anos de idade que concluiu o ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.
Variável Quantitativa
Percentual
T_MED18a20 Percentual da população de 18 a 20 anos de idade com o ensino médio completo
Razão entre a população de 18 a 20 anos de idade que já concluiu o ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.
Variável Quantitativa
Percentual
RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Variável Quantitativa
Absoluto
AGUA_ESGOTO Percentual de pessoas em domicílios com abastecimento de água e esgotamento sanitário inadequados
Razão entre as pessoas que vivem em domicílios cujo abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios particulares permanentes, multiplicada por 100. São considerados apenas os domicílios particulares permanentes.
Variável Quantitativa
Percentual
Foram apuradas todas as médias normalizadas e positivadas, por Estado, e inseridas no Excel
para tratamento dos dados. Foram consideradas as 3 novas regiões criadas na análise discriminante,
pois esta variável comporá a análise fruto deste trabalho.
Os dados foram formatados como números, quatro casas decimais e as vírgulas foram
substituídas por ponto.
A variável categórica (regiões) foi formatada como texto.
Essa base foi transferida para o SPSS
146
Construindo a análise
Esta ferramenta estatística auxilia identificar melhor grupos, descobrir relacionamentos entre
eles e prever eventos futuros. Ela apresenta árvores de decisão e classificação altamente visuais
ajudando a apresentar resultados de forma categórica e a explicar as análises com mais clareza.
13.1 Preparação das cinco variáveis no SPSS
* Definir propriedades da variável.
*VAR00001. VARIABLE LABELS VAR00001 'ENV'. VALUE LABELS VAR00001 35.00 '35,00' 669.00 '669,00' 684.00 '684,00' 788.00 '788,00' 3049.00 '3049,00' 3097.00 '3097,00' 3774.00 '3774,00' 3777.00 '3777,00' 3782.00 '3782,00' 3951.00 '3951,00' 4029.00 '4029,00' 4093.00 '4093,00' 4216.00 '4216,00' 4267.00 '4267,00' 4621.00 '4621,00' 5044.00 '5044,00' 5266.00 '5266,00' 5308.00 '5308,00' 5685.00 '5685,00' 6491.00 '6491,00' 6547.00 '6547,00' 6733.00 '6733,00' 6914.00 '6914,00' 6924.00 '6924,00' 7387.00 '7387,00' 7587.00 '7587,00'. EXECUTE.
*VAR00002. VARIABLE LABELS VAR00002 'FUND'. VALUE LABELS VAR00002 5.00 '5,00' 534.00 '534,00' 572.00 '572,00' 598.00 '598,00' 2856.00 '2856,00' 2928.00 '2928,00' 2974.00 '2974,00' 3231.00 '3231,00' 3527.00 '3527,00' 3707.00 '3707,00' 3733.00 '3733,00' 3787.00 '3787,00' 3881.00 '3881,00' 3888.00 '3888,00' 4025.00 '4025,00' 4122.00 '4122,00' 4213.00 '4213,00' 4896.00 '4896,00' 4898.00 '4898,00' 5027.00 '5027,00' 5602.00 '5602,00' 6084.00 '6084,00' 6492.00 '6492,00' 6822.00 '6822,00' 7315.00 '7315,00'. EXECUTE.
*VAR00003. VARIABLE LABELS VAR00003 'MED'. VALUE LABELS VAR00003 272.00 '272,00' 1765.00 '1765,00' 1853.00 '1853,00' 1869.00 '1869,00' 2157.00 '2157,00' 2244.00 '2244,00' 2339.00 '2339,00' 2433.00 '2433,00' 2511.00 '2511,00' 2643.00 '2643,00' 2841.00 '2841,00' 2935.00 '2935,00' 3123.00 '3123,00' 3407.00 '3407,00' 3425.00 '3425,00' 3587.00 '3587,00' 3673.00 '3673,00' 4004.00 '4004,00' 4078.00 '4078,00' 4461.00 '4461,00' 4529.00 '4529,00' 4562.00 '4562,00' 5027.00 '5027,00' 5086.00 '5086,00' 5556.00 '5556,00' 5903.00 '5903,00'. EXECUTE.
*VAR00004. VARIABLE LABELS VAR00004 'REND'. VALUE LABELS VAR00004 88.00 '88,00' 1541.00 '1541,00' 2041.00 '2041,00' 2463.00 '2463,00' 3444.00 '3444,00' 6963.00 '6963,00' 7863.00 '7863,00' 7957.00 '7957,00' 7964.00 '7964,00' 9299.00 '9299,00' 10389.00 '10389,00' 10459.00 '10459,00' 10532.00 '10532,00' 10542.00 '10542,00'
*VAR00005. VARIABLE LABELS VAR00005 'AEINA'. VALUE LABELS VAR00005 772.00 '772,00' 981.00 '981,00' 991.00 '991,00' 5443.00 '5443,00' 5595.00 '5595,00' 5912.00 '5912,00' 6018.00 '6018,00' 6525.00 '6525,00' 7223.00 '7223,00' 7628.00 '7628,00' 7851.00 '7851,00' 7948.00 '7948,00' 7986.00 '7986,00' 8127.00 '8127,00'
*VAR00006. VARIABLE LABELS VAR00006 'REG'. VALUE LABELS VAR00006 1.00 '1,00' 2.00 '2,00' 3.00 '3,00'.
147
10832.00 '10832,00' 11713.00 '11713,00' 11782.00 '11782,00' 14339.00 '14339,00' 20249.00 '20249,00' 24828.00 '24828,00' 24984.00 '24984,00' 25699.00 '25699,00' 26391.00 '26391,00' 29256.00 '29256,00' 31717.00 '31717,00' 33201.00 '33201,00'. EXECUTE.
8329.00 '8329,00' 8671.00 '8671,00' 8758.00 '8758,00' 8777.00 '8777,00' 9191.00 '9191,00' 9327.00 '9327,00' 9602.00 '9602,00' 9626.00 '9626,00' 9722.00 '9722,00' 9818.00 '9818,00' 9833.00 '9833,00' 9841.00 '9841,00'. EXECUTE.
• Análise discriminante das variáveis no SPSS/IBM
EXECUTE.
DISCRIMINANT
/GROUPS=VAR00006(1 3)
/VARIABLES=VAR00001 VAR00002 VAR00003 VAR00004 VAR00005
/ANALYSIS ALL
/METHOD=MAHAL
/FIN=3.84
/FOUT=2.71
/PRIORS EQUAL
/HISTORY
/STATISTICS=TABLE
/CLASSIFY=NONMISSING POOLED.
Resumo de processamento de caso de análise
Casos não ponderados N Porcentagem
Válido 26 100,0
Excluídos Códigos de grupo ausentes ou fora
do intervalo 0 ,0
Pelo menos uma variável
discriminante ausente 0 ,0
Códigos de grupo ausentes ou fora
do intervalo e pelo menos uma
variável discriminadora ausente
0 ,0
Total 0 ,0
Total 26 100,0
• Discriminante
148
Estatísticas de grupo
REG
N válido (de lista)
Não ponderado Ponderado
1,00 ENV 10 10,000
FUND 10 10,000
MED 10 10,000
REND 10 10,000
AEINA 10 10,000
2,00 ENV 6 6,000
FUND 6 6,000
MED 6 6,000
REND 6 6,000
AEINA 6 6,000
3,00 ENV 10 10,000
FUND 10 10,000
MED 10 10,000
REND 10 10,000
AEINA 10 10,000
Total ENV 26 26,000
FUND 26 26,000
MED 26 26,000
REND 26 26,000
AEINA 26 26,000
• Análise 1 / Estatísticas em etapas
Variáveis Inseridas/Removidasa,b,c,d
Etapa Inseridas
Mín. D ao quadrado
Estatística Entre Grupos
F exato
Estatística df1 df2 Sig.
1 MED ,424 1,00 e 2,00 1,590 1 23,000 ,220
2 REND ,427 1,00 e 2,00 ,766 2 22,000 ,477
Em cada etapa, a variável que maximiza a distância de Mahalanobis entre os dois
grupos mais próximos é inserida.
a. O número máximo de etapas é 10.
b. O F parcial mínimo a ser inserido é 3.84.
c. O F parcial máximo a ser removido é 2.71.
d. Nível f, tolerância ou VIN insuficiente para cálculos adicionais.
149
Variáveis na análise
Etapa Tolerância
F a ser
removido
Mín. D ao
quadrado Entre Grupos
1 MED 1,000 26,538
2 MED ,991 15,537 ,014 1,00 e 2,00
REND ,991 4,366 ,424 1,00 e 2,00
Variáveis não presentes na análise
Etapa Tolerância Mín. Tolerância F a ser inserido
Mín. D ao
quadrado Entre Grupos
0 ENV 1,000 1,000 ,911 ,078 1,00 e 2,00
FUND 1,000 1,000 2,993 ,140 1,00 e 2,00
MED 1,000 1,000 26,538 ,424 1,00 e 2,00
REND 1,000 1,000 10,525 ,014 1,00 e 2,00
AEINA 1,000 1,000 ,333 ,000 1,00 e 2,00
1 ENV ,998 ,998 ,186 ,486 1,00 e 2,00
FUND ,973 ,973 ,759 ,662 1,00 e 2,00
REND ,991 ,991 4,366 ,427 1,00 e 2,00
AEINA ,954 ,954 ,863 ,449 1,00 e 2,00
2 ENV ,901 ,895 ,224 ,506 1,00 e 2,00
FUND ,901 ,901 ,385 ,668 1,00 e 2,00
AEINA ,782 ,782 2,722 ,449 1,00 e 2,00
Lambda de Wilks
Etapa Número de variáveis Lambda df1 df2 df3
F exato
Estatística df1 df2
Sig.
1
1 ,302 1 2 23 26,538 2 23,000
,000
2
2 ,216 2 2 23 12,645 4 44,000
,000
• Resumo de funções discriminantes canônicas
150
Valores próprios
Função Autovalor % de variância % cumulativa
Correlação
canônica
1 3,486a 99,1 99,1 ,882
2 ,030a ,9 100,0 ,171
a. As primeiras 2 funções discriminantes canônicas foram usadas
na análise.
Lambda de Wilks
Teste de funções
Lambda de
Wilks Qui-quadrado Df Sig.
1 até 2 ,216 34,436 4 ,000
2 ,971 ,667 1 ,414
Coeficientes de funções
discriminantes canônicas
padronizados
Função
1 2
MED ,866 -,508
REND ,586 ,815
Matriz de estruturas
Função
1 2
MED ,812* -,584
AEINAb -,417* -,211
FUNDb ,289* ,122
REND ,506 ,862*
ENVb ,219 ,226*
Correlações entre grupos no conjunto entre variáveis discriminantes e funções discriminantes
canônicas padronizadas
Variáveis ordenadas por tamanho absoluto de correlação na função.
*. Maior correlação absoluta entre cada variável e qualquer função discriminante
b. Essa variável não é usada na análise.
151
Funções em centroides de grupo
REG
Função
1 2
1,00 -1,566 ,146
2,00 -1,071 -,281
3,00 2,208 ,022
Funções discriminantes canônicas
não padronizadas avaliadas em
médias de grupo
• Estatísticas de classificação
Resumo de processamento de classificação
Processado 26
Excluídos Códigos de grupo ausentes
ou fora do intervalo 0
Pelo menos uma variável
discriminante ausente 0
Usado em saída 26
Probabilidades a priori para grupos
REG A priori
Casos utilizados na análise
Não ponderado Ponderado
1,00 ,333 10 10,000
2,00 ,333 6 6,000
3,00 ,333 10 10,000
Total 1,000 26 26,000
Resultados da classificaçãoa
REG
Associação ao grupo prevista
Total
1,00 2,00 3,00
Original Contagem 1,00 7 3 0 10
2,00 1 5 0 6
3,00 0 1 9 10
% 1,00 70,0 30,0 ,0 100,0
2,00 16,7 83,3 ,0 100,0
3,00 ,0 10,0 90,0 100,0
a. 80,8% de casos agrupados originais classificados corretamente.
* Árvore de decisão.
152
TREE VAR00006 [n] BY VAR00001 [s] VAR00002 [s] VAR00003 [s] VAR00004 [s] VAR00005
[s]
/TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES
NODEDEFS=YES SCALE=AUTO
/DEPCATEGORIES USEVALUES=[1.00 2.00 3.00]
/PRINT MODELSUMMARY CLASSIFICATION RISK
/METHOD TYPE=EXHAUSTIVECHAID
/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=5 MINCHILDSIZE=3
/VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES
/CHAID ALPHASPLIT=0.05 SPLITMERGED=NO CHISQUARE=PEARSON
CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10
/COSTS EQUAL.
13.2 Árvore classificatória
Em virtude do número de variáveis (26 estados), o intervalo mínimo de casos para esta
análise foi definido entre 5 e 3, com método chaid exaustive
Advertências
As tabelas de resumo de ganhos não são exibidas porque os lucros não estão definidos.
As tabelas de ganhos da categoria de destino não são exibidas porque as categorias de destino não estão
definidas.
Resumo do modelo
Especificações Método crescente CHAID EXAUSTIVO
Variável dependente REG
Variáveis independentes ENV, FUND, MED, REND, AEINA
Validação Nenhum
Profundidade máxima de
árvore 3
Casos mínimos em nó pai 5
Casos mínimos em nó filho 3
Resultados Variáveis independentes
incluídas MED
Número de nós 4
Número de nós de terminal 3
Espessura 1
153
Figura 06: Árvore classificatória método chaid exaustive
Fonte: SPSS
Risco
Estimativa Erro Padrão
,077 ,052
Método Crescente: CHAID
EXAUSTIVO
Variável Dependente: REG
154
Classificação
Observado
Previsto
1,00 2,00 3,00
Porcentagem
Correta
1,00 9 1 0 90,0%
2,00 1 5 0 83,3%
3,00 0 0 10 100,0%
Porcentagem global 38,5% 23,1% 38,5% 92,3%
Método Crescente: CHAID EXAUSTIVO
Variável Dependente: REG
Considerações: Nesta análise, a variável determinante foi a MED (Percentual da população de
18 a 20 anos de idade com o ensino médio completo). Há uma distribuição na ramificação principal
de 38,5 para as regiões 01 e 03 e 23% para a região 02.
Caso o valor apurado para esta variável seja menor que 2643,00, a categoria 01 é a mais
adequada, com representação de 90% para a região 01.
Caso o valor apurado para esta variável esteja entre 2643,00 e 3587,00, a categoria 02 é a mais
adequada, com representação de 83% para a região 02.
Caso o valor apurado para esta variável seja maior que 3587,00, a categoria 03 é a mais
adequada, com representação de 100% para a região 03.
• Árvore de decisão.
TREE VAR00006 [n] BY VAR00001 [s] VAR00002 [s] VAR00003 [s] VAR00004 [s] VAR00005
[s]
/TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES
NODEDEFS=YES SCALE=AUTO
/DEPCATEGORIES USEVALUES=[1.00 2.00 3.00]
/PRINT MODELSUMMARY CLASSIFICATION RISK
/METHOD TYPE=EXHAUSTIVECHAID
/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=3 MINCHILDSIZE=2
/VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES
/CHAID ALPHASPLIT=0.05 SPLITMERGED=NO CHISQUARE=PEARSON
CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10
/COSTS EQUAL.
• Árvore classificatória
155
Para esta análise, o número de casos mínimos foi definido entre 03 e 02
Advertências
As tabelas de resumo de ganhos não são exibidas porque os lucros não estão definidos.
As tabelas de ganhos da categoria de destino não são exibidas porque as categorias de destino não estão
definidas.
Resumo do modelo
Especificações Método crescente CHAID EXAUSTIVO
Variável dependente REG
Variáveis independentes ENV, FUND, MED, REND, AEINA
Validação Nenhum
Profundidade máxima de
árvore 3
Casos mínimos em nó pai 3
Casos mínimos em nó filho 2
Resultados Variáveis independentes
incluídas MED
Número de nós 4
Número de nós de terminal 3
Espessura 1
156
Figura 07: Árvore classificatória método chaid exaustive com mínimos entre 3 e 2
Fonte: SPSS
Risco
Estimativa Erro Padrão
,077 ,052
Método Crescente: CHAID
EXAUSTIVO
Variável Dependente: REG
Classificação
Observado
Previsto
1,00 2,00 3,00
Porcentagem
Correta
1,00 9 1 0 90,0%
157
2,00 1 5 0 83,3%
3,00 0 0 10 100,0%
Porcentagem global 38,5% 23,1% 38,5% 92,3%
Método Crescente: CHAID EXAUSTIVO
Variável Dependente: REG
Considerações: Mesmo com a alteração do intervalo dos casos mínimos, não houve alteração
na construção da árvore e suas derivações.
O resultado deste estudo apresenta a mesma tendência que resultou na análise de regressão
logística, ou seja, a variável que melhor atende às características probabilísticas desta análise é a
“Taxa de conclusão de ensino médio, entre 18 e 20 anos completos”. Na análise anterior o grau de
concordância foi 99,1% e um valor de “P” na ordem de 4,6%. Nesta análise, considerando os dois
intervalos diferentes dos casos mínimos, esta variável apresentou como acerto o percentual de 92,3%.
14. RANKING POR ESTADO
Tem por objetivo efetuar o ranking por Estado, tomando como base as variáveis com maior
impacto nos componentes principais, conforme dados dimensionadores do IDHM, Plataforma Atlas
Brasil, Base IBGE. Por fim, após as análises fazemos as considerações finais, com a distribuição
demonstrada no mapa do Brasil, considerados os Estados correlacionados. O software estatístico
utilizado é o MINITAB.
Primeiramente, trabalhando com as 05 variáveis que nortearam os trabalhos anteriores, rodar
os principais componentes para determinar o número de componentes que serão trabalhados:
Principal Component Analysis: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR; MAESIsBR
Eigenanalysis of the Correlation Matrix
Eigenvalue 4,4294 0,3462 0,1554 0,0516 0,0174
Proportion 0,886 0,069 0,031 0,010 0,003
Cumulative 0,886 0,955 0,986 0,997 1,000
Variable PC1 PC2 PC3 PC4 PC5
MEVsBR 0,445 -0,482 -0,339 -0,659 0,138
MFUNsBR 0,457 -0,026 0,670 -0,136 -0,568
MMEDsBR 0,466 0,067 0,378 0,230 0,763
MRENsBR 0,455 -0,308 -0,402 0,685 -0,259
MAESIsBR 0,411 0,817 -0,362 -0,154 -0,097
Scree Plot of MEVsBR; ...; MAESIsBR
Loading Plot of MEVsBR; ...; MAESIsBR
158
O ideal é que utilizemos os componentes com Eigenvalue maior que 1.000. Com esta base,
tivemos somente um componente, no caso a variável com maior representatividade foi a MMEDsBR.
Como há uma diferença significativa para os demais componentes, adotar-se-á para análise deste
trabalho PC=1. Ressalta-se que a houve a tentativa de rodar com pelos menos PC=2, mais no final, a
análise não foi concluída, dando erro, provavelmente em virtude da composição dos dados desta base.
A título de comprovação, como segue:
Stepwise Regression: COMP02 versus MEVsBR; MFUNsBR; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is COMP02 on 5 predictors, with N = 26
No variables entered or removed
Em virtude da composição da base de dados e como o componente 01 tem representatividade
de 79,3%, não rodou o stepwise do componente 02, conforme dados acima.
O rancking será reconstruído tomando como base somente o componente 01
O próximo passo é rodar a regressão STEPWISE já com os dados apurados das 05 variáveis
compostas em 01 componente principal, gerando a nova coluna de médias no MINITAB, propiciando
assim conhecer as variáveis que mais influenciam os componentes.
Stepwise Regression: COMP versus MEVsBR; MFUNsBR; ...
Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is COMP on 5 predictors, with N = 26
Step 1 2 3 4 5
Constant -5,885 -6,517 -7,904 -7,378 -7,760
MMEDsBR 17,24537 12,25942 8,90428 8,04893 3,89340
T-Value 25,10 13,32 12,62 14,72 *
P-Value 0,000 0,000 0,000 0,000 *
MEVsBR 4,41295 4,94777 3,46899 2,90599
T-Value 6,13 11,94 7,81 *
P-Value 0,000 0,000 0,000 *
MAESIsBR 2,71735 2,56771 2,85544
T-Value 7,05 9,10 *
P-Value 0,000 0,000 *
159
MRENsBR 3,87956 5,02745
T-Value 4,54 *
P-Value 0,000 *
MFUNsBR 3,52193
T-Value *
P-Value *
S 0,411 0,259 0,147 0,107 0,000000
R-Sq 96,33 98,61 99,57 99,78 100,00
R-Sq(adj) 96,18 98,49 99,51 99,74 100,00
Quadro 18: Valos dos componentes por Estado
Fonte: Minitab 16, adaptado pelo autor
O próximo passo é a aplicação da fórmula com esses novos dados
Fórmula a ser utilizada:
COMP1= (0,886*(0,9633*MMED)), sendo utilizados os indicadores proportion do CP e R-
Sq do stepwise.
Esta fórmula foi inserida no minitab (CALC/CALCULATER) gerando uma nova coluna.
Quadro 19: Ranking por estado, índices.
EST s BRAS_1 COMP
Acre 2,065609755
Alagoas 2,542759271
Amapá -1,3392904
Amazonas 2,802917649
Bahia 1,367111213
Ceará 0,599610771
Esp. Santo 2,17021351
Góias 2,173189145
Maranhão 2,366412995
Mato Grosso 1,617846055
MG do Sul 1,306630206
Minas Gerais 1,519773011
Pará 2,597952855
Paraíba 1,578438273
Paraná 2,558393821
Pernambuco 1,469413984
Piaui 1,725139554
RG do Sul 3,182116638
Rio de Janeiro 1,880858979
RN do Norte 1,111792273
Rondônia 0,32424366
Roraima 0,861770675
São Paulo 3,685890189
Sergipe 1,725275481
Sta Catarina 3,635333369
Tocantins 0,099006568
160
EST s BRAS_1 Ranking
Acre 0,184096456
Alagoas 0,158150548
Amapá 0,214309782
Amazonas 0,159516122
Bahia 0,225575768
Ceará 0,306144639
Esp. Santo 0,386542813
Góias 0,38935931
Maranhão 0,199629861
Mato Grosso 0,348050694
MG do Sul 0,3134846
Minas Gerais 0,341734914
Pará 0,150639891
Paraíba 0,242474748
Paraná 0,429046306
Pernambuco 0,232147594
Piaui 0,191521765
RG do Sul 0,434081861
Rio de Janeiro 0,380739123
RN do Norte 0,266542991
Rondônia 0,290781931
Roraima 0,250497495
São Paulo 0,503811487
Sergipe 0,207652609
Sta Catarina 0,474195599
Tocantins 0,292318202 Fonte: Minitab 16, adaptado pelo autor
O próximo passo foi criar uma nova coluna agora com os indicadores normalizados,
aplicando a fórmula: 100* (xx-MIN(xx))/(MAX(xx)-MIN(xx)), onde xx é a nova coluna criada no
passo anterior.
Quadro 20: Ranking por estado, indicadores normalizados
EST s BRAS_1 Normat
Acre 9,47
Alagoas 2,13
Amapá 18,03
Amazonas 2,51
Bahia 21,22
Ceará 44,03
Esp. Santo 66,80
Góias 67,59
Maranhão 13,87
Mato Grosso 55,90
MG do Sul 46,11
Minas Gerais 54,11
Pará 0,00
161
Paraíba 26,00
Paraná 78,83
Pernambuco 23,08
Piaui 11,58
RG do Sul 80,26
Rio de Janeiro 65,15
RN do Norte 32,82
Rondônia 39,68
Roraima 28,27
São Paulo 100,00
Sergipe 16,14
Sta Catarina 91,61
Tocantins 40,12 Fonte: Minitab 16, adaptado pelo autor
O próximo passo é a ordenação do ranking, utilizando a nova coluna normalizada com a
variável categórica ESTADO, do maior para o menos
No Minitab: Data/Sort
Quadro 21: Ranking Final por Estado – Ensino Médio
Estado RANC Resultado
São Paulo 100,00
Sta Catarina 91,61
RG do Sul 80,26
Paraná 78,83
Góias 67,59
Esp. Santo 66,80
Rio de Janeiro 65,15
Mato Grosso 55,90
Minas Gerais 54,11
MG do Sul 46,11
Ceará 44,03
Tocantins 40,12
Rondônia 39,68
RN do Norte 32,82
Roraima 28,27
Paraíba 26,00
Pernambuco 23,08
Bahia 21,22
Amapá 18,03
Sergipe 16,14
Maranhão 13,87
Piaui 11,58
Acre 9,47
Amazonas 2,51
Alagoas 2,13
Pará 0,00
162
CONSIDERAÇÕES FINAIS
Mesmo trabalhando com um componente principal, sendo a variável com maior influência
nesta análise T_MED18a20, Percentual da população de 18 a 20 anos de idade com o ensino médio
completo, o resultado deste estudo apresenta muita similaridade com todas as análises anteriores, ou
seja, os Estados do Sudeste, Sui e Centro-Oeste apresentando os melhores indicadores e os Estados
do Norte e Nordeste os piores indicadores. Isto /reforço o que já foi levantado em análises anteriores,
ou seja, a disparidade social entre os dois Brasis, o composto pelos Estados na parte de “cima” do
mapa e os estados que compõem a parte de “baixo” do mapa. Portanto não é um problema regional
pontual, mas sim um problema de políticas nacionais que devem estar mais voltadas aos interesses
de poucos do que propriamente dito, da população do Brasil.
Nesta análise específica os três Estados com melhores indicadores foram:
São Paulo (Sudeste) - 1º
Santa Catarina (Sul) – 2º
Rio Grande do Sul (Sul) – 3º
Já os três Estados com os piores indicadores foram:
Pará (Norte) - 26º
Alagoas (Nordeste) – 25º
Amazonas (Norte) – 24º
REFERÊNCIAS
[1] http:// atlasbrasil.org.br, acesso em 14/03/2017
[2] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-
anos-mais-idade-alfabetizadas, acesso em 31/03/2017
[3] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-
medio-aluno-turma-ensino-fundamental, acesso em 31/03/2017
[4] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-
medio-aluno-turma-ensino-fundamental, acesso em 31/03/2017
[5] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE10&t=docentes-
curso-superior-ensino-medio-rede, acesso em 17/06/2017
[6]http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-
correlation/basics/basics-of-stepwise-regression/#what-is-stepwise-regression, acesso em
07/04/2017
[7] http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and
graphs/introductory-concepts/data-concepts/why-collect-random-sample/ em 22/04/2017
163
[8] http://support.minitab.com/pt-br/minitab/17/topic-library/modeling
statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/, acesso em
28/04/2017
[9] http://support.minitab.com/pt-br/minitab/17/topic-library/modeling
statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis, aces
em 24/05/2017
[10] MINITAB 16 e SPSS (IBM)