BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 · economia e administração da puc-sp boletim de anÁlises estatÍstico basta 2017 vol. 2 idhes Índice de desenvolvimento humano

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Programas de Pós Graduação em

Economia e

Administração da

PUC-SP

BOLETIM DE ANÁLISES ESTATÍSTICO

BASTA 2017 Vol. 2

IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

ATLAS BRASIL

DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA

Danilo Nunes

1º SEMESTRE

São Paulo – SP

2017

A Importância e Impacto do Ensino Médio no País

2

SUMÁRIO

INTRODUÇÃO ........................................................................................................................... 4

CAPITULO 1. O Portal Atlas no Brasil .................................................................................... 4

1.1. Entendendo os Dados ........................................................................................................... 4

1.1.1. Os Indivíduos ..................................................................................................................... 4

1.1.2. As Variáveis ....................................................................................................................... 5

CAPÍTULO 2. ESTATÍSTICA DESCRITIVA DAS VARIÁVEIS ....................................... 9

2.1 Análise das Variáveis ............................................................................................................ 10

2.1.1 Variáveis Categóricas ......................................................................................................... 10

2.1.2 Variáveis Municípios .......................................................................................................... 10

2.1.3 Variáveis Quantitativas ...................................................................................................... 12

2.1.4 Comparações da Análise Descritíva .................................................................................. 30

CAPÍTULO 3. RELAÇÃO ENTRE AS VARIÁVEIS ............................................................. 33

3.1 Correlação dos Valores ......................................................................................................... 33

3.2 Gráfico das Dispersões .......................................................................................................... 36

3.3 Dendograma ........................................................................................................................... 38

CAPITULO 4. ANÁLISES DE TENDÊNCIAS ....................................................................... 40

4.1 Entendendo o Conceito dos Indicadores ............................................................................. 45

4.2 Entendendo os Conceitos dos Gráficos ................................................................................ 45

CAPITULO 5. REGRESSÃO LINEAR .................................................................................... 55

5.1 Correlações das Variáveis Validades ................................................................................... 56

5.2 Variável Dependente ............................................................................................................. 56

5.3 Variável Independente .......................................................................................................... 56

5.3.1 Utilizando e demonstrando no Minitab ………………………………………………… 56

5.3.2 Resultado das variáveis estudadas .................................................................................... 58

5.3.3 Regressão Utilizando a Response com a Predictor de maior Representativa ............. 59

5.3.4 Dendograma das Variáveis Correlacionadas .................................................................. 59

3

CAPÍTULO 6. TESTES DE HIPÓTESES E INTERVALOR DE CONFIANÇA ................ 60

6.1 Análise de Dados .................................................................................................................... 60

6.2 Resgatando as Variáveis ....................................................................................................... 61

CAPITULO 7. AMOSTRAGEM ............................................................................................... 70

7.1 Pesquisa por Amostragem .................................................................................................... 70

7.2 Amostra Aleatória ................................................................................................................. 70

7.3 Construção no Minitab ......................................................................................................... 71

CAPITULO 8. COMPONENTES PRINCIPAIS ..................................................................... 78

8.1 Análise de Dados ................................................................................................................... 80

8.2 Criando os Principais Componentes ................................................................................... 80

CAPITULO 9. ANÁLISES DE CONGLOMERADOS ........................................................... 93

9.1 Base de Dados ........................................................................................................................ 93

9.2 Nova Base de Dados Considerada com as Médias por Estado .......................................... 98

9.3 Distribuição no Mapa do Brasil ........................................................................................... 105

9.4 O Novo Mapa dos Clusters ................................................................................................... 109

CAPITULO 10. ANÁLISE DISCRIMINANTE ...................................................................... 110

10.1 Busca de proximidade de Distância .................................................................................. 113

CAPITULO 11. REGRESSÃO LOGÍSTICA .......................................................................... 123

CAPÍTULO 12. ANÁLISE DE CORRESPONDÊNCIAS ...................................................... 132

12.1 Análise de Correspondência Simples ................................................................................. 132

12.2 Rodando a Análise de Correspondência ........................................................................... 137

CAPÍTULO 13. ÁRVORES DE CLASSIFICAÇÃO .............................................................. 145

13.1 Preparação das Cinco Variáveis no SPSS ......................................................................... 146

13.2 Árvore Classificatória ......................................................................................................... 152

CAPITULO 14. RANKING POR ESTADO ............................................................................. 157

CONSIDERAÇÕES FINAIS ..................................................................................................... 162

REFERÊNCIAS .......................................................................................................................... 162

4

INTRODUÇÃO

O presente trabalho tem por finalidade efetuar uma análise exploratória, utilizando os dados

disponibilizados no portal Atlas Brasil tomando como base o Atlas de Desenvolvimento Humano no

Brasil, dos 5.565 municípios pertencentes aos 27 estados e 01 distrito federal do Brasil.

A abertura e dimensão dos dados disponibilizados nos oferecem uma dimensão muito grande

das várias formas e enfoques de, sob a perspectiva do pesquisador, conhecer, avaliar e interpretar as

informações.

Esclarece-se que a base adotada refere-se exclusivamente aos relatórios de 2010, incluindo a

definição das variáveis, classificadas em categóricas ou qualitativas e as unidades de medida

utilizadas.

Para melhor entendimento, das 08 dimensões exploradas no relatório, ou seja: demografia,

educação, renda, trabalho, habitação, vulnerabilidade, população e o IDHM propriamente dito, por

metodologia adotada pelo professor, foram escolhidas por identidade de estudo, duas variáveis das

sete primeiras dimensões mais as quatro variáveis que compõem os IDHM (longevidade, educação,

renda e geral) que serão apresentados no desenvolvimento do trabalho.

Os indicadores escolhidos e as respectivas aberturas nos 5.565 municípios brasileiros foram

trabalhados utilizando-se o software estatístico MINITAB 16, ferramenta esta que nos permite

trabalhar com gráficos, medidas numéricas, testes de normalidade e intervalos de confiança.

CAPÍTULO 1. O PORTAL ATLAS NO BRASIL

Concebido como uma ferramenta simples e amigável de disponibilização de informações,

o Atlas Brasil facilita o manuseio de dados e estimula análises. A ferramenta oferece um panorama

do desenvolvimento humano e da desigualdade interna dos municípios, estados e regiões

metropolitanas. A relevância do Atlas do Desenvolvimento Humano nos Municípios vem justamente

da capacidade de fornecer informações sobre a unidade político-administrativa mais próxima do

cotidiano dos cidadãos: o município. Por sua vez, o Atlas do Desenvolvimento Humano nas Regiões

Metropolitanas permite conhecer as desigualdades intramunicipais, entre “bairros” de uma mesma

região metropolitana (atlasbrasil.org.br).

1.1. Entendendo os Dados

1.1.1 Os Indivíduos

O foco de estudo deste trabalho são todos os municípios brasileiros, com os 232 indicadores

disponibilizados no portal Atlas Brasil, dados de 2010, abertos em 08 categorias, a saber:

• Demografia

• Educação

5

• Renda

• Trabalho

• Habitação

• Vulnerabilidade

• População

• IDHM (Longevidade, Renda e Educação

O IDHM demonstrado no Atlas de Desenvolvimento Humano é baseado exclusivamente nos

dados dos Censos Geográficos e tem por objetivo disponibilizar informações aos gestores público e

privado, bem como, professores, alunos e todas as pessoas interessadas em conhecer e poder atuar

em ações que nos levem a melhorar nossos referenciais de cidadania.

Por proposta de estudo, o objetivo focou-se nos resultados que expressam os indicadores

referentes à formação do Ensino Médio no cenário nacional, e na escolha das variáveis de certa forma,

buscou-se uma associação direta com este foco de estudo, bem como, com as diretrizes estipuladas

para cada exercício desenvolvido.

1.1.2 As variáveis

Dos 232 indicadores que compõem a base de dados disponibilizada no Atlas Brasil, por

metodologia previamente definida, foram escolhidas 02 variáveis de cada uma das 07 classificações

que somadas aos 04 indicadores dos IDHM, perfazem o total de 18 (dezoito) variáveis a serem

abordadas, exploradas e analisadas neste trabalho.

Na busca por esses indicadores procurou-se, mesmo que de forma empírica, uma provável

associação que possa nos levar a conhecer melhor a composição dos dados e, consequentemente, ter

mais subsídios em ações que possam ser adotadas.

Quadro 01 – As variáveis Código Indicador Abrangência Tipo Medida

ESPVIDA Esperança de vida ao nascer Número médio de anos que

as pessoas deverão viver a

partir do nascimento, se

permanecerem constantes

ao longo da vida o nível e o

padrão de mortalidade por

idade prevalecentes no ano

do Censo.

Variável

Quantitativa

Anos

T_ENV Taxa de envelhecimento Razão entre a população

de 65 anos ou mais de

idade e a população total

multiplicado por 100.

Variável

Quantitativa

Percentual

6

T_FUND15A17 Percentual da população de 15

a 17 anos com fundamental

completo

Razão entre a população

de 15 a 17 anos de idade

que concluiu o ensino

fundamental, em qualquer

de suas modalidades

(regular seriado, não

seriado, EJA ou supletivo),

e o total de pessoas nesta

faixa etária, multiplicada por

100.

Variável

Quantitativa

Percentual

T_MED18a20 Percentual da população de 18

a 20 anos de idade com o

ensino médio completo


de 18 a 20 anos de idade

que já concluiu o ensino

médio em qualquer de suas

modalidades (regular

seriado, não seriado, EJA

ou supletivo), e o total de

pessoas nesta faixa etária,

multiplicada por 100. As

pessoas de 18 a 20 anos

frequentando a 4ª série do

ensino médio foram

consideradas como já tendo

concluído esse nível de

ensino.

Variável

Quantitativa

Percentual

RIND Renda domiciliar per capita

média dos extremamente

pobres

Média da renda domiciliar

per capita das pessoas com

renda domiciliar per capita

igual ou inferior a R$ 70,00

mensais, a preços de

agosto de 2010. O universo

de indivíduos é limitado

àqueles que vivem em

domicílios particulares

permanentes.

Variável

Quantitativa

Absoluto

RDPC Renda per capita média Razão entre o somatório da

renda de todos os

indivíduos residentes em


permanentes e o número

total desses indivíduos.

Variável

Quantitativa

Absoluto

7

Valores em reais de

01/agosto de 2010.

TRABCC Percentual de ocupados de 18

anos ou mais que são

empregados com carteira

Razão entre o número de

empregados de 18 anos ou

mais de idade com carteira

de trabalho assinada e o

número total de pessoas

ocupadas nessa faixa

etária, multiplicada por 100.

Variável

Quantitativa

Percentual

TRABSC Percentual de ocupados de 18

anos ou mais que são

empregados sem carteira


empregados de 18 anos ou

mais de idade sem carteira

de trabalho assinada e o

número total de pessoas

ocupadas nessa faixa

etária, multiplicada por 100.

Variável

Quantitativa

Percentual

T_AGUA Percentual da população que

vive em domicílios com água

encanada


que vive em domicílios

particulares permanentes

com água canalizada para

um ou mais cômodos e a

população total residente

em domicílios particulares

permanentes, multiplicada

por 100. A água pode ser

proveniente de rede geral,

de poço, de nascente ou de

reservatório abastecido por

água das chuvas ou carro-

pipa.

Variável

Quantitativa

Percentual

T_LUZ Percentual da população que

vive em domicílios com energia

elétrica


que vive em domicílios


com iluminação elétrica e a



permanentes, multiplicada

por 100. Considera-se

iluminação proveniente ou

não de uma rede geral, com

ou sem medidor.

Variável

Quantitativa

Percentual

8

AGUA_ESGOTO Percentual de pessoas em

domicílios com abastecimento

de água e esgotamento

sanitário inadequados

Razão entre as pessoas

que vivem em domicílios

cujo abastecimento de água

não provem de rede geral e

cujo esgotamento sanitário

não é realizado por rede

coletora de esgoto ou fossa

séptica e a população total

residente em domicílios

particulares permanentes,

multiplicada por 100. São

considerados apenas os


permanentes.

Variável

Quantitativa

Percentual

T_SLUZ % de pessoas em domicílios

sem energia elétrica

Razão entre as pessoas

que vivem em domicílios

sem energia elétrica e



permanentes multiplicado

por 100.

Variável

Quantitativa

Percentual

PESORUR População rural População residente na

área rural

Variável

Quantitativa

Absoluto

PESOURB População urbana População residente na

área urbana

Variável

Quantitativa

Absoluto

IDHM Índice de Desenvolvimento

Humano Municipal

Índice de Desenvolvimento

Humano Municipal. Média

geométrica dos índices das

dimensões Renda,

Educação e Longevidade,

com pesos iguais.

Variável

Quantitativa

Índice

IDHM_E Índice de Desenvolvimento

Humano Municipal - Dimensão

Educação

Índice sintético da

dimensão Educação, é um

dos 3 índices que compõem

o IDHM. É obtido através

da média geométrica do

subíndice de frequência

escolar, com peso de 2/3, e

do subíndice de

escolaridade, com peso de

1/3.

Variável

Quantitativa

Índice

9

IDHM_R Índice de Desenvolvimento


Renda

Índice da dimensão Renda,

é um dos 3 índices que

compõem o IDHM. É obtido

a partir do indicador Renda

per capita, através da

fórmula: [ln (valor

observado do indicador) - ln

(valor mínimo)] / [ln (valor

máximo) - ln (valor

mínimo)], onde os valores

mínimo e máximo são R$

8,00 e R$ 4.033,00 (a

preços de agosto de 2010).

Variável

Quantitativa

Índice

IDHM_L Índice de Desenvolvimento


Longevidade

Índice da dimensão

Longevidade, é um dos 3

índices que compõem o

IDHM. É obtido a partir do

indicador Esperança de

vida ao nascer, através da

fórmula: [(valor observado

do indicador) - (valor

mínimo)] / [(valor máximo) -

(valor mínimo)], onde os

valores mínimo e máximo

são 25 e 85 anos,

respectivamente.

Variável

Quantitativa

Índice

Município Nome do Município Nome do Município Categórica n/a

UF Unidade da Federação

(Estado)

Unidade da Federação

(Estado)

Categórica n/a

Fonte: Atlas Brasil, 2010

CAPÍTULO 2. ESTATÍSTICA DESCRITIVA DAS VARIÁVEIS

Descriptive Statistics: ESPVIDA; T_ENV; T_FUND15A17; T_MED18A20; RDPC; ...

Variable N N* Mean SE Mean StDev Minimum Q1 Median

ESPVIDA 5565 0 73,089 0,0359 2,681 65,300 71,150 73,470

T_ENV 5565 0 8,3973 0,0325 2,4230 1,4600 6,7800 8,3800

T_FUND15A17 5565 0 54,754 0,208 15,505 6,890 42,915 55,420

T_MED18A20 5565 0 36,091 0,195 14,575 1,910 24,990 35,140

RDPC 5565 0 493,61 3,26 243,27 96,25 281,09 467,65

RIND 5565 0 32,036 0,129 9,603 0,000 27,435 32,510

TRABCC 5565 0 30,250 0,242 18,053 0,900 14,860 26,760

10

TRABSC 5565 0 25,224 0,132 9,853 3,030 17,640 24,750

T_AGUA 5565 0 85,598 0,197 14,721 0,150 79,635 90,280

T_LUZ 5565 0 97,190 0,0808 6,024 27,410 97,645 99,390

AGUA_ESGOTO 5565 0 9,202 0,172 12,839 0,000 0,530 3,260

T_SLUZ 5565 0 2,8104 0,0808 6,0244 0,0000 0,1300 0,6100

pesoRUR 5565 0 5360 89,0 6642 0,0 1599 3233

pesourb 5565 0 28917 2702 201551 174 2838 6263

IDHM 5565 0 0,65916 0,000965 0,07200 0,41800 0,59900 0,66500

IDHM_E 5565 0 0,55909 0,00125 0,09333 0,20700 0,49000 0,56000

IDHM_L 5565 0 0,80156 0,000599 0,04468 0,67200 0,76900 0,80800

IDHM_R 5565 0 0,64287 0,00108 0,08066 0,40000 0,57200 0,65400

Variable Q3 Maximum

ESPVIDA 75,160 78,640

T_ENV 9,9650 20,4200

T_FUND15A17 66,815 96,810

T_MED18A20 46,325 88,030

RDPC 650,64 2043,74

RIND 37,090 70,000

TRABCC 44,620 83,210

TRABSC 32,045 62,230

T_AGUA 96,260 100,000

T_LUZ 99,870 100,000

AGUA_ESGOTO 13,035 85,360

T_SLUZ 2,3550 72,5900

pesoRUR 6769 125336

pesourb 15492 11152344

IDHM 0,71800 0,86200

IDHM_E 0,63100 0,82500

IDHM_L 0,83600 0,89400

IDHM_R 0,70700 0,89100

2.1 Análise das Variáveis

2.1.1 Variáveis categóricas

Como indica o foco de concentração, a análise deve ser feita preferencialmente por gráficos

tipo pie chart ou barras

2.1.2 Variável Município

Os dados correspondem ao 5.565 municípios brasileiros distribuído pelas 05 regiões conforme

demonstrado no gráfico a seguir

11

Gráfico 01 – Municípios por região

Fonte: elaborado pelo autor, com base no Atlas Brasil, 2010

O maior percentual de municípios está localizado na região Nordeste, com 32,3% seguida da

região Sudeste com 30,0 e, respectivamente, Sul, Centro-Oeste e Norte, com 21,3%, 8,4% e 8,1%.

Se analisarmos por Unidade Federativa, 05 estados têm cerca da metade dos municípios do

Brasil, conforme demonstramos:

Gráfico 02 – Municípios por Estado

Fonte: elaborado pelo autor, com base no Atlas Brasil, 2010

Para que possamos ter uma visão geral do IDHM de todos os municípios do Brasil, a figura

abaixo retrata essa distribuição.

449

1794

466

1668

1188Norte

Nordeste

Centro-Oeste

853

645

495

417399

2756

Municípios

Minas Gerais

São Paulo

RS do Sul

Bahia

Paraná

Outros

12

Figura 01 – IDHM dos municípios do Brasil


A Atlas Brasil propõem a seguinte classificação:

• Muito baixo: inferior a 0.500

• Baixo: de 0.500 a 0.599

• Médio: de 0.600 a 0.699

• Alto: de 0.700 a 0.799

• Muito alto: acima de 0.800

2.1.3 Variáveis Quantitativas

Permitem a utilização de várias ferramentas como histogramas, curvas de densidade, box-plot,

nos subsidiando com dados numéricos que compõem as médias, medianas, intervalos e testes de

normalidade como Anderson-Darling.

Neste estudo exploraremos 18 variáveis conforme demonstrações a seguir:

• Variável ESPVIDA: Número médio de anos que as pessoas deverão viver a partir do

nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade

por idade prevalecentes no ano.

http://www.google.com.br/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0ahUKEwjOqM3Ey_LSAhXKD5AKHdi-BJIQjRwIBw&url=http://www.geografia.seed.pr.gov.br/modules/galeria/detalhe.php?foto%3D1565%26evento%3D5&psig=AFQjCNFS33IyyqdIiPuWHW-9bHJN7J2SnA&ust=1490563398268686

13

78767472706866

Median

Mean

73,673,573,473,373,273,173,0

1st Q uartile 71,150

Median 73,470

3rd Q uartile 75,160

Maximum 78,640

73,019 73,159

73,380 73,550

2,632 2,731

A -Squared 34,95

P-V alue < 0,005

Mean 73,089

StDev 2,681

V ariance 7,186

Skewness -0,409315

Kurtosis -0,486787

N 5565

Minimum 65,300

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for ESPVIDA

Gráfico 3 – Variável Expectativa de Vida

Fonte: Minitab 16

Forma: Há uma maior distribuição concentrada na faixa de 73 a 75 anos e o posicionamento

da mediana está no inicio desse intervalo, ou seja, estabelecido entre 73,3 e 73,5 anos, o que é

demonstrado pelo box-plot.

Valores atípicos: não houve a indicação nesta análise de valores atípicos significativos, mas

ressaltam-se os dois extremos, Cacimbas (PB) e Roteiro (AL) com expectativa de 65,3 anos e

Blumenau e Brusque, ambas em SC, com 78,64 anos.

Centro e Dispersão: A mediana nos indica que municípios estão divididos proporcionalmente

entre os dois lados, sendo que seu valor para a “ESPVIDA”. é de 73,47 A média dos municípios é de

73,089, tendo um desvio-padrão de 2,681, com intervalo entre 2,632 e 2,731. Com 95% de confiança,

podemos afirmar que a média encontra-se entre os índices de 73,019 e 73,159.

• Variável T_ENV: Razão entre a população de 65 anos ou mais de idade e a população total


14

181512963

Median

Mean

8,458,408,358,30


Median 8,3800


Maximum 20,4200

8,3337 8,4610

8,3100 8,4700

2,3788 2,4689

A -Squared 1,52

P-V alue < 0,005

Mean 8,3973

StDev 2,4230

V ariance 5,8709

Skewness 0,207206

Kurtosis 0,407769

N 5565

Minimum 1,4600






Summary for T_ENV

Gráfico 4: Varíável Taxa de Envelhecimento

Fonte: Minitab 16

Forma: Há uma maior distribuição concentrada na faixa de 07 e 10 e o posicionamento da

mediana está no intervalo, entre 8,3100 e 8,4700, demonstrado pelo box-plot.

Valores atípicos: Esse tipo de concentração sinaliza que há valores atípicos que podem ser

melhor estudados. Pode-se citar com exemplo, pois estão muito distantes da média e da mediana, os

seguintes municípios: Santa Rosa do Purus (AC), Luis Eduardo Magalhães (BA), Campos de Júlio

(MT) e Sapezal (MT), com taxas de 1,75; 1,50; 1,61 e 1,46 respectivamente

Centro e Dispersão: A mediana nos indica que há uma distribuição proporcional de municípios

entre os dois lados, sendo que o seu valor é de 8,3800. A média dos municípios é de 8,3973, tendo

um desvio-padrão de 2,4230. Com 95% de confiança, podemos afirmar que a média encontra-se entre

os índices de 8,3337 e 8,4610.

• Variável T_FUND15A17: Razão entre a população de 15 a 17 anos de idade que concluiu o

ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou

supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.

15

98847056422814

Median

Mean

56,0055,7555,5055,2555,0054,7554,50


Median 55,420


Maximum 96,810

54,346 55,161

54,819 55,852

15,222 15,799

A -Squared 15,87

P-V alue < 0,005

Mean 54,754

StDev 15,505

V ariance 240,407

Skewness -0,116765

Kurtosis -0,653056

N 5565

Minimum 6,890






Summary for T_FUND15A17

Gráfico 5: Variável Taxa Ensino Fundamental

Fonte: Minitab 16

Forma: Há uma maior distribuição na faixa de 42,9 a 66,8 e o posicionamento da mediana

sinaliza maior concentração dos municípios entre 54,8 e 55,8, demonstrado pelo box-plot.

Valores atípicos: não houve a indicação nesta análise de valores atípicos significativos, mas

ressaltam-se os dois extremos, Jacareacanga (PA) e Melgaço (PA) com índices de 9,9 e 6,89

respectivamente e Monções (SP) e Várzea (PB), com 96,81 e 96,56 respectivamente.

Centro e Dispersão: A mediana nos indica que há uma distribuição proporcional de municípios

entre os dois lados, sendo que o seu valor é de 55,420. A média dos municípios é de 54,7540, tendo

um desvio-padrão de 15,5050. Com 95% de confiança, podemos afirmar que a média encontra-se

entre os índices de 54,346 e 55,161. Ressaltam-se os valores próximos da média e mediana com um

desvio padrão relativamente alto o que pode significar uma maior dispersão dos dados obtidos.

• Variável RDPC: Razão entre o somatório da renda de todos os indivíduos residentes em

domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de

01/agosto de 2010.

16

180015001200900600300

Median

Mean

500490480470460450


Median 467,65


Maximum 2043,74

487,21 500,00

456,26 478,34

238,83 247,88

A -Squared 80,55

P-V alue < 0,005

Mean 493,61

StDev 243,27

V ariance 59179,97

Skewness 0,95965

Kurtosis 1,65248

N 5565

Minimum 96,25






Summary for RDPC

Gráfico 06: Variável Renda Per Capita

Fonte: Minitab 16

Forma: Há uma distribuição concentrada na faixa entre 281,09 e 650,64. O Box-Plot

demonstra a concentração na faixa acima citada, o posicionamento da mediana confirma essa análise

Valores Atípicos: Há a indicação nesta análise de valores atípicos o que sugere uma análise

mais aprofundada, mas ressaltam-se os dois extremos, Marajá do Sena e Fernando Falcão, ambos no

MA, com respectivamente 96,25 e 106,99 e com indicadores de 2.000,29 e 2.043,74 respectivamente

Niterói (RJ) e São Caetano do Sul (SP)

Centro e Dispersão: A mediana nos indica que os municípios se concentram entre 456,26 e

478,34 e a média dos municípios é de 493,61, tendo um desvio-padrão de 243,27. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os índices de 487,21 e 500,00.

• Variável RIND: Média da renda domiciliar per capita das pessoas com renda domiciliar per

capita igual ou inferior a R$ 70,00 mensais, a preços de agosto de 2010. O universo de

indivíduos é limitado àqueles que vivem em domicílios particulares permanentes.

17

706050403020100

Median

Mean

32,832,632,432,232,031,8


Median 32,510


Maximum 70,000

31,783 32,288

32,280 32,730

9,428 9,785

A -Squared 60,66

P-V alue < 0,005

Mean 32,036

StDev 9,603

V ariance 92,215

Skewness -0,28293

Kurtosis 2,37275

N 5565

Minimum 0,000






Summary for RIND

Gráfico 07: Renda Individual

Fonte: Minitab 16

Forma: Há uma maior distribuição concentrada na faixa entre 27,435 e 37,090 e o

posicionamento da mediana está no intervalo, entre 32,280 2 32,730, demonstrado pelo box-plot

Valores atípicos: Não houve a indicação nesta análise de valores atípicos significativos, mas

ressaltam-se os dois extremos, com um dado de fato atípico, o menor índice está numa cidade de

Santa Catarina, Luzerna, com 1,40 e o maior em 05 cidades, sendo 03 em Santa Catarina, por

exemplo, Ibirama, com 70,0.

Centro e Dispersão: A mediana nos indica que há uma distribuição maior de municípios na

faixa de 32,280 e 32,730, sendo que o seu valor é de 32,510. A média dos municípios é de 32,036,

tendo um desvio-padrão de 9,603, que pode ser considerado de grau baixo. Com 95% de confiança,

podemos afirmar que a média encontra-se entre os índices de 31,783 e 32,288

• Variável TRABOCC: Razão entre o número de empregados de 18 anos ou mais de idade com

carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária,

multiplicada por 100.

18

847260483624120

Median

Mean

313029282726


Median 26,760


Maximum 83,210

29,775 30,724

25,958 27,401

17,723 18,394

A -Squared 94,28

P-V alue < 0,005

Mean 30,250

StDev 18,053

V ariance 325,895

Skewness 0,456757

Kurtosis -0,888866

N 5565

Minimum 0,900






Summary for TRABCC

Gráfico 08: Trabalhador com carteira assinada

Fonte: Minitab 16

Forma: o histograma sinaliza uma distribuição mais concentrada na faixa de 14,860 e 44,620.

O Box-Plot demostra a consideração na faixa acima e o posicionamento da mediana praticamente

valida essa tendência.

Valores Atípicos: Apesar da concentração, há evidências de valores atípicos em virtude do

distanciamento da moda e mediana. Nos dois extremos temos, Sebastião Barros (PI) com indicador

de 0,9 e Pedra Bonita (MG) com 1,19 contra Palmares Paulista e Dobrada, ambas em SP, com 82,27

e 83,21 respectivamente.

Centro e Dispersão: A mediana nos indica que há uma concentração à esquerda, com boa parte

dos municípios variando entre os índices 25,958 e 27,401. A média dos municípios brasileiros é de

30,250 tendo um desvio padrão de 18,053. Com 95% de confiança nos intervalos apurados, podemos

afirmar que a média encontra-se entre os valores 29,775 e 30,724.

• Variável TRABSC: Razão entre o número de empregados de 18 anos ou mais de idade sem

carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária,

multiplicada por 100.

19

5648403224168

Median

Mean

25,5025,2525,0024,7524,50


Median 24,750


Maximum 62,230

24,965 25,483

24,460 25,071

9,673 10,040

A -Squared 11,46

P-V alue < 0,005

Mean 25,224

StDev 9,853

V ariance 97,081

Skewness 0,324240

Kurtosis -0,261239

N 5565

Minimum 3,030






Summary for TRABSC

Gráfico 09: Variável Trabalhador sem carteira assinada

Fonte: Minitab 16


O Box-Plot demostra a consideração na faixa acima e o posicionamento da mediana, praticamente

nosso centro dessa distribuição, valida essa tendência.

Valores Atípicos: Pela distribuição e indicadores, não há valores atípicos relativamente

significativos, mas ressalta-se pontos de estudos em municípios mais críticos tais como: Caparaó

(MG) com 66,86 e Luciara (MT) 62,23





• Variável T_AGUA: Razão entre a população que vive em domicílios particulares

permanentes com água canalizada para um ou mais cômodos e a população total residente em

domicílios particulares permanentes, multiplicada por 100. A água pode ser proveniente de

rede geral, de poço, de nascente ou de reservatório abastecido por água das chuvas ou carro-

pipa.

20

988470564228140

Median

Mean

91908988878685


Median 90,280


Maximum 100,000

85,211 85,985

89,870 90,701

14,453 15,000

A -Squared 270,99

P-V alue < 0,005

Mean 85,598

StDev 14,721

V ariance 216,717

Skewness -1,89166

Kurtosis 4,71167

N 5565

Minimum 0,150






Summary for T_AGUA

Gráfico 10: Domicílios com água canalizada

Fonte: Minitab 16


O Box-Plot demostra a consideração na faixa acima e o posicionamento da mediana, praticamente

nosso centro dessa distribuição, valida essa tendência.

Valores Atípicos: A julgar pelos valores próximos e altos da média e mediana, entende-se que

há vários valores atípicos a serem considerados, preponderantemente, os municípios alocados na faixa

esquerda do histograma. Ressaltam-se os mais críticos: Baraúna (PB) com 0,15; Marcolândia (PI)

com 0,50 e Assunção (PB) com 0,77

Centro e Dispersão: A mediana nos indica que há uma concentração à direita, com boa parte




• Variável T_LUZ: Razão entre a população que vive em domicílios particulares permanentes

com iluminação elétrica e a população total residente em domicílios particulares permanentes,

multiplicada por 100. Considera-se iluminação proveniente ou não de uma rede geral, com ou

sem medidor.

21

10090807060504030

Median

Mean

99,599,098,598,097,597,0


Median 99,390


Maximum 100,000

97,031 97,348

99,350 99,430

5,915 6,138

A -Squared 938,37

P-V alue < 0,005

Mean 97,190

StDev 6,024

V ariance 36,293

Skewness -4,2167

Kurtosis 23,1543

N 5565

Minimum 27,410






Summary for T_LUZ

Gráfico 11: Domicílios com iluminação elétrica

Fonte: Minitab 16

Forma: Bastante parecida com a análise anterior, mas com um grão ainda maior de

concentração, agora na faixa de 97,645 e 99,870. O Box-Plot demostra a consideração na faixa acima

e o posicionamento da mediana, praticamente nosso centro dessa distribuição, valida essa tendência.

Valores Atípicos: A julgar pelos valores próximos e altos da média e mediana, entende-se que

há vários valores atípicos a serem considerados, preponderantemente, os municípios alocados na faixa

esquerda do histograma. Ressaltam-se os mais críticos: Uiramutã (RR), com a taxa mais critica entre

todos os municípios brasileiros, 27,41 e Jordão (AC), Dom Inocêncio (PI) e São Lourenço do Piau

(PI)´, com 41,83, 44,16 e 44,27 respectivamente.

Centro e Dispersão: A mediana nos indica que há uma concentração à direita, com boa parte dos

municípios variando entre os índices 99,350 e 99,430. A média dos municípios brasileiros é de 97,190

tendo um desvio padrão de 6.024. Com 95% de confiança nos intervalos apurados, podemos afirmar

que a média encontra-se entre os valores 97,031 e 97,348.

• Variável ÁGUA_ESGOTO: Razão entre as pessoas que vivem em domicílios cujo

abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado

por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios

particulares permanentes, multiplicada por 100. São considerados apenas os domicílios

particulares permanentes.

22

847260483624120

Median

Mean

108642


Median 3,2600


Maximum 85,3600

8,8643 9,5391

2,9400 3,5910

12,6050 13,0823

A -Squared 500,69

P-V alue < 0,005

Mean 9,2017

StDev 12,8392

V ariance 164,8446

Skewness 1,99895

Kurtosis 4,21350

N 5565

Minimum 0,0000






Summary for AGUA_ESGOTO

Gráfico 12: Domicílios com abastecimento de água sem rede geral

Fonte: Minitab 16

Forma: Contrapõe, de forma quase proporcional, os dados e análise do indicador T_ÁGUA.

Quanto mais concentrada à esquerda, próximos do eixo vertical, melhor seriam os resultados. Neste

indicador, os dados estão concentrados entre 0,5300 e 13,0350 O Box-Plot demostra a consideração

na faixa acima e o posicionamento da mediana, praticamente dentro dessa distribuição, valida essa

tendência.

Valores Atípicos: A julgar pelos valores relativos próximos da média e mediana, considerando

a população deste estudo, entende-se que há valores atípicos a serem considerados,

preponderantemente, os municípios alocados na faixa direita do histograma. Ressaltam-se os mais

críticos: Chaves e Melgaço (PA) com, respectivamente, 85,36 e 78,93





• Variável T_LUZ: Razão entre as pessoas que vivem em domicílios sem energia elétrica e

população total residente em domicílios particulares permanentes multiplicado por 100.

23

706050403020100

Median

Mean

3,02,52,01,51,00,5


Median 0,6100


Maximum 72,5900

2,6521 2,9687

0,5700 0,6500

5,9145 6,1384

A -Squared 938,10

P-V alue < 0,005

Mean 2,8104

StDev 6,0244

V ariance 36,2931

Skewness 4,2167

Kurtosis 23,1543

N 5565

Minimum 0,0000






Summary for T_SLUZ

Gráfico 13: Domicílios sem energia elétrica

Fonte: Minitab 16

Forma: Muito similar à análise do indicador anterior. Quanto mais concentrada à esquerda,

próximos do eixo vertical, melhor seriam os resultados. Neste indicador, os dados estão concentrados

entre 0,1300 e 2,3550 O Box-Plot demostra a consideração na faixa acima e o posicionamento da

mediana, praticamente dentro dessa distribuição, valida essa tendência.

Valores Atípicos: Como na análise anterior, se observamos a macro distribuição, sem muito

variação, não teríamos valores atípicos significativos, mas a julgar pelos valores relativos próximos

da média e mediana, considerando a população deste estudo e o indicador propriamente dito, entende-

se que há valores atípicos a serem considerados, preponderantemente, os municípios alocados na

faixa direita do histograma. Ressaltam-se os mais críticos: Uiramutâ (RR) e Jordão (AC) com,

respectivamente, 72,59 e 58,17.


dos municípios variando entre os índices 0,5700 e 0,.6500. A média dos municípios brasileiros é de



• Variável pesoRUR: População residente na área rural.

24

12600010800090000720005400036000180000

Median

Mean

550050004500400035003000

1st Q uartile 1599

Median 3233

3rd Q uartile 6769

Maximum 125336

5186 5535

3130 3354

6521 6767

A -Squared 457,97

P-V alue < 0,005

Mean 5360

StDev 6642

V ariance 44111847

Skewness 4,6970

Kurtosis 45,1552

N 5565

Minimum 0






Summary for pesoRUR

Gráfico 14: População residente na área rural

Fonte: Minitab 16

Forma: Neste indicador, os dados estão concentrados entre 1.599 e 6.769 O Box-Plot demostra

a consideração na faixa acima e o posicionamento da mediana, dentro dessa distribuição, valida essa

tendência.

Valores Atípicos: Por ser indicador absoluto e atendendo às características das cidades

brasileiras, entende-se por não haver valores atípicos neste indicador, mesmo considerando o alto

desvio padrão.


dos municípios variando com população rural entre 3.130 e 3.354. A média dos municípios brasileiros

é de 5.360 tendo um desvio padrão de 6.642. Com 95% de confiança nos intervalos apurados,

podemos afirmar que a média encontra-se entre os valores 5.186 e 5.535.

• Variável pesourb: População residente na área urbana.

25

112000009600000800000064000004800000320000016000000

Median

Mean

3500030000250002000015000100005000

1st Q uartile 2838

Median 6263

3rd Q uartile 15492

Maximum 11152344

23621 34214

5993 6516

197875 205367

A -Squared 1664,44

P-V alue < 0,005

Mean 28917

StDev 201551

V ariance 40622813581

Skewness 37,77

Kurtosis 1858,03

N 5565

Minimum 174






Summary for pesourb

Gráfico 15: População residente na área urbana

Fonte: Minitab 16

Forma: Neste indicador, os dados estão concentrados entre 2.838 e 15.492 O Box-Plot

demostra a consideração na faixa acima e o posicionamento da mediana, dentro dessa distribuição,

valida essa tendência. Não há praticamente, distorção de distribuição neste indicador

Valores Atípicos: Por ser indicador absoluto e atendendo às características das cidades

brasileiras, entende-se por não haver valores atípicos neste indicador, mesmo considerando o alto

desvio padrão.


dos municípios variando com população urbana entre 5.993 e 6.516. A média dos municípios

brasileiros é de 28.917 tendo um desvio padrão de 201.551. Com 95% de confiança nos intervalos

apurados, podemos afirmar que a média encontra-se entre os valores 23.621 e 34.214.

• Variável IDHM: Índice de Desenvolvimento Humano Municipal. Média geométrica dos

índices das dimensões Renda, Educação e Longevidade, com pesos iguais.

26

0,840,770,700,630,560,490,42

Median

Mean

0,6700,6680,6660,6640,6620,6600,658


Median 0,66500


Maximum 0,86200

0,65727 0,66105

0,66200 0,66900

0,07068 0,07336

A -Squared 40,51

P-V alue < 0,005

Mean 0,65916

StDev 0,07200

V ariance 0,00518

Skewness -0,155605

Kurtosis -0,844490

N 5565

Minimum 0,41800






Summary for IDHM

Gráfico 16: Variável IDHM

Fonte: Minitab 16

Forma: O histograma nos apresenta uma distribuição concentrada na faixa entre os índices

0,5990 e 0,7180. O Box-Plot demonstra a concentração na faixa acima citada, o posicionamento da

mediana confirma o posicionamento.

Valores Atípicos: Não há valores atípicos considerados neste indicador

Centro e Dispersão: A mediana nos indica que há uma distribuição dos municípios

proporcional entre os lados, sendo que o seu valor para IDHM é de 0,6650. O IDHM médio dos

municípios é de 0,6591, tendo um desvio-padrão de 0,0720.. Com 95% de confiança, podemos

afirmar que a média encontra-se entre os índices de 0,6572 e 0,6610.

Destacam-se os municípios que estão nos dois extremos desta análise:

Extremo inferior: Melgaço (PA) com 0,418 e Fernando Falcão (MA) com 0,443

Extremo superior: Águas de São Pedro (SP) com 0,854 e São Caetano do Sul (SP) com 0,862

• Variável IDHM_L: Índice da dimensão Longevidade, é um dos 3 índices que compõem o

IDHM. É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor

observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os

valores mínimos e máximos são 25 e 85 anos, respectivamente.

27

0,870,840,810,780,750,720,69

Median

Mean

0,8100,8080,8060,8040,8020,800


Median 0,80800


Maximum 0,89400

0,80039 0,80274

0,80600 0,80900

0,04387 0,04553

A -Squared 35,06

P-V alue < 0,005

Mean 0,80156

StDev 0,04468

V ariance 0,00200

Skewness -0,409358

Kurtosis -0,486243

N 5565

Minimum 0,67200






Summary for IDHM_L

Gráfico 17: Variável IDHM_L

Fonte: Minitab 16

Forma: Por serem indicadores que englobam várias dimensões, o IDHM e os outros três

indicadores que o compõem, neste caso o IDHM_L têm uma análise muito similar. O histograma nos

apresenta uma distribuição concentrada na faixa entre os índices 0,7690 e 0,8360. O Box-Plot

demonstra a concentração na faixa acima citada, o posicionamento da mediana confirma o

posicionamento.



proporcional entre os lados, sendo que o seu valor para IDHM_L é de 0,8080. O IDHM_L médio dos

municípios é de 0,8015, tendo um desvio-padrão de 0,0446. Com 95% de confiança, podemos afirmar

que a média encontra-se entre os índices de 0,8003 e 0,8017.


Extremo inferior: Cacimbas (PB) e Roteiro (AL), ambos com 0,672

Extremo superior: Balneário Camboriú, Blumenau, Brusque e Rio do Sul, todas de SC e com índice

de 0,894.

• Variável IDHM_R: Índice da dimensão Renda, é um dos 3 índices que compõem o IDHM. É

obtido a partir do indicador Renda per capita, através da fórmula: [ln (valor observado do

indicador) - ln (valor mínimo)] / [ln (valor máximo) - ln (valor mínimo)], onde os valores

mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços de agosto de 2010).

28

0,840,770,700,630,560,490,42

Median

Mean

0,6560,6520,6480,6440,640


Median 0,65400


Maximum 0,89100

0,64075 0,64499

0,65000 0,65700

0,07919 0,08219

A -Squared 55,08

P-V alue < 0,005

Mean 0,64287

StDev 0,08066

V ariance 0,00651

Skewness -0,101024

Kurtosis -0,873212

N 5565

Minimum 0,40000






Summary for IDHM_R

Gráfico 18: Variável IDHM_R

Fonte: Minitab 16


indicadores que o compõem, neste caso o IDHM_R têm uma análise muito similar. O histograma nos

apresenta uma distribuição concentrada na faixa entre os índices 0,5720 e 0,7070. O Box-Plot


posicionamento.



proporcional entre os lados, sendo que o seu valor para IDHM_R é de 0,0,6540. O IDHM_R médio

dos municípios é de 0,6428, tendo um desvio-padrão de 0,0806. Com 95% de confiança, podemos



Extremo inferior: Marajá do Sena com 0,400 e Fernando Falcão e Belágua com 0,417, todas do MA

Extremo superior: Niterói (RJ) com 0,887 e São Caetano do Sul (SP) com 0,891.

• Variável IDHM_E: Índice sintético da dimensão Educação, é um dos 3 índices que compõem o

IDHM. É obtido através da média geométrica do subíndice de frequência escolar, com peso de

2/3, e do subíndice de escolaridade, com peso de 1/3.

29

0,810,720,630,540,450,360,27

Median

Mean

0,5630,5620,5610,5600,5590,5580,557


Median 0,56000


Maximum 0,82500

0,55664 0,56155

0,55700 0,56300

0,09163 0,09509

A -Squared 9,32

P-V alue < 0,005

Mean 0,55909

StDev 0,09333

V ariance 0,00871

Skewness -0,098463

Kurtosis -0,515837

N 5565

Minimum 0,20700






Summary for IDHM_E

Gráfico 19: Variável IDHM_E

Fonte: Minitab 16


indicadores que o compõem, neste caso o IDHM_E, têm uma análise muito similar. O histograma

nos apresenta uma distribuição concentrada na faixa entre os índices 0,4900 e 0,6410. O Box-Plot


posicionamento.



proporcional entre os lados, sendo que o seu valor para IDHM_E é de 0,5600. O IDHM_E médio dos

municípios é de 0,5590, tendo um desvio-padrão de 0,0933.. Com 95% de confiança, podemos



Extremo inferior: Melgaço (PA) com 0,0,207 e Chaves (PA) com 0,234

Extremo superior: São Caetano do Sul (SP) com 0,811 e Águas de São Pedro (SP) com 0,825.

• Variável T_MED18A20: Razão entre a população de 18 a 20 anos de idade que já concluiu o

ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou

supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20

anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído

esse nível de ensino.

30

84726048362412

Median

Mean

36,536,035,535,034,5


Median 35,140


Maximum 88,030

35,708 36,474

34,609 35,621

14,309 14,851

A -Squared 13,93

P-V alue < 0,005

Mean 36,091

StDev 14,575

V ariance 212,425

Skewness 0,324003

Kurtosis -0,311149

N 5565

Minimum 1,910






Summary for T_MED18A20

Gráfico 20: Variável Ensino Médio

Fonte: Minitab 16

Forma: Há uma distribuição concentrada na faixa entre 24,990 e 46,325. O box-plot demonstra

a concentração dessa faixa e o posicionamento da mediana praticamente confirma essa tendência.

Valores atípicos: Esse tipo de concentração sinaliza que há valores atípicos que podem ser

melhor estudados. Pode-se citar com exemplo, pois estão muito distantes da média e da mediana, os

seguintes municípios: Chaves (PA) com 1,91; Porto de Pedras (AL) com 3,08 e Jacareacanga (PA)

com 3,37

Centro e Dispersão: A mediana nos indica que há leve concentração, com um pouco mais da

metade dos municípios variando entre os índices 34,609 e 35,621. A média apurada foi de 36,091

tendo um desvio padrão de 14,575, aparentemente não expressivo.Com 95% de confiança, podemos

afirmar que a média encontra-se entre os valores de 35,708 e 36,474.

Considerações: Há uma distribuição bastante diferente se compararmos o IDHM_E, que é o

indicador geral da educação, com os que expressam os indicadores especifico do Ensino Médio, o

que sinaliza uma possível adoção de políticas não uniformes entre este ensino e os demais que

compõem o IDHM_E. Ambos apresentam intervalos de confiança de 95%, mas com distribuição

diferentes das médias e medianas

2.1.4 Comparações da Análise Descritiva

Apresentamos, a seguir, quadro comparando histograma, Box-Plot, Curva de densidade,

Média, Desvio Padrão, Mediana e P-value do teste de normalidade Anderson-Darling, das variáveis

analisadas.

31

VARIÁVEL GRÁFICO MÉDIA DESVIO PADRÃO MEDIANA P-VALUE

ESPVIDA

73,089 2,681 73,47 0,005

T_ENV

8,3973 2,423 8,38 0,005

T_FUND15A17

54,754 15,505 55,42 0,005

T_MED18a20

36,091 14,575 35,14 0,005

RDPC

493,61 243,27 467,65 0,005

RIND

32,036 9,603 32,51 0,005

32

TRABCC

30,25 18,053 26,76 0,005

TRABSC

25,224 9,853 24,75 0,005

T_AGUA

85,598 14,721 90,28 0,005

T_LUZ

97,19 6,024 99,39 0,005

AGUA_ESGOTO

9,2017 12,8392 3,26 0,005

T_SLUZ

2,8104 6,0244 0,61 0,005

PESORUR

5.360 6.642 3.233 0,005

33

PESOURB

28.917 201.551 6.263 0,005

IDHM

0,6591 0,072 0,665 0,005

IDHM_E

0,559 0,0933 0,56 0,005

IDHM_L

0,8015 0,0446 0,808 0,005

IDHM_R

0,6428 0,0806 0,654 0,005

Quadro 02 – Análise comparativa das variáveis

Fonte: Minitab 16, complementado pelo autor

CAPÍTULO 3.RELAÇÃO ENTRE AS VARIÁVEIS

3.1 Correlação dos Valores

Um coeficiente de correlação mede o grau pelo qual duas variáveis tendem a mudar juntas. O

coeficiente descreve a força e a direção da relação.

A correlação de Pearson avalia a relação linear entre duas variáveis contínuas. Uma relação é

linear quando a mudança em uma variável é associada a uma mudança proporcional na outra variável.

Os dados a seguir representam a correlação entre as 18 variáveis selecionadas para este

estudo e abordadas nas análises das variáveis quantitativas

Variáveis e correlações:

Correlations: ESPVIDA; T_ENV; T_FUND15A17; T_MED18A20; RDPC; RIND; TRABCC; ...

34

ESPVIDA T_ENV T_FUND15A17 T_MED18A20 RDPC

T_ENV 0,223

0,000

T_FUND15A17 0,666 0,365

0,000 0,000

T_MED18A20 0,660 0,388 0,833

0,000 0,000 0,000

RDPC 0,784 0,204 0,671 0,717

0,000 0,000 0,000 0,000

RIND -0,000 0,104 0,034 0,076 0,040

0,981 0,000 0,010 0,000 0,003

TRABCC 0,601 -0,070 0,495 0,524 0,664

0,000 0,000 0,000 0,000 0,000

TRABSC -0,519 -0,056 -0,449 -0,473 -0,615

0,000 0,000 0,000 0,000 0,000

T_AGUA 0,549 0,088 0,528 0,515 0,564

0,000 0,000 0,000 0,000 0,000

T_LUZ 0,341 0,302 0,438 0,436 0,386

0,000 0,000 0,000 0,000 0,000

AGUA_ESGOTO -0,604 -0,340 -0,593 -0,582 -0,587

0,000 0,000 0,000 0,000 0,000

T_SLUZ -0,341 -0,302 -0,438 -0,436 -0,386

0,000 0,000 0,000 0,000 0,000

pesoRUR -0,245 -0,284 -0,293 -0,298 -0,216

0,000 0,000 0,000 0,000 0,000

pesourb 0,091 -0,063 0,050 0,075 0,217

0,000 0,000 0,000 0,000 0,000

IDHM 0,852 0,238 0,832 0,851 0,908

0,000 0,000 0,000 0,000 0,000

IDHM_E 0,704 0,212 0,855 0,877 0,791

0,000 0,000 0,000 0,000 0,000

IDHM_L 1,000 0,223 0,666 0,660 0,784

0,000 0,000 0,000 0,000 0,000

IDHM_R 0,834 0,229 0,721 0,748 0,962

0,000 0,000 0,000 0,000 0,000

RIND TRABCC TRABSC T_AGUA T_LUZ

TRABCC 0,046

0,001

TRABSC 0,057 -0,555

0,000 0,000

T_AGUA 0,066 0,549 -0,295

0,000 0,000 0,000

T_LUZ 0,168 0,373 -0,197 0,408

0,000 0,000 0,000 0,000

AGUA_ESGOTO -0,095 -0,523 0,303 -0,640 -0,423

0,000 0,000 0,000 0,000 0,000

T_SLUZ -0,168 -0,373 0,197 -0,408 -1,000

0,000 0,000 0,000 0,000 *

35

pesoRUR -0,044 -0,197 0,099 -0,256 -0,193

0,001 0,000 0,000 0,000 0,000

pesourb 0,046 0,142 -0,090 0,083 0,046

0,001 0,000 0,000 0,000 0,001

IDHM 0,072 0,727 -0,571 0,659 0,490

0,000 0,000 0,000 0,000 0,000

IDHM_E 0,098 0,692 -0,505 0,615 0,491

0,000 0,000 0,000 0,000 0,000

IDHM_L -0,000 0,601 -0,519 0,549 0,341

0,977 0,000 0,000 0,000 0,000

IDHM_R 0,051 0,700 -0,587 0,641 0,448

0,000 0,000 0,000 0,000 0,000

AGUA_ESGOTO T_SLUZ pesoRUR pesourb IDHM

T_SLUZ 0,423

0,000

pesoRUR 0,379 0,193

0,000 0,000

pesourb -0,053 -0,046 0,220

0,000 0,001 0,000

IDHM -0,668 -0,490 -0,272 0,149

0,000 0,000 0,000 0,000

IDHM_E -0,590 -0,491 -0,249 0,147 0,951

0,000 0,000 0,000 0,000 0,000

IDHM_L -0,604 -0,341 -0,245 0,091 0,852

0,000 0,000 0,000 0,000 0,000

IDHM_R -0,671 -0,448 -0,260 0,157 0,948

0,000 0,000 0,000 0,000 0,000

IDHM_E IDHM_L

IDHM_L 0,704

0,000

IDHM_R 0,820 0,834

0,000 0,000

Cell Contents: Pearson correlation

P-Value

Como base na análise das correlações obtidas, nota-se que as variáveis elencadas na tabela a

seguir apresentam forte relação, mas que necessariamente não significa que podem apresentar

causalidade, ou seja, sentido direto entre elas.

Percebe-se que quase todas as correlações têm como pelo menos um indicador o IDHM ou os

outros três indicadores que o compõem: IDHM_L; IDHM_R e IDHM_E.

Premissas:

1) Foram invalidadas as correlações que apresentaram indicadores (denominadores) diferentes

de 0,000

36

2) Correlações utilizadas considerando variáveis maior ou igual a 0,800, positiva ou negativa.

Variável Variável Grau de Correlação

T_MED18A20 T_FUND15A17 0,833

IDHM ESPVIDA 0,852

IDHM T_FUND15A17 0,832

IDHM T_MED18A20 0,851

IDHM RDPC 0,908

IDHM_E T_FUND15A17 0,855

IDHM_E T_MED18A20 0,877

IDHM_L ESPVIDA 1,000

IDHM_R ESPVIDA 0,834

IDHM_R RDPC 0,962

IDHM_E IDHM 0,951

IDHM_L IDHM 0,852

IDHM_R IDHM 0,948

IDHM_R IDHM_E 0,820

IDHM_R IDHM_L 0,834 Quadro 03: Correlações das variáveis validadas

Fonte: elaborador pelo autor

Para efeito do foco deste estudo, têm-se como principais correlações, conforme segue, sendo

a principal delas entre ensino médio e IDHM_E.


T_MED18A20 T_FUND15A17 0,833



Quadro 04: Correlações das variáveis validadas com Ensino Médio

3.2 Gráfico das Dispersões

Nos gráficos a seguir serão demonstradas as relações entre as variáveis destacadas no quadro

anterior e a composição das dispersões.

2000150010005000

80

70

60

50

40

30

20

10

0

X-Data

Y-D

ata

IDHM_R * RDPC

IDHM_E * IDHM

IDHM_L * IDHM

IDHM_R * IDHM

IDHM_R * IDHM_E

IDHM_R * IDHM_L

ESPVIDA * T_FUND15A17

IDHM * ESPVIDA

IDHM * T_FUND15A17

IDHM * T_MED18A20

IDHM * RDPC

IDHM_E * T_FUND15A17

IDHM_E * T_MED18A20

IDHM_L * ESPVIDA

IDHM_R * ESPVIDA

Variable

Scatterplot of ESPVIDA vs T_FUND15A17; IDHM vs ESPVIDA; IDHM vs T_FUND

Gráfico 21: Scatterplot das variáveis correlacionadas

Fonte: Minitab 16

37

200010000 200010000

80

40

0

80

40

0

80

40

0

200010000

80

40

0

200010000

ESPV IDA *T_FUND15A 17 IDHM*ESPV IDA IDHM*T_FUND15A 17 IDHM*T_MED18A 20

IDHM*RDPC IDHM_E*T_FUND15A 17 IDHM_E*T_MED18A 20 IDHM_L*ESPV IDA

IDHM_R*ESPV IDA IDHM_R*RDPC IDHM_E*IDHM IDHM_L*IDHM

IDHM_R*IDHM IDHM_R*IDHM_E IDHM_R*IDHM_L

Scatterplot of ESPVIDA vs T_FUND15A17; IDHM vs ESPVIDA; IDHM vs T_FUND

Gráfico 22: Scatterplot das variáveis correlacionadas agrupadas

Fonte: Minitab 16

100500

100

50

0

757065

1,00

0,75

0,50

100500

1,00

0,75

0,50

100500

1,00

0,75

0,50

200010000

1,00

0,75

0,50

100500

0,9

0,6

0,3

100500

0,9

0,6

0,3

757065

0,9

0,8

0,7

757065

1,00

0,75

0,50

200010000

1,00

0,75

0,50

0,80,60,4

0,9

0,6

0,3

0,80,60,4

0,9

0,8

0,7

0,80,60,4

1,00

0,75

0,50

0,90,60,3

1,00

0,75

0,50

0,90,80,7

1,00

0,75

0,50

T_MED18A20*T_FUND15A17 IDHM*ESPVIDA IDHM*T_FUND15A17 IDHM*T_MED18A20

IDHM*RDPC IDHM_E*T_FUND15A17 IDHM_E*T_MED18A20 IDHM_L*ESPVIDA

IDHM_R*ESPVIDA IDHM_R*RDPC IDHM_E*IDHM IDHM_L*IDHM

IDHM_R*IDHM IDHM_R*IDHM_E IDHM_R*IDHM_L

Scatterplot of T_MED18A20 vs T_FUND15A17; IDHM vs ESPVIDA; IDHM vs T_F

Gráfico 23: Scatterplot simples, utilizando linha de regressão

Fonte Minitab 16

As análises dos gráficos de dispersão devem ser feitas considerando os padrões gerais os

desvios relativos ao padrão.

Os padrões são definidos quanto à direção, intensidade e forma.

38

a) Quanto à direção: Todas as correlações analisados possuem associações positivas, ou seja,

a alteração ou crescimento e uma variável implica crescimento ou alteração da variável

correlacionada.

b) Quanto à intensidade: Pela análise dos dados apresentados nos gráficos acima,

Configura-se uma relação linear, com intensidade mais moderada (ou menor) nas

correlações IDHM_L x ESPVIDA; IDHM_R x RDPC, IDHM x RDPC

c) Quanto à forma: Os gráficos apresentam conglomerados que sugerem relações lineares,

ressaltando à análise no item anterior.

3.3 Dendograma

É um tipo específico de diagrama ou representação icônica que organiza determinados fatores

e variáveis. Sua representação apresenta-se na forma de um diagrama de similaridade.

A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas.

Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

Quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre

elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional

da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo.

Seguem os dendogramas das variáveis analisadas:

Cluster Analysis of Variables: ESPVIDA; T_ENV; T_FUND15A17; T_MED18A20; ... Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 17 99,9990 0,000021 1 17 1 2

2 16 98,0832 0,038336 5 18 5 2

3 15 97,5438 0,049125 15 16 15 2

4 14 97,4161 0,051679 5 15 5 4

5 13 93,8680 0,122641 4 5 4 5

6 12 92,7329 0,145342 3 4 3 6

7 11 92,6074 0,147851 1 3 1 8

8 10 86,3509 0,272982 1 7 1 9

9 9 82,9637 0,340727 1 9 1 10

10 8 74,5288 0,509423 1 10 1 11

11 7 71,1341 0,577319 11 12 11 2

12 6 69,4151 0,611698 1 2 1 12

13 5 68,9679 0,620642 11 13 11 3

14 4 65,1619 0,696762 8 11 8 4

15 3 60,9778 0,780444 8 14 8 5

16 2 60,8659 0,782682 1 8 1 17

17 1 58,4009 0,831982 1 6 1 18

Final Partition

Cluster 1

ESPVIDA T_FUND15A17 T_MED18A20 RDPC TRABCC T_AGUA T_LUZ IDHM IDHM_E

39

IDHM_L IDHM_R

Cluster 2

T_ENV

Cluster 3

RIND

Cluster 4

TRABSC

Cluster 5

AGUA_ESGOTO T_SLUZ

Cluster 6

pesoRUR

Cluster 7

pesourb

Dendograma 01, com a utilização de 01 cluster

RIND

peso

urb

pesoRUR

T_S

LUZ

AGU

A_E

SGOTO

TRA

BSC

T_E

NV

T_LU

Z

T_A

GUA

TRA

BCC

IDHM

_E

IDHM

IDHM

_R

RDPC

T_M

ED18

A20

T_F

UND15

A17

IDHM_L

ESPV

IDA

58,40

72,27

86,13

100,00

Variables

Sim

ila

rit

y

DendrogramSingle Linkage; Correlation Coefficient Distance

Gráfico 24: Dendograma das variáveis com 01 cluster

Fonte: Minitab 16

Dendograma 02, com a utilização de 4 clusters

RIN

D

peso

urb

peso

RUR

T_S

LUZ

AGU

A_E

SGOTO

TRA

BSC

T_E

NV

T_LU

Z

T_A

GUA

TRA

BCC

IDHM

_E

IDHM

IDHM

_R

RDPC

T_M

ED18

A20

T_F

UND15

A17

IDHM_L

ESPV

IDA

58,40

72,27

86,13

100,00

Variables

Sim

ila

rit

y


Gráfico 25: Dendograma das variáveis com 04 clusteres

Fonte: Minitab 16

40

Dendograma 03, com a utilização de 7 clusters

RIND

peso

urb

peso

RUR

T_SL

UZ

AGUA

_ESG

OTO

TRAB

SC

T_EN

V

T_LU

Z

T_AG

UA

TRAB

CC

IDHM

_E

IDHM

IDHM

_R

RDPC

T_MED

18A2

0

T_FU

ND15

A17

IDHM

_L

ESPV

IDA

58,40

72,27

86,13

100,00

Variables

Sim

ila

rit

y


Gráfico 26: Dendograma das variáveis com 07 clusteres

Fonte: Minitab 16

Considerações: Quando analisamos a distribuição com 01 cluster, observa-se que as

variáveis com maior similaridade são as que seguem. As demais variáveis se relacionam entre si,

confirmando as análises anteriores.

• ESPVIDA e IDHM_L

• RDPC e IDHM_R

• IDHM e IDHM_E

• ÁGUA_ESGOTO e T_LUZ

Quando analisamos a distribuição com 04 clusters, observa-se que as variáveis com maior

similaridade se mantém como na distribuição anterior. As demais variáveis se relacionam entre si,

confirmando as análises anteriores.

Quando analisamos a distribuição com 07 clusters, observa-se que novamente as variáveis

com maior similaridade se mantém. As demais variáveis se relacionam entre si, confirmando as

análises anteriores.

CAPÍTULO 4. ANÁLISES DE TENDÊNCIAS

O presente trabalho tem por objetivo efetuar uma análise de tendência e projeções das

variáveis temporais e quantitativas: Pessoas de 5 anos ou mais de idade alfabetizadas, por grupos de

Idade; Número médio aluno por turma no ensino fundamental, na rede pública e Número médio aluno

por turma no ensino fundamental, na rede privada.

Todos os dados utilizados são referentes ao Brasil. Estas variáveis integram à Plataforma

utilizada: IBGE – SÉRIES HISTÓRICAS E ESTATÍSTICAS.

A análise de cada variável está dividida em três partes. A primeira refere-se a análise do

comportamento histórico através de gráficos. A segunda trata da análise de tendências, buscando

41

encontrar a função que melhor se adapte à cada uma das séries de variáveis analisadas. A terceira

busca a elaboração e análise de projeções através de extrapolações estatísticas. O software estatístico

utilizado é o MINITAB.

1ª Base de dados:

Temas e subtemas » crianças, adolescentes e jovens » educação » educação » alfabetização e

instrução »

Pessoas de 5 anos ou mais de idade alfabetizadas, por grupos de Idade

Tabela 01: Pessoas alfabetizadas com 05 anos ou mais

Pessoas de 5 anos ou mais de idade

Período Alfabetizadas

2001 85,39

2002 85,85

2003 86,31

2004 86,31

2005 86,72

2006 87,56

2007 88,12

2008 88,49

2009 88,83

2011 90,17

Fonte: IBGE.gov.br

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-anos-mais-

idade-alfabetizadas, acesso em 31/03/2017

• LINEAR

Trend Analysis for Alfabetizadas

Data Alfabetizadas

Length 10

NMissing 0

Fitted Trend Equation

Yt = 84,673 + 0,491*t

Accuracy Measures

MAPE 0,268347

MAD 0,235091

MSD 0,081848

http://seriesestatisticas.ibge.gov.br/lista_tema.aspx?op=0&no=0


http://seriesestatisticas.ibge.gov.br/lista_tema.aspx?op=0&no=3&de=4




http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-anos-mais-idade-alfabetizadas

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-anos-mais-idade-alfabetizadas

42

Forecasts

Period Forecast

2011 90,0767

2012 90,5679

2013 91,0591

2014 91,5503

2015 92,0415

2016 92,5327

2017 93,0239

2018 93,5152

2019 94,0064

2020 94,4976

2019201720152013201120092007200520032001

95,0

92,5

90,0

87,5

85,0

Index

Alf

ab

eti

za

da

s MAPE 0,268347

MAD 0,235091

MSD 0,081848

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for AlfabetizadasLinear Trend Model

Yt = 84,673 + 0,491*t

Gráfico 27: Trend Analysis for Alfabetizadas - linear

Fonte: Minitab 16

• QUADRATIC


Data Alfabetizadas

Length 10

NMissing 0


Yt = 85,299 + 0,178*t + 0,0284*t**2

Accuracy Measures

MAPE 0,202877

MAD 0,177879

MSD 0,039121

Forecasts

Period Forecast

2011 90,703

2012 91,535

2013 92,425

2014 93,371

2015 94,374

2016 95,434

2017 96,551

43

2018 97,725

2019 98,956

2020 100,244

2019201720152013201120092007200520032001

100,0

97,5

95,0

92,5

90,0

87,5

85,0

Index

Alf

ab

eti

za

da

s MAPE 0,202877

MAD 0,177879

MSD 0,039121

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for AlfabetizadasQuadratic Trend Model

Yt = 85,299 + 0,178*t + 0,0284*t**2

Gráfico 28: Trend Analysis for Alfabetizadas - Quadratic

Fonte: Minitab 16

• EXPONENTIAL


Data Alfabetizadas

Length 10

NMissing 0


Yt = 84,7086 * (1,00563**t)

Accuracy Measures

MAPE 0,260918

MAD 0,228645

MSD 0,077821

Forecasts

Period Forecast

2011 90,1009

2012 90,6078

2013 91,1176

2014 91,6302

2015 92,1457

2016 92,6642

2017 93,1855

2018 93,7098

2019 94,2370

2020 94,7671

44

2019201720152013201120092007200520032001

95,0

92,5

90,0

87,5

85,0

Index

Alf

ab

eti

za

da

s MAPE 0,260918

MAD 0,228645

MSD 0,077821

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for AlfabetizadasGrowth Curve Model

Yt = 84,7086 * (1,00563**t)

Gráfico 29: Trend Analysis for Alfabetizadas - Exponential

Fonte: Minitab 16

• S-CURVE


Data Alfabetizadas

Length 10

NMissing 0


Yt = (10**3) / (12,2919 - 0,545654*(1,07812**t))

Accuracy Measures

MAPE 0,199230

MAD 0,174960

MSD 0,041800

Forecasts

Period Forecast

2011 90,548

2012 91,355

2013 92,241

2014 93,215

2015 94,289

2016 95,475

2017 96,787

2018 98,243

2019 99,862

2020 101,669

45

2019201720152013201120092007200520032001

102,5

100,0

97,5

95,0

92,5

90,0

87,5

85,0

Index

Alf

ab

eti

za

da

s Intercept 77,8964

Asymptote 81,3544

Asym. Rate 1,0781

Curve Parameters

MAPE 0,199230

MAD 0,174960

MSD 0,041800

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for AlfabetizadasS-Curve Trend Model

Yt = (10**3) / (12,2919 - 0,545654*(1,07812**t))

Gráfico 30: Trend Analysis for Alfabetizadas – S-Curve

Fonte: Minitab 16

Pessoas de 5 anos ou mais de idade alfabetizadas, por grupos de Idade

Indicador LINEAR QUADRATIC EXPONENTIAL S-CURVE

MAPE 0,268347 0,202877 0,260918 0,199230

MAD 0,235091 0,177879 0,228645 0,171960

MSD 0,081848 0,039121 0,077821 0,041800 Quadro 05: Comparativo pessoas alfabetizadas

Fonte: elaborado pelo autor

4.1. Entendendo o Conceito dos Indicadores

Análise:

Erro percentual absoluto médio (MAPE)

Expressa precisão como porcentagem do erro. Como esse número é uma porcentagem, ele

pode ser mais fácil de compreender do que outras estatísticas.

Desvio absoluto médio (MAD)

Expressa precisão nas mesmas unidades dos dados, o que ajuda a conceituar a magnitude do

erro.

Desvio quadrado médio (MSD)

Uma medida comumente usada da exatidão dos valores de séries temporais ajustados.

4.2. Entendendo os Conceitos dos Gráficos

Análise:

Linear: Análise de tendências por padrão.

46

Quadratic: O modelo de tendência quadrática explicar a curvatura simples dos dados

Exponential: O modelo exponencial de tendência de crescimento explica o crescimento exponencial

ou decadência.

S-curve: O modelo de tendência da curva S se ajusta ao modelo de tendência logística Pearl-Reed.

Ao analisarmos os índices apresentados no MAPE, MAD e MSD, sugere-se, para esta base

de dados, a aplicação da matriz S-CURVE, pois, por se tratar de indicadores relacionados a erros, os

resultados apresentados nessa matriz são menores quando comparados com as demais.

2ª Base de dados:

Temas e Subtemas » educação » qualidade da oferta de ensino » Número médio aluno por

turma no ensino fundamental, na rede pública.

Tabela 02: Média por aluno no fundamental rede pública

Número médio aluno por turma

Período Rede publica de ensino

1999 34,3

2000 33,7

2001 29,2

2002 28,9

2003 28,6

2004 28,2

2005 27,9

2006 27,4

Fonte: IBGE.gov.br

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-medio-aluno-turma-ensino-fundamental, acesso em 31/03/2017

• LINEAR

Trend Analysis for Rede publica de ensino

Data Rede publica de ensino

Length 8

NMissing 0


Yt = 34,09 - 0,959524*t

Accuracy Measures

MAPE 3,48682

MAD 1,05000




http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-medio-aluno-turma-ensino-fundamental


47

MSD 1,41577

Forecasts

Period Forecast

2007 25,4571

2008 24,4976

2009 23,5381

2010 22,5786

2011 21,6190

2012 20,6595

2013 19,7000

2014 18,7405

2015 17,7810

2016 16,8214

201520132011200920072005200320011999

35

30

25

20

15

Index

Re

de

pu

blic

a d

e e

nsin

o

MAPE 3,48682

MAD 1,05000

MSD 1,41577

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede publica de ensinoLinear Trend Model

Yt = 34,09 - 0,959524*t

Gráfico 31: Trend analysis media aluno fundamental rede pública - Linear

Fonte: Minitab 16

• QUADRATIC



Length 8

NMissing 0


Yt = 37,11 - 2,770*t + 0,2012*t**2

Accuracy Measures

MAPE 2,01593

MAD 0,60655

MSD 0,56574

Forecasts

Period Forecast

2007 28,4750

2008 29,5274

2009 30,9821

2010 32,8393

2011 35,0988

2012 37,7607

48

2013 40,8250

2014 44,2917

2015 48,1607

2016 52,4321

201520132011200920072005200320011999

55

50

45

40

35

30

Index

Re

de

pu

blic

a d

e e

nsin

o

MAPE 2,01593

MAD 0,60655

MSD 0,56574

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede publica de ensinoQuadratic Trend Model

Yt = 37,11 - 2,770*t + 0,2012*t**2

Gráfico 32: Trend analysis media aluno fundamental rede pública – Quadratic

Fonte: Minitab 16

• EXPONENTIAL



Length 8

NMissing 0


Yt = 34,1682 * (0,96916**t)

Accuracy Measures

MAPE 3,27351

MAD 0,99170

MSD 1,30120

Forecasts

Period Forecast

2007 25,7734

2008 24,9785

2009 24,2081

2010 23,4615

2011 22,7379

2012 22,0366

2013 21,3569

2014 20,6982

2015 20,0598

2016 19,4411

49

201520132011200920072005200320011999

36

34

32

30

28

26

24

22

20

Index

Re

de

pu

blic

a d

e e

nsin

oMAPE 3,27351

MAD 0,99170

MSD 1,30120

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede publica de ensinoGrowth Curve Model

Yt = 34,1682 * (0,96916**t)

Gráfico 33: Trend analysis media aluno fundamental rede pública - Exponential

Fonte: Minitab 16

• S-CURVE



Length 8

NMissing 0


Yt = (10**3) / (30,7134 + 2,64557*(1,10115**t))

Accuracy Measures

MAPE 3,29506

MAD 1,11651

MSD 4,82774

Forecasts

Period Forecast

2007 27,0194

2008 26,5623

2009 26,0765

2010 25,5617

2011 25,0179

2012 24,4452

2013 23,8441

2014 23,2156

2015 22,5607

2016 21,8810

50

201520132011200920072005200320011999

36

34

32

30

28

26

24

22

Index

Re

de

pu

blic

a d

e e

nsin

o

Intercept 29,9770

Asymptote 32,5591

Asym. Rate 1,1011

Curve Parameters

MAPE 3,29506

MAD 1,11651

MSD 4,82774

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede publica de ensinoS-Curve Trend Model

Yt = (10**3) / (30,7134 + 2,64557*(1,10115**t))

Gráfico 34: Trend analysis media aluno fundamental rede pública – S-Curve

QUADRO COMPARATIVO

Aluno fundamental rede pública

Número médio aluno por turma – rede pública de ensino

Indicador LINEAR QUADRATIC EXPONENTIAL S-CURVE

MAPE 3,48682 2,01593 3,27351 3,29506

MAD 1,05000 0,60655 0,99170 1,11651

MSD 1,41577 0,56574 1,30120 4,82774 Fonte: Elaborado pelo autor

Análise: Tomando-se como base os conceitos abordados no estudo anterior, e ao analisarmos

os índices apresentados no MAPE, MAD e MSD sugere-se, para esta base de dados, a aplicação da

matriz QUADRATIC, pois, por se tratar de indicadores relacionados a erros, os resultados

apresentados nessa matriz são menores quando comparados com as demais.

3ª Base de dados :

Temas e subtemas » educação » qualidade da oferta de ensino » Número médio aluno por

turma no ensino fundamental, na rede privada

Tabela 03: Média aluno fundamental rede privada

Número médio aluno por turma

Período Rede privada de ensino

1999 23

2000 22,4

2001 21,8




51

2002 21,6

2003 21,5

2004 21,5

2005 21,5

2006 21,3

Fonte: IBGE.gov.br

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-medio-

aluno-turma-ensino-fundamental, acesso em 31/03/2017

• LINEAR

Trend Analysis for Rede privada de ensino

Data Rede privada de ensino

Length 8

NMissing 0


Yt = 22,757 - 0,207143*t

Accuracy Measures

MAPE 1,02564

MAD 0,22500

MSD 0,06911

Forecasts

Period Forecast

2007 20,8929

2008 20,6857

2009 20,4786

2010 20,2714

2011 20,0643

2012 19,8571

2013 19,6500

2014 19,4429

2015 19,2357

2016 19,0286

201520132011200920072005200320011999

23

22

21

20

19

Index

Re

de

pri

va

da

de

en

sin

o

MAPE 1,02564

MAD 0,22500

MSD 0,06911

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede privada de ensinoLinear Trend Model

Yt = 22,757 - 0,207143*t

Gráfico 35: Trend Analysis média aluno fundamental rede privada - Linear

Fonte: Minitab 16



52

• QUADRATIC



Length 8

NMissing 0


Yt = 23,525 - 0,668*t + 0,0512*t**2

Accuracy Measures

MAPE 0,475940

MAD 0,103274

MSD 0,014077

Forecasts

Period Forecast

2007 21,6607

2008 21,9655

2009 22,3726

2010 22,8821

2011 23,4940

2012 24,2083

2013 25,0250

2014 25,9440

2015 26,9655

2016 28,0893

201520132011200920072005200320011999

29

28

27

26

25

24

23

22

21

Index

Re

de

pri

va

da

de

en

sin

o

MAPE 0,475940

MAD 0,103274

MSD 0,014077

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede privada de ensinoQuadratic Trend Model

Yt = 23,525 - 0,668*t + 0,0512*t**2

Gráfico 36: Trend Analysis média aluno fundamental rede privada - Quadratic

Fonte: Minitab 16

• EXPONENTIAL



Length 8

NMissing 0


53

Yt = 22,7601 * (0,99065**t)

Accuracy Measures

MAPE 1,00751

MAD 0,22115

MSD 0,06708

Forecasts

Period Forecast

2007 20,9157

2008 20,7202

2009 20,5265

2010 20,3347

2011 20,1446

2012 19,9564

2013 19,7698

2014 19,5851

2015 19,4020

2016 19,2207

201520132011200920072005200320011999

23

22

21

20

19

Index

Re

de

pri

va

da

de

en

sin

o

MAPE 1,00751

MAD 0,22115

MSD 0,06708

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede privada de ensinoGrowth Curve Model

Yt = 22,7601 * (0,99065**t)

Gráfico 37: Trend Analysis média aluno fundamental rede privada - Exponential

Fonte: Minitab 16

• S-CURVE



Length 8

NMissing 0


Yt = (10**2) / (4,69578 - 0,279419*(0,714531**t))

Accuracy Measures

MAPE 0,828911

MAD 0,186571

MSD 0,098062

Forecasts

Period Forecast

2007 21,3574

54

2008 21,3398

2009 21,3272

2010 21,3182

2011 21,3118

2012 21,3072

2013 21,3039

2014 21,3016

2015 21,2999

2016 21,2987

201520132011200920072005200320011999

23,0

22,5

22,0

21,5

Index

Re

de

pri

va

da

de

en

sin

o

Intercept 20,0997

Asymptote 21,2957

Asym. Rate 0,7145

Curve Parameters

MAPE 0,828911

MAD 0,186571

MSD 0,098062

Accuracy Measures

Actual

Fits

Forecasts

Variable

Trend Analysis Plot for Rede privada de ensinoS-Curve Trend Model

Yt = (10**2) / (4,69578 - 0,279419*(0,714531**t))

Gráfico 38: Trend Analysis média aluno fundamental rede privada – S-Curve

Fonte: Minitab 16

Número médio aluno por turma – rede privada de ensino

Indicador LINEAR QUADRATIC EXPONENTIAL S-

CURVE

MAPE 1,02564 0,475940 1,00751 0,828911

MAD 0,22500 0,103274 0,22115 0,186571

MSD 0,06911 0,014077 0,06708 0,098062 Quadro 07: Comparativo média aluno fundamental rede privada

Análise: Tomando-se como base os conceitos abordados nos estudos anteriores, e ao

analisarmos os índices apresentados no MAPE, MAD e MSD sugere-se, para esta base de dados, a

aplicação da matriz QUADRATIC, pois, por se tratar de indicadores relacionados a erros, os

resultados apresentados nessa matriz são menores quando comparados com as demais.

Considerações: O objetivo deste estudo foi mapear alguns indicadores da educação brasileira

e verificar que tipos de matrizes tendem a ser mais adequadas para tal análise. Os resultados apurados

são de uma certa forma, incompatíveis com o que se esperaria da educação em nosso país. A educação

básica compreende três níveis, o infantil, o fundamental e o médio. A tendência é que o ensino médio,

de forma direta, acabe refletindo os problemas que veem das séries iniciais. Buscando um recorte

desse cenário, no caso pontual a formação de professores,têm-se:

55

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE10&t=docentes-curso-

superior-ensino-medio-rede, acesso em 17/06/2017

Brasil OPCAO 1999 2000 2001 2002 2003 2004 2005 2006

Brasil Privado 89,4 89,1 89,9 90,1 91,3 93,2 96,9 95,9

Brasil Publico 87,6 88,2 88,5 89 89,8 91,7 95,3 95,3 Quadro 08: Professores do ensino médio com formação superior

Fonte: IBGE.gov.br, adaptado pelo autor

Os dados acima referem-se ao percentual de professores com formação superior que lecionam

no ensino médio. Entendendo-se que o ideal (e legal) é 100%, melhoramos bastante nos últimos anos,

mas ainda não atingimos esse percentual. O fato relativamente positivo é que não há discrepância

entre os ensinos público e privado.

CAPÍTULO 5. REGRESSÃO LINEAR

Tem por objetivo efetuar uma análise de regressões multivariadas tomando como base as

variáveis com maior grau de correlação, conforme análise feita na parte 02.

Iniciamos, na primeira parte, com o entendimento dos dados, incluindo a definição dos indivíduos e

das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades

de medida, além da apresentação da tabela de dados. Na segunda parte, analisamos as variáveis quanto

à sua forma de distribuição. Na sequência passamos para a análise da relação entre variáveis,

incluindo gráficos de dispersão e matrizes de correlação, buscando encontrar as equações de regressão

linear. O software estatístico utilizado é o MINITAB.

Resgatando a análise de dados anterior: Para um melhor entendimento deste estudo, buscou-se as

variáveis que entre sim, apresentaram maior grau de correlação, conforme abordado nos estudos

anteriores. Para determinação desse grau de correlação, adotou-se as seguintes premissas:

• Foram invalidadas as correlações que apresentaram indicadores (denominadores) diferentes

de 0,000

• Correlações utilizadas considerando variáveis maior ou igual a 0,800, positiva ou negativa.

Atendidas às condições anteriores, chegou-se nas seguintes correlações:

5.1. Correlações das Variáveis Validades


T_MED18A20 T_FUND15A17 0,833

IDHM ESPVIDA 0,852

IDHM T_FUND15A17 0,832


IDHM RDPC 0,908

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE10&t=docentes-curso-superior-ensino-medio-rede


56

IDHM_E T_FUND15A17 0,855


IDHM_L ESPVIDA 1,000

IDHM_R ESPVIDA 0,834

IDHM_R RDPC 0,962

IDHM_E IDHM 0,951

IDHM_L IDHM 0,852

IDHM_R IDHM 0,948

IDHM_R IDHM_E 0,820

IDHM_R IDHM_L 0,834

Devido à abrangência dos indicadores IDHM, IDHM_E, IDHM_R e IDHM_L, com o alto

grau de correlação entre eles e entre as variáveis, adotou-se, então, como premissa para a análise de

regressão, a exclusão desses indicadores, permanecendo, então, as seguintes variáveis:

Código Indicador Abrangência Tipo Medida

ESPVIDA Esperança de vida ao nascer Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.

Variável Quantitativa

Anos

T_FUND15A17 Percentual da população de 15 a 17 anos com fundamental completo

Razão entre a população de 15 a 17 anos de idade que concluiu o ensino fundamental, em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100.


Percentual

T_MED18a20 Percentual da população de 18 a 20 anos de idade com o ensino médio completo

Razão entre a população de 18 a 20 anos de idade que já concluiu o ensino médio em qualquer de suas modalidades (regular seriado, não seriado, EJA ou supletivo), e o total de pessoas nesta faixa etária, multiplicada por 100. As pessoas de 18 a 20 anos frequentando a 4ª série do ensino médio foram consideradas como já tendo concluído esse nível de ensino.


Percentual

RDPC Renda per capita média Razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.


Absoluto

Quadro 09: Variáveis com grau de correlação sem os indicadores IDHM

Fonte: Elaborador pelo autor

5.2. Variável Dependente

São as Variáveis de interesse em um experimento (aquelas medidas ou observadas). São

também chamadas de variáveis de resposta.

Nesta análise, trabalharemos com a variável ESPVIDA – Expectativa de vida ao nascer, que

nas demonstrações e alimentações no Minitab será denominada RESPONSE

5.3. Variável Independente

São as outras variáveis no experimento que afetam a resposta e podem ser definidas ou

medidas pelo experimentado. São também chamadas variáveis explanatórias. Na alimentação no

Minitab serão denominadas predictors (preditoras)

5.3.1. Utilizando e demonstrando no Minitab

Regression Analysis: ESPVIDA versus T_FUND15A17; T_MED18A20; RDPC The regression equation is

ESPVIDA = 67,4 + 0,0406 T_FUND15A17 + 0,00576 T_MED18A20 + 0,00666 RDPC

Predictor Coef SE Coef T P

57

Constant 67,3735 0,0800 841,66 0,000

T_FUND15A17 0,040551 0,002524 16,07 0,000

T_MED18A20 0,005758 0,002855 2,02 0,044

RDPC 0,0066600 0,0001276 52,20 0,000

S = 1,58447 R-Sq = 65,1% R-Sq(adj) = 65,1%

Analysis of Variance

Source DF SS MS F P

Regression 3 26023,0 8674,3 3455,14 0,000

Residual Error 5561 13961,2 2,5

Total 5564 39984,2

Source DF Seq SS

T_FUND15A17 1 17740,7

T_MED18A20 1 1440,9

RDPC 1 6841,4

Unusual Observations

Obs T_FUND15A17 ESPVIDA Fit SE Fit Residual St Resid

131 28,4 66,6100 69,8765 0,0443 -3,2665 -2,06R

137 26,3 73,9000 69,3692 0,0511 4,5308 2,86R

138 32,6 73,7800 70,1935 0,0465 3,5865 2,26R

.......

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large leverage.

Esta análise apresenta um grau de acerto (probabilidade estatística) de 65,1%, muito provável

em virtude da correlação que existe entre as varáveis selecionadas, lembrando que a maior associação

foi o indicador IDHM e suas variáveis, não contempladas neste estudo.

• SCATERPLOT

Explora a relação potencial entre um par de variáveis contínuas. Esses padrões podem

revelar uma associação entre as variáveis e ajudar a determinar o próximo passo das suas análises

de dados

Response (ESPVIDA) com as 03 variáveis Predictors

58

1007550250 806040200

85

80

75

70

65

2000150010005000

85

80

75

70

65

T_FUND15A17

ES

PV

IDA

T_MED18A20

RDPC

Scatterplot of ESPVIDA vs T_FUND15A17; T_MED18A20; RDPC

Gráfico 39: Scatterplot com predictor ESPVIDA

Fonte: Minitab 16

A visualização gráfica nos permite ratificar a correlação e significância que a variável RDPC

tem em relação à ESPVIDA. Percebemos que a distribuição das outras duas variáveis apresenta um

grau maior de dispersão.

Podemos observar, por exemplo, que o ponto com maior distribuição nessa variável, é a cidade

de São Caetano do Sul/SP, que tem a maior renda per capita dentre todos os municípios do Brasil, R$

2.043,74 e é o 19º em Expectativa de Vida.

• REGRESSÃO STEPWISE

É uma ferramenta automática usada nos estágios exploratórios da construção de modelos para

identificar um subconjunto útil de preditores. O processo sistematicamente adiciona a variável mais

significante ou remove a variável menos significante durante cada etapa.

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/basics/basics-of-stepwise-

regression/#what-is-stepwise-regression, acesso em 07/04/2017

5.3.2. Resultado das variáveis estudadas Stepwise Regression: ESPVIDA versus T_FUND15A17; T_MED18A20; RDPC Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is ESPVIDA on 3 predictors, with N = 5565

Step 1 2 3

Constant 68,82 67,34 67,37

RDPC 0,00864 0,00676 0,00666

T-Value 94,25 57,39 52,20

P-Value 0,000 0,000 0,000

T_FUND15A17 0,0440 0,0406

T-Value 23,82 16,07

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/basics/basics-of-stepwise-regression/#what-is-stepwise-regression


59

P-Value 0,000 0,000

T_MED18A20 0,0058

T-Value 2,02

P-Value 0,044

S 1,66 1,58 1,58

R-Sq 61,49 65,06 65,08

R-Sq(adj) 61,49 65,05 65,06

Mallows Cp 571,8 6,1 4,0

* NOTE * Command canceled.

Percebemos que a variável de maior impacto sobre a response ESPVIDA (expectativa de vida)

é a RDPC (renda per capita média, com representatividade de 61,49%.

5.3.3. Regressão Utilizando a Response com a Predictor de maior Representativa

Regression Analysis: ESPVIDA versus RDPC The regression equation is

ESPVIDA = 68,8 + 0,00864 RDPC

Predictor Coef SE Coef T P

Constant 68,8236 0,0505 1364,18 0,000

RDPC 0,00864126 0,00009168 94,25 0,000

S = 1,66364 R-Sq = 61,5% R-Sq(adj) = 61,5%

Analysis of Variance

Source DF SS MS F P

Regression 1 24588 24588 8883,82 0,000

Residual Error 5563 15397 3

Total 5564 39984

Unusual Observations

Obs RDPC ESPVIDA Fit SE Fit Residual St Resid

107 227 67,2400 70,7886 0,0331 -3,5486 -2,13R

131 194 66,6100 70,4998 0,0354 -3,8898 -2,34R

137 121 73,9000 69,8720 0,0408 4,0280 2,42R

………….

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large leverage.

O baixo valor do P-value nos mostra que as variáveis são significativas para a regressão.

5.3.4. Dendograma das Variáveis Correlacionadas

É utilizado para ilustrar as informações de uma tabela de amalgamação (o que liga uma ou

mais variáveis) na forma de um diagrama de árvore.

Cluster Analysis of Variables: ESPVIDA; T_FUND15A17; T_MED18A20; RDPC Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.


60


1 3 91,6586 0,166829 2 3 2 2

2 2 89,2088 0,215824 1 4 1 2

3 1 85,8414 0,283172 1 2 1 4

T_MED18A20T_FUND15A17RDPCESPVIDA

85,84

90,56

95,28

100,00

Variables

Sim

ilari

ty


Gráfico 40: Dendograma das variáveis com similaridades

Fonte: Minitab 16

Considerações: Constata-se, a correlação existente a Response (ESPVIDA) e a Preditora com maior

impacto (RDPC).

Em virtude da pequena amostra da base de dados estudada, quando se observou a maior

similaridade entre os IDHM, IDHM_L, IDHM_R e IDHM_E e sendo que por opção, estes foram

retirados da análise de regressão, constatou-se que a correlação com maior impacto está na response

ESPVIDA com a predictor RDPC.

No gráfico, o ponto (cidade) com maior distribuição é a cidade de São Caetano do Sul /SP,

que validada essa correlação, pois é a maior renda per capita dentre todos os municípios do Brasil e

uma das primeiras em expectativa de vida.

Olhando os indicadores do ensino médio neste agrupamento, verificou-se que a similaridade

com a response Expectativa de Vida é pequena (0,0040551) e sua maior correlação é com a variável

Ensino Fundamental, conforme pode-se observar no dendograma anterior, com cerca de 92% de

similiaridade entre ambas, reforçando, neste tipo de análise, com estas variáveis.

CAPÍTULO 6. TESTES DE HIPÓTESES E INTERVALOR DE CONFIANÇA

Tem por objetivo efetuar uma análise de comparação utilizando os testes de hipóteses e

intervalos de confiança. O principal propósito é comparar as varáveis escolhidas na base de dados

original, tendo como principal referência o IDHM_L (Longevidade) e outros 05 variáveis que tem

correlação com esse indicador. Os fatores a serem analisados são as regiões do Brasil. O software

estatístico utilizado é o MINITAB.

6.1. Análise de Dados

61

Buscando um foco direto nos indicadores que interessam a este pesquisador, sobretudo

àqueles que podem ter uma ligação direta com o desenvolvimento da futura tese, foram selecionadas

as seguintes variáveis, que de forma direta ou indireta também podem ter ligação com o foco de

estudo (ensino médio) incluindo-se a variável categórica “REGIÃO”.

6.2. Resgatando as Variáveis




Anos

T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a população total multiplicado por 100.


Percentual



Absoluto

AGUA_ESGOTO Percentual de pessoas em domicílios com abastecimento de água e esgotamento sanitário inadequados

Razão entre as pessoas que vivem em domicílios cujo abastecimento de água não provem de rede geral e cujo esgotamento sanitário não é realizado por rede coletora de esgoto ou fossa séptica e a população total residente em domicílios particulares permanentes, multiplicada por 100. São considerados apenas os domicílios particulares permanentes.


Percentual

T_SLUZ % de pessoas em domicílios sem energia elétrica

Razão entre as pessoas que vivem em domicílios sem energia elétrica e população total residente em domicílios particulares permanentes multiplicado por 100.


Percentual

IDHM_L Índice de Desenvolvimento Humano Municipal - Dimensão Longevidade

Índice da dimensão Longevidade, é um dos 3 índices que compõem o IDHM. É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os valores mínimo e máximo são 25 e 85 anos, respectivamente.


Índice

Município Nome do Município Nome do Município Categórica n/a

UF Unidade da Federação (Estado) Unidade da Federação (Estado) Categórica n/a

Região Nome das regiões do Brasil Norte, Nordeste, Centro-Oeste, Sudeste e Sul Categórica n/a

• Variável Dependente

São as Variáveis de interesse em um experimento (aquelas medidas ou observadas). São também

chamadas de variáveis de resposta, ou RESPONSE

A saber:

ESPVIDA, T_ENV, RDPC, AGUA_ESGOTO, T_SLUZ e IDHM_l

• Variável Independente

62

São as outras variáveis no experimento que afetam a resposta e podem ser definidas ou

medidas pelo experimentado. São também chamadas variáveis explanatórias. Na alimentação no

Minitab, para este tipo de análise, são denominadas FACTOR

A saber: NORTE, NORDESTE, CENTRO-OESTE, SUDESTE e SUL

• Variável ESPVIDA - Esperança de vida ao nascer

One-way ANOVA: ESPVIDA versus Região

Source DF SS MS F P

Região 4 24999,62 6249,91 2319,02 0,000

Error 5560 14984,57 2,70

Total 5564 39984,19

S = 1,642 R-Sq = 62,52% R-Sq(adj) = 62,50%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

Centro-Oeste 466 74,340 1,108 (*)

Nordeste 1794 70,255 1,809 *)

Norte 449 71,818 1,724 (*)

Sudeste 1668 74,686 1,604 (*

Sul 1188 75,116 1,570 (*

--+---------+---------+---------+-------

70,5 72,0 73,5 75,0

Pooled StDev = 1,642

SulSudesteNorteNordesteCentro-Oeste

80,0

77,5

75,0

72,5

70,0

67,5

65,0

Região

ES

PV

IDA

Boxplot of ESPVIDA

Gráfico 41: Boxplot da variável ESPVIDA

Fonte: Minitab 16

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE, n=1794

Q1 74,0225 69,05

Mediana 75,15 70,445

Q3 76,1675 71,49

Média 75,1156 70,2549

63

Percebe-se que na leitura por região, os melhores indicadores estão na região SUL e os mais

críticos na região NORDESTE e, na análise individual dos municípios, e nesta região que estão os

dois com a menor taxa de perspectiva de envelhecimento ao nascer, a saber: Cacimbas (Paraíba) e

Roteiro (Alagoas) com taxa de 65,30. Na região SUL, as médias e medianas estão muitos próximas,

assim como os quartis, o que sinaliza que não há muita dispersão entre todos os municípios dessa

região. Essa mesma distribuição encontramos na região Nordeste, mas com taxas bem inferiores se

comparadas com as outras regiões.

• Variável T_ENV - Taxa de envelhecimento

One-way ANOVA: T_ENV versus Região

Source DF SS MS F P

Região 4 7853,45 1963,36 439,95 0,000

Error 5560 24812,31 4,46

Total 5564 32665,76

S = 2,112 R-Sq = 24,04% R-Sq(adj) = 23,99%


Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

Centro-Oeste 466 7,146 2,314 (-*)

Nordeste 1794 8,087 1,869 *)

Norte 449 5,237 1,637 (-*)

Sudeste 1668 9,083 2,116 (*)

Sul 1188 9,588 2,496 (*)

--------+---------+---------+---------+-

6,0 7,2 8,4 9,6



20

15

10

5

0

Região

T_

EN

V

Boxplot of T_ENV

Gráfico 42: Boxplot da variável T_ENV

Fonte: Minitab 16

64

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORTE, n=449

Q1 7,8525 3,915

Mediana 9,43 5,18

Q3 11,11 6,36

Média 9,58763 5,2374


críticos na região NORTE e, mas na análise individual dos municípios, o de pior resultado está

localizado na região Nordeste, a saber: Luis Eduardo Magalhães (Bahia), com índice de 1,50. Na

região SUL, as médias e medianas estão muitos próximas, o que sinaliza que há distribuição

relativamente uniforme entre os municípios dessa região. Essa mesma distribuição encontramos na

região Norte, mas com taxas bem inferiores se comparadas com as outras regiões.

• Variável RDPC – Renda per capita

One-way ANOVA: RDPC versus Região

Source DF SS MS F P

Região 4 166580553 41645138 1423,18 0,000

Error 5560 162696792 29262

Total 5564 329277345

S = 171,1 R-Sq = 50,59% R-Sq(adj) = 50,55%


Pooled StDev


Centro-Oeste 466 586,6 161,9 (*)

Nordeste 1794 276,9 97,7 (*)

Norte 449 345,1 141,1 (-*)

Sudeste 1668 590,6 214,9 *)

Sul 1188 704,2 200,0 (*

--------+---------+---------+---------+-

360 480 600 720



2000

1500

1000

500

0

Região

RD

PC

Boxplot of RDPC

Gráfico 43: Boxplot da variável RDPC

Fonte: Minitab 16

65


Q1 560,663 221,967

Mediana 675,025 259,295

Q3 823,298 302,005

Média 704,243 276,919


críticos na região NORDESTE e, na análise individual dos municípios, o de pior resultado está

localizado nessa mesma região, a saber: Marajá do Sena (Maranhão), com índice de 96,25. Na região

SUL, há uma dispersão relativamente significativa, ou seja, os números de média e mediana e,

sobretudo, os desvios padrões, sinalizam que há uma pequena dispersão entre os municípios, mas

mesmo assim, os de menor resultado, apresentam rendas maiores que a média de outros

estados/regiões.

• Variável ÁGUA_ESGOTO - Percentual de pessoas em domicílios

com abastecimento de água e esgotamento sanitário inadequados

One-way ANOVA: AGUA_ESGOTO versus Região

Source DF SS MS F P

Região 4 415490,7 103872,7 1151,14 0,000

Error 5560 501704,4 90,2

Total 5564 917195,1

S = 9,499 R-Sq = 45,30% R-Sq(adj) = 45,26%


Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

Centro-Oeste 466 4,738 5,732 (*)

Nordeste 1794 17,733 12,951 *)

Norte 449 25,888 18,225 (*)

Sudeste 1668 2,231 4,066 *)

Sul 1188 1,550 2,808 (*)

---------+---------+---------+---------+

7,0 14,0 21,0 28,0



90

80

70

60

50

40

30

20

10

0

Região

AGU

A_E

SGO

TO

Boxplot of AGUA_ESGOTO

Gráfico 44: Boxplot da variável ÁGUA_ESGOTO

Fonte: Minitab 16

66


Q1 0,19 9,69

Mediana 0,64 22,2

Q3 1,74 38,69

Média 1,5504 25,8822

Novamente, percebe-se que na leitura por região, os melhores indicadores estão na região SUL

e os mais críticos, desta vez, na região NORTE e, na análise individual dos municípios, o de pior

resultado está localizado nessa região, a saber: Chaves (Pará), com 85,36. Na região SUL, há uma

distância relativamente grande entre a mediana e a média, sendo que a média está muito próxima do

Quartil 03 o que sinaliza que não há uma distribuição relativamente uniforme entre os municípios

dessa região. O valor da mediana valida essa leitura. Essa mesma distribuição encontramos na região

Norte, mas com taxas bem superiores se comparadas com as outras regiões, ou seja, há muito mais

municípios com pessoas morando com condições de água e esgoto em condições inadequadas.

• Variável T_LUZ - % de pessoas em domicílios sem energia elétrica One-way ANOVA: T_SLUZ versus Região

Source DF SS MS F P

Região 4 49909,8 12477,5 456,34 0,000

Error 5560 152025,1 27,3

Total 5564 201934,9

S = 5,229 R-Sq = 24,72% R-Sq(adj) = 24,66%


Pooled StDev


Centro-Oeste 466 2,323 4,979 (-*)

Nordeste 1794 4,214 6,737 (*)

Norte 449 11,386 10,850 (-*-)

Sudeste 1668 0,763 1,744 (*

Sul 1188 0,515 1,052 (*)

---------+---------+---------+---------+

3,0 6,0 9,0 12,0



80

70

60

50

40

30

20

10

0

Região

T_SL

UZ

Boxplot of T_SLUZ

Gráfico 45: Boxplot da variável T_SLUZ

Fonte: Minitab 16

67


Q1 0,0125 3,3

Mediana 0,19 7,8

Q3 0,56 16,81

Média 0,5153 11,3856

Novamente, percebe-se que na leitura por região, os melhores indicadores estão na região SUL e

os mais críticos, desta vez, na região NORTE e, na análise individual dos municípios, o de pior

resultado está localizado nessa região, a saber: Uirimatã (Roraima), com 72,59, indicador muito alto

e muito distante, inclusive da média da região. Evidencia-se um ponto muito fora da curva.

• Variável IDHM_L - Índice de Desenvolvimento Humano Municipal - Dimensão

Longevidade

One-way ANOVA: IDHM_L versus Região

Source DF SS MS F P

Região 4 6,94392 1,73598 2318,02 0,000

Error 5560 4,16393 0,00075

Total 5564 11,10785

S = 0,02737 R-Sq = 62,51% R-Sq(adj) = 62,49%

Level N Mean StDev

Centro-Oeste 466 0,82244 0,01846

Nordeste 1794 0,75433 0,03016

Norte 449 0,78038 0,02871

Sudeste 1668 0,82819 0,02674

Sul 1188 0,83533 0,02616

Individual 95% CIs For Mean Based on Pooled StDev

Level ---------+---------+---------+---------+

Centro-Oeste (*)

Nordeste (*

Norte (*)

Sudeste *)

Sul *)

---------+---------+---------+---------+

0,775 0,800 0,825 0,850



0,90

0,85

0,80

0,75

0,70

Região

IDH

M_

L

Boxplot of IDHM_L

Fonte: M Gráfico 46: Boxplot da variável IDHM_L

Minitab 16

68

Indicadores Expoente (+) SUL, n=1188 Expoente (-) NORDESTE,

n=1794

Q1 0,817 0,734

Mediana 0,836 0,7575

Q3 0,853 0,775

Média 0,8353 0,7543

Como nos outros indicadores, a Região SUL apresenta o melhor índice de Longevidade,

comparando-a com as outras regiões do Brasil e a região Nordeste apresenta os indicadores mais

críticos. Pelos resultados e indicadores estudados, podemos validar as hipóteses de que os factors

abordados (renda, expectativa de vida, envelhecimento, condições de água, saneamento e luz)

convergem entre si e têm correlação e relação de causa com o IDHM-L

Em outro recorte para análise, faremos a comparação com os testes de hipóteses, agora

abordando os estados brasileiros.

One-way ANOVA: IDHM_L versus UF

Source DF SS MS F P

UF 26 7,30833 0,28109 409,70 0,000

Error 5538 3,79953 0,00069

Total 5564 11,10785

S = 0,02619 R-Sq = 65,79% R-Sq(adj) = 65,63%


Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

Acre 22 0,76659 0,02769 (-*--)

Alagoas 102 0,73954 0,03242 (*)

Amapá 16 0,78394 0,01969 (--*-)

Amazonas 62 0,76555 0,02660 (*)

Bahia 417 0,75958 0,03016 (*

Brasilia 1 0,87300 * (----------*---------)

Ceará 184 0,76134 0,02209 *)

Esp. Santo 78 0,82574 0,01743 (*)

Góias 246 0,82549 0,01567 (*)

Maranhão 217 0,74060 0,02812 (*)

Mato Grosso 141 0,81733 0,01800 *)

MG do Sul 78 0,82145 0,02399 (*)

Minas Gerais 853 0,82381 0,02985 (*

Pará 143 0,77448 0,02121 (*)

Paraíba 223 0,75574 0,03064 (*)

Paraná 399 0,82045 0,02097 *)

Pernambuco 185 0,75566 0,03498 (*)

Piaui 224 0,74954 0,02803 (*)

RG do Sul 496 0,84043 0,02227 *)

Rio de Janeiro 92 0,81610 0,01816 (*)

RN do Norte 167 0,76276 0,02651 (*

Rondônia 52 0,78883 0,02439 (-*)

Roraima 15 0,79807 0,01531 (--*-)

São Paulo 645 0,83599 0,02195 *)

Sergipe 75 0,75583 0,02831 (*)

Sta Catarina 293 0,84697 0,02933 *)

Tocantins 139 0,78977 0,03438 (*)

---+---------+---------+---------+------

0,750 0,800 0,850 0,900


69

Toca

ntins

Sta

Cata

rina

Serg

ipe

São Pa

ulo

Rora

ima

Rond

ônia

RN do No

rte

Rio

de Jan

eiro

RG do Su

l

Piau

i

Pern

ambu

co

Para

ná

Para

íba

Pará

Minas

Ger

ais

MG do

Sul

Mat

o Gr

osso

Mar

anhã

o

Góias

Esp.

San

to

Cear

á

Bras

ilia

Bahia

Amaz

onas

Amap

á

Alag

oas

Acre

0,90

0,85

0,80

0,75

0,70

UF

IDH

M_

L

Boxplot of IDHM_L

Gráfico 47: Boxplot da variável IDHM_L por Estado

Fonte: Minitab 16

Considerações: Observando o boxplot do IDHM_L (Longevidade) e traçando uma linha aleatória,

praticamente dividindo o eixo vertical em duas partes, encontramos na parte superior (cidades com

melhores índices de longevidade) praticamente os estados das regiões SUL, SUDESTE e CENTR-

OESTE, e na parte inferior (cidades com piores índices de longevidade), os da região NORTE e

NORDESTE.

Essa análise valida as hipóteses de relação existentes entre os responses escolhidos ESPVIDA,

T_ENV, RDPC, AGUA_ESGOTO, T_SLUZ e IDHM_l com os factors explorados, as regiões

brasileiras.

Considerando a variável Ensino Médio:

One-way ANOVA: T_MED18A20 versus Região Source DF SS MS F P

Região 4 503377 125844 1031,15 0,000

Error 5560 678557 122

Total 5564 1181934

S = 11,05 R-Sq = 42,59% R-Sq(adj) = 42,55%


Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

Centro-Oeste 466 38,68 10,19 (*-)

Nordeste 1794 24,96 8,78 (*

Norte 449 24,02 10,81 (*-)

Sudeste 1668 43,14 12,77 (*

Sul 1188 46,54 11,88 *)

-------+---------+---------+---------+--

28,0 35,0 42,0 49,0


70


90

80

70

60

50

40

30

20

10

0

Região

T_

MED

18

A2

0

Boxplot of T_MED18A20

Gráfico 48: Boxplot da variável Ensino Médio

Fonte: Minitab 16

O resultado apresentado não é diferente da análise feita com o outro grupo de variáveis, ou

seja, os melhores resultados encontram-se na região SUL (média 46,53), Sudeste (média 43,14),

Centro-Oeste (36,68), Nordeste (24,02) e Norte (24,02). O outlier de maior expressão na região

Sudeste é o munícipio de Monções no estado de SP e o de menor expressão da região SUL é o

munícipio Dr. Ulysses, no estado do Paraná.

7. AMOSTRAGEM

Tem por objetivo efetuar uma pesquisa por amostragem de dados dimensionadores do IDHM,

representado pelos índices IDHM_L, EspVida, T_Env, RDPC, Agua_Esgoto, T_SLuz, , das cidades

do Brasil, indicadores publicados pelo IBGE, senso 2010, portal Atlas Brasil. O software estatístico


7.1 Pesquisa por amostragem

A pesquisa por amostragem foi feita com três amostras aleatórias: uma com 25 municípios,

outra com 100 munícipios e a terceira com 400 municípios. Para cada amostra foram efetuadas

análises exploratória de dados, utilizando a ferramenta BoxPlot, com o objetivo de ver com das

amostragens tem mais peso quando validada. Utilizou-se como referência, os indicadores totais das

06 variáveis estudadas.

7.2 Amostra aleatória

http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and-graphs/introductory-

concepts/data-concepts/why-collect-random-sample/ em 22/04/2017

http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and-graphs/introductory-concepts/data-concepts/why-collect-random-sample/

http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and-graphs/introductory-concepts/data-concepts/why-collect-random-sample/

71

Uma amostra aleatória é um subconjunto de uma população selecionado por um processo que

torna todas as amostras de um determinado tamanho igualmente prováveis de ocorrer. Em estatística,

amostras aleatórias são usadas pata fazer generalizações ou inferências sobre uma população.

As amostras devem ser aleatórias para eliminar vícios de seleção. Vício de seleção significa

que alguns sujeitos têm mais probabilidade de estarem na amostra do que outros sujeitos. Se a amostra

for viciada você só poderá fazer inferências sobre assuntos na amostra, não para toda a população.

7.3 Construção no Minitab

CALC / RANDOM DATE / SAMPLE FROM

• Variável ESPVIDA - Esperança de vida ao nascer

One-way ANOVA: ESPVIDA; EspV25; EspV100; EspV400

Source DF SS MS F P

Factor 3 49,25 16,42 2,28 0,077

Error 6086 43746,62 7,19

Total 6089 43795,87

S = 2,681 R-Sq = 0,11% R-Sq(adj) = 0,06%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

ESPVIDA 5565 73,089 2,681 (*)

EspV25 25 73,592 3,063 (-----------------*----------------)

EspV100 100 73,639 2,656 (-------*--------)

EspV400 400 73,291 2,667 (----*---)

-+---------+---------+---------+--------

72,60 73,20 73,80 74,40


EspV400EspV100EspV25ESPVIDA

80,0

77,5

75,0

72,5

70,0

67,5

65,0

Da

ta

Boxplot of ESPVIDA; EspV25; EspV100; EspV400

Gráfico 49: Boxplot da variável ESPVIDA com 3 graus de amostragem

Fonte: Minitab 16

72

Indicadores EspVida EspVida25 EspVida100 EspVida400

Média 73,0890 73,5924 73,6393 73,2905

Mediana 73,47 74,02 74,2 73,7

Q1 71,15 71,46 72,3075 71,4225

Q3 75,16 75,98 75,32 75,275

Para esta variável aleatória, observando os municípios nela contemplados, conforme podemos

observar no gráfico, como não há uma dispersão uniforme atentando para a distribuição nos Quartil

superior e Quartil Inferior, a amostragem que melhor reflete o resultado, tomando como base os

indicadores absolutos desta variável (ESPVIDA), é a amostragem que utiliza 400 municípios, pois

apresenta a menor diferença entre as médias e medianas (EspVida400 / EspVida), respectivamente

0,27 % e 0,31 % o que representaria uma pequena margem de erro, se assim fosse adotada.

• Variável T_Env - Taxa de envelhecimento

One-way ANOVA: T_ENV; TEnv25; TEnv100; TEnv400

Source DF SS MS F P

Factor 3 7,98 2,66 0,45 0,715

Error 6086 35747,43 5,87

Total 6089 35755,42

S = 2,424 R-Sq = 0,02% R-Sq(adj) = 0,00%


Pooled StDev


T_ENV 5565 8,397 2,423 (*)

TEnv25 25 8,316 1,763 (------------------*------------------)

TEnv100 100 8,675 2,587 (--------*---------)

TEnv400 400 8,428 2,424 (----*---)

---+---------+---------+---------+------

7,50 8,00 8,50 9,00


TEnv400TEnv100TEnv25T_ENV

20

15

10

5

0

Da

ta

Boxplot of T_ENV; TEnv25; TEnv100; TEnv400

Gráfico 50: Boxplot da variável T_ENV com 3 graus de amostragem

Fonte: Minitab 16

73

Indicadores T_Env T_Env25 T_Env100 T_Env400

Média 8,3973 8,316 8,6745 8,4277

Mediana 8,38 8,33 8,45 8,375

Q1 6,78 7,105 7,075 6,9425

Q3 9,965 9,15 10,365 9,96


observar no gráfico, há uma dispersão bem uniforme nos Quartil superior e Quartil Inferior. A

amostragem que melhor reflete o resultado, tomando como base os indicadores absolutos desta

variável (T_Env), é a amostragem que utiliza 400 municípios, pois apresenta a menor diferença entre

as médias e medianas (T_Env400 / T_Env), respectivamente 0,36 % e 0,01 % o que representaria

uma pequena margem de erro, se assim fosse adotada.

• Variável RDPC – Renda per capita média

One-way ANOVA: RDPC; Rpc25; Rpc100; Rpc400

Source DF SS MS F P

Factor 3 224929 74976 1,27 0,283

Error 6086 359592553 59085

Total 6089 359817482

S = 243,1 R-Sq = 0,06% R-Sq(adj) = 0,01%


Pooled StDev


RDPC 5565 493,6 243,3 (-*)

Rpc25 25 442,0 193,0 (------------------*------------------)

Rpc100 100 455,2 237,7 (--------*---------)

Rpc400 400 486,2 244,4 (----*----)

-+---------+---------+---------+--------

350 400 450 500


Rpc400Rpc100Rpc25RDPC

2000

1500

1000

500

0

Da

ta

Boxplot of RDPC; Rpc25; Rpc100; Rpc400

Gráfico 51: Boxplot da variável RDPC com 3 graus de amostragem

Fonte: Minitab 16

74

Indicadores RDPC RDPC25 RDPC100 RDPC400

Média 493,606 442,034 455,203 486,246

Mediana 467,65 380,52 372,845 447,565

Q1 281,085 275,36 262,462 283,485

Q3 650,645 577,495 611,207 623,085




indicadores absolutos desta variável (RDPC), é a amostragem que utiliza 400 municípios, pois

apresenta a menor diferença entre as médias e medianas (RDPC400 / RDPC), respectivamente 1,49

% e 4,29 % o que representaria a margem de erro, se assim fosse adotada.

• Variável ÁGUA_ESGOTO - Percentual de pessoas em domicílios

com abastecimento de água e esgotamento sanitário inadequados

One-way ANOVA: AGUA_ESGOTO; AgEs25; AgEs100; AgEs400

Source DF SS MS F P

Factor 3 358 119 0,72 0,539

Error 6086 1006103 165

Total 6089 1006460

S = 12,86 R-Sq = 0,04% R-Sq(adj) = 0,00%


Pooled StDev


AGUA_ESGOTO 5565 9,20 12,84 (*)

AgEs25 25 11,45 17,27 (----------------*----------------)

AgEs100 100 7,92 11,69 (-------*--------)

AgEs400 400 9,61 13,08 (---*---)

--+---------+---------+---------+-------

6,0 9,0 12,0 15,0


AgEs400AgEs100AgEs25AGUA_ESGOTO

90

80

70

60

50

40

30

20

10

0

Dat

a

Boxplot of AGUA_ESGOTO; AgEs25; AgEs100; AgEs400

Gráfico 52: Boxplot da variável ÁGUA_ESGOTO Com 3 graus de amostragem

Fonte: Minitab 16

75

Indicadores AG_ESG AG_ESG25 AG_ESG100 AG_ESG400

Média 9,20172 11,4452 7,9152 9,61265

Mediana 3,26 2,46 2,595 4,144

Q1 0,53 0,31 0,325 0,4925

Q3 13,035 15,645 10,99 13,495


observar no gráfico, há uma grande dispersão atentando para a distribuição nos Quartil superior e

Quartil Inferior. Neste caso especifico, a amostragem que melhor reflete o resultado, tomando como

base os indicadores absolutos desta variável (Agua_Esgoto), é a amostragem que utiliza 100

municípios, pois apresenta a menor diferença entre as medianas (AG_ESG100 / AG_ESG), 20,3% %

o que representaria uma alta margem de erro, se assim fosse adotada. Indica-se uma nova amostragem

para ver como os novos municípios se comportariam nesta variável.

Numa nova amostragem teste realizada, com a mesma quantidade de municípios, o percentual

da diferença da mediana foi de 21,6%, o que aumentou ainda mais a margem de erro.

• T_SLuz - % de pessoas em domicílios sem energia elétrica

One-way ANOVA: T_SLUZ; TSluz25; TSluz100; TSluz400

Source DF SS MS F P

Factor 3 39,1 13,0 0,37 0,778

Error 6086 217458,8 35,7

Total 6089 217497,9

S = 5,978 R-Sq = 0,02% R-Sq(adj) = 0,00%


Pooled StDev


T_SLUZ 5565 2,810 6,024 (*-)

TSluz25 25 1,985 3,220 (-------------------*------------------)

TSluz100 100 2,451 4,152 (--------*---------)

TSluz400 400 2,639 5,831 (----*----)

---+---------+---------+---------+------

0,0 1,2 2,4 3,6


Boxplot of T_SLUZ; TSluz25; TSluz100; TSluz400

76

TSluz400TSluz100TSluz25T_SLUZ

80

70

60

50

40

30

20

10

0

Da

ta

Boxplot of T_SLUZ; TSluz25; TSluz100; TSluz400

Gráfico 53: Boxplot da variável T_ SLUZ com 3 graus de amostragem

Fonte: Minitab 16

Indicadores T_SLuz T_SLuz25 T_SLuz100 T_SLuz400

Média 2,81039 1,9848 2,4514 2,6386

Mediana 0,61 1,21 0,805 0,5

Q1 0,13 0,165 0,15 0,1225

Q3 2,225 2,2 3,2075 2,16




indicadores absolutos desta variável (T_SLuz), é a amostragem que utiliza 400 municípios, pois

apresenta a menor diferença entre as médias e medianas (T_SLuz400 / T_SLuz), respectivamente

6,10 % e 18,03 % o que representaria a margem de erro, se assim fosse adotada.

• Variável IDHM_L – índice de desenvolvimento humano - longevidade

One-way ANOVA: IDHM_L; IDHML25; IDHML100; IDHML400

Source DF SS MS F P

Factor 3 0,00192 0,00064 0,32 0,811

Error 6086 12,18013 0,00200

Total 6089 12,18205

S = 0,04474 R-Sq = 0,02% R-Sq(adj) = 0,00%


Pooled StDev


IDHM_L 5565 0,80156 0,04468 (-*)

IDHML25 25 0,79960 0,04662 (-----------------*----------------)

IDHML100 100 0,80440 0,04566 (-------*--------)

IDHML400 400 0,79995 0,04516 (---*---)

77

--------+---------+---------+---------+-

0,790 0,800 0,810 0,820


Boxplot of IDHM_L; IDHML25; IDHML100; IDHML400

IDHML400IDHML100IDHML25IDHM_L

0,90

0,85

0,80

0,75

0,70

Da

ta

Boxplot of IDHM_L; IDHML25; IDHML100; IDHML400

Gráfico 54: Boxplot da variável IDHM_L com 3 graus de amostragem

Fonte: Minitab 16

Indicadores IDHM_L IDHM_L 25 IDHM_L100 IDHM_L400

Média 0,8015 0,7996 0,8044 0,7999

Mediana 0,808 0,808 0,8145 0,806

Q1 0,769 0,762 0,7707 0,77

Q3 0,836 0,831 0,8397 0,8337


observar no gráfico, há uma grande dispersão atentando para a distribuição nos Quartil superior e

Quartil Inferior, a amostragem que melhor reflete o resultado, tomando como base os indicadores

absolutos desta variável (IDHM_L), é a amostragem que utiliza 400 municípios, pois, apesar de não

apresentar nenhuma distorção na média se tomarmos em conta a amostragem com 25 municípios,

apresenta a menor diferença entre as medianas (IDHM_L400 / IDHM_L), de 0,2% o que representaria

a margem pequena de erro, se assim fosse adotada.

Considerações: Assim, podemos concluir que para as variáveis ESPVIDA, T_ENV, RDPC,

T_SLuz e IDHM_L foram bem representadas pelas amostras aleatórias de 400 municípios. A variável

AGUA_ESGOTO foi melhor representada pela amostra aleatória de 100 municípios. Percebeu-se,

também, que tão importante quanto observar as amostras se afastam da média e mediana da variável

78

dependente, é observar a distribuição nos quartis, superior e inferior, até para escolher qual

o melhor caminho para escolha da amostra representativa.

Considerando a variável Ensino Médio

EMedio25EMedio400EMedio100T_MED18A20

90

80

70

60

50

40

30

20

10

0

Da

ta

Boxplot of T_MED18A20; EMedio100; EMedio400; EMedio25

Gráfico 55: Boxplot da variável Ensino Médio com 3 graus de amostragem

Fonte: Minitab 16

Indicadores EnsMédio EnsMedio25 EnsMedio100 EnsMedio400

Média 36,0909 35,73 36,94 36,08

Mediana 35,14 37,65 36,86 34,91

Q1 24,99 28,80 26,36 25,25

Q3 46,32 42,97 49,59 46,86

A amostra que melhor representa esta variável é a de 400 munícipios, pois apresenta dados

muito próximos da variável principal, quer seja na média, mediana e quartis.

8. COMPONENTES PRINCIPAIS

Tem por objetivo efetuar uma análise das correlações e dos componentes principais (análise

multivariada) de dados dimensionadores do IDHM, Plataforma Atlas Brasil, Base IBGE. Para tal,

iniciamos com análise da estatística descritiva. Em seguida passamos para a análise das correlações

e dendogramas. Na terceira parte utilizamos a análise dos componentes principais utilizando o

stepwise.

8.1 Análise de Dados

79

Buscando um foco direto nos indicadores que interessam a este pesquisador, sobretudo

àqueles que podem ter uma ligação direta com o desenvolvimento da tese, foram selecionadas as

seguintes variáveis para o estudo dos componentes principais:




Anos



Percentual




Percentual




Percentual

RIND Renda domiciliar per capita média dos extremamente pobres

Média da renda domiciliar per capita das pessoas com renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, a preços de agosto de 2010. O universo de indivíduos é limitado àqueles que vivem em domicílios particulares permanentes.


Absoluto



Absoluto

TRABCC Percentual de ocupados de 18 anos ou mais que são empregados com carteira

Razão entre o número de empregados de 18 anos ou mais de idade com carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária, multiplicada por 100.


Percentual

TRABSC Percentual de ocupados de 18 anos ou mais que são empregados sem carteira

Razão entre o número de empregados de 18 anos ou mais de idade sem carteira de trabalho assinada e o número total de pessoas ocupadas nessa faixa etária, multiplicada por 100.


Percentual

T_AGUA Percentual da população que vive em domicílios com água encanada

Razão entre a população que vive em domicílios particulares permanentes com água canalizada para um ou mais cômodos e a população total residente em domicílios particulares permanentes, multiplicada por 100. A água pode ser proveniente de rede geral, de poço, de nascente ou de reservatório abastecido por água das chuvas ou carro-pipa.


Percentual

T_LUZ Percentual da população que vive em domicílios com energia elétrica

Razão entre a população que vive em domicílios particulares permanentes com iluminação elétrica e a população total residente em domicílios particulares permanentes, multiplicada por 100. Considera-se iluminação proveniente ou não de uma rede geral, com ou sem medidor.


Percentual




Percentual

T_SLUZ % de pessoas em domicílios sem energia elétrica

Razão entre as pessoas que vivem em domicílios sem energia elétrica e população total residente em domicílios particulares permanentes multiplicado por 100.


Percentual

PESORUR População rural População residente na área rural Variável Quantitativa

Absoluto

PESOURB População urbana População residente na área urbana Variável Quantitativa

Absoluto

Resgatando as variáveis selecionadas


80

8.1.1 Base de dados

A base de dados normalizada para a análise deste trabalho teve como referência as 14 variáveis

descritas na tabela acima, sendo que, 03 delas, foram positivadas, a saber:

TRABSC Percentual de

ocupados de 18

anos ou mais que

são empregados

sem carteira


empregados de 18 anos ou mais

de idade sem carteira de

trabalho assinada e o número

total de pessoas ocupadas nessa

faixa etária, multiplicada por

100.

Variável

Quantitativa

Percentual

AGUA_ESGOTO Percentual de

pessoas em

domicílios com

abastecimento de

água e

esgotamento

sanitário

inadequados

Razão entre as pessoas que

vivem em domicílios cujo

abastecimento de água não

provem de rede geral e cujo

esgotamento sanitário não é

realizado por rede coletora de

esgoto ou fossa séptica e a

população total residente em


permanentes, multiplicada por

100. São considerados apenas

os domicílios particulares

permanentes.

Variável

Quantitativa

Percentual

T_SLUZ % de pessoas em

domicílios sem

energia elétrica

Razão entre as pessoas que

vivem em domicílios sem

energia elétrica e população

total residente em domicílios



Variável

Quantitativa

Percentual

• Fórmulas utilizadas: Passos no Minitab: CALC / CALCULADORA

• Para normalização: Construir equação selecionando na caixa de opções funções a opção

MINIMO e MAXIMO. A equação: (c9-MIN(c9))/(MAX(c9)-MIN(c9))

• Para positivação: Para os dados que representam valores:

A Equação: 1-((c8-MIN(c8))/(MAX(c8)-MIN(c8)))

8.2 Criando os principais componentes

Passos no Minitab: STAT / MULTIVARIATE / PRINCIPAL COMPONENTS Correlations: EVIDA_N; TENVE_N; FUND15_N; MED18_N; RENDA_N; RENDOM_N; ... EVIDA_N TENVE_N FUND15_N MED18_N RENDA_N

TENVE_N 0,223

0,000

FUND15_N 0,666 0,365

0,000 0,000

MED18_N 0,660 0,388 0,833

0,000 0,000 0,000

81

RENDA_N 0,784 0,204 0,671 0,717

0,000 0,000 0,000 0,000

RENDOM_N -0,000 0,104 0,034 0,076 0,040

0,981 0,000 0,010 0,000 0,003

EMPCREG_N 0,601 -0,070 0,495 0,524 0,664

0,000 0,000 0,000 0,000 0,000

EMPSREG_NP 0,519 0,056 0,449 0,473 0,615

0,000 0,000 0,000 0,000 0,000

CÁGUA_N 0,549 0,088 0,528 0,515 0,564

0,000 0,000 0,000 0,000 0,000

CLUZ_N 0,341 0,302 0,438 0,436 0,386

0,000 0,000 0,000 0,000 0,000

AESGINAD_NP 0,604 0,340 0,593 0,582 0,587

0,000 0,000 0,000 0,000 0,000

SLUZ_NP 0,341 0,302 0,438 0,436 0,386

0,000 0,000 0,000 0,000 0,000

PORURAL_N -0,245 -0,284 -0,293 -0,298 -0,216

0,000 0,000 0,000 0,000 0,000

POURB_N 0,091 -0,063 0,050 0,075 0,217

0,000 0,000 0,000 0,000 0,000

RENDOM_N EMPCREG_N EMPSREG_NP CÁGUA_N CLUZ_N

EMPCREG_N 0,046

0,001

EMPSREG_NP -0,057 0,555

0,000 0,000

CÁGUA_N 0,066 0,549 0,295

0,000 0,000 0,000

CLUZ_N 0,168 0,373 0,197 0,408

0,000 0,000 0,000 0,000

AESGINAD_NP 0,095 0,523 0,303 0,640 0,423

0,000 0,000 0,000 0,000 0,000

SLUZ_NP 0,168 0,373 0,197 0,408 1,000

0,000 0,000 0,000 0,000 *

PORURAL_N -0,044 -0,197 -0,099 -0,256 -0,193

0,001 0,000 0,000 0,000 0,000

POURB_N 0,046 0,142 0,090 0,083 0,046

0,001 0,000 0,000 0,000 0,001

AESGINAD_NP SLUZ_NP PORURAL_N

SLUZ_NP 0,423

0,000

PORURAL_N -0,379 -0,193

0,000 0,000

POURB_N 0,053 0,046 0,220

0,000 0,001 0,000

Cell Contents: Pearson correlation

P-Value

82

Dendograma com 01 cluster

Pelos dados apurados, as duas variáveis que apresentam uma correlação com

representatividade, estabelecendo-se como diretriz, indicador maior ou igual a 0,800, foram

MED18_N com FUND15_N.

Este resultado sinaliza que, provavelmente, não haverá elementos que permitam uma análise

significativa nos resultados frutos deste estudo, ou seja, a análise de dos componentes principais.

Dendograma – análise considerando 01 cluster

Cluster Analysis of Variables: EVIDA_N; TENVE_N; FUND15_N; MED18_N; ...

Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.



1 13 100,000 0,000000 10 12 10 2

2 12 91,659 0,166829 3 4 3 2

3 11 89,209 0,215824 1 5 1 2

4 10 85,841 0,283172 1 3 1 4

5 9 83,222 0,335558 1 7 1 5

6 8 82,000 0,360007 9 11 9 2

7 7 80,744 0,385119 1 8 1 6

8 6 80,188 0,396245 1 9 1 8

9 5 71,924 0,561512 1 10 1 10

10 4 69,415 0,611698 1 2 1 11

11 3 60,978 0,780444 13 14 13 2

12 2 60,866 0,782682 1 13 1 13

13 1 58,401 0,831982 1 6 1 14


RENDOM_N

POURB_

N

PORU

RAL_N

TENVE_

N

SLUZ_

NP

CLUZ_

N

AESGI

NAD_N

P

CÁGUA

_N

EMPS

REG_N

P

EMPC

REG_N

MED18

_N

FUND15

_N

RENDA_N

EVID

A_N

58,40

72,27

86,13

100,00

Variables

Sim

ilari

ty


Gráfico 56: Dendograma das variáveis normalizadas com 01 cluster

Fonte: Minitab 16

83

Dendograma considerando 04 clusters:


Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.



1 13 100,000 0,000000 10 12 10 2

2 12 91,659 0,166829 3 4 3 2

3 11 89,209 0,215824 1 5 1 2

4 10 85,841 0,283172 1 3 1 4

5 9 83,222 0,335558 1 7 1 5

6 8 82,000 0,360007 9 11 9 2

7 7 80,744 0,385119 1 8 1 6

8 6 80,188 0,396245 1 9 1 8

9 5 71,924 0,561512 1 10 1 10

10 4 69,415 0,611698 1 2 1 11

11 3 60,978 0,780444 13 14 13 2

12 2 60,866 0,782682 1 13 1 13

13 1 58,401 0,831982 1 6 1 14

Final Partition

Cluster 1

EVIDA_N TENVE_N FUND15_N MED18_N RENDA_N EMPCREG_N EMPSREG_NP CÁGUA_N

CLUZ_N AESGINAD_NP SLUZ_NP

Cluster 2

RENDOM_N

Cluster 3

PORURAL_N

Cluster 4

POURB_N

Dendrogram

RENDOM_N

POURB_

N

PORU

RAL_N

TENVE_

N

SLUZ_

NP

CLUZ_

N

AESGI

NAD_N

P

CÁGUA

_N

EMPS

REG_N

P

EMPC

REG_N

MED18

_N

FUND15

_N

RENDA_N

EVID

A_N

58,40

72,27

86,13

100,00

Variables

Sim

ilari

ty


Fonte: Gráfico 57: Dendograma das variáveis normalizadas com 04 clusteres

Minitab 16

84

Quando analisamos a distribuição com 01 cluster, observa-se que as variáveis com maior

similaridade são as que seguem. As demais variáveis se relacionam entre si.

EVIDA / RENDA

FUND15 / MED18

CAGUA / AESGINAD

POPRURAL / POPURB

CLUZ / SLUZ

Quando analisamos a distribuição com 04 clusters, observa-se que as variáveis com maior

similaridade se mantém como na distribuição anterior. As demais variáveis se relacionam entre si.

Ratificando o estudo feito nas análises anteriores, a variável Ensino Médio tem maior correlação

com a Variável Ensino Fundamental

Componentes Principais:

No Minitab: STAT / MULTIVARIATE / PRINCIPAL COMPONENTS

O que é análise dos componentes principais?

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-

statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/, acesso em

28/04/2017

A análise de componentes principais é usada comumente em ciências sociais, pesquisa de

mercado e outros setores que usam grandes conjuntos de dados. A meta da análise de componentes

principais é explicar a maior quantidade de variância com o menor número de componentes

principais. A análise de componentes principais é usada comumente nas ciências sociais, pesquisa de

mercado e outros setores que usam grandes conjuntos de dados.

A análise de componentes principais é comumente usada como uma etapa em uma série de

análises. Você pode usar a análise de componentes principais para reduzir o número de variáveis e

evitar multicolinearidade, ou quando existem muitos preditores associados ao número de

observações.

Principal Component Analysis: EVIDA_N; TENVE_N; FUND15_N; MED18_N; RENDA_N;

REN Eigenanalysis of the Correlation Matrix

Eigenvalue 5,9312 1,6707 1,3185 0,9825 0,9344 0,7819 0,6203 0,4554

Proportion 0,424 0,119 0,094 0,070 0,067 0,056 0,044 0,033

Cumulative 0,424 0,543 0,637 0,707 0,774 0,830 0,874 0,907

Eigenvalue 0,3645 0,3251 0,2712 0,1961 0,1483 0,0000

Proportion 0,026 0,023 0,019 0,014 0,011 0,000

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/

85

Cumulative 0,933 0,956 0,975 0,989 1,000 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8

EVIDA_N 0,334 0,198 -0,102 -0,053 -0,004 -0,026 -0,125 -0,082

TENVE_N 0,150 -0,406 -0,291 -0,526 -0,279 -0,020 0,020 -0,431

FUND15_N 0,342 0,013 -0,144 -0,165 -0,120 -0,058 -0,209 0,494

MED18_N 0,346 0,021 -0,129 -0,211 -0,090 -0,108 -0,138 0,455

RENDA_N 0,349 0,232 0,016 -0,105 -0,011 -0,076 0,039 -0,035

RENDOM_N 0,044 -0,269 0,250 -0,348 0,766 -0,385 -0,035 0,012

EMPCREG_N 0,299 0,267 0,137 0,274 0,187 -0,066 0,145 -0,075

EMPSREG_NP 0,240 0,351 -0,015 0,041 -0,136 -0,523 0,327 -0,334

CÁGUA_N 0,295 0,055 0,041 0,206 0,252 0,403 -0,337 -0,121

CLUZ_N 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017

AESGINAD_NP 0,319 -0,055 -0,124 -0,012 0,183 0,351 -0,147 -0,412

SLUZ_NP 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017

PORURAL_N -0,157 0,231 0,486 -0,171 -0,269 -0,211 -0,688 -0,214

POURB_N 0,048 0,249 0,511 -0,507 -0,069 0,465 0,411 0,085

Variable PC9 PC10 PC11 PC12 PC13 PC14

EVIDA_N -0,650 -0,349 -0,073 0,441 0,262 0,000

TENVE_N 0,064 0,040 0,414 0,086 -0,054 0,000

FUND15_N 0,174 0,135 -0,172 0,376 -0,556 -0,000

MED18_N 0,155 0,154 0,063 -0,313 0,650 0,000

RENDA_N -0,271 -0,238 0,084 -0,696 -0,428 -0,000

RENDOM_N -0,001 -0,051 -0,037 0,041 -0,016 -0,000

EMPCREG_N -0,107 0,573 0,560 0,157 -0,043 0,000

EMPSREG_NP 0,449 -0,143 -0,253 0,121 0,079 -0,000

CÁGUA_N 0,474 -0,453 0,278 0,062 0,028 -0,000

CLUZ_N -0,046 -0,047 -0,062 -0,003 0,015 0,707

AESGINAD_NP -0,013 0,444 -0,563 -0,125 0,037 0,000

SLUZ_NP -0,046 -0,047 -0,062 -0,003 0,015 -0,707

PORURAL_N 0,009 0,141 0,017 -0,017 0,003 0,000

POURB_N 0,063 -0,017 -0,038 0,114 0,045 -0,000

Scree Plot of EVIDA_N; ...; POURB_N

Loading Plot of EVIDA_N; ...; POURB_N

86

0,40,30,20,10,0-0,1-0,2

0,4

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

-0,4

-0,5

First Component

Se

co

nd

Co

mp

on

en

tPOURB_N

PORURAL_N

SLUZ_NP

AESGINAD_NP

CLUZ_N

CÁGUA_N

EMPSREG_NP

EMPCREG_N

RENDOM_N

RENDA_N

MED18_NFUND15_N

TENVE_N

EVIDA_N


Gráfico 58: Loading Plot das Variáveis Normalizadas

Fonte: Minitab 16

Utilizando o Scree Plot:

Um gráfico scree exibe os autovalores associados a um componente ou fator em ordem

decrescente versus o número do componente ou fator. Gráficos scree podem ser usados em análise

de componentes principais e análise de fatores para avaliar visualmente quais componentes ou fatores

explicam a maior parte da variabilidade dos dados.

87

1413121110987654321

6

5

4

3

2

1

0

Component Number

Eig

en

va

lue


Gráfico 59: Scree Plot das Variáveis Normalizadas

Fonte: Minitab 16

Percebe-se, provavelmente pela baixa correlação existente entre as variáveis selecionadas, que

foram abertos 14 componentes e a relação de poder exploratório, entendido este referencial em torno

de 90%, se dá somente no conjunto do 8º componente, quando atingido o percentual acumulado de

90,7 %

A análise do Scree Plot ratifica essa distribuição, onde percebemos que há uma diferença

relativamente grande entre o primeiro e segundo componente (na proporcionalidade, cerca de 43%),

mas a partir desse há pequenos desvios entre os componentes, mantendo-se, praticamente uma

tendência de reta somente nos últimos componentes.

• Montando o Scatterplot com 03 componentes


REN Eigenanalysis of the Correlation Matrix

Eigenvalue 5,9312 1,6707 1,3185 0,9825 0,9344 0,7819 0,6203 0,4554

Proportion 0,424 0,119 0,094 0,070 0,067 0,056 0,044 0,033

Cumulative 0,424 0,543 0,637 0,707 0,774 0,830 0,874 0,907

Eigenvalue 0,3645 0,3251 0,2712 0,1961 0,1483 0,0000

Proportion 0,026 0,023 0,019 0,014 0,011 0,000

Cumulative 0,933 0,956 0,975 0,989 1,000 1,000

Variable PC1 PC2 PC3

EVIDA_N 0,334 0,198 -0,102

88

TENVE_N 0,150 -0,406 -0,291

FUND15_N 0,342 0,013 -0,144

MED18_N 0,346 0,021 -0,129

RENDA_N 0,349 0,232 0,016

RENDOM_N 0,044 -0,269 0,250

EMPCREG_N 0,299 0,267 0,137

EMPSREG_NP 0,240 0,351 -0,015

CÁGUA_N 0,295 0,055 0,041

CLUZ_N 0,267 -0,421 0,369

AESGINAD_NP 0,319 -0,055 -0,124

SLUZ_NP 0,267 -0,421 0,369

PORURAL_N -0,157 0,231 0,486

POURB_N 0,048 0,249 0,511



0,40,30,20,10,0-0,1-0,2

0,4

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

-0,4

-0,5

First Component

Se

co

nd

Co

mp

on

en

t

POURB_NPORURAL_N

SLUZ_NP

AESGINAD_NP

CLUZ_N

CÁGUA_N

EMPSREG_NP

EMPCREG_N

RENDOM_N

RENDA_N

MED18_NFUND15_N

TENVE_N

EVIDA_N


Gráfico 60: Loading Plot das Variáveis Normalizadas com 03 componentes

Fonte: Minitab 16

89

1413121110987654321

6

5

4

3

2

1

0

Component Number

Eig

en

va

lue


Gráfico 61: Scree Plot das Variáveis Normalizadas com 03 componentes

Fonte: Minitab 16

A composição considerando 03 componentes, praticamente não alterou o resultado apresentado

nos gráficos anteriores.

• Utilizando o Scatterplot tendo como categoria as regiões do Brasil:

20

10-10

-5

0

5

0 020

40

C47

C48

C49

Centro-Oeste

Nordeste

Norte

Sudeste

Sul

Região

3D Scatterplot of C47 vs C48 vs C49

Gráfico 62: Scatterplot 3D das Variáveis Normalizadas por região

Fonte: Minitab 16

A distribuição e concentração demonstrada no gráfico acima ratificam as análises anteriores,

percebendo-se uma maior concentração dos municípios das regiões norte e nordeste próximos ao eixo

inferior (o que resulta em piores resultados) e os da região sul e sudeste e centro-oeste, próximos do

eixo superior (o que resulta em melhores resultados).

90

Pesquisou-se quais os três municípios que aparecem como outliers e, tratam-se de, na

ordem:

São Paulo/SP

Rio de Janeiro / RJ

Brasília /DF

• Utilizando o STEPWISE

Stepwise Regression: EVIDA_N versus C47; C48; C49

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is EVIDA_N on 3 predictors, with N = 5565

Step 1 2 3

Constant 0,5839 0,5839 0,5839

C47 0,06711 0,06711 0,06711

T-Value 104,27 116,06 119,05

P-Value 0,000 0,000 0,000

C48 0,0397 0,0397

T-Value 36,46 37,40

P-Value 0,000 0,000

C49 -0,0204

T-Value -17,08

P-Value 0,000

S 0,117 0,105 0,102

R-Sq 66,15 72,68 74,04

R-Sq(adj) 66,15 72,67 74,03

Mallows Cp 1690,5 293,7 4,0

Ao considerarmos a variável ESPVIDA (de maior impacto), como variável dependente,

constata-se que o agrupamento PC1 tem representatividade de 66,15%. Somando-se os 03

agrupamentos de componentes, chega-se no acumulado de 74,03, quando o aceitável, para este tipo

de análise, estaria próximo de 90%.

Rodando ANOVA/OneWay/Boxplots

Comparando a principal variável, por região, com os resultados obtidos na base inicial com os

da base normalizada

• Variável EVIDA - Esperança de vida ao nascer – base normalizada

One-way ANOVA: EVIDA_N versus Região

Source DF SS MS F P

Região 4 140,4824 35,1206 2319,02 0,000

Error 5560 84,2040 0,0151

Total 5564 224,6863

91

S = 0,1231 R-Sq = 62,52% R-Sq(adj) = 62,50%


Pooled StDev


Centro-Oeste 466 0,6777 0,0831 (*)

Nordeste 1794 0,3714 0,1356 *)

Norte 449 0,4886 0,1292 (*)

Sudeste 1668 0,7036 0,1202 *)

Sul 1188 0,7358 0,1177 (*

---+---------+---------+---------+------

0,40 0,50 0,60 0,70


Boxplot of EVIDA_N (base normalizada)


1,0

0,8

0,6

0,4

0,2

0,0

Região

EV

IDA

_N

Boxplot of EVIDA_N

Gráfico 63: Boxplot da Variável EVIDA Normalizada por região

Fonte: Minitab 16

• Variável ESPVIDA - Esperança de vida ao nascer – base original

One-way ANOVA: ESPVIDA versus Região

Source DF SS MS F P

Região 4 24999,62 6249,91 2319,02 0,000

Error 5560 14984,57 2,70

Total 5564 39984,19

S = 1,642 R-Sq = 62,52% R-Sq(adj) = 62,50%


Pooled StDev


Centro-Oeste 466 74,340 1,108 (*)

Nordeste 1794 70,255 1,809 *)

Norte 449 71,818 1,724 (*)

Sudeste 1668 74,686 1,604 (*

Sul 1188 75,116 1,570 (*

--+---------+---------+---------+-------

70,5 72,0 73,5 75,0


92

Boxplot of ESPVIDA (base inicial)


80,0

77,5

75,0

72,5

70,0

67,5

65,0

Região

ES

PV

IDA

Boxplot of ESPVIDA

Gráfico 64: Boxplot da Variável EVIDA Inicial por região

Fonte: Minitab 16

Base Inicial


Q1 74,0225 69,05

Mediana 75,15 70,445

Q3 76,1675 71,49

Média 75,1156 70,2549

Base Normalizada


Q1 0,653861 0,281109

Mediana 0,738381 0,385682

Q3 0,814655 0,464018

Média 0,73588 0,371433

Comparando os dois gráficos, percebe-se o mesmo R-Sq (62,5%), mas há alteração na

composição das médias, medianas e Quartis superior e inferior, consequentemente, na distribuição.

Por exemplo, na base inicial, região sul, a diferença percentual entre os quartis inferior e

superior era de 2,9% passando a 24,6% na base normalizada.

Na região Nordeste essa diferença é maior ainda, passando de 3,5% na base inicial, para 65%

na base normalizada.

Considerações: Como a análise de componentes principais objetiva reduzir o número de

variáveis e evitar a multicolinearidade, ou quando existem muitos preditores associados ao número

de observações, neste estudo percebeu-se que a base de dados escolhida não trouxe um valor

significativa para esta análise, pois o poder exploratório aceitável aconteceu quando do conjunto do

93

8º grupo de componentes, portanto, um dimensionamento relativamente grande considerando que o

estudo contemplou 14 variáveis.

9. ANÁLISES DE CONGLOMERADOS

Tem por objetivo efetuar uma análise de dendogramas e cluster (análise multivariada) de

dados dimensionadores do IDHM, Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises

fazemos as considerações finais, com a distribuição demonstrada no mapa do Brasil, considerados os

Estados correlacionados. O software estatístico utilizado é o MINITAB

9.1 Base de dados

A base de dados normalizada para a análise deste trabalho teve como referência as 14 variáveis

descritas nas análises anteriores

Para determinar as variáveis que compuseram esta análise, utilizou-se o estudo dos

Componentes Principais.


REN

Eigenanalysis of the Correlation Matrix

Eigenvalue 5,9312 1,6707 1,3185 0,9825 0,9344 0,7819 0,6203 0,4554

Proportion 0,424 0,119 0,094 0,070 0,067 0,056 0,044 0,033

Cumulative 0,424 0,543 0,637 0,707 0,774 0,830 0,874 0,907

Eigenvalue 0,3645 0,3251 0,2712 0,1961 0,1483 0,0000

Proportion 0,026 0,023 0,019 0,014 0,011 0,000

Cumulative 0,933 0,956 0,975 0,989 1,000 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8

EVIDA_N 0,334 0,198 -0,102 -0,053 -0,004 -0,026 -0,125 -0,082

TENVE_N 0,150 -0,406 -0,291 -0,526 -0,279 -0,020 0,020 -0,431

FUND15_N 0,342 0,013 -0,144 -0,165 -0,120 -0,058 -0,209 0,494

MED18_N 0,346 0,021 -0,129 -0,211 -0,090 -0,108 -0,138 0,455

RENDA_N 0,349 0,232 0,016 -0,105 -0,011 -0,076 0,039 -0,035

RENDOM_N 0,044 -0,269 0,250 -0,348 0,766 -0,385 -0,035 0,012

EMPCREG_N 0,299 0,267 0,137 0,274 0,187 -0,066 0,145 -0,075

EMPSREG_NP 0,240 0,351 -0,015 0,041 -0,136 -0,523 0,327 -0,334

CÁGUA_N 0,295 0,055 0,041 0,206 0,252 0,403 -0,337 -0,121

CLUZ_N 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017

AESGINAD_NP 0,319 -0,055 -0,124 -0,012 0,183 0,351 -0,147 -0,412

SLUZ_NP 0,267 -0,421 0,369 0,236 -0,206 -0,054 0,079 0,017

PORURAL_N -0,157 0,231 0,486 -0,171 -0,269 -0,211 -0,688 -0,214

POURB_N 0,048 0,249 0,511 -0,507 -0,069 0,465 0,411 0,085

Variable PC9 PC10 PC11 PC12 PC13 PC14

EVIDA_N -0,650 -0,349 -0,073 0,441 0,262 0,000

TENVE_N 0,064 0,040 0,414 0,086 -0,054 0,000

FUND15_N 0,174 0,135 -0,172 0,376 -0,556 -0,000

MED18_N 0,155 0,154 0,063 -0,313 0,650 0,000

RENDA_N -0,271 -0,238 0,084 -0,696 -0,428 -0,000

RENDOM_N -0,001 -0,051 -0,037 0,041 -0,016 -0,000

EMPCREG_N -0,107 0,573 0,560 0,157 -0,043 0,000

EMPSREG_NP 0,449 -0,143 -0,253 0,121 0,079 -0,000

94

CÁGUA_N 0,474 -0,453 0,278 0,062 0,028 -0,000

CLUZ_N -0,046 -0,047 -0,062 -0,003 0,015 0,707

AESGINAD_NP -0,013 0,444 -0,563 -0,125 0,037 0,000

SLUZ_NP -0,046 -0,047 -0,062 -0,003 0,015 -0,707

PORURAL_N 0,009 0,141 0,017 -0,017 0,003 0,000

POURB_N 0,063 -0,017 -0,038 0,114 0,045 -0,000

Quadro 10: Variáveis com maior relevância no CP1 Variable PC1

EVIDA_N 0,334

TENVE_N 0,150

FUND15_N 0,342

MED18_N 0,346

RENDA_N 0,349

RENDOM_N 0,044

EMPCREG_N 0,299

EMPSREG_NP 0,240

CÁGUA_N 0,295

CLUZ_N 0,267

AESGINAD_NP 0,319

SLUZ_NP 0,267

PORURAL_N -0,157

POURB_N 0,048

Fonte: Minitab 16, adaptado pelo autor

Portanto, as variáveis normalizadas e positivadas escolhidas para este estudo foram :

Quadro 11: Variáveis com maior relevância no CP1 para análise EVIDA_N 0,334

FUND15_N 0,342

MED18_N 0,346

RENDA_N 0,349

AESGINAD_NP 0,319


Criando a nova base de dados com as médias por Estado

One-way ANOVA: EVIDA_N versus UF Source DF SS MS F P

UF 26 147,8366 5,6860 409,75 0,000

Error 5538 76,8498 0,0139

Total 5564 224,6863

S = 0,1178 R-Sq = 65,80% R-Sq(adj) = 65,64%


Pooled StDev


Acre 22 0,4267 0,1243 (-*-)

Alagoas 102 0,3049 0,1457 (*)

Amapá 16 0,5044 0,0891 (-*-)

Amazonas 62 0,4216 0,1196 (*)

95

Bahia 417 0,3951 0,1356 (*

Brasilia 1 0,9033 * (--------*--------)

Ceará 184 0,4029 0,0993 (*)

Esp. Santo 78 0,6924 0,0784 (*)

Góias 246 0,6914 0,0705 (*

Maranhão 217 0,3097 0,1264 *)

Mato Grosso 141 0,6547 0,0810 (*)

MG do Sul 78 0,6733 0,1079 (*)

Minas Gerais 853 0,6840 0,1342 *)

Pará 143 0,4621 0,0955 *)

Paraíba 223 0,3777 0,1378 (*)

Paraná 399 0,6690 0,0943 (*

Pernambuco 185 0,3774 0,1576 (*)

Piaui 224 0,3500 0,1261 (*)

RG do Sul 496 0,7587 0,1003 *)

Rio de Janeiro 92 0,6491 0,0816 (*)

RN do Norte 167 0,4093 0,1192 *)

Rondônia 52 0,5266 0,1099 (*)

Roraima 15 0,5685 0,0690 (--*-)

São Paulo 645 0,7387 0,0987 (*

Sergipe 75 0,3782 0,1274 (*)

Sta Catarina 293 0,7880 0,1319 (*

Tocantins 139 0,5308 0,1547 (*)

---------+---------+---------+---------+

0,50 0,75 1,00 1,25


Boxplot of EVIDA_N

One-way ANOVA: FUND15_N versus UF Source DF SS MS F P

UF 26 103,9806 3,9993 360,41 0,000

Error 5538 61,4522 0,0111

Total 5564 165,4327

S = 0,1053 R-Sq = 62,85% R-Sq(adj) = 62,68%


Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

Acre 22 0,3787 0,1324 (--*-)

Alagoas 102 0,2928 0,0898 (*-)

Amapá 16 0,4213 0,0982 (--*---)

Amazonas 62 0,2856 0,1098 (-*)

Bahia 417 0,3733 0,0986 *)

Brasilia 1 0,6609 * (------------*------------)

Ceará 184 0,5340 0,0895 (*)

Esp. Santo 78 0,5980 0,0860 (*-)

Góias 246 0,6084 0,1100 (*)

Maranhão 217 0,3888 0,1132 (*)

Mato Grosso 141 0,5720 0,1100 (*)

MG do Sul 78 0,4896 0,0798 (-*)

Minas Gerais 853 0,5602 0,1135 *

Pará 143 0,2974 0,1115 (*)

Paraíba 223 0,3707 0,1069 (*)

Paraná 399 0,6492 0,1055 (*

Pernambuco 185 0,3881 0,0970 (*)

Piaui 224 0,3527 0,1147 (*)

RG do Sul 496 0,6492 0,1204 (*

Rio de Janeiro 92 0,5027 0,0811 (*-)

RN do Norte 167 0,4025 0,1128 (*)

Rondônia 52 0,4898 0,0863 (-*)

Roraima 15 0,4122 0,1203 (---*--)

São Paulo 645 0,7315 0,0924 (*

Sergipe 75 0,3231 0,0771 (*-)

Sta Catarina 293 0,6822 0,0952 (*

96

Tocantins 139 0,5000 0,1194 (*)

----+---------+---------+---------+-----

0,32 0,48 0,64 0,80


One-way ANOVA: MED18_N versus UF Source DF SS MS F P

UF 26 88,3997 3,4000 265,34 0,000

Error 5538 70,9625 0,0128

Total 5564 159,3622

S = 0,1132 R-Sq = 55,47% R-Sq(adj) = 55,26%


Pooled StDev


Acre 22 0,2157 0,1047 (--*-)

Alagoas 102 0,1853 0,0768 (*)

Amapá 16 0,2511 0,0986 (--*-)

Amazonas 62 0,1869 0,0853 (*-)

Bahia 417 0,2643 0,0881 *)

Brasilia 1 0,5988 * (----------*----------)

Ceará 184 0,3587 0,0841 (*)

Esp. Santo 78 0,4529 0,0966 (-*)

Góias 246 0,4562 0,1194 (*)

Maranhão 217 0,2339 0,0967 (*

Mato Grosso 141 0,4078 0,1075 (*)

MG do Sul 78 0,3673 0,1035 (*-)

Minas Gerais 853 0,4004 0,1183 *

Pará 143 0,1765 0,0903 (*)

Paraíba 223 0,2841 0,1016 (*)

Paraná 399 0,5027 0,1262 *)

Pernambuco 185 0,2720 0,0916 (*

Piaui 224 0,2244 0,0951 (*)

RG do Sul 496 0,5086 0,1478 *)

Rio de Janeiro 92 0,4461 0,0854 (*)

RN do Norte 167 0,3123 0,1039 (*

Rondônia 52 0,3407 0,1053 (-*-)

Roraima 15 0,2935 0,1159 (--*--)

São Paulo 645 0,5903 0,1243 (*

Sergipe 75 0,2433 0,0848 (*)

Sta Catarina 293 0,5556 0,1296 (*

Tocantins 139 0,3425 0,1096 (*)

--+---------+---------+---------+-------

0,20 0,40 0,60 0,80


One-way ANOVA: RENDA_N versus UF

Source DF SS MS F P

UF 26 51,54788 1,98261 311,30 0,000

Error 5538 35,27044 0,00637

Total 5564 86,81832

S = 0,07980 R-Sq = 59,37% R-Sq(adj) = 59,18%


Pooled StDev


Acre 22 0,11782 0,06561 (-*)

Alagoas 102 0,07957 0,04063 *)

Amapá 16 0,15410 0,06830 (*-)

Amazonas 62 0,07964 0,05045 (*)

97

Bahia 417 0,10389 0,05234 *

Brasilia 1 0,83125 * (-----*------)

Ceará 184 0,08800 0,03920 (*

Esp. Santo 78 0,24630 0,10448 (*)

Góias 246 0,24984 0,07613 *

Maranhão 217 0,06963 0,04627 (*

Mato Grosso 141 0,24828 0,08512 (*

MG do Sul 78 0,25699 0,07552 *)

Minas Gerais 853 0,20249 0,08887 *

Pará 143 0,10542 0,06123 *)

Paraíba 223 0,09299 0,04728 (*

Paraná 399 0,26391 0,07717 (*

Pernambuco 185 0,10459 0,06033 *)

Piaui 224 0,07863 0,03903 *)

RG do Sul 496 0,33201 0,10680 *)

Rio de Janeiro 92 0,29256 0,11173 (*

RN do Norte 167 0,10832 0,05081 *)

Rondônia 52 0,20410 0,06326 (*)

Roraima 15 0,11713 0,08286 (-*)

São Paulo 645 0,31717 0,10136 (*

Sergipe 75 0,10532 0,05442 (*)

Sta Catarina 293 0,34440 0,10255 (*

Tocantins 139 0,14339 0,06787 (*

--------+---------+---------+---------+-

0,25 0,50 0,75 1,00


One-way ANOVA: AESGINAD_NP versus UF Source DF SS MS F P

UF 26 75,2167 2,8930 316,24 0,000

Error 5538 50,6622 0,0091

Total 5564 125,8789

S = 0,09565 R-Sq = 59,75% R-Sq(adj) = 59,56%


Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

Acre 22 0,5912 0,1339 (-*-)

Alagoas 102 0,7628 0,1761 (*)

Amapá 16 0,6018 0,1521 (-*-)

Amazonas 62 0,5595 0,1748 (*)

Bahia 417 0,8329 0,1078 (*

Brasilia 1 0,9916 * (---------*--------)

Ceará 184 0,7948 0,1165 (*

Esp. Santo 78 0,9841 0,0203 (*)

Góias 246 0,9626 0,0401 *)

Maranhão 217 0,6525 0,1838 (*

Mato Grosso 141 0,9191 0,0797 (*)

MG do Sul 78 0,9327 0,0903 (*)

Minas Gerais 853 0,9602 0,0604 *

Pará 143 0,5443 0,1889 (*)

Paraíba 223 0,7720 0,1614 (*

Paraná 399 0,9818 0,0274 *)

Pernambuco 185 0,7851 0,1394 *)

Piaui 224 0,8777 0,1196 (*)

RG do Sul 496 0,9810 0,0375 *

Rio de Janeiro 92 0,9722 0,0315 (*)

RN do Norte 167 0,7986 0,1377 (*)

Rondônia 52 0,8671 0,0924 (*-)

Roraima 15 0,7223 0,1331 (-*--)

São Paulo 645 0,9910 0,0174 (*

Sergipe 75 0,8127 0,1181 (*)

Sta Catarina 293 0,9833 0,0314 *)

Tocantins 139 0,8758 0,0943 (*)

----+---------+---------+---------+-----

0,60 0,80 1,00 1,20

98


9.2 Nova base de dados considerada com as médias por estado

Quadro 12: Base de dados com as médias por Estado

MeanEVIDA MeanFUND15 MeanMED18 MeanRENDA

MeanAESFINAD UF ESTADOS

0,4267 0,3787 0,2157 0,11782

0,5912 Acre

0,3049 0,2928 0,1853 0,07957

0,7628 Alagoas

0,5044 0,4213 0,2511 0,1541

0,6018 Amapá

0,4216 0,2856 0,1869 0,07964

0,5595 Amazonas

0,3951 0,3733 0,2643 0,10389

0,8329 Bahia

0,9033 0,6609 0,5988 0,83125

0,9916 Brasilia

0,4029 0,534 0,3587 0,088

0,7948 Ceará

0,6924 0,598 0,4529 0,2463

0,9841 Esp. Santo

0,6914 0,6084 0,4562 0,24984

0,9626 Góias

0,3097 0,3888 0,2339 0,06963

0,6525 Maranhão

0,6547 0,572 0,4078 0,24828

0,9191 Mato Grosso

0,6733 0,4896 0,3673 0,25699

0,9327 MG do Sul

0,684 0,5602 0,4004 0,20249

0,9602 Minas Gerais

0,4621 0,2974 0,1765 0,10542

0,5443 Pará

0,3777 0,3707 0,2841 0,09299

0,772 Paraíba

0,669 0,6492 0,5027 0,26391

0,9818 Paraná

0,3774 0,3881 0,272 0,10459

0,7851 Pernambuco

0,35 0,3527 0,2244 0,07863

0,8777 Piaui

0,7587 0,6492 0,5086 0,33201

0,981 RG do Sul

0,6491 0,5027 0,4461 0,29256

0,9722 Rio de Janeiro

0,4093 0,4025 0,3123 0,10832

0,7986 RN do Norte

0,5266 0,4898 0,3407 0,2041

0,8671 Rondônia

0,5685 0,4122 0,2935 0,11713

0,7223 Roraima

0,7387 0,7315 0,5903 0,31717

0,991 São Paulo

0,3782 0,3231 0,2433 0,10532

0,8127 Sergipe

0,788 0,6822 0,5556 0,3444

0,9833 Sta Catarina

0,5308 0,5 0,3425 0,14339

0,8758 Tocantins


Determinar os clusters (com distribuição = 01)

STAT / MULTIVARIATE / CLUSTERS OBSERVATIONS

Variables: todas as 05 variáveis com as médias

Case: Estado

Linkage: Single

Distance: Euclidean

Cluster Analysis of Observations: MeanEVIDA; MeanFUND15; MeanMED18; ...

99

Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.



1 26 97,8561 0,024389 8 9 8 2

2 25 97,5840 0,027485 15 17 15 2

3 24 95,3625 0,052757 4 14 4 2

4 23 95,2851 0,053637 5 15 5 3

5 22 95,1492 0,055184 5 21 5 4

6 21 94,6844 0,060471 5 25 5 5

7 20 94,5201 0,062340 22 27 22 2

8 19 94,2256 0,065691 19 26 19 2

9 18 93,8856 0,069559 11 13 11 2

10 17 93,8498 0,069966 8 16 8 3

11 16 92,8073 0,081826 5 18 5 6

12 15 92,7801 0,082135 8 11 8 5

13 14 92,7163 0,082860 19 24 19 3

14 13 91,6438 0,095062 8 12 8 6

15 12 91,3015 0,098955 8 20 8 7

16 11 90,9781 0,102634 1 3 1 2

17 10 90,4704 0,108411 1 4 1 4

18 9 90,0864 0,112779 8 19 8 10

19 8 90,0518 0,113173 2 5 2 7

20 7 87,5956 0,141115 2 7 2 8

21 6 87,5060 0,142135 1 10 1 5

22 5 86,9986 0,147907 1 23 1 6

23 4 86,8740 0,149324 1 2 1 14

24 3 85,4479 0,165547 1 22 1 16

25 2 84,9459 0,171258 1 8 1 26

26 1 55,8113 0,502699 1 6 1 27

Final Partition

Number of clusters: 1

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 27 2,76451 0,286289 0,807029

Dendrogram

100

Bras

ilia

São

Paulo

Sta Ca

tarin

a

RG d

o Su

l

Rio

de Jan

eiro

MG d

o Su

l

Minas

Ger

ais

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

Cear

áPiau

i

Serg

ipe

RN do No

rte

Pern

ambu

co

Para

íba

Bahia

Alag

oas

Rora

ima

Mar

anhã

oPa

rá

Amaz

onas

Amap

áAc

re

55,81

70,54

85,27

100,00

Observations

Sim

ilari

ty

Medias

Gráfico 65: Dendograma das médias por Estado com 01 cluster

Fonte: Minitab 16




Case: Estado

Linkage: Single

Distance: Euclidean

Cluster Analysis of Observations: MeanEVIDA; MeanFUND15; MeanMED18; ... Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.



1 26 97,8561 0,024389 8 9 8 2

2 25 97,5840 0,027485 15 17 15 2

3 24 95,3625 0,052757 4 14 4 2

4 23 95,2851 0,053637 5 15 5 3

5 22 95,1492 0,055184 5 21 5 4

6 21 94,6844 0,060471 5 25 5 5

7 20 94,5201 0,062340 22 27 22 2

8 19 94,2256 0,065691 19 26 19 2

9 18 93,8856 0,069559 11 13 11 2

10 17 93,8498 0,069966 8 16 8 3

11 16 92,8073 0,081826 5 18 5 6

12 15 92,7801 0,082135 8 11 8 5

13 14 92,7163 0,082860 19 24 19 3

14 13 91,6438 0,095062 8 12 8 6

15 12 91,3015 0,098955 8 20 8 7

16 11 90,9781 0,102634 1 3 1 2

101

17 10 90,4704 0,108411 1 4 1 4

18 9 90,0864 0,112779 8 19 8 10

19 8 90,0518 0,113173 2 5 2 7

20 7 87,5956 0,141115 2 7 2 8

21 6 87,5060 0,142135 1 10 1 5

22 5 86,9986 0,147907 1 23 1 6

23 4 86,8740 0,149324 1 2 1 14

24 3 85,4479 0,165547 1 22 1 16

25 2 84,9459 0,171258 1 8 1 26

26 1 55,8113 0,502699 1 6 1 27

Final Partition


Average Maximum




Cluster1 4 0,025541 0,076275 0,111915

Cluster2 8 0,074298 0,080661 0,181654

Cluster3 1 0,000000 0,000000 0,000000

Cluster4 10 0,139993 0,107429 0,186490

Cluster5 1 0,000000 0,000000 0,000000

Cluster6 2 0,001943 0,031170 0,031170

Cluster7 1 0,000000 0,000000 0,000000

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6

MeanEVIDA 0,453700 0,374437 0,90330 0,699930 0,30970 0,528700

MeanFUND15 0,345750 0,379650 0,66090 0,604300 0,38880 0,494900

MeanMED18 0,207550 0,268050 0,59880 0,468790 0,23390 0,341600

MeanRENDA 0,114245 0,095164 0,83125 0,275395 0,06963 0,173745

MeanAESFINAD 0,574200 0,804575 0,99160 0,966800 0,65250 0,871450

Grand

Variable Cluster7 centroid

MeanEVIDA 0,56850 0,542537

MeanFUND15 0,41220 0,478330

MeanMED18 0,29350 0,350811

MeanRENDA 0,11713 0,197694

MeanAESFINAD 0,72230 0,833730

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,00000 0,25403 1,06904 0,613048 0,17721 0,371131 0,216619

Cluster2 0,25403 0,00000 1,02225 0,505480 0,17094 0,230513 0,215915

Cluster3 1,06904 1,02225 0,00000 0,609143 1,12009 0,825095 0,921760

Cluster4 0,61305 0,50548 0,60914 0,000000 0,62850 0,277290 0,411984

Cluster5 0,17721 0,17094 1,12009 0,628504 0,00000 0,359995 0,279652

Cluster6 0,37113 0,23051 0,82510 0,277290 0,36000 0,000000 0,190231

Cluster7 0,21662 0,21591 0,92176 0,411984 0,27965 0,190231 0,000000

Dendrogram

102

Bras

ilia

São

Paulo

Sta Ca

tarin

a

RG d

o Su

l

Rio

de Jan

eiro

MG d

o Su

l

Minas

Ger

ais

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

Cear

áPiau

i

Serg

ipe

RN do No

rte

Pern

ambu

co

Para

íba

Bahia

Alag

oas

Rora

ima

Mar

anhã

oPa

rá

Amaz

onas

Amap

áAc

re

55,81

70,54

85,27

100,00

Observations

Sim

ilari

ty

Medias

Gráfico 66: Dendograma das médias por Estado com 07 clusteres

Fonte: Minitab 16




Case: Estado

Linkage: Centroid

Distance: Manhathan

Utilizando Linkage = Centroid e Distance = Manhathan

Cluster Analysis of Observations: MeanEVIDA; MeanFUND15; MeanMED18; ... Manhattan Distance, Centroid Linkage

Amalgamation Steps

Number

of obs.



1 26 98,3797 0,03974 8 9 8 2

2 25 97,7779 0,05450 15 17 15 2

3 24 96,5094 0,08561 22 27 22 2

4 23 96,4721 0,08653 5 15 5 3

5 22 96,1598 0,09419 5 21 5 4

6 21 95,7727 0,10368 4 14 4 2

7 20 95,7645 0,10388 5 25 5 5

8 19 94,9446 0,12399 19 26 19 2

9 18 94,5485 0,13370 8 16 8 3

10 17 94,4798 0,13539 11 13 11 2

11 16 94,5442 0,13381 8 11 8 5

12 15 93,5767 0,15754 19 24 19 3

13 14 93,5684 0,15774 8 20 8 6

14 13 93,3675 0,16267 8 12 8 7

103

15 12 92,9415 0,17312 5 18 5 6

16 11 92,6560 0,18012 1 4 1 3

17 10 90,2284 0,23966 2 5 2 7

18 9 90,5842 0,23093 2 10 2 8

19 8 89,4385 0,25903 1 3 1 4

20 7 89,6640 0,25350 1 2 1 12

21 6 89,1254 0,26671 1 23 1 13

22 5 88,2028 0,28934 8 19 8 10

23 4 87,5649 0,30498 1 7 1 14

24 3 84,3486 0,38387 1 22 1 16

25 2 68,8438 0,76414 1 8 1 26

26 1 47,0639 1,29832 1 6 1 27

Final Partition


Average Maximum




Cluster1 12 0,237631 0,135298 0,203541

Cluster2 1 0,000000 0,000000 0,000000

Cluster3 1 0,000000 0,000000 0,000000

Cluster4 7 0,041279 0,072593 0,109567

Cluster5 3 0,008450 0,050924 0,064767

Cluster6 2 0,001943 0,031170 0,031170

Cluster7 1 0,000000 0,000000 0,000000

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6

MeanEVIDA 0,393092 0,90330 0,4029 0,673414 0,761800 0,528700

MeanFUND15 0,356250 0,66090 0,5340 0,568586 0,687633 0,494900

MeanMED18 0,237483 0,59880 0,3587 0,433343 0,551500 0,341600

MeanRENDA 0,099993 0,83125 0,0880 0,251481 0,331193 0,173745

MeanAESFINAD 0,715925 0,99160 0,7948 0,958957 0,985100 0,871450

Grand

Variable Cluster7 centroid

MeanEVIDA 0,56850 0,542537

MeanFUND15 0,41220 0,478330

MeanMED18 0,29350 0,350811

MeanRENDA 0,11713 0,197694

MeanAESFINAD 0,72230 0,833730



Cluster1 0,00000 1,04614 0,229673 0,494006 0,685767 0,279430 0,193315

Cluster2 1,04614 0,00000 0,956714 0,652643 0,522564 0,825095 0,921760

Cluster3 0,22967 0,95671 0,000000 0,365540 0,533799 0,175711 0,229378

Cluster4 0,49401 0,65264 0,365540 0,000000 0,207323 0,220202 0,359272

Cluster5 0,68577 0,52256 0,533799 0,207323 0,000000 0,416228 0,542844

Cluster6 0,27943 0,82510 0,175711 0,220202 0,416228 0,000000 0,190231

Cluster7 0,19331 0,92176 0,229378 0,359272 0,542844 0,190231 0,000000

Dendrogram

104

Bras

ilia

São

Paulo

Sta Ca

tarin

a

RG d

o Su

l

MG d

o Su

l

Rio

de Jan

eiro

Minas

Ger

ais

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

Cear

á

Rora

ima

Mar

anhã

oPiau

i

Serg

ipe

RN d

o No

rte

Pern

ambu

co

Para

íba

Bahia

Alag

oas

Amap

áPa

rá

Amaz

onas

Acre

47,06

64,71

82,35

100,00

Observations

Sim

ilari

ty

Medias

Gráfico 67: Dendograma das médias por Estado com 07 cluster observation

Fonte: Minitab 16

Analisando os gráficos, mesmo a distribuição com 01 cluster, ou a distribuição com 07 clusters

utilizando linkages e distances diferentes, praticamente não há alteração na distribuição dos grupos e

similaridade entre os Estados.

Quando a linkage= single e a distance=euclidean, tanto na distribuição de cluster= 01 quanto

na distribuição de cluster= 07, as similaridades estão entre:

Acre a Amapá

Amazonas e Pará

Paraíba e Pernambuco

Rondônia e Tocantis

Espírito Santo e Góias

Mato Grosso e Minas Gerais

Rio Grande do Sul e Santa Catarina

Quando a linkage= Centroid e a distance=Manhatan, somente utilizada na distribuição de

cluster= 07, as similaridades estão entre:

Amazonas e Pará



105



Diminuindo, assim, o número de agrupamentos. Em todas as 03 análises o nível de

similaridade está acima de 85%, conforme indicado na escala apresentada no eixo Y do gráfico.

Gerando nova coluna por estado e grupo.

Com o objetivo de demonstrar no mapa o grau de similaridade entre os Estados no que diz

respeito ao estudo das médias das 05 variáveis estudadas, utilizou-se:


Case: Estado

Linkage: Single

Distance: Euclidean

Storage: nova coluna de dados

Quadro 13: Distribuição dos Estados em 03 novos clusteres

UF ESTADOS Cluster Observation UF ESTADOS Cluster Observation

Acre 1 Paraíba 2

Alagoas 2 Paraná 4

Amapá 1 Pernambuco 2

Amazonas 1 Piaui 2

Bahia 2 RG do Sul 4

Brasilia 3 Rio de Janeiro 4

Ceará 2 RN do Norte 2

Esp. Santo 4 Rondônia 6

Góias 4 Roraima 7

Maranhão 5 São Paulo 4

Mato Grosso 4 Sergipe 2

MG do Sul 4 Sta Catarina 4

Minas Gerais 4 Tocantins 6

Pará 1 Fonte: Elaborado pelo autor

9.3 Distribuição no mapa do Brasil

106

Figura 02: Mapa do Brasil com a formação dos 03 clusteres

Fonte: Elaborado pelo autor

Com o objetivo de averiguar o quanto o distrito federal (Brasilia) interfere nesta análise, rodar-

se-á um novo Dendograma e distribuição no cluster sem considerar os resultados dessa cidade, a

saber:

Cluster Analysis of Observations: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;

MAESIsBR Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.



1 25 97,0947 0,024389 7 8 7 2

2 24 96,7259 0,027485 14 16 14 2

3 23 93,7155 0,052757 4 13 4 2

4 22 93,6106 0,053637 5 14 5 3

5 21 93,4264 0,055184 5 20 5 4

6 20 92,7966 0,060471 5 24 5 5

7 19 92,5739 0,062340 21 26 21 2

8 18 92,1748 0,065691 18 25 18 2

9 17 91,7140 0,069559 10 12 10 2

10 16 91,6655 0,069966 7 15 7 3

11 15 90,2528 0,081826 5 17 5 6

12 14 90,2159 0,082135 7 10 7 5

13 13 90,1295 0,082860 18 23 18 3

14 12 88,6761 0,095062 7 11 7 6

15 11 88,2123 0,098955 7 19 7 7

16 10 87,7740 0,102634 1 3 1 2

17 9 87,0860 0,108411 1 4 1 4

18 8 86,5656 0,112779 7 18 7 10

107

19 7 86,5187 0,113173 2 5 2 7

20 6 83,1901 0,141115 2 6 2 8

21 5 83,0687 0,142135 1 9 1 5

22 4 82,3811 0,147907 1 22 1 6

23 3 82,2123 0,149324 1 2 1 14

24 2 80,2797 0,165547 1 21 1 16

25 1 79,5995 0,171258 1 7 1 26

Final Partition


Average Maximum




Cluster1 4 0,025541 0,076275 0,111915

Cluster2 7 0,036586 0,065816 0,124489

Cluster3 1 0,000000 0,000000 0,000000

Cluster4 10 0,139993 0,107429 0,186490

Cluster5 1 0,000000 0,000000 0,000000

Cluster6 2 0,001943 0,031170 0,031170

Cluster7 1 0,000000 0,000000 0,000000

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

MEVsBR 0,453700 0,370371 0,4029 0,699930 0,30970 0,528700 0,56850

MFUNsBR 0,345750 0,357600 0,5340 0,604300 0,38880 0,494900 0,41220

MMEDsBR 0,207550 0,255100 0,3587 0,468790 0,23390 0,341600 0,29350

MRENsBR 0,114245 0,096187 0,0880 0,275395 0,06963 0,173745 0,11713

MAESIsBR 0,574200 0,805971 0,7948 0,966800 0,65250 0,871450 0,72230

Grand

Variable centroid

MEVsBR 0,528662

MFUNsBR 0,471308

MMEDsBR 0,341273

MRENsBR 0,173327

MAESIsBR 0,827658



Cluster1 0,000000 0,251772 0,331991 0,613048 0,177215 0,371131 0,216619

Cluster2 0,251772 0,000000 0,207605 0,522604 0,171355 0,248403 0,226164

Cluster3 0,331991 0,207605 0,000000 0,412298 0,256770 0,175711 0,229378

Cluster4 0,613048 0,522604 0,412298 0,000000 0,628504 0,277290 0,411984

Cluster5 0,177215 0,171355 0,256770 0,628504 0,000000 0,359995 0,279652

Cluster6 0,371131 0,248403 0,175711 0,277290 0,359995 0,000000 0,190231

Cluster7 0,216619 0,226164 0,229378 0,411984 0,279652 0,190231 0,000000

Dendrogram

108

São

Paulo

Sta Ca

tarin

a

RG do

Sul

Rio

de Jan

eiro

MG do

Sul

Minas

Ger

a is

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

Cear

áPiau

i

Serg

ipe

RN do No

rte

Pern

ambu

co

Para

íba

Bahia

Alag

oas

Rora

ima

Mar

anhã

oPa

rá

Amaz

onas

Amap

áAc

re

79,60

86,40

93,20

100,00

Observations

Sim

ilari

ty

Medias

Gráfico 68: Dendograma das médias por Estado com 07 cluster - Centroids

Fonte: Minitab 16

As similaridades se mantém entre os estados a seguir, mas altera a distribuição e o percentual.

O que antes girara em torno de 85%, agora está por volta dos 90%. O Estado do Ceará teve o maior

reflexo dessa nova análise.

Acre a Amapá

Amazonas e Pará






109

Quadro 14: Nova distribuição dos Estados pelos clusteres sem Brasilia


Acre 1 Paraíba 2

Alagoas 2 Paraná 4


Amazonas 1 Piaui 2

Bahia 2 RG do Sul 4

Ceará 3 Rio de Janeiro 4

Esp. Santo 4 RN do Norte 2

Góias 4 Rondônia 6

Maranhão 5 Roraima 7

Mato Grosso 4 São Paulo 4

MG do Sul 4 Sergipe 2

Minas Gerais 4 Sta Catarina 4

Pará 1 Tocantins 6 Fonte: Elaborado pelo autor

9.4 O novo mapa dos clusters

Figura 03: Mapa do Brasil com a formação dos 03 clusteres sem Brasilia


Não houve alteração significativa com a exclusão de Brasília, passando o estado do Ceará a

ficar sem similaridade no cluster, assim como Maranhão e Roraima.

Considerações: Dada a similaridade dentre os Estados, tanto pela análise dos dendogramas,

como pela análise do mapa geográfico, como os focos de estudo são as média das variáveis utilizadas

de maior expressão quando da análise dos componentes principais, a saber: EVIDA, FUND15,

MEDIO18, RENDA E AESGINAD, fica evidente que mesmo com o parâmetro utilizado de sete

clusters, há um recorte de duas grandezas: o Brasil do Norte e Nordeste, com indicadores mais baixos,

e um Brasil do Centro, Sul e Sudeste, com indicadores mais altos.

110

Esta análise corrobora com as análises anteriores sinalizando, infelizmente, “DOIS BRASIS”.

Dois Estados que carecem de uma análise mais detalhada são Roraima e Maranhão, pois na

distribuição proposta não apresentam similaridade com os outros estados.

10.ANÁLISE DISCRIMINANTE

Tem por objetivo efetuar a análise discrimiante de dados dimensionadores do IDHM,

Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises fazemos as considerações finais, com

a distribuição demonstrada no mapa do Brasil, considerados os Estados correlacionados. O software

estatístico utilizado é o MINITAB

O primeiro passo para esta análise foi resgatar a base de dados utilizada no trabalho anterior,

ou seja, análise de conglomerados, e as variáveis naquele nesse estudo consideradas e suas médias

por Estado, a seguir, reforçando que já foram normalizadas e no caso da agua_esgoto, positivada.

Resgatando as variáveis



Percentual




Percentual




Percentual



Absoluto




Percentual

O Dendograma base desse estudo apresentou as características a seguir, reforçando que foram

excluídos desta análise, os dados referentes ao Distrito Federal, Brasília.


MAESIsBR Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.



1 25 97,0947 0,024389 7 8 7 2

2 24 96,7259 0,027485 14 16 14 2

111

3 23 93,7155 0,052757 4 13 4 2

4 22 93,6106 0,053637 5 14 5 3

5 21 93,4264 0,055184 5 20 5 4

6 20 92,7966 0,060471 5 24 5 5

7 19 92,5739 0,062340 21 26 21 2

8 18 92,1748 0,065691 18 25 18 2

9 17 91,7140 0,069559 10 12 10 2

10 16 91,6655 0,069966 7 15 7 3

11 15 90,2528 0,081826 5 17 5 6

12 14 90,2159 0,082135 7 10 7 5

13 13 90,1295 0,082860 18 23 18 3

14 12 88,6761 0,095062 7 11 7 6

15 11 88,2123 0,098955 7 19 7 7

16 10 87,7740 0,102634 1 3 1 2

17 9 87,0860 0,108411 1 4 1 4

18 8 86,5656 0,112779 7 18 7 10

19 7 86,5187 0,113173 2 5 2 7

20 6 83,1901 0,141115 2 6 2 8

21 5 83,0687 0,142135 1 9 1 5

22 4 82,3811 0,147907 1 22 1 6

23 3 82,2123 0,149324 1 2 1 14

24 2 80,2797 0,165547 1 21 1 16

25 1 79,5995 0,171258 1 7 1 26

Final Partition


Average Maximum




Cluster1 4 0,025541 0,076275 0,111915

Cluster2 7 0,036586 0,065816 0,124489

Cluster3 1 0,000000 0,000000 0,000000

Cluster4 10 0,139993 0,107429 0,186490

Cluster5 1 0,000000 0,000000 0,000000

Cluster6 2 0,001943 0,031170 0,031170

Cluster7 1 0,000000 0,000000 0,000000

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

MEVsBR 0,453700 0,370371 0,4029 0,699930 0,30970 0,528700 0,56850

MFUNsBR 0,345750 0,357600 0,5340 0,604300 0,38880 0,494900 0,41220

MMEDsBR 0,207550 0,255100 0,3587 0,468790 0,23390 0,341600 0,29350

MRENsBR 0,114245 0,096187 0,0880 0,275395 0,06963 0,173745 0,11713

MAESIsBR 0,574200 0,805971 0,7948 0,966800 0,65250 0,871450 0,72230

Grand

Variable centroid

MEVsBR 0,528662

MFUNsBR 0,471308

MMEDsBR 0,341273

MRENsBR 0,173327

MAESIsBR 0,827658



Cluster1 0,000000 0,251772 0,331991 0,613048 0,177215 0,371131 0,216619

Cluster2 0,251772 0,000000 0,207605 0,522604 0,171355 0,248403 0,226164

Cluster3 0,331991 0,207605 0,000000 0,412298 0,256770 0,175711 0,229378

Cluster4 0,613048 0,522604 0,412298 0,000000 0,628504 0,277290 0,411984

Cluster5 0,177215 0,171355 0,256770 0,628504 0,000000 0,359995 0,279652

Cluster6 0,371131 0,248403 0,175711 0,277290 0,359995 0,000000 0,190231

Cluster7 0,216619 0,226164 0,229378 0,411984 0,279652 0,190231 0,000000

112

Resgatando o Dendograma anterior

São

Paulo

Sta Ca

tarin

a

RG do

Sul

Rio

de Jan

eiro

MG do

Sul

Minas

Ger

a is

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

Cear

áPiau

i

Serg

ipe

RN do No

rte

Pern

ambu

co

Para

íba

Bahia

Alag

oas

Rora

ima

Mar

anhã

oPa

rá

Amaz

onas

Amap

áAc

re

79,60

86,40

93,20

100,00

Observations

Sim

ilari

tyMedias

Observa-se que as similaridades entre os Estados na distribuição com os 07 clusters está por

volta dos 90%.

O Estado do Ceará teve o maior reflexo dessa nova análise (com a exclusão de Brasília)

Acre a Amapá

Amazonas e Pará






Para análise discriminante, o objetivo proposto foi trabalhar com 03 clusters, cabendo ao autor

a construção das novas similaridades.

O primeiro passo foi determinar com os 03 clusters principais que permaneceriam na análise,

sendo que o critério estabelecido foi a escolha do que já continham o maior número de observações.

Vejamos um recorte da distribuição anterior:

Average Maximum




Cluster1 4 0,025541 0,076275 0,111915

Cluster2 7 0,036586 0,065816 0,124489

Cluster3 1 0,000000 0,000000 0,000000

113

Cluster4 10 0,139993 0,107429 0,186490

Cluster5 1 0,000000 0,000000 0,000000

Cluster6 2 0,001943 0,031170 0,031170

Cluster7 1 0,000000 0,000000 0,000000

Respeitado os critérios estabelecidos, os clusters escolhidos foram os clusters 01, 02 e 04.

O próximo passo é associar os clusters eliminados com os clusters escolhidos e o critério

adotado foi as menores distâncias entre eles.

Clusters a serem associados

CLUSTER 3, COM 01 COMPONENTE DE OBSERVAÇÃO


CLUSTER 6, COM 02 COMPONENTES DE OBSERVAÇÃO


10.1 Busca de proximidade de distância


Cluster1 0,000000 0,251772 0,331991 0,613048 0,177215 0,371131 0,216619

Cluster2 0,251772 0,000000 0,207605 0,522604 0,171355 0,248403 0,226164

Cluster3 0,331991 0,207605 0,000000 0,412298 0,256770 0,175711 0,229378

Cluster4 0,613048 0,522604 0,412298 0,000000 0,628504 0,277290 0,411984

Cluster5 0,177215 0,171355 0,256770 0,628504 0,000000 0,359995 0,279652

Cluster6 0,371131 0,248403 0,175711 0,277290 0,359995 0,000000 0,190231

Cluster7 0,216619 0,226164 0,229378 0,411984 0,279652 0,190231 0,000000

Cluster 03 tem maior proximidade, dentre os clusters considerados, com o cluster 2




Discriminant Analysis: AnDisc versus MEVsBR; MFUNsBR; ...

Linear Method for Response: AnDisc

Predictors: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR; MAESIsBR

Group 1 2 4

Count 5 11 10

Summary of classification

True Group

Put into Group 1 2 4

1 5 0 0

2 0 11 0

4 0 0 10

Total N 5 11 10

N correct 5 11 10

Proportion 1,000 1,000 1,000

114

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 2 4

1 0,0000 54,0367 60,0787

2 54,0367 0,0000 26,2981

4 60,0787 26,2981 0,0000

Linear Discriminant Function for Groups

1 2 4

Constant -80,36 -144,66 -179,87

MEVsBR 42,73 -167,44 -82,32

MFUNsBR 158,22 219,70 204,26

MMEDsBR -238,04 -245,92 -257,69

MRENsBR -34,50 44,66 87,74

MAESIsBR 233,51 412,50 403,98

Percebe-se que, com a nova distribuição, o percentual de acerto (proportion= 1,000) entre os

novos clusters definidos é de 100%

O próximo passo é elaborar o novo Dendograma para verificar como fica a distribuição por

Estados.

Construção Do Novo Dendograma Com 3 Clusters:


MAESIsBR

Manhattan Distance, Complete Linkage

Amalgamation Steps

Number

of obs.



1 25 97,8348 0,03974 7 8 7 2

2 24 97,0307 0,05450 14 16 14 2

3 23 95,3357 0,08561 21 26 21 2

4 22 94,3512 0,10368 4 13 4 2

5 21 94,0216 0,10973 5 24 5 2

6 20 93,2446 0,12399 18 25 18 2

7 19 92,7249 0,13353 14 20 14 3

8 18 92,6235 0,13539 10 12 10 2

9 17 92,1375 0,14431 7 15 7 3

10 16 90,4295 0,17566 5 17 5 3

11 15 89,5845 0,19117 11 19 11 2

12 14 88,9628 0,20258 1 3 1 2

13 13 88,6217 0,20884 18 23 18 3

14 12 86,9148 0,24017 10 11 10 4

15 11 85,3092 0,26964 2 9 2 2

16 10 84,1514 0,29089 6 14 6 4

17 9 81,1510 0,34596 2 5 2 5

18 8 80,6410 0,35532 7 10 7 7

19 7 79,0300 0,38489 1 22 1 3

20 6 71,0798 0,53081 6 21 6 6

21 5 68,6455 0,57549 2 4 2 7

22 4 65,7121 0,62933 1 2 1 10

23 3 64,6524 0,64878 7 18 7 10

24 2 51,2343 0,89506 1 6 1 16

115

25 1 0,0000 1,83543 1 7 1 26

Final Partition


Average Maximum




Cluster1 10 0,238199 0,152136 0,193578

Cluster2 6 0,074873 0,108755 0,139195

Cluster3 10 0,139993 0,107429 0,186490

Cluster Centroids

Grand

Variable Cluster1 Cluster2 Cluster3 centroid

MEVsBR 0,412120 0,437450 0,699930 0,528662

MFUNsBR 0,352590 0,447517 0,604300 0,471308

MMEDsBR 0,227490 0,318383 0,468790 0,341273

MRENsBR 0,101115 0,123565 0,275395 0,173327

MAESIsBR 0,695770 0,815567 0,966800 0,827658


Cluster1 Cluster2 Cluster3

Cluster1 0,000000 0,181024 0,555202

Cluster2 0,181024 0,000000 0,402521

Cluster3 0,555202 0,402521 0,000000

Dendogramas:

São

Paulo

Sta Ca

tarin

a

RG do

Sul

Rio

de Jan

eiro

MG do

Sul

Minas

Ger

a is

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

RN do No

rte

Pern

ambu

co

Para

íba

Cear

áPa

rá

Amaz

onas

Piau

i

Serg

ipe

Bahia

Mar

anhã

o

Alag

oas

Rora

ima

Amap

áAc

re

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Medias

Gráfico 69: Dendograma com cluster criados por proximidade

Fonte: Minitab 16

Os Estados, dentre as variáveis analisadas, como maior similaridade são:

116

Acre com Amapá; Alagoas com Maranhão; Bahia com Sergipe, Amazonas com Pará, Paraíba

com Pernambuco, Rondônia com Tocantins, Espírito Santo com Góias, Mato Grosso com Minas

Gerais, Mato Grosso do Sul com Rio de Janeiro, Rio Grande do Sul com Santa Catarina.

Quadro 15: Estados distribuídos por cluster / proximidade


Acre 1 Paraíba 2

Alagoas 1 Paraná 3


Amazonas 1 Piaui 1

Bahia 1 RG do Sul 3

Ceará 2 Rio de Janeiro 3

Esp. Santo 3 RN do Norte 2

Góias 3 Rondônia 2

Maranhão 1 Roraima 1

Mato Grosso 3 São Paulo 3

MG do Sul 3 Sergipe 1

Minas Gerais 3 Sta Catarina 3

Pará 1 Tocantins 2 Fonte: Elaborado pelo autor

Figura 04: Mapa do Brasil com a formação dos 03 cluster por proximidade


117

Considerações: Percebeu-se que com a nova distribuição dos clusters baseada na menor

distância entre os clusters analisados, no início com 07, há mais estados em similaridades entre si, e

uma boa parte delas próximas ao percentual de 80%.

Observa-se, nitidamente, que há um recorte de 03 “BRASIS” diferentes, ficando todo NORTE

e NORDESTE distribuídos em 02 clusters e o terceiro ocupado, integralmente, pelas regiões SUL,

SUDESTE e CENTRO-OESTE

Isto sinaliza, pelas variáveis estudadas, que as questões sociais e econômicas interferem

diretamente nas condições de vida e pode demostrar um ineficácia nas questões de políticas públicas,

já que estamos falando de um único país.

Com o objetivo de subsidiar as próximas análises, a seguir a construção e demonstração pelos

BOXPLOTS, das ANOVAS das variáveis estudadas, obedecidas esta nova distribuição, abertas por

regiões.

• Variável: Expectativa de vida (dados normalizados)

One-way ANOVA: MEVsBR versus EST REG

Source DF SS MS F P

EST REG 4 0,51922 0,12981 40,02 0,000

Error 21 0,06811 0,00324

Total 25 0,58734

S = 0,05695 R-Sq = 88,40% R-Sq(adj) = 86,19%


Pooled StDev


Centro-Oeste 3 0,67313 0,01835 (-----*-----)

Nordeste 8 0,37444 0,03363 (--*---)

Norte 8 0,46880 0,08259 (--*---)

Sudeste 4 0,69105 0,03689 (----*----)

Sul 3 0,73857 0,06200 (-----*----)

--+---------+---------+---------+-------

0,36 0,48 0,60 0,72


Boxplot of MEVsBR

118


0,8

0,7

0,6

0,5

0,4

0,3

EST REG

MEV

sB

R

Boxplot of MEVsBR

Gráfico 70: Boxplot Variável T_ENV Média Normalizada por Região

Fonte: Minitab 16

As relações não se alteraram em comparação com as análises anteriores, ou seja, a REGIÃO

SUL com os melhores indicadores e a região NORDESTE com os piores indicadores. Não nota-se

outliers nesta análise.

• Variável: Taxa conclusão do ensino fundamental, de 15 a 17(dados normalizados)

One-way ANOVA: MFUNsBR versus EST REG

Source DF SS MS F Pll

EST REG 4 0,30491 0,07623 13,89 0,000

Error 21 0,11525 0,00549

Total 25 0,42016

S = 0,07408 R-Sq = 72,57% R-Sq(adj) = 67,35%


Pooled StDev


Centro-Oeste 3 0,55667 0,06087 (------*-------)

Nordeste 8 0,37965 0,07172 (----*---)

Norte 8 0,39673 0,07817 (---*----)

Sudeste 4 0,59810 0,09718 (------*-----)

Sul 3 0,66020 0,01905 (------*------)

---+---------+---------+---------+------

0,36 0,48 0,60 0,72


Boxplot of MFUNsBR

119


0,7

0,6

0,5

0,4

0,3

EST REG

MFU

NsB

R

Boxplot of MFUNsBR

Gráfico 71: Boxplot Variável T_FUND Média Normalizada por Região

Fonte: Minitab 16

Segue a mesma distribuição da análise anterior, com a região SUL apresentando as melhores

médias e a região nordeste as menores médias. Observa-se um grande dispersão entre os municípios

da região Norte porém com a média e mediana próximas, mas no eixo inferior, ou seja, abaixo da

média nacional. Essa mesma dispersão é encontrada na região SUL, mas no eixo superior, com

pequeno distanciamento entre a média e a mediana.

• Variável: Taxa conclusão do ensino médio, de 18 a 20(dados normalizados)

One-way ANOVA: MMEDsBR versus EST REG

Source DF SS MS F P

EST REG 4 0,28376 0,07094 19,89 0,000

Error 21 0,07491 0,00357

Total 25 0,35868

S = 0,05973 R-Sq = 79,11% R-Sq(adj) = 75,14%


Pooled StDev


Centro-Oeste 3 0,41043 0,04451 (------*------)

Nordeste 8 0,26805 0,05322 (----*---)

Norte 8 0,25510 0,06468 (----*---)

Sudeste 4 0,47242 0,08197 (-----*-----)

Sul 3 0,52230 0,02899 (------*------)

---------+---------+---------+---------+

0,30 0,40 0,50 0,60

120


Boxplot of MMEDsBR


0,6

0,5

0,4

0,3

0,2

EST REG

MM

ED

sB

R

Boxplot of MMEDsBR

Gráfico 72: Boxplot Variável Ensino Médio Média Normalizada por Região

Fonte: Minitab 16

Segue a mesma distribuição da análise anterior, com a região SUL apresentando as melhores

médias e neste item, a região norte apresenta a menor média. Observa-se uma distribuição não

uniforme na região Sul, com uma concentração muito grande dos municípios entre a mediana e o

quartil superior. As outras regiões apresentam uma distribuição mais uniforme.

• Variável: Renda per capita (dados normalizados)

One-way ANOVA: MRENsBR versus EST REG

Source DF SS MS F P

EST REG 4 0,17909 0,04477 36,72 0,000

Error 21 0,02560 0,00122

Total 25 0,20469

S = 0,03492 R-Sq = 87,49% R-Sq(adj) = 85,11%


Pooled StDev


Centro-Oeste 3 0,25170 0,00464 (----*-----)

Nordeste 8 0,09516 0,01203 (--*--)

Norte 8 0,12390 0,04318 (--*---)

Sudeste 4 0,26463 0,05079 (---*----)

Sul 3 0,31344 0,04334 (----*----)

-+---------+---------+---------+--------

121

0,080 0,160 0,240 0,320


Boxplot of MRENsBR


0,35

0,30

0,25

0,20

0,15

0,10

EST REG

MR

EN

sB

R

Boxplot of MRENsBR

Gráfico 73: Boxplot Variável RDPC Média Normalizada por Região

Fonte: Minitab 16

Nesta análise evidencia-se a diferença do poder aquisitivo, pois a variável estudada é renda

per capita, entre os Estados do SUL e os Estados do Norte do Brasil. Enquanto a região SUL apresenta

a melhor média nacional, mas mesmo assim percebemos uma grande concentração dos municípios

dos estados dessa região situados entre a mediana e o quartil inferior, a região Nordeste apresenta a

menor média nacional, com o agravante de ter a maior parte dos seus municípios situados entre a

• Variável: Domicílios sem água e saneamento (dados normalizados e positivados)

One-way ANOVA: MAESIsBR versus EST REG

Source DF SS MS F P

EST REG 4 0,38347 0,09587 15,04 0,000

Error 21 0,13382 0,00637

Total 25 0,51729

S = 0,07983 R-Sq = 74,13% R-Sq(adj) = 69,20%


Pooled StDev


122

Centro-Oeste 3 0,9381 0,0223 (-------*-------)

Nordeste 8 0,8046 0,0369 (----*----)

Norte 8 0,6768 0,1324 (---*----)

Sudeste 4 0,9769 0,0136 (------*------)

Sul 3 0,9820 0,0012 (-------*-------)

--------+---------+---------+---------+-

0,72 0,84 0,96 1,08


Boxplot of MAESIsBR

One-way ANOVA: MAESIsBR versus EST REG

Source DF SS MS F P

EST REG 4 0,38347 0,09587 15,04 0,000

Error 21 0,13382 0,00637

Total 25 0,51729

S = 0,07983 R-Sq = 74,13% R-Sq(adj) = 69,20%


Pooled StDev


Centro-Oeste 3 0,9381 0,0223 (-------*-------)

Nordeste 8 0,8046 0,0369 (----*----)

Norte 8 0,6768 0,1324 (---*----)

Sudeste 4 0,9769 0,0136 (------*------)

Sul 3 0,9820 0,0012 (-------*-------)

--------+---------+---------+---------+-

0,72 0,84 0,96 1,08


Boxplot of MAESIsBR


1,0

0,9

0,8

0,7

0,6

0,5

EST REG

MA

ES

IsB

R

Boxplot of MAESIsBR

Gráfico 74: Boxplot Variável AGUA_ESGOTO Média Normalizada por Região

Fonte: Minitab 16

123

Praticamente essa condição inexiste nos municípios da região SUL, o que seria excelente se

acontecesse em todo o Brasil. Mas não é isso que observamos na análise. Há um percentual baixo nos

municípios que compõem as regiões Sudeste e Centro-Oeste, porém alto nas regiões Nordeste e,

principalmente na região NORTE e esta ainda apresenta uma distribuição não uniforme observadas a

média, a mediana e a distribuição entre os quartis.

11. REGRESSÃO LOGÍSTICA

Tem por objetivo efetuar a REGRESSÃO LOGÍSTICA de dados dimensionadores do IDHM,




O primeiro passo para esta análise foi resgatar a base de dados utilizada no trabalho anterior,

ou seja, análise discriminante, e as variáveis naquele estudo consideradas e suas médias por Estado,

a seguir, reforçando que já foram normalizadas e no caso da agua_esgoto, positivada.

T_ENV Taxa de envelhecimento Razão entre a população de 65 anos ou mais de idade e a

população total multiplicado por 100. Variável Quantitativa

Percentual




Percentual




Percentual



Absoluto




Percentual

1º Passo

Aproveitando a análise feita no trabalho 09, Análise Discriminante, confirmar o novo

Dendograma em 03 clusters, estruturado em razão da maior similaridade (menor distâncias) entre os

clusters analisados

STAT / MULTIVARIATE / CLUSTERS OBSERVATION

As variáveis são as mesmas utilizadas na análise anterior, linkage: complete e distance: Manhattan e,

em storage, desginar a nova coluna a ser criada, nomeando-a.

124


MAESIsBR

Manhattan Distance, Complete Linkage

Amalgamation Steps

Number

of obs.



1 25 97,8348 0,03974 7 8 7 2

2 24 97,0307 0,05450 14 16 14 2

3 23 95,3357 0,08561 21 26 21 2

4 22 94,3512 0,10368 4 13 4 2

5 21 94,0216 0,10973 5 24 5 2

6 20 93,2446 0,12399 18 25 18 2

7 19 92,7249 0,13353 14 20 14 3

8 18 92,6235 0,13539 10 12 10 2

9 17 92,1375 0,14431 7 15 7 3

10 16 90,4295 0,17566 5 17 5 3

11 15 89,5845 0,19117 11 19 11 2

12 14 88,9628 0,20258 1 3 1 2

13 13 88,6217 0,20884 18 23 18 3

14 12 86,9148 0,24017 10 11 10 4

15 11 85,3092 0,26964 2 9 2 2

16 10 84,1514 0,29089 6 14 6 4

17 9 81,1510 0,34596 2 5 2 5

18 8 80,6410 0,35532 7 10 7 7

19 7 79,0300 0,38489 1 22 1 3

20 6 71,0798 0,53081 6 21 6 6

21 5 68,6455 0,57549 2 4 2 7

22 4 65,7121 0,62933 1 2 1 10

23 3 64,6524 0,64878 7 18 7 10

24 2 51,2343 0,89506 1 6 1 16

25 1 0,0000 1,83543 1 7 1 26

Final Partition


Average Maximum




Cluster1 10 0,238199 0,152136 0,193578

Cluster2 6 0,074873 0,108755 0,139195

Cluster3 10 0,139993 0,107429 0,186490

Cluster Centroids

Grand

Variable Cluster1 Cluster2 Cluster3 centroid

MEVsBR 0,412120 0,437450 0,699930 0,528662

MFUNsBR 0,352590 0,447517 0,604300 0,471308

MMEDsBR 0,227490 0,318383 0,468790 0,341273

MRENsBR 0,101115 0,123565 0,275395 0,173327

MAESIsBR 0,695770 0,815567 0,966800 0,827658


Cluster1 Cluster2 Cluster3

125

Cluster1 0,000000 0,181024 0,555202

Cluster2 0,181024 0,000000 0,402521

Cluster3 0,555202 0,402521 0,000000

Dendrogram

São

Paulo

Sta Ca

tarin

a

RG do

Sul

Rio

de Jan

eiro

MG do

Sul

Minas

Ger

a is

Mat

o Gr

osso

Para

ná

Góias

Esp.

San

to

Toca

ntins

Rond

ônia

RN do No

rte

Pern

ambu

co

Para

íba

Cear

áPa

rá

Amaz

onas

Piau

i

Serg

ipe

Bahia

Mar

anhã

o

Alag

oas

Rora

ima

Amap

áAc

re

0,00

33,33

66,67

100,00

Observations

Sim

ilari

ty

Medias

Resgatando o Dendograma anterior

Os Estados, dentre as variáveis analisadas, como maior similaridade são:

Acre com Amapá; Alagoas com Maranhão; Bahia com Sergipe, Amazonas com Pará, Paraíba com

Pernambuco, Rondônia com Tocantins, Espírito Santo com Góias, Mato Grosso com Minas Gerais,

Mato Grosso do Sul com Rio de Janeiro, Rio Grande do Sul com Santa Catarina, mas percebe-se que

há notoriamente 03 “Brasis” pela forma como são distribuídos os clusters.

Passo 02

Rodar a análise discriminante

STAT/MULTIVARIATE/DISCRIMINANTY ANALYSIS

Discriminant Analysis: AnDisc versus MEVsBR; MFUNsBR; ...

Linear Method for Response: AnDisc

Predictors: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR; MAESIsBR

Group 1 2 4

Count 5 11 10

126

Summary of classification

True Group

Put into Group 1 2 4

1 5 0 0

2 0 11 0

4 0 0 10

Total N 5 11 10

N correct 5 11 10

Proportion 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 2 4

1 0,0000 54,0367 60,0787

2 54,0367 0,0000 26,2981

4 60,0787 26,2981 0,0000

Linear Discriminant Function for Groups

1 2 4

Constant -80,36 -144,66 -179,87

MEVsBR 42,73 -167,44 -82,32

MFUNsBR 158,22 219,70 204,26

MMEDsBR -238,04 -245,92 -257,69

MRENsBR -34,50 44,66 87,74

MAESIsBR 233,51 412,50 403,98

Percebe-se que, com a nova distribuição, o percentual de acerto (proportion= 1,000) entre os

novos clusters definidos é de 100%

Passo 03

Rodar ANOVA de cada uma das variáveis

STAT/ANOVA/ONE-WAY, sem a necessidade de rodar o BoxPlot

Response: cada uma das variáveis

Factor: a nova coluna com o cluster 03

• Variável: Expectativa de vida (dados normalizados)

One-way ANOVA: MEVsBR versus AnDisc Source DF SS MS F P

AnDisc 2 0,47907 0,23953 50,88 0,000

Error 23 0,10827 0,00471

Total 25 0,58734

S = 0,06861 R-Sq = 81,57% R-Sq(adj) = 79,96%


Pooled StDev


1 10 0,41212 0,08370 (---*----)

2 6 0,43745 0,07187 (-----*-----)

3 10 0,69993 0,04642 (---*---)

---+---------+---------+---------+------

127

0,40 0,50 0,60 0,70


• Variável: Taxa conclusão do ensino fundamental, de 15 a 17 (dados normalizados) One-way ANOVA: MFUNsBR versus AnDisc Source DF SS MS F P

AnDisc 2 0,32120 0,16060 37,33 0,000

Error 23 0,09896 0,00430

Total 25 0,42016

S = 0,06559 R-Sq = 76,45% R-Sq(adj) = 74,40%


Pooled StDev


1 10 0,35259 0,05019 (---*----)

2 6 0,44752 0,06853 (-----*----)

3 10 0,60430 0,07660 (---*----)

---------+---------+---------+---------+

0,40 0,50 0,60 0,70


• Variável: Taxa conclusão do ensino médio, de 18 a 20(dados normalizados) One-way ANOVA: MMEDsBR versus AnDisc Source DF SS MS F P

AnDisc 2 0,29522 0,14761 53,49 0,000

Error 23 0,06346 0,00276

Total 25 0,35868

S = 0,05253 R-Sq = 82,31% R-Sq(adj) = 80,77%


Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

1 10 0,22749 0,03762 (---*----)

2 6 0,31838 0,03484 (-----*----)

3 10 0,46879 0,07044 (----*---)

------+---------+---------+---------+---

0,240 0,320 0,400 0,480


• Variável: Renda per capita (dados normalizados) One-way ANOVA: MRENsBR versus AnDisc Source DF SS MS F P

AnDisc 2 0,17118 0,08559 58,75 0,000

Error 23 0,03351 0,00146

Total 25 0,20469

S = 0,03817 R-Sq = 83,63% R-Sq(adj) = 82,21%


Pooled StDev

128


1 10 0,10111 0,02541 (---*---)

2 6 0,12357 0,04398 (-----*----)

3 10 0,27539 0,04476 (---*---)

-------+---------+---------+---------+--

0,120 0,180 0,240 0,300


• Variável: Domicílios sem água e saneamento (dados normalizados e positivados)

One-way ANOVA: MAESIsBR versus AnDisc Source DF SS MS F P

AnDisc 2 0,36843 0,18421 28,46 0,000

Error 23 0,14886 0,00647

Total 25 0,51729

S = 0,08045 R-Sq = 71,22% R-Sq(adj) = 68,72%


Pooled StDev


1 10 0,6958 0,1220 (-----*----)

2 6 0,8156 0,0443 (------*-----)

3 10 0,9668 0,0238 (-----*----)

------+---------+---------+---------+---

0,70 0,80 0,90 1,00


Tabela ANOVA das variáveis, tomando como base o valor “F” de cada uma, entendendo que,

quanto maior esse valor, maior a representatividade da variável na amostra estudada, bem como suas

médias e intervalos de confiança.

Quadro 16: Clusters com o Valor F das variáveis

Variável MEVsBR MFUNsBR MMEDsBR MRENsBR MAESIsBR

Cluster 1 0,41212 0,35259 0,22749 0,10111 0,6958

Cluster 2 0,43745 0,44752 0,31838 0,12357 0,8156

Cluster 3 0,69993 0,60430 0,46879 0,27539 0,9668

Valor F 50,88 37,33 53,49 58,75 28,46 Fonte: elaborado pelo autor

Observa-se que, pelo valor de F, as variáveis com maior representatividade no estudo são,

respectivamente, Renda, Conclusão do Ensino Médio, Expectativa de Vida, Conclusão do Ensino

Fundamental e Água e Saneamento Inadequados.

Porém, observa-se, também que há sobreposição dos intervalos de confiança nas variáveis Renda e

Expectativa de Vida

Passo 04

Construir a Regressão Logística

Calcula a probabilidade de uma variável pertencente a um grupo.

129

STAT / REGRESSION / ORDINAL LOGISTIC

Response: a nova coluna dos 03 clusters

Model: as variáveis

1ª Análise

Utilizaremos todas as variáveis para avaliarmos os resultados

Ordinal Logistic Regression: AnDisc versus MEVsBR; MFUNsBR; ...

* WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

Link Function: Logit

Response Information

Variable Value Count

AnDisc 1 10

2 6

3 10

Total 26

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 313,252 20325,6 0,02 0,988

Const(2) 475,990 27239,7 0,02 0,986

MEVsBR 497,698 20682,5 0,02 0,981 1,40468E+216 0,00 *

MFUNsBR 451,213 162565 0,00 0,998 9,10708E+195 0,00 *

MMEDsBR -2601,52 237527 -0,01 0,991 0,00 0,00 *

MRENsBR -855,736 47747,8 -0,02 0,986 0,00 0,00 *

MAESIsBR 135,488 17366,8 0,01 0,994 6,94831E+58 0,00 *

Log-Likelihood = -0,000

Test that all slopes are zero: G = 55,816, DF = 5, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 0,0000014 45 1,000

Deviance 0,0000028 45 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 220 100,0 Somers' D 1,00

Discordant 0 0,0 Goodman-Kruskal Gamma 1,00

Ties 0 0,0 Kendall's Tau-a 0,68

Total 220 100,0

130

Comentários: Apesar de a concordância ser de 100%, o que viabilizaria o estudo, todos os “P”

das variáveis estão entre 98 e 100%, o que descaracteriza o estudo.

Como as variáveis Renda e Expectativa de Vida apresentaram intervalos de confiança sobrepostos,

as mesmas serão desconsideradas da análise.

2ª Análise

Utilizaremos todas as variáveis menos as duas com intervalos sobrepostos.

Ordinal Logistic Regression: AnDisc versus MFUNsBR; MMEDsBR; MAESIsBR




AnDisc 1 10

2 6

3 10

Total 26


95% CI


Const(1) 66,5127 58,7815 1,13 0,258

Const(2) 81,5904 71,9024 1,13 0,256

MFUNsBR 57,6266 83,6031 0,69 0,491 1,06388E+25 0,00 1,54873E+96

MMEDsBR -211,726 148,637 -1,42 0,154 0,00 0,00 3,70138E+34

MAESIsBR -38,2764 39,9438 -0,96 0,338 0,00 0,00 2,38250E+17





Pearson 5,19783 47 1,000

Deviance 5,72897 47 1,000







Total 220 100,0

Nesta análise, o percentual de concordância foi de 99,1%, considerado como aceitável, houve

melhora nos indicadores “P”, mas ainda apresentam problemas

As 3 variáveis apresentam percentuais de 49,1%, 15,4% e 33,8%, lembrando que os valores

aceitáveis restringem-se ao limite de 10%.

131

3ª Análise

Não serão utilizadas as duas variáveis com intervalos sobrepostos e a de menor valor de “F”,

no caso, Agua e Saneamento inadequados.

Ordinal Logistic Regression: AnDisc versus MFUNsBR; MMEDsBR




AnDisc 1 10

2 6

3 10

Total 26


95% CI


Const(1) 26,4031 11,7400 2,25 0,025

Const(2) 34,2771 15,0582 2,28 0,023

MFUNsBR 69,9995 58,1077 1,20 0,228 2,51426E+30 0,00 7,27414E+79

MMEDsBR -191,703 100,985 -1,90 0,058 0,00 0,00 504,29





Pearson 7,73061 48 1,000

Deviance 7,48729 48 1,000







Total 220 100,0

Comentários: a concordância foi de 99,5%, o que seria bom, porém o valor de “P” da variável

Conclusão do Ensino Fundamental foi de 22,8%, muito alto e o “P” da variável Conclusão do Ensino

Médio foi de 5,8%, este sim com valor ideal

4ª Análise

Conforme analises anteriores, será considerada somente a variável Conclusão do Ensino

Médio, a saber:

Ordinal Logistic Regression: AnDisc versus MMEDsBR


132



AnDisc 1 10

2 6

3 10

Total 26


Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 29,4918 14,7318 2,00 0,045

Const(2) 38,6163 19,1687 2,01 0,044

MMEDsBR -105,687 53,0826 -1,99 0,046 0,00 0,00 0,19





Pearson 9,14418 49 1,000

Deviance 9,64638 49 1,000







Total 220 100,0

Considerações: Como a Regressão logística ordinal tem a finalidade de modelar a relação

entre preditoras e respostas, para as estas variáveis escolhidas nesta base de dados, entende-se que a

variável que melhor atende às características probabilísticas desta análise é a “Taxa de conclusão de

ensino médio, entre 18 e 20 anos completos”, com uma concordância de 99,1% e um valor de “P” na

ordem de 4,6%.

12.ANÁLISE DE CORRESPONDÊNCIAS

Tem por objetivo efetuar a Análise de Correspondências de dados dimensionadores do IDHM,




12.1 Análise de correspondência simples

A análise de correspondência simples decompõe uma tabela de contingência de forma similar

à análise de componentes principais em relação a dados contínuos multivariáveis. A análise de

133

correspondência simples faz uma autoanálise dos dados, decompõe a variabilidade em dimensões

subjacentes e associa variabilidade a linhas e/ou colunas.

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-

statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis, acesso em

24/05/2017

Foi utilizada a mesma base de dados (variáveis) estudada na Regressão Logística

1º Passo

Realizar a análise considerando as 05 variáveis e a correspondência com os Estados

Brasileiros

STAT / MULTIVARIATE / SIMPLE CORRESPONDECE ANALYSIS

Categorial: Estados

Columns: as 5 variáveis

Row: Estados

Column names: a nova coluna criada com a nomenclatura das variáveis

Graphs: Symmetric plot showing rows and columns

Simple Correspondence Analysis: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR;

MAESIsBR

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0122 0,6891 0,6891 ******************************

2 0,0031 0,1741 0,8633 *******

3 0,0021 0,1159 0,9791 *****

4 0,0004 0,0209 1,0000

Total 0,0177

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 ac 0,303 0,028 0,012 -0,002 0,001 0,000 0,047 0,302 0,021

2 al 0,902 0,027 0,094 0,235 0,893 0,121 0,023 0,009 0,005

3 ap 0,642 0,032 0,025 -0,076 0,407 0,015 0,057 0,235 0,034

4 am 0,817 0,025 0,032 0,050 0,110 0,005 0,127 0,706 0,131

5 ba 0,962 0,032 0,044 0,152 0,962 0,062 -0,001 0,000 0,000

6 ce 0,720 0,036 0,071 0,100 0,284 0,029 -0,124 0,436 0,177

7 es 0,989 0,049 0,008 -0,054 0,987 0,012 -0,002 0,002 0,000

8 go 0,991 0,049 0,012 -0,066 0,976 0,018 -0,008 0,016 0,001

9 ma 0,839 0,027 0,047 0,143 0,664 0,046 -0,074 0,175 0,048

10 mg 0,928 0,046 0,013 -0,068 0,921 0,017 0,006 0,006 0,000

11 ms 0,742 0,045 0,028 -0,064 0,370 0,015 0,064 0,372 0,060

12 mg 0,703 0,046 0,005 -0,018 0,162 0,001 0,032 0,541 0,015

13 pa 0,909 0,026 0,043 -0,013 0,005 0,000 0,163 0,904 0,223

14 pb 0,953 0,031 0,035 0,134 0,898 0,046 -0,033 0,055 0,011

15 pr 0,998 0,050 0,023 -0,073 0,659 0,022 -0,053 0,339 0,045

16 pe 0,993 0,032 0,031 0,129 0,939 0,043 -0,031 0,054 0,010

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis

134

17 pi 0,961 0,031 0,110 0,246 0,960 0,153 0,007 0,001 0,000

18 rs 0,959 0,053 0,058 -0,136 0,952 0,081 -0,012 0,007 0,002

19 rj 0,473 0,047 0,041 -0,085 0,472 0,028 0,004 0,001 0,000

20 rn 0,929 0,033 0,025 0,104 0,810 0,030 -0,040 0,118 0,017

21 ro 0,077 0,040 0,004 -0,011 0,057 0,000 -0,006 0,020 0,001

22 rr 0,487 0,035 0,027 0,008 0,005 0,000 0,082 0,482 0,075

23 sp 0,993 0,055 0,071 -0,130 0,739 0,077 -0,076 0,254 0,104

24 se 0,852 0,031 0,054 0,162 0,835 0,065 0,023 0,017 0,005

25 sc 0,988 0,055 0,076 -0,153 0,958 0,106 -0,027 0,030 0,013

26 to 0,720 0,039 0,008 0,050 0,710 0,008 -0,006 0,010 0,000

Column Contributions



1 env 0,916 0,226 0,162 -0,066 0,344 0,081 0,085 0,572 0,531

2 fun 0,376 0,201 0,071 -0,011 0,020 0,002 -0,047 0,356 0,144

3 med 0,897 0,146 0,099 -0,064 0,336 0,048 -0,082 0,561 0,318

4 ren 0,845 0,074 0,321 -0,255 0,844 0,393 -0,004 0,000 0,000

5 aei 0,945 0,353 0,348 0,128 0,942 0,475 0,007 0,003 0,006

Symmetric Plot

0,30,20,10,0-0,1-0,2-0,3

0,3

0,2

0,1

0,0

-0,1

-0,2

-0,3

Component 1

Co

mp

on

en

t 2

aeiren

med

fun

env

tosc

se

sp

rr

ro

rn

rjrs

pi

pepr

pb

pa

mg

ms

mg

ma

goes

ce

ba

am

ap

alac

Symmetric Plot

Gráfico 75: Symmetric Plot com as correspondências simples

Fonte: Minitab 16

Percebe-se que os estados com maiores correspondências, conforme demonstrado no gráfico são:

a) Com a variável T_ENV (env) Taxa de envelhecimento: Amapá e Mato Grosso do Sul (de

proximidade) e Piaui, Alagoas e Ceará (de distanciamento)

b) Com a variável T_FUND15A17 (fun), Percentual da população de 15 a 17 anos com

fundamental completo: Roraima, Espírito Santo e Tocantins (de proximidade) e Piaui,

Alagoas e Pará (de distanciamento)

135

c) Com a variável T_MED18a20 (med) , Percentual da população de 18 a 20 anos de idade com

o ensino médio completo: Paraná e São Paulo (de proximidade) e Piaui, Alagoas e Pará(de

distanciamento)

d) Com a variável RDPC, (ren) Renda per capita média: Santa Catarina e Rio Grande do Sul (de

proximidade) e Piaui e Alagoas (de distanciamento)

e) Com a variável AGUA_ESGOTO (aei), Percentual de pessoas em domicílios com

abastecimento de água e esgotamento sanitário inadequados Sergipe e Bahia (de proximidade)

e São Paulo, Rio Grande do Sul e Santa Catarina (de distanciamento)

2° Passo

Realizar a análise considerando as 05 variáveis e a correspondência com as Regiões

Brasileiras


Categorial: regiões


Row: regiões



Para esta análise foi necessário criar as médias das cinco variáveis por Região, a seguir:

One-way ANOVA: MEVsBR versus Reg Sigla

Source DF SS MS F P

Reg Sigla 4 0,51922 0,12981 40,02 0,000

Error 21 0,06811 0,00324

Total 25 0,58734

S = 0,05695 R-Sq = 88,40% R-Sq(adj) = 86,19%


Pooled StDev


co 3 0,67313 0,01835 (-----*-----)

ne 8 0,37444 0,03363 (--*---)

no 8 0,46880 0,08259 (--*---)

se 4 0,69105 0,03689 (----*----)

su 3 0,73857 0,06200 (-----*----)

--+---------+---------+---------+-------

0,36 0,48 0,60 0,72


One-way ANOVA: MFUNsBR versus Reg Sigla

136

Source DF SS MS F P

Reg Sigla 4 0,30491 0,07623 13,89 0,000

Error 21 0,11525 0,00549

Total 25 0,42016

S = 0,07408 R-Sq = 72,57% R-Sq(adj) = 67,35%


Pooled StDev


co 3 0,55667 0,06087 (------*-------)

ne 8 0,37965 0,07172 (----*---)

no 8 0,39673 0,07817 (---*----)

se 4 0,59810 0,09718 (------*-----)

su 3 0,66020 0,01905 (------*------)

---+---------+---------+---------+------

0,36 0,48 0,60 0,72


One-way ANOVA: MMEDsBR versus Reg Sigla Source DF SS MS F P

Reg Sigla 4 0,28376 0,07094 19,89 0,000

Error 21 0,07491 0,00357

Total 25 0,35868

S = 0,05973 R-Sq = 79,11% R-Sq(adj) = 75,14%


Pooled StDev


co 3 0,41043 0,04451 (------*------)

ne 8 0,26805 0,05322 (----*---)

no 8 0,25510 0,06468 (----*---)

se 4 0,47242 0,08197 (-----*-----)

su 3 0,52230 0,02899 (------*------)

---------+---------+---------+---------+

0,30 0,40 0,50 0,60


One-way ANOVA: MRENsBR versus Reg Sigla Source DF SS MS F P

Reg Sigla 4 0,17909 0,04477 36,72 0,000

Error 21 0,02560 0,00122

Total 25 0,20469

S = 0,03492 R-Sq = 87,49% R-Sq(adj) = 85,11%


Pooled StDev


co 3 0,25170 0,00464 (----*-----)

ne 8 0,09516 0,01203 (--*--)

no 8 0,12390 0,04318 (--*---)

se 4 0,26463 0,05079 (---*----)

su 3 0,31344 0,04334 (----*----)

-+---------+---------+---------+--------

0,080 0,160 0,240 0,320


137

One-way ANOVA: MAESIsBR versus Reg Sigla Source DF SS MS F P

Reg Sigla 4 0,38347 0,09587 15,04 0,000

Error 21 0,13382 0,00637

Total 25 0,51729

S = 0,07983 R-Sq = 74,13% R-Sq(adj) = 69,20%


Pooled StDev


co 3 0,9381 0,0223 (-------*-------)

ne 8 0,8046 0,0369 (----*----)

no 8 0,6768 0,1324 (---*----)

se 4 0,9769 0,0136 (------*------)

su 3 0,9820 0,0012 (-------*-------)

--------+---------+---------+---------+-

0,72 0,84 0,96 1,08


Quadro 17: novas médias por região

regiões env fund med rend Asinad

co 0,67313 0,55667 0,41043 0,2517 0,9381

ne 0,37444 0,37976 0,26805 0,09516 0,8046

no 0,4688 0,39673 0,2551 0,1239 0,6768

se 0,69105 0,5981 0,44242 0,26463 0,9769

su 0,73857 0,6602 0,5223 0,31344 0,982 Fonte: Minitab 16, adaptado pelo autor

12.2 Rodando a análise de correspondência

• Simple Correspondence Analysis: env; fund_1; med; rend; asinad



1 0,0080 0,8826 0,8826 ******************************

2 0,0009 0,0993 0,9818 ***

3 0,0002 0,0178 0,9997

4 0,0000 0,0003 1,0000

Total 0,0090

Row Contributions



1 co 0,752 0,220 0,034 -0,030 0,645 0,025 0,012 0,107 0,037

2 ne 1,000 0,149 0,599 0,187 0,968 0,657 -0,034 0,032 0,191

3 no 0,966 0,149 0,109 0,053 0,428 0,053 0,059 0,538 0,589

4 se 0,960 0,231 0,030 -0,033 0,960 0,032 -0,000 0,000 0,000

5 su 0,979 0,250 0,229 -0,086 0,900 0,234 -0,026 0,080 0,184




1 env 0,999 0,229 0,110 -0,046 0,481 0,060 0,047 0,518 0,575

138

2 fun 0,173 0,201 0,008 -0,006 0,117 0,001 0,004 0,056 0,005

3 med 0,961 0,148 0,074 -0,050 0,545 0,046 -0,044 0,416 0,312

4 ren 0,985 0,082 0,387 -0,203 0,965 0,423 -0,030 0,021 0,080

5 aei 0,993 0,340 0,421 0,105 0,987 0,470 -0,009 0,007 0,028

Symmetric Plot

0,20,10,0-0,1-0,2

0,2

0,1

0,0

-0,1

-0,2

Component 1

Co

mp

on

en

t 2

aei

renmed

fun

env

su

se

no

ne

co

Symmetric Plot

Gráfico 76: Symmetric Plot – análise de correspondências

Fonte: Minitab 16

Percebe-se que os estados com maiores correspondências, conforme demonstrado no gráfico são:

a) Com a variável T_ENV (env) Taxa de envelhecimento: Centro-Oeste e Sudeste (de

proximidade) e Nordeste (de distanciamento)


fundamental completo: Centro-Oeste e Sudeste (de proximidade) e Nordeste (de

distanciamento)


o ensino médio completo: Sul (de proximidade) e Nordeste (de distanciamento)

d) Com a variável RDPC, (ren) Renda per capita média: Sul (de proximidade) e Nordeste (de

distanciamento).


abastecimento de água e esgotamento sanitário inadequados : Norte e Nordeste (de

proximidade) e Sul (de distanciamento)

3º Passo

139

Realizar a análise considerando as 05 variáveis e a correspondência com as Regiões

Brasileiras


Categorial: novas regiões (3 clusters analisados)


Row: (3 clusters analisados)



Para esta análise foi necessário criar as médias das cinco variáveis por Nova Região criada

(quando da divisão pelos 03 clusters nos trabalhos anteriores)

Resgatando as análises anteriores.

As novas regiões estão assim subdivididas:

Região 01: Acre, Roraima, Amazonas, Pará, Amapá, Maranhão, Piaui, Bahia, Sergipe e Alagoas

Região 02: Rondônia, Tocantins, Ceará, Rio Grande do Norte, Paraíba e Pernambuco

Região 03: Mato Grosso, Mato Grosso do Sul, Goias, Minas Gerais, Espírito Santo, Rio de Janeiro,

São Paulo, Paraná, Santa Catarina e Rio Grande do Sul.

Figura 05: Mapa do Brasil com as três novas regiões

Fonte: elaborado pelo autor

140

One-way ANOVA: MEVsBR versus 3 Regiões Source DF SS MS F P

3 Regiões 2 0,47907 0,23953 50,88 0,000

Error 23 0,10827 0,00471

Total 25 0,58734

S = 0,06861 R-Sq = 81,57% R-Sq(adj) = 79,96%


Pooled StDev


1 10 0,41212 0,08370 (---*----)

2 6 0,43745 0,07187 (-----*-----)

3 10 0,69993 0,04642 (---*---)

---+---------+---------+---------+------

0,40 0,50 0,60 0,70


One-way ANOVA: MFUNsBR versus 3 Regiões Source DF SS MS F P

3 Regiões 2 0,32120 0,16060 37,33 0,000

Error 23 0,09896 0,00430

Total 25 0,42016

S = 0,06559 R-Sq = 76,45% R-Sq(adj) = 74,40%


Pooled StDev


1 10 0,35259 0,05019 (---*----)

2 6 0,44752 0,06853 (-----*----)

3 10 0,60430 0,07660 (---*----)

---------+---------+---------+---------+

0,40 0,50 0,60 0,70


One-way ANOVA: MMEDsBR versus 3 Regiões Source DF SS MS F P

3 Regiões 2 0,29522 0,14761 53,49 0,000

Error 23 0,06346 0,00276

Total 25 0,35868

S = 0,05253 R-Sq = 82,31% R-Sq(adj) = 80,77%


Pooled StDev


1 10 0,22749 0,03762 (---*----)

2 6 0,31838 0,03484 (-----*----)

3 10 0,46879 0,07044 (----*---)

------+---------+---------+---------+---

0,240 0,320 0,400 0,480


One-way ANOVA: MRENsBR versus 3 Regiões Source DF SS MS F P

3 Regiões 2 0,17118 0,08559 58,75 0,000

141

Error 23 0,03351 0,00146

Total 25 0,20469

S = 0,03817 R-Sq = 83,63% R-Sq(adj) = 82,21%


Pooled StDev


1 10 0,10111 0,02541 (---*---)

2 6 0,12357 0,04398 (-----*----)

3 10 0,27539 0,04476 (---*---)

-------+---------+---------+---------+--

0,120 0,180 0,240 0,300


One-way ANOVA: MAESIsBR versus 3 Regiões Source DF SS MS F P

3 Regiões 2 0,36843 0,18421 28,46 0,000

Error 23 0,14886 0,00647

Total 25 0,51729

S = 0,08045 R-Sq = 71,22% R-Sq(adj) = 68,72%


Pooled StDev


1 10 0,6958 0,1220 (-----*----)

2 6 0,8156 0,0443 (------*-----)

3 10 0,9668 0,0238 (-----*----)

------+---------+---------+---------+---

0,70 0,80 0,90 1,00


Clusters Nenv Nfund Nmed Nrend Nasinad

Região 1 0,41212 0,35259 0,22749 0,10111 0,6957

Região 2 0,43745 0,44752 0,31838 0,12357 0,8156

Região 3 0,69993 0,6043 0,46879 0,27539 0,9668

Rodando a Análise de Correspondência

Simple Correspondence Analysis: Nenv; Nfund; Nmed; Nrend; Nasinad



1 0,0076 0,8867 0,8867 ******************************

2 0,0010 0,1133 1,0000 ***

Total 0,0085

Row Contributions



1 Região 1 1,000 0,258 0,272 0,085 0,792 0,243 0,043 0,208 0,499

2 Região 2 1,000 0,308 0,228 0,069 0,752 0,193 -0,040 0,248 0,498

3 Região 3 1,000 0,434 0,500 -0,099 0,999 0,563 0,002 0,001 0,003

142




1 env 1,000 0,223 0,084 -0,033 0,332 0,031 0,046 0,668 0,493

2 fun 1,000 0,202 0,013 0,006 0,069 0,001 -0,022 0,931 0,104

3 med 1,000 0,146 0,106 -0,060 0,580 0,069 -0,051 0,420 0,393

4 ren 1,000 0,072 0,467 -0,235 0,998 0,526 0,010 0,002 0,007

5 aei 1,000 0,357 0,331 0,089 0,999 0,373 0,003 0,001 0,003

Symmetric Plot

0,100,050,00-0,05-0,10-0,15-0,20-0,25

0,10

0,05

0,00

-0,05

-0,10

-0,15

-0,20

-0,25

Component 1

Co

mp

on

en

t 2

aeiren

med

fun

env

Região 3

Região 2

Região 1

Symmetric Plot

Gráfico 77: Symmetric Plot das três novas regiões

Fonte: Minitab 16

Percebe-se que as regiões com maiores correspondências, conforme demonstrado no gráfico

são:

a) Com a variável T_ENV (env) Taxa de envelhecimento: região 03 (de proximidade) e região

02 (de distanciamento)


fundamental completo: região 02 (de proximidade) e região 03 (de distanciamento)


o ensino médio completo: região 03 (de proximidade) e região 02 (de distanciamento)

d) Com a variável RDPC, (ren) Renda per capita média: região 03 (de proximidade) e região 01

(de distanciamento)


abastecimento de água e esgotamento sanitário inadequados: região 02 (de proximidade) e

região 03 (de distanciamento)

143

4º Passo

Realizar a análise considerando as 03 variáveis de maior representatividade nos resultados da

análise da regressão logística


Categorial: Estados


Row: Estados

Column names: a nova coluna criada com a nomenclatura das 3 variáveis


Simple Correspondence Analysis: MFUNsBR; MMEDsBR; MAESIsBR



1 0,0087 0,8892 0,8892 ******************************

2 0,0011 0,1108 1,0000 ***

Total 0,0098

Row Contributions



1 ac 1,000 0,028 0,020 0,002 0,001 0,000 0,083 0,999 0,178

2 al 1,000 0,029 0,149 0,223 1,000 0,167 -0,002 0,000 0,000

3 ap 1,000 0,030 0,028 -0,052 0,290 0,009 0,081 0,710 0,180

4 am 1,000 0,024 0,017 0,080 0,947 0,018 0,019 0,053 0,008

5 ba 1,000 0,034 0,054 0,123 0,986 0,060 -0,014 0,014 0,007

6 ce 1,000 0,040 0,021 -0,061 0,716 0,017 0,039 0,284 0,055

7 es 1,000 0,048 0,010 -0,044 0,961 0,011 -0,009 0,039 0,003

8 go 1,000 0,048 0,018 -0,061 0,998 0,020 -0,003 0,002 0,000

9 ma 1,000 0,030 0,013 0,025 0,148 0,002 0,059 0,852 0,096

10 mg 1,000 0,045 0,008 -0,040 0,909 0,008 0,013 0,091 0,007

11 ms 1,000 0,042 0,005 0,031 0,756 0,005 -0,017 0,244 0,012

12 mg 1,000 0,045 0,001 -0,008 0,660 0,000 0,006 0,340 0,002

13 pa 1,000 0,024 0,019 0,070 0,640 0,013 0,053 0,360 0,061

14 pb 1,000 0,033 0,019 0,069 0,835 0,018 -0,031 0,165 0,029

15 pr 1,000 0,050 0,044 -0,092 0,988 0,049 -0,010 0,012 0,005

16 pe 1,000 0,034 0,021 0,078 0,999 0,024 -0,003 0,001 0,000

17 pi 1,000 0,034 0,141 0,201 1,000 0,158 0,001 0,000 0,000

18 rs 1,000 0,050 0,048 -0,096 0,979 0,053 -0,014 0,021 0,009

19 rj 1,000 0,045 0,024 -0,009 0,017 0,000 -0,071 0,983 0,209

20 rn 1,000 0,035 0,010 0,042 0,649 0,007 -0,031 0,351 0,031

21 ro 1,000 0,040 0,001 0,015 0,618 0,001 0,011 0,382 0,005

22 rr 1,000 0,033 0,000 0,003 0,289 0,000 0,005 0,711 0,001

23 sp 1,000 0,054 0,140 -0,157 0,988 0,155 -0,017 0,012 0,015

24 se 1,000 0,032 0,096 0,165 0,944 0,101 -0,040 0,056 0,048

25 sc 1,000 0,052 0,093 -0,130 0,966 0,101 -0,024 0,034 0,029

26 to 1,000 0,040 0,002 0,013 0,380 0,001 0,017 0,620 0,011




144

1 fund 1,000 0,287 0,218 -0,073 0,728 0,178 0,045 0,272 0,534

2 med 1,000 0,208 0,353 -0,119 0,858 0,341 -0,048 0,142 0,451

3 aei 1,000 0,505 0,429 0,091 0,996 0,481 -0,006 0,004 0,014

Symmetric Plot

0,20,10,0-0,1-0,2

0,2

0,1

0,0

-0,1

-0,2

Component 1

Co

mp

on

en

t 2

aei

med

fund

to

scse

sp

rrro

rn

rj

rspipepr

pb

pa

mg

ms

mg

ma

goes

ce

ba

am

ap

al

ac

Symmetric Plot

Gráfico 78: Symmetric Plot das três variáveis por Estado

Fonte: Minitab 16

As melhores representações são:

a) Com a variável T_FUND15A17 (fun), Percentual da população de 15 a 17 anos com

fundamental completo: Ceará e Minas Gerais (de proximidade) e Piaui, Alagoas (de

distanciamento)

b) Com a variável T_MED18a20 (med) , Percentual da população de 18 a 20 anos de idade com

o ensino médio completo: Santa Catarina, Paraná e São Paulo (de proximidade) e Piaui e

Alagoas (de distanciamento)

c) Com a variável AGUA_ESGOTO (aei), Percentual de pessoas em domicílios com

abastecimento de água e esgotamento sanitário inadequados Pernambuco e Amazonas (de

proximidade) e São Paulo e Santa Catarina (de distanciamento).

Considerações: Esta análise praticamente ratifica as análises anteriores, pois a análise de

correspondência simples decompõe uma tabela de contingência de forma similar à análise de

componentes principais em relação a dados contínuos multivariáveis, e o que se apurou retrata um

cenário onde existem três “brasis” e, numa análise mais circunstanciada, perceberemos a existência

de dois “brasis”. Em todos os recortes de análises trabalhados evidenciou-se disparidade nos

145

resultados encontrados nos estados que compõem as regiões sul, sudeste e centro-oeste com os

resultados das regiões norte e sul. Isso sinaliza um distanciamento grande entre as políticas sociais e

econômicas desses dois grupos de Estados, o que é muito ruim se estamos falando de um Pais com

as dimensões e particularidades existentes no Brasil.

13.ÁRVORES DE CLASSIFICAÇÃO

Tem por objetivo efetuar a ÁRVORE DE CLASSIFICAÇÃO de dados dimensionadores do

IDHM, Plataforma Atlas Brasil, Base IBGE. Por fim, após as análises fazemos as considerações

finais, com a distribuição demonstrada no mapa do Brasil, considerados os Estados correlacionados.

O software estatístico utilizado é o MINITAB para as bases preliminares e o SPSS (IBM) para a

análise deste trabalho.

O primeiro passo para esta análise foi resgatar a base de dados utilizada nos trabalhos

anteriores (sem os dados de Brasília).

Resgatando o base de dados (variável)



Percentual




Percentual




Percentual



Absoluto




Percentual

Foram apuradas todas as médias normalizadas e positivadas, por Estado, e inseridas no Excel

para tratamento dos dados. Foram consideradas as 3 novas regiões criadas na análise discriminante,

pois esta variável comporá a análise fruto deste trabalho.

Os dados foram formatados como números, quatro casas decimais e as vírgulas foram

substituídas por ponto.

A variável categórica (regiões) foi formatada como texto.

Essa base foi transferida para o SPSS

146

Construindo a análise

Esta ferramenta estatística auxilia identificar melhor grupos, descobrir relacionamentos entre

eles e prever eventos futuros. Ela apresenta árvores de decisão e classificação altamente visuais

ajudando a apresentar resultados de forma categórica e a explicar as análises com mais clareza.

13.1 Preparação das cinco variáveis no SPSS

* Definir propriedades da variável.

*VAR00001. VARIABLE LABELS VAR00001 'ENV'. VALUE LABELS VAR00001 35.00 '35,00' 669.00 '669,00' 684.00 '684,00' 788.00 '788,00' 3049.00 '3049,00' 3097.00 '3097,00' 3774.00 '3774,00' 3777.00 '3777,00' 3782.00 '3782,00' 3951.00 '3951,00' 4029.00 '4029,00' 4093.00 '4093,00' 4216.00 '4216,00' 4267.00 '4267,00' 4621.00 '4621,00' 5044.00 '5044,00' 5266.00 '5266,00' 5308.00 '5308,00' 5685.00 '5685,00' 6491.00 '6491,00' 6547.00 '6547,00' 6733.00 '6733,00' 6914.00 '6914,00' 6924.00 '6924,00' 7387.00 '7387,00' 7587.00 '7587,00'. EXECUTE.

*VAR00002. VARIABLE LABELS VAR00002 'FUND'. VALUE LABELS VAR00002 5.00 '5,00' 534.00 '534,00' 572.00 '572,00' 598.00 '598,00' 2856.00 '2856,00' 2928.00 '2928,00' 2974.00 '2974,00' 3231.00 '3231,00' 3527.00 '3527,00' 3707.00 '3707,00' 3733.00 '3733,00' 3787.00 '3787,00' 3881.00 '3881,00' 3888.00 '3888,00' 4025.00 '4025,00' 4122.00 '4122,00' 4213.00 '4213,00' 4896.00 '4896,00' 4898.00 '4898,00' 5027.00 '5027,00' 5602.00 '5602,00' 6084.00 '6084,00' 6492.00 '6492,00' 6822.00 '6822,00' 7315.00 '7315,00'. EXECUTE.

*VAR00003. VARIABLE LABELS VAR00003 'MED'. VALUE LABELS VAR00003 272.00 '272,00' 1765.00 '1765,00' 1853.00 '1853,00' 1869.00 '1869,00' 2157.00 '2157,00' 2244.00 '2244,00' 2339.00 '2339,00' 2433.00 '2433,00' 2511.00 '2511,00' 2643.00 '2643,00' 2841.00 '2841,00' 2935.00 '2935,00' 3123.00 '3123,00' 3407.00 '3407,00' 3425.00 '3425,00' 3587.00 '3587,00' 3673.00 '3673,00' 4004.00 '4004,00' 4078.00 '4078,00' 4461.00 '4461,00' 4529.00 '4529,00' 4562.00 '4562,00' 5027.00 '5027,00' 5086.00 '5086,00' 5556.00 '5556,00' 5903.00 '5903,00'. EXECUTE.

*VAR00004. VARIABLE LABELS VAR00004 'REND'. VALUE LABELS VAR00004 88.00 '88,00' 1541.00 '1541,00' 2041.00 '2041,00' 2463.00 '2463,00' 3444.00 '3444,00' 6963.00 '6963,00' 7863.00 '7863,00' 7957.00 '7957,00' 7964.00 '7964,00' 9299.00 '9299,00' 10389.00 '10389,00' 10459.00 '10459,00' 10532.00 '10532,00' 10542.00 '10542,00'

*VAR00005. VARIABLE LABELS VAR00005 'AEINA'. VALUE LABELS VAR00005 772.00 '772,00' 981.00 '981,00' 991.00 '991,00' 5443.00 '5443,00' 5595.00 '5595,00' 5912.00 '5912,00' 6018.00 '6018,00' 6525.00 '6525,00' 7223.00 '7223,00' 7628.00 '7628,00' 7851.00 '7851,00' 7948.00 '7948,00' 7986.00 '7986,00' 8127.00 '8127,00'

*VAR00006. VARIABLE LABELS VAR00006 'REG'. VALUE LABELS VAR00006 1.00 '1,00' 2.00 '2,00' 3.00 '3,00'.

147

10832.00 '10832,00' 11713.00 '11713,00' 11782.00 '11782,00' 14339.00 '14339,00' 20249.00 '20249,00' 24828.00 '24828,00' 24984.00 '24984,00' 25699.00 '25699,00' 26391.00 '26391,00' 29256.00 '29256,00' 31717.00 '31717,00' 33201.00 '33201,00'. EXECUTE.

8329.00 '8329,00' 8671.00 '8671,00' 8758.00 '8758,00' 8777.00 '8777,00' 9191.00 '9191,00' 9327.00 '9327,00' 9602.00 '9602,00' 9626.00 '9626,00' 9722.00 '9722,00' 9818.00 '9818,00' 9833.00 '9833,00' 9841.00 '9841,00'. EXECUTE.

• Análise discriminante das variáveis no SPSS/IBM

EXECUTE.

DISCRIMINANT

/GROUPS=VAR00006(1 3)

/VARIABLES=VAR00001 VAR00002 VAR00003 VAR00004 VAR00005

/ANALYSIS ALL

/METHOD=MAHAL

/FIN=3.84

/FOUT=2.71

/PRIORS EQUAL

/HISTORY

/STATISTICS=TABLE

/CLASSIFY=NONMISSING POOLED.

Resumo de processamento de caso de análise

Casos não ponderados N Porcentagem

Válido 26 100,0

Excluídos Códigos de grupo ausentes ou fora

do intervalo 0 ,0

Pelo menos uma variável

discriminante ausente 0 ,0

Códigos de grupo ausentes ou fora

do intervalo e pelo menos uma

variável discriminadora ausente

0 ,0

Total 0 ,0

Total 26 100,0

• Discriminante

148

Estatísticas de grupo

REG

N válido (de lista)

Não ponderado Ponderado

1,00 ENV 10 10,000

FUND 10 10,000

MED 10 10,000

REND 10 10,000

AEINA 10 10,000

2,00 ENV 6 6,000

FUND 6 6,000

MED 6 6,000

REND 6 6,000

AEINA 6 6,000

3,00 ENV 10 10,000

FUND 10 10,000

MED 10 10,000

REND 10 10,000

AEINA 10 10,000

Total ENV 26 26,000

FUND 26 26,000

MED 26 26,000

REND 26 26,000

AEINA 26 26,000

• Análise 1 / Estatísticas em etapas

Variáveis Inseridas/Removidasa,b,c,d

Etapa Inseridas

Mín. D ao quadrado

Estatística Entre Grupos

F exato

Estatística df1 df2 Sig.

1 MED ,424 1,00 e 2,00 1,590 1 23,000 ,220

2 REND ,427 1,00 e 2,00 ,766 2 22,000 ,477

Em cada etapa, a variável que maximiza a distância de Mahalanobis entre os dois

grupos mais próximos é inserida.

a. O número máximo de etapas é 10.

b. O F parcial mínimo a ser inserido é 3.84.

c. O F parcial máximo a ser removido é 2.71.

d. Nível f, tolerância ou VIN insuficiente para cálculos adicionais.

149

Variáveis na análise

Etapa Tolerância

F a ser

removido

Mín. D ao

quadrado Entre Grupos

1 MED 1,000 26,538

2 MED ,991 15,537 ,014 1,00 e 2,00

REND ,991 4,366 ,424 1,00 e 2,00

Variáveis não presentes na análise

Etapa Tolerância Mín. Tolerância F a ser inserido

Mín. D ao

quadrado Entre Grupos

0 ENV 1,000 1,000 ,911 ,078 1,00 e 2,00

FUND 1,000 1,000 2,993 ,140 1,00 e 2,00

MED 1,000 1,000 26,538 ,424 1,00 e 2,00

REND 1,000 1,000 10,525 ,014 1,00 e 2,00

AEINA 1,000 1,000 ,333 ,000 1,00 e 2,00

1 ENV ,998 ,998 ,186 ,486 1,00 e 2,00

FUND ,973 ,973 ,759 ,662 1,00 e 2,00

REND ,991 ,991 4,366 ,427 1,00 e 2,00

AEINA ,954 ,954 ,863 ,449 1,00 e 2,00

2 ENV ,901 ,895 ,224 ,506 1,00 e 2,00

FUND ,901 ,901 ,385 ,668 1,00 e 2,00

AEINA ,782 ,782 2,722 ,449 1,00 e 2,00

Lambda de Wilks

Etapa Número de variáveis Lambda df1 df2 df3

F exato

Estatística df1 df2

Sig.

1

1 ,302 1 2 23 26,538 2 23,000

,000

2

2 ,216 2 2 23 12,645 4 44,000

,000

• Resumo de funções discriminantes canônicas

150

Valores próprios

Função Autovalor % de variância % cumulativa

Correlação

canônica

1 3,486a 99,1 99,1 ,882

2 ,030a ,9 100,0 ,171

a. As primeiras 2 funções discriminantes canônicas foram usadas

na análise.

Lambda de Wilks

Teste de funções

Lambda de

Wilks Qui-quadrado Df Sig.

1 até 2 ,216 34,436 4 ,000

2 ,971 ,667 1 ,414

Coeficientes de funções

discriminantes canônicas

padronizados

Função

1 2

MED ,866 -,508

REND ,586 ,815

Matriz de estruturas

Função

1 2

MED ,812* -,584

AEINAb -,417* -,211

FUNDb ,289* ,122

REND ,506 ,862*

ENVb ,219 ,226*

Correlações entre grupos no conjunto entre variáveis discriminantes e funções discriminantes

canônicas padronizadas

Variáveis ordenadas por tamanho absoluto de correlação na função.

*. Maior correlação absoluta entre cada variável e qualquer função discriminante

b. Essa variável não é usada na análise.

151

Funções em centroides de grupo

REG

Função

1 2

1,00 -1,566 ,146

2,00 -1,071 -,281

3,00 2,208 ,022

Funções discriminantes canônicas

não padronizadas avaliadas em

médias de grupo

• Estatísticas de classificação

Resumo de processamento de classificação

Processado 26

Excluídos Códigos de grupo ausentes

ou fora do intervalo 0

Pelo menos uma variável

discriminante ausente 0

Usado em saída 26

Probabilidades a priori para grupos

REG A priori

Casos utilizados na análise

Não ponderado Ponderado

1,00 ,333 10 10,000

2,00 ,333 6 6,000

3,00 ,333 10 10,000

Total 1,000 26 26,000

Resultados da classificaçãoa

REG

Associação ao grupo prevista

Total

1,00 2,00 3,00

Original Contagem 1,00 7 3 0 10

2,00 1 5 0 6

3,00 0 1 9 10

% 1,00 70,0 30,0 ,0 100,0

2,00 16,7 83,3 ,0 100,0

3,00 ,0 10,0 90,0 100,0

a. 80,8% de casos agrupados originais classificados corretamente.

* Árvore de decisão.

152

TREE VAR00006 [n] BY VAR00001 [s] VAR00002 [s] VAR00003 [s] VAR00004 [s] VAR00005

[s]

/TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES

NODEDEFS=YES SCALE=AUTO

/DEPCATEGORIES USEVALUES=[1.00 2.00 3.00]

/PRINT MODELSUMMARY CLASSIFICATION RISK

/METHOD TYPE=EXHAUSTIVECHAID

/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=5 MINCHILDSIZE=3

/VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES

/CHAID ALPHASPLIT=0.05 SPLITMERGED=NO CHISQUARE=PEARSON

CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10

/COSTS EQUAL.

13.2 Árvore classificatória

Em virtude do número de variáveis (26 estados), o intervalo mínimo de casos para esta

análise foi definido entre 5 e 3, com método chaid exaustive

Advertências

As tabelas de resumo de ganhos não são exibidas porque os lucros não estão definidos.

As tabelas de ganhos da categoria de destino não são exibidas porque as categorias de destino não estão

definidas.

Resumo do modelo

Especificações Método crescente CHAID EXAUSTIVO

Variável dependente REG

Variáveis independentes ENV, FUND, MED, REND, AEINA

Validação Nenhum

Profundidade máxima de

árvore 3

Casos mínimos em nó pai 5

Casos mínimos em nó filho 3

Resultados Variáveis independentes

incluídas MED

Número de nós 4

Número de nós de terminal 3

Espessura 1

153

Figura 06: Árvore classificatória método chaid exaustive

Fonte: SPSS

Risco

Estimativa Erro Padrão

,077 ,052

Método Crescente: CHAID

EXAUSTIVO

Variável Dependente: REG

154

Classificação

Observado

Previsto

1,00 2,00 3,00

Porcentagem

Correta

1,00 9 1 0 90,0%

2,00 1 5 0 83,3%

3,00 0 0 10 100,0%

Porcentagem global 38,5% 23,1% 38,5% 92,3%

Método Crescente: CHAID EXAUSTIVO


Considerações: Nesta análise, a variável determinante foi a MED (Percentual da população de

18 a 20 anos de idade com o ensino médio completo). Há uma distribuição na ramificação principal

de 38,5 para as regiões 01 e 03 e 23% para a região 02.

Caso o valor apurado para esta variável seja menor que 2643,00, a categoria 01 é a mais

adequada, com representação de 90% para a região 01.

Caso o valor apurado para esta variável esteja entre 2643,00 e 3587,00, a categoria 02 é a mais


Caso o valor apurado para esta variável seja maior que 3587,00, a categoria 03 é a mais


• Árvore de decisão.

TREE VAR00006 [n] BY VAR00001 [s] VAR00002 [s] VAR00003 [s] VAR00004 [s] VAR00005

[s]

/TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES

NODEDEFS=YES SCALE=AUTO

/DEPCATEGORIES USEVALUES=[1.00 2.00 3.00]

/PRINT MODELSUMMARY CLASSIFICATION RISK

/METHOD TYPE=EXHAUSTIVECHAID

/GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=3 MINCHILDSIZE=2

/VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES

/CHAID ALPHASPLIT=0.05 SPLITMERGED=NO CHISQUARE=PEARSON

CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10

/COSTS EQUAL.

• Árvore classificatória

155

Para esta análise, o número de casos mínimos foi definido entre 03 e 02

Advertências

As tabelas de resumo de ganhos não são exibidas porque os lucros não estão definidos.

As tabelas de ganhos da categoria de destino não são exibidas porque as categorias de destino não estão

definidas.

Resumo do modelo

Especificações Método crescente CHAID EXAUSTIVO

Variável dependente REG

Variáveis independentes ENV, FUND, MED, REND, AEINA

Validação Nenhum

Profundidade máxima de

árvore 3

Casos mínimos em nó pai 3

Casos mínimos em nó filho 2

Resultados Variáveis independentes

incluídas MED

Número de nós 4

Número de nós de terminal 3

Espessura 1

156

Figura 07: Árvore classificatória método chaid exaustive com mínimos entre 3 e 2

Fonte: SPSS

Risco

Estimativa Erro Padrão

,077 ,052

Método Crescente: CHAID

EXAUSTIVO


Classificação

Observado

Previsto

1,00 2,00 3,00

Porcentagem

Correta

1,00 9 1 0 90,0%

157

2,00 1 5 0 83,3%

3,00 0 0 10 100,0%

Porcentagem global 38,5% 23,1% 38,5% 92,3%

Método Crescente: CHAID EXAUSTIVO


Considerações: Mesmo com a alteração do intervalo dos casos mínimos, não houve alteração

na construção da árvore e suas derivações.

O resultado deste estudo apresenta a mesma tendência que resultou na análise de regressão

logística, ou seja, a variável que melhor atende às características probabilísticas desta análise é a

“Taxa de conclusão de ensino médio, entre 18 e 20 anos completos”. Na análise anterior o grau de

concordância foi 99,1% e um valor de “P” na ordem de 4,6%. Nesta análise, considerando os dois

intervalos diferentes dos casos mínimos, esta variável apresentou como acerto o percentual de 92,3%.

14. RANKING POR ESTADO

Tem por objetivo efetuar o ranking por Estado, tomando como base as variáveis com maior

impacto nos componentes principais, conforme dados dimensionadores do IDHM, Plataforma Atlas

Brasil, Base IBGE. Por fim, após as análises fazemos as considerações finais, com a distribuição

demonstrada no mapa do Brasil, considerados os Estados correlacionados. O software estatístico


Primeiramente, trabalhando com as 05 variáveis que nortearam os trabalhos anteriores, rodar

os principais componentes para determinar o número de componentes que serão trabalhados:

Principal Component Analysis: MEVsBR; MFUNsBR; MMEDsBR; MRENsBR; MAESIsBR

Eigenanalysis of the Correlation Matrix

Eigenvalue 4,4294 0,3462 0,1554 0,0516 0,0174

Proportion 0,886 0,069 0,031 0,010 0,003

Cumulative 0,886 0,955 0,986 0,997 1,000

Variable PC1 PC2 PC3 PC4 PC5

MEVsBR 0,445 -0,482 -0,339 -0,659 0,138

MFUNsBR 0,457 -0,026 0,670 -0,136 -0,568

MMEDsBR 0,466 0,067 0,378 0,230 0,763

MRENsBR 0,455 -0,308 -0,402 0,685 -0,259

MAESIsBR 0,411 0,817 -0,362 -0,154 -0,097

Scree Plot of MEVsBR; ...; MAESIsBR

Loading Plot of MEVsBR; ...; MAESIsBR

158

O ideal é que utilizemos os componentes com Eigenvalue maior que 1.000. Com esta base,

tivemos somente um componente, no caso a variável com maior representatividade foi a MMEDsBR.

Como há uma diferença significativa para os demais componentes, adotar-se-á para análise deste

trabalho PC=1. Ressalta-se que a houve a tentativa de rodar com pelos menos PC=2, mais no final, a

análise não foi concluída, dando erro, provavelmente em virtude da composição dos dados desta base.

A título de comprovação, como segue:

Stepwise Regression: COMP02 versus MEVsBR; MFUNsBR; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is COMP02 on 5 predictors, with N = 26

No variables entered or removed

Em virtude da composição da base de dados e como o componente 01 tem representatividade

de 79,3%, não rodou o stepwise do componente 02, conforme dados acima.

O rancking será reconstruído tomando como base somente o componente 01

O próximo passo é rodar a regressão STEPWISE já com os dados apurados das 05 variáveis

compostas em 01 componente principal, gerando a nova coluna de médias no MINITAB, propiciando

assim conhecer as variáveis que mais influenciam os componentes.

Stepwise Regression: COMP versus MEVsBR; MFUNsBR; ...

Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is COMP on 5 predictors, with N = 26

Step 1 2 3 4 5

Constant -5,885 -6,517 -7,904 -7,378 -7,760

MMEDsBR 17,24537 12,25942 8,90428 8,04893 3,89340

T-Value 25,10 13,32 12,62 14,72 *

P-Value 0,000 0,000 0,000 0,000 *

MEVsBR 4,41295 4,94777 3,46899 2,90599

T-Value 6,13 11,94 7,81 *

P-Value 0,000 0,000 0,000 *

MAESIsBR 2,71735 2,56771 2,85544

T-Value 7,05 9,10 *

P-Value 0,000 0,000 *

159

MRENsBR 3,87956 5,02745

T-Value 4,54 *

P-Value 0,000 *

MFUNsBR 3,52193

T-Value *

P-Value *

S 0,411 0,259 0,147 0,107 0,000000

R-Sq 96,33 98,61 99,57 99,78 100,00

R-Sq(adj) 96,18 98,49 99,51 99,74 100,00

Quadro 18: Valos dos componentes por Estado


O próximo passo é a aplicação da fórmula com esses novos dados

Fórmula a ser utilizada:

COMP1= (0,886*(0,9633*MMED)), sendo utilizados os indicadores proportion do CP e R-

Sq do stepwise.

Esta fórmula foi inserida no minitab (CALC/CALCULATER) gerando uma nova coluna.

Quadro 19: Ranking por estado, índices.

EST s BRAS_1 COMP

Acre 2,065609755

Alagoas 2,542759271

Amapá -1,3392904

Amazonas 2,802917649

Bahia 1,367111213

Ceará 0,599610771

Esp. Santo 2,17021351

Góias 2,173189145

Maranhão 2,366412995

Mato Grosso 1,617846055

MG do Sul 1,306630206

Minas Gerais 1,519773011

Pará 2,597952855

Paraíba 1,578438273

Paraná 2,558393821

Pernambuco 1,469413984

Piaui 1,725139554

RG do Sul 3,182116638

Rio de Janeiro 1,880858979

RN do Norte 1,111792273

Rondônia 0,32424366

Roraima 0,861770675

São Paulo 3,685890189

Sergipe 1,725275481

Sta Catarina 3,635333369

Tocantins 0,099006568

160

EST s BRAS_1 Ranking

Acre 0,184096456

Alagoas 0,158150548

Amapá 0,214309782

Amazonas 0,159516122

Bahia 0,225575768

Ceará 0,306144639

Esp. Santo 0,386542813

Góias 0,38935931

Maranhão 0,199629861

Mato Grosso 0,348050694

MG do Sul 0,3134846

Minas Gerais 0,341734914

Pará 0,150639891

Paraíba 0,242474748

Paraná 0,429046306

Pernambuco 0,232147594

Piaui 0,191521765

RG do Sul 0,434081861


RN do Norte 0,266542991

Rondônia 0,290781931

Roraima 0,250497495

São Paulo 0,503811487

Sergipe 0,207652609

Sta Catarina 0,474195599

Tocantins 0,292318202 Fonte: Minitab 16, adaptado pelo autor

O próximo passo foi criar uma nova coluna agora com os indicadores normalizados,

aplicando a fórmula: 100* (xx-MIN(xx))/(MAX(xx)-MIN(xx)), onde xx é a nova coluna criada no

passo anterior.

Quadro 20: Ranking por estado, indicadores normalizados

EST s BRAS_1 Normat

Acre 9,47

Alagoas 2,13

Amapá 18,03

Amazonas 2,51

Bahia 21,22

Ceará 44,03

Esp. Santo 66,80

Góias 67,59

Maranhão 13,87

Mato Grosso 55,90

MG do Sul 46,11

Minas Gerais 54,11

Pará 0,00

161

Paraíba 26,00

Paraná 78,83

Pernambuco 23,08

Piaui 11,58

RG do Sul 80,26


RN do Norte 32,82

Rondônia 39,68

Roraima 28,27

São Paulo 100,00

Sergipe 16,14

Sta Catarina 91,61

Tocantins 40,12 Fonte: Minitab 16, adaptado pelo autor

O próximo passo é a ordenação do ranking, utilizando a nova coluna normalizada com a

variável categórica ESTADO, do maior para o menos

No Minitab: Data/Sort

Quadro 21: Ranking Final por Estado – Ensino Médio

Estado RANC Resultado

São Paulo 100,00

Sta Catarina 91,61

RG do Sul 80,26

Paraná 78,83

Góias 67,59

Esp. Santo 66,80


Mato Grosso 55,90

Minas Gerais 54,11

MG do Sul 46,11

Ceará 44,03

Tocantins 40,12

Rondônia 39,68

RN do Norte 32,82

Roraima 28,27

Paraíba 26,00

Pernambuco 23,08

Bahia 21,22

Amapá 18,03

Sergipe 16,14

Maranhão 13,87

Piaui 11,58

Acre 9,47

Amazonas 2,51

Alagoas 2,13

Pará 0,00

162

CONSIDERAÇÕES FINAIS

Mesmo trabalhando com um componente principal, sendo a variável com maior influência

nesta análise T_MED18a20, Percentual da população de 18 a 20 anos de idade com o ensino médio

completo, o resultado deste estudo apresenta muita similaridade com todas as análises anteriores, ou

seja, os Estados do Sudeste, Sui e Centro-Oeste apresentando os melhores indicadores e os Estados

do Norte e Nordeste os piores indicadores. Isto /reforço o que já foi levantado em análises anteriores,

ou seja, a disparidade social entre os dois Brasis, o composto pelos Estados na parte de “cima” do

mapa e os estados que compõem a parte de “baixo” do mapa. Portanto não é um problema regional

pontual, mas sim um problema de políticas nacionais que devem estar mais voltadas aos interesses

de poucos do que propriamente dito, da população do Brasil.

Nesta análise específica os três Estados com melhores indicadores foram:

São Paulo (Sudeste) - 1º

Santa Catarina (Sul) – 2º

Rio Grande do Sul (Sul) – 3º

Já os três Estados com os piores indicadores foram:

Pará (Norte) - 26º

Alagoas (Nordeste) – 25º

Amazonas (Norte) – 24º

REFERÊNCIAS

[1] http:// atlasbrasil.org.br, acesso em 14/03/2017

[2] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-

anos-mais-idade-alfabetizadas, acesso em 31/03/2017

[3] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-

medio-aluno-turma-ensino-fundamental, acesso em 31/03/2017

[4] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE01&t=numero-

medio-aluno-turma-ensino-fundamental, acesso em 31/03/2017

[5] http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=SEE10&t=docentes-

curso-superior-ensino-medio-rede, acesso em 17/06/2017

[6]http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-

correlation/basics/basics-of-stepwise-regression/#what-is-stepwise-regression, acesso em

07/04/2017

[7] http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and

graphs/introductory-concepts/data-concepts/why-collect-random-sample/ em 22/04/2017

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-%20%20anos-mais-idade-alfabetizadas

http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&vcodigo=PD320&t=pessoas-5-%20%20anos-mais-idade-alfabetizadas









http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and%20%20%20%20%20graphs/introductory-concepts/data-concepts/why-collect-random-sample/

http://support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and%20%20%20%20%20graphs/introductory-concepts/data-concepts/why-collect-random-sample/

163

[8] http://support.minitab.com/pt-br/minitab/17/topic-library/modeling

statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/, acesso em

28/04/2017

[9] http://support.minitab.com/pt-br/minitab/17/topic-library/modeling

statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis, aces

em 24/05/2017

[10] MINITAB 16 e SPSS (IBM)

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling%20%20%20%20%20%20statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling%20%20%20%20%20%20statistics/multivariate/principal-components-and-factor-analysis/what-is-pca/

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling%20%20%20%20%20%20statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis

http://support.minitab.com/pt-br/minitab/17/topic-library/modeling%20%20%20%20%20%20statistics/multivariate/basics/multivariate-analyses-in-minitab/#correspondence-analysis

Documents

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 · economia e administração da puc-sp boletim de anÁlises estatÍstico basta 2017 vol. 2 idhes Índice de desenvolvimento humano