BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 · para que todos possam obter o conhecimento e...

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Programas de Pós Graduação em

Economia e

Administração da

PUC-SP

BOLETIM DE ANÁLISES ESTATÍSTICO

BASTA 2017 Vol. 2

IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

ATLAS BRASIL

DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA

Diego Paulo Rhormens

1º SEMESTRE

São Paulo – SP

A Importância e Impacto do Desemprego e Condições Básicas de Vida no País.

SUMÁRIO

INTRODUÇÃO 4

CAPÍTULO 1. AED ANÁLISE EXPLORATÓRIA DOS DADOS 2

1. As Variáveis de Análise 2

1.1. Análise das Variáveis 8

1.1.1. Dimensão Demográfica 8

1.1.2. Dimensão Educação 9

1.1.3. Dimensão Renda 11

1.1.4. Dimensão Trabalho 13

1.1.5. Dimensão Habitação 15

1.1.6. Dimensão Vulnerabilidade 18

1.1.7. Dimensão População 19

1.1.8. Dimensão IDHM 20

1.2. Considerações 23

CAPITULO 2. RELAÇÕES ENTRE VARIÁVEIS 23

2. Análise das Variáveis 23

2.1. Distribuição dos Municípios Brasileiros por Estado e Região 23

2.2. Análise do Dendograma 24

CAPÍTULO 3. ANÁLISES DE TENDÊNCIAS 45

3. Entendendo os Dados 45

3.1. Entendendo as Variáveis 45

3.2. Tabelas dos dados analisados 46

CAPÍTULO 4. REGRESSÃO LINEAR 63

4.1.Análise de Regressão 63

CAPÍTULO 5. TESTES DE COMPARAÇÃO 73

CAPÍTULO 6. AMOSTRAGEM 90

6.1. Análise dos Resultados 91

CAPÍTULO 7. COMPONENTES PRINCIPAIS 112

7.1. Entendendo os Dados 112

7.2. Análise Descritiva dos Dados Normalizados e Positivados 115

7.3. Análise dos Dados 125

CAPÍTULO 8. ANÁLISE DE CONFLOMERADOS 149

8.1. Entendendo as Variáveis 150

8.3. Considerações Finais 157

CAPÍTULO 9. ANÁLISE DISCRIMINANTE 158

9.1. Análise Discriminante 158

CAPÍTULO 10. REGRESSÃO LOGÍSTICA 164

CAPÍTULO 11. ANÁLISE DE CORRESPONDÊNCIA 177

CAPÍTULO 12. ÁRVORE DE CLASSIFICAÇÃO 186

CAPÍTULO 13. RANKING DOS ESTADOS 192

REFERÊNCIAS 198

INTRODUÇÃO

Este trabalho tem como objetivo realizar uma síntese dos 12 trabalhos

apresentados na disciplina Métodos Quantitativos e Qualitativos da Pesquisa Empírica do

Programa de Pós-Graduação em Administração da Pontifícia Universidade Católica de

São Paulo.

Cada um dos tópicos que serão apresentados neste trabalho final corresponde a

uma análise estatística diferente em torno das variáveis selecionadas que, em conjunto,

auxiliam a compreender melhor a realidade dos municípios e estados brasileiros.

Os dados para as análises que se seguem, são provenientes do Atlas do

Desenvolvimento Humano no Brasil, que apresentam indicadores de desenvolvimento

humano dos 5.565 municípios brasileiros. Os dados apresentam indicadores que se

relacionam com a demografia, educação, renda, trabalho, habitação, vulnerabilidade e

IDHM. Os dados para este trabalho foram extraídos do Censo Demográfico de 2010.

De acordo com a página do site Atlas do Desenvolvimento Humano no Brasil, a

disponibilidade dos dados de forma pública facilita a análise e pode mostrar um panorama

dos municípios e das desigualdades entre eles, para que se possa gerar informações úteis

para trabalhar com os desafios de fazer uma política pública voltada a satisfação das

necessidades dos indivíduos.

O desenvolvimento humano, de acordo com o site, pode ser entendido como o

processo de ampliação das liberdades individuais em relação a capacidades e

oportunidades, para que os indivíduos possam escolher a vida que desejam ter.

Para isso, é necessário o desenvolvimento no âmbito político, ambiental, social e

econômico, a fim de que cada um possa exercer suas potencialidades e ter qualidade de

vida. Existem três requisitos importantes para a expansão do IDH, o acesso a saúde de

qualidade para que o indivíduo possa ter uma vida longa e saudável, acesso à educação

para que todos possam obter o conhecimento e o ganho de renda para que todos possam

desfrutar de um padrão de vida digno.

Cada capítulo deste relatório apresenta uma análise estatística diferente. O

primeiro capítulo contém a análise exploratória dos dados, o segundo as relações entre as

variáveis, o terceiro análise de tendências, o quarto a regressão linear, o quinto os testes

de comparações, o sexto a amostragem, o sétimo o estudo dos componentes principais, o

oitavo a análise de conglomerados, o nono a análise discriminante, o décimo a regressão

logística, o décimo primeiro a análise de correspondência e o décimo segundo as árvores

de classificação.

As análises estatísticas realizadas nos capítulos I a XI foram feitas com o auxílio

do software estatístico MINITAB. Para realizar as análises do capítulo XII foi utilizado

o software SPSS.

CAPÍTULO 1. AED ANÁLISE EXPLORATÓRIA DOS DADOS

O presente capítulo tem como objetivo realizar uma análise exploratórias dos

dados provenientes do Atlas do Desenvolvimento Humano no Brasil, que apresentam

indicadores de desenvolvimento humano dos 5565 municípios brasileiros. Os dados

apresentam indicadores que se relacionam com a demografia, educação, renda, trabalho,

habitação, vulnerabilidade e IDHM. Os dados para este trabalho são provenientes do

Censo Demográfico de 2010.

Os testes realizados neste primeiro capítulo foram o cálculo da média, desvio

padrão, mediana (as três medidas com um grau de confiança de 95%), variância, primeiro

quartil, terceiro quartil, valor máximo e valor mínimo. O programa também construiu um

histograma para a melhor visualização dos dados.

O histograma é uma forma de representar os dados através de uma distribuição de

frequência, frequência relativa ou frequência percentual. O histograma é representado

com a variável de interesse no eixo horizontal, e a frequência no eixo vertical. A altura

das barras apresentadas no histograma é o valor da frequência (ANDERSON;

SWEENEY; WILLIAMS, 2011).

A média é uma medida da posição central dos dados, e pode ser calculada

somando-se todos os valores dos dados e dividindo este valor pelo número total da

quantidade de dados. A variância é uma medida de variabilidade que utiliza todos os

dados e se baseia na diferença entre o valor de todos os dados e a média. O desvio padrão

é a raiz quadrada positiva da variância, para que se possa facilitar a análise por utilizar a

mesma unidade da média (ANDERSON; SWEENEY; WILLIAMS, 2011).

A mediana também é uma medida da posição central de uma variável e representa

o valor intermediário quando os dados são organizados em ordem crescente. Quando

existe um número ímpar de quantidade de dados, a moda é o número intermediário, e

quando se trata de uma quantidade par de dados a moda é a média do valor dos dois dados

intermediários. O primeiro quartil é o valor que indica que 25% dos valores dos dados

estão abaixo dele, e o terceiro quartil indica o valor que 75% dos dados estão abaixo dele

(ANDERSON; SWEENEY; WILLIAMS, 2011).

1. As Variáveis de Análise

Para a realização das análises estatísticas foram escolhidas algumas variáveis nas

dimensões de análise. A Tabela 1 apresenta as variáveis selecionadas para a análise.

Tabela 1: Variáveis Analisadas

Variável Significado Tipo Unidade

de Medida

NOMEMUN Nome do Município Variável

Qualitativa

Dimensão Demográfica

FECTOT Número médio de filhos que uma mulher deverá ter

ao terminar o período reprodutivo (15 a 49 anos de

idade).

Variável

Quantitativa

Unidade

MORT1 Número de crianças que não deverão sobreviver ao

primeiro ano de vida de cada 1000 crianças nascidas

vivas.

Variável

Quantitativa

Unidade

Dimensão Educação

E_ANOSESTU

Número médio de anos de estudos que uma criança

que ingressa na escola deverá completar ao atingir 18 Variável

Quantitativa

anos de idade, se os padrões atuais se mantiverem ao

longo de sua vida escolar.

T_ANALF15A1

Razão entre a população de 15 a 17 anos de idade que

não sabe ler nem escrever um bilhete simples e o total

de pessoas nessa faixa etária multiplicado por 100.

Variável

Quantitativa

Percentual

Dimensão Renda

PIND Proporção dos indivíduos com renda domiciliar per

capita igual ou inferior a R$ 70,00 mensais, em reais

de agosto de 2010. O universo de indivíduos é

limitado àqueles que vivem em domicílios

particulares permanentes.

Variável

Quantitativa

Percentual

PINDCRI Proporção dos indivíduos com até 14 anos de idade

que têm renda domiciliar per capita igual ou inferior

a R$ 70,00 mensais, em reais de agosto de 2010. O

universo de indivíduos é limitado àqueles que vivem

em domicílios particulares permanentes.

Variável

Quantitativa

Percentual

PPOBCRI Proporção dos indivíduos com até 14 anos de idade

a R$ 255,00 mensais, em reais de agosto de 2010,

equivalente a 1/2 salário mínimo nessa data. O

universo de indivíduos é limitado àqueles com até 14

anos e que vivem em domicílios particulares

permanentes.

Variável

Quantitativa

Percentual

Dimensão Trabalho

P_SUPER Razão entre o número de pessoas de 18 anos ou mais

de idade ocupadas e que já concluíram a graduação

do ensino superior e o número total de pessoas

ocupadas nessa faixa etária multiplicado por 100.

Variável

Quantitativa

Percentual

T_DES18M Percentual da população economicamente ativa

(PEA) com 18 anos ou mais que estava desocupada,

ou seja, que não estava ocupada na semana anterior à

data do Censo mas havia procurado trabalho ao longo

do mês anterior à data dessa pesquisa.

Variável

Quantitativa

Percentual

TRABSC Razão entre o número de empregados de 18 anos ou

mais de idade sem carteira de trabalho assinada e o

número total de pessoas ocupadas nessa faixa etária

multiplicado por 100.

Variável

Quantitativa

Percentual

Dimensão Habitação

T_AGUA Razão entre a população que vive em domicílios

particulares permanentes com água canalizada para

um ou mais cômodos e a população total residente em

domicílios particulares permanentes multiplicado por

100. A água pode ser proveniente de rede geral, de

poço, de nascente ou de reservatório abastecido por

água das chuvas ou carro-pipa.

Variável

Quantitativa

Percentual

T_LUZ Razão entre a população que vive em domicílios

particulares permanentes com iluminação elétrica e a

população total residente em domicílios particulares

permanentes multiplicado por 100. Considera-se

Variável

Quantitativa

Percentual

iluminação proveniente ou não de uma rede geral,

com ou sem medidor.

PAREDE Razão entre as pessoas que vivem em domicílios

cujas paredes não são de alvenaria nem de madeira

aparelhada e a população total residente em

100. São considerados apenas os domicílios

Variável

Quantitativa

Percentual

Dimensão Vulnerabilidade

T_NESTUDA_

NTRAB_MMEI

Razão entre as pessoas de 15 a 24 anos que não

estudam nem trabalham e são vulneráveis à pobreza e

a população total nesta faixa etária multiplicado por

100. Define-se como vulneráveis à pobreza as

pessoas que moram em domicílios com renda per

capita inferior a 1/2 salário mínimo de agosto de

Variável

Quantitativa

Percentual

T_MULCHEFE

FIF014

Razão entre o número de mulheres que são

responsáveis pelo domicílio, não têm o ensino

fundamental completo e têm pelo menos 1 filho de

idade inferior a 15 anos morando no domicílio e o

número total de mulheres chefes de família

multiplicado por 100. São considerados apenas os

domicílios particulares permanentes.

Variável

Quantitativa

Percentual

Dimensão População

HOMEM10A14 População nesta faixa etária e do sexo masculino Variável

Quantitativa

Número

HOMEM70A74 População nesta faixa etária e do sexo masculino Variável

Quantitativa

Número

Dimensão IDHM

IDHM Índice de Desenvolvimento Humano Municipal.

Média geométrica dos índices das dimensões Renda,

Educação e Longevidade, com pesos iguais.

Variável

Quantitativa

Número

IDHM_ E Índice sintético da dimensão Educação que é um dos

3 componentes do IDHM. É obtido através da média

geométrica do subíndice de frequência de crianças e

jovens à escola, com peso de 2/3, e do subíndice de

escolaridade da população adulta, com peso de 1/3.

Variável

Quantitativa

Número

IDHM_L Índice da dimensão Longevidade que é um dos 3

componentes do IDHM. É obtido a partir do indicador

Esperança de vida ao nascer, através da fórmula:

[(valor observado do indicador) - (valor mínimo)] /

[(valor máximo) - (valor mínimo)], onde os valores

mínimo e máximo são 25 e 85 anos, respectivamente.

Variável

Quantitativa

Número

IDHM_R Índice da dimensão Renda que é um dos 3

Renda per capita, através da fórmula: [ln (valor

observado do indicador) - ln (valor mínimo)] / [ln

Variável

Quantitativa

Número

(valor máximo) - ln (valor mínimo)], onde os valores

mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a

preços de agosto de 2010). Fonte: Atlas do Desenvolvimento Humano no Brasil

1.1 Análise das Variáveis

A partir dos dados disponíveis, foram realizados os testes de estatística descritiva

com o auxílio do software MINITAB. Inicialmente será discutido o resultado dos testes

para cada uma das variáveis nas oito dimensões.

1.1.1.Dimensão Demográfica

A Figura 1 representa os testes de estatística descritiva para a variável que

representa o número médio de filhos que uma mulher deverá ter ao terminar o período

reprodutivo (15 a 49 anos de idade).

4,54,03,53,02,52,01,5

Median

2,202,182,162,142,12

1st Q uartile 1,8500

Median 2,1300

3rd Q uartile 2,4600

Maximum 4,8900

2,1769 2,2033

2,1200 2,1500

0,4939 0,5126

A -Squared 42,50

P-V alue < 0,005

Mean 2,1901

StDev 0,5030

V ariance 0,2531

Skewness 0,99172

Kurtosis 2,01757

N 5565

Minimum 1,2100

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Análises Estatísticas da Variável FECTOT

Figura 1: Análise descritiva da variável FECTOT

Fonte: Atlas do Desenvolvimento Humano no Brasil

De acordo com a Figura 1, pode-se perceber que no Brasil as mulheres têm em

média 2,19 filhos com um desvio padrão de 0,5030. Analisando-se a distância entre o

primeiro e o terceiro quartil, é possível perceber que nos municípios que estão na posição

entre 25% e 75% as mulheres tem entre 1,85 e 2,46 filhos. Os dados mostram também

que em algumas cidades brasileiras as mulheres têm em média mais do que 3 filhos, sendo

que o máximo é 4,89 filhos, o que pode gerar um aumento populacional nestes

municípios. A mediana neste caso está próxima da média, sendo 2,13 filhos, o que indica

que os dois valores estão próximo. Pode-se perceber que em algumas cidades as mulheres

têm em média menos de um filho, o que pode causar uma diminuição populacional nestes

municípios.

A Figura 2 representa a análise estatística dos municípios quanto ao número de

crianças que não deverão sobreviver ao primeiro ano de vida de cada 1000 crianças

nascidas vivas.

423630241812

Median

19,519,018,518,017,517,0

Median 16,900

Maximum 46,800

19,059 19,435

16,700 17,173

7,006 7,272

A -Squared 158,86

P-V alue < 0,005

Mean 19,247

StDev 7,137

V ariance 50,932

Skewness 1,00629

Kurtosis 0,43243

N 5565

Minimum 8,490

Análises Estatísticas da Variável MORT1

Figura 2: Análise descritiva da variável MORT1

Pode-se perceber pela Figura 2 que em média o valor encontra-se em 19,247, com

um desvio padrão relativamente alto de 7,137. Existe uma diferença também considerável

entre o valor da média e da mediana, já que a mediana é 16,900. De acordo com a análise

do histograma e dos valores do primeiro quartil (13,800) e do terceiro quartil (23,800) é

possível verificar que a distância entre eles é relativamente grande. Isso pode ser devido

a desigualdade das condições dos indivíduos nas diferentes cidades brasileiras, de modo

em que em muitas delas, a taxa de mortalidade infantil é baixa, porém em muitas outras

ela é alta. Este fato também faz com que exista uma proximidade maior entre o primeiro

quartil e a mediana do que entre a mediana e o terceiro quartil. Pode-se perceber por isso

que muitas cidades estão próximas em relação ao número de mortalidade infantil entre o

primeiro quartil e a mediana, porém em muitas delas, provavelmente devido a situações

sociais mais precárias, o número de mortalidade infantil é muito maior. É importante

compreender quais são estas cidades que possuem taxas altas de mortalidade infantil para

pensar em quais políticas públicas poderão ser realizadas para diminuir esta taxa. As

cidades mais desenvolvidas estão com a taxa de mortalidade infantil relativamente

próximas, porém nas cidades menos desenvolvidas este índice é bem maior, podendo

chegar ao número máximo de mortalidade de 46,800 crianças em cada 1000.

1.1.2. Dimensão Educação

A Figura 3 apresenta o número médio de anos de estudos que uma criança que

ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões atuais se

mantiverem ao longo de sua vida escolar.

12,010,89,68,47,26,04,8

Median

9,509,499,489,479,469,459,44

Median 9,4700

Maximum 12,8300

9,4348 9,4925

9,4400 9,5000

1,0782 1,1191

A -Squared 1,38

P-V alue < 0,005

Mean 9,4636

StDev 1,0983

V ariance 1,2062

Skewness -0,208693

Kurtosis 0,451036

N 5565

Minimum 4,3400

Análises Estatísticas da Variável E_ANOSESTUDO

Figura 3: Análise descritiva da variável E_ANOSESTUDO

Os resultados apresentados na Figura 3 mostram que em média, nos municípios

brasileiros, as crianças frequentam a escola por 9,4636 anos com um desvio padrão de

1,0983 anos. Ao olhar as diferenças entre o primeiro quartil e o terceiro quartil, é possível

verificar que os dados entre 8,7500 e 10,2100 pertencem aos municípios com posições

entre o 25% e o 75%. Este fato mostra que em média os jovens estudam apenas até o 9°

ano do ensino fundamental, e não chegam ao ensino médio. Apenas em algumas poucas

cidades os jovens estudam até o ensino médio. Desta forma, é importante compreender a

causa do abandono escolar e criar políticas públicas que favoreçam o aprendizado e a

frequência à escola. É necessário salientar que para atingir um maior índice de

desenvolvimento humano e permitir que os indivíduos tenham mais liberdade e

autonomia para construírem a vida que aspiram, a educação é um pilar fundamental, pois

ela é capaz de tornar os cidadãos mais crítico e mais conscientes. É perceptível também

que em muitos destes municípios os jovens nem sequer concluem a primeira etapa do

ensino fundamental, e por isso, é necessário dedicar uma atenção a mais para os

problemas destas localidades.

A Figura 4 representa a razão entre a população de 15 a 17 anos de idade que não

sabe ler nem escrever um bilhete simples e o total de pessoas nessa faixa etária

A Figura 4 mostra que a mediana está em 1,7100%, e que o primeiro quartil está

em 0,9600%. Existem cidades nas quais a taxa de analfabetismo é 0, e esta cidade pode

ser estudada para compreender quais as políticas adotadas para que ela tenha esse

resultado. O intervalo entre o primeiro quartil e a mediana estão próximos com relação a

taxa de analfabetismo entre 15 a 17 anos. O que chama a atenção na análise dos dados é

que existe um intervalo considerável entre a média e a mediana. A média de 2,6607% é

maior do que a mediana e este fato pode indicar que existem muitas cidades com a taxa

de analfabetismo alta, o que faz com que o valor da média se eleve. O terceiro quartil se

encontra em 3,7200%. Desta maneira, é possível verificar que existem ainda muitas

cidades com a taxa de analfabetismo elevada, e grande desigualdade entre os municípios.

O maior dos valores é 33,5300% na cidade de Alto Alegre, e assim, se torna importante

avaliar o porquê desta taxa de analfabetismo tão alta nesta cidade. O analfabetismo gera

diversos impactos sociais no município e a educação deve ser uma das principais

prioridades para que o Brasil possa atingir de um padrão de IDH mais alto.

31,527,022,518,013,59,04,50,0

Median

2,752,502,252,001,751,50

Median 1,7100

Maximum 33,5300

2,5928 2,7285

1,6500 1,7700

2,5337 2,6296

A -Squared 298,46

P-V alue < 0,005

Mean 2,6607

StDev 2,5807

V ariance 6,6603

Skewness 2,6774

Kurtosis 15,1659

N 5565

Minimum 0,0000

Análises Estatísticas da Variável T_ANALF15A17

Figura 4: Análise descritiva da variável T_ANALF15A17

1.1.3.Dimensão Renda

A Figura 5 apresenta as análises estatísticas referentes à proporção dos indivíduos

com renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, em reais em agosto

de 2010. O universo de indivíduos é limitado àqueles que vivem em domicílios

706050403020100

Median

1211109876

1st Q uartile 1,640

Median 6,240

Maximum 69,670

11,032 11,651

5,739 6,860

11,550 11,987

A -Squared 291,12

P-V alue < 0,005

Mean 11,341

StDev 11,764

V ariance 138,393

Skewness 1,10865

Kurtosis 0,49609

N 5565

Minimum 0,000

Análises Estatísticas da Variável PIND

Figura 5: Análise descritiva da variável PIND

O resultado representado pela Figura 5 mostra que em 50% dos municípios

brasileiros, existe um percentual de 0% a 6,240% de indivíduos que vivem na extrema

pobreza. Porém, o histograma não apresenta distribuição normal, o que mostra que grande

parte dos municípios possuem altas taxas de pobreza extrema. Este gráfico mostra a

grande desigualdade entre os municípios, até pela diferença entre a mediana e o terceiro

quartil ser alta, na qual o terceiro quartil apresenta 19,065%. O valor máximo é de

69,670% na cidade de Uiramutã, o que mostra que quase 70% dos indivíduos neste

município vivem na pobreza extrema. Estes valores podem estar relacionados com os

dados obtidos na análise da Figura 4, já que a distribuição no histograma do número de

indivíduos analfabetos com idade entre 15 e 17 anos é semelhante com a distribuição

encontrada na figura 5. Desta forma, o analfabetismo está diretamente relacionado com a

pobreza.

A Figura 6 apresenta as análises da proporção dos indivíduos com até 14 anos de

idade que têm renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, em reais

de agosto de 2010. O universo de indivíduos é limitado àqueles que vivem em domicílios

706050403020100

Median

16141210

1st Q uartile 3,020

Median 9,950

Maximum 72,430

15,630 16,437

9,309 10,604

15,073 15,644

A -Squared 251,98

P-V alue < 0,005

Mean 16,034

StDev 15,353

V ariance 235,729

Skewness 0,895387

Kurtosis -0,244425

N 5565

Minimum 0,000

Análises Estatísticas da Variável PINDCRI

Figura 6: Análise descritiva da variável PINDCRI

Estes resultados da Figura 6 são semelhantes aos apresentados na Figura 5,

apresentando uma distribuição parecida, porém nota-se que os valores da mediana deste

gráfico (9,950%) é maior do que a do gráfico anterior. O que se pode destacar é a

diferença presente no terceiro quartil, que neste caso é 27,245%, consideravelmente maior

do que o do gráfico anterior que mostrava a proporção de indivíduos que vivem na

extrema pobreza. Neste caso, é possível notar que nos percentuais maiores, a quantidade

de crianças que vivem na extrema pobreza é grande. A relação entre a quantidade de

crianças que vivem em extrema pobreza e quantidade de crianças é maior do que a

quantidade de indivíduos que vivem na extrema pobreza e a quantidade total de

indivíduos, principalmente nos municípios que possuem um índice de pobreza maior.

A Figura 7 representa a proporção dos indivíduos com até 14 anos de idade que

têm renda domiciliar per capita igual ou inferior a R$ 255,00 mensais, em agosto de 2010,

equivalente a 1/2 salário mínimo nessa data. O universo de indivíduos é limitado àqueles

com até 14 anos e que vivem em domicílios particulares permanentes.

Ao observar o histograma presente na Figura 7, é possível perceber que existem

dois picos de ponto máximo. Desta forma, no primeiro pico, pode-se observar os

municípios mais desenvolvidos, nos quais a porcentagem de crianças na situação de

pobreza é menor, e no segundo pico, os municípios nos quais a porcentagem de crianças

em situação de pobreza é maior. Estas diferenças podem ser causadas por questões

regionais, sendo que algumas regiões são mais ricas e outras mais pobres, o que acaba

por gerar essa distribuição. Também pode-se observar que a diferença entre o primeiro e

o terceiro quartil é grande, variando de 13,480% a 54,065% respectivamente. Este

histograma pode servir como base de apoio para a compreensão de quais são as áreas

mais carentes e necessitadas, e com isso possibilitar o estabelecimento de estratégias de

ação para elevar o índice de desenvolvimento humano nas áreas mais pobres. Chama a

atenção o fato de que em alguns municípios a porcentagem de crianças vivendo em

situação de pobreza chega a 84,660% nas cidades de Goiatins e Gilbués.

847260483624120

Median

34333231302928

Median 30,030

Maximum 84,660

33,157 34,313

28,669 31,200

21,588 22,405

A -Squared 135,94

P-V alue < 0,005

Mean 33,735

StDev 21,989

V ariance 483,497

Skewness 0,27841

Kurtosis -1,27716

N 5565

Minimum 0,000

Análises Estatísticas da Variável PMPOBCRI

Figura 7: Análise descritiva da variável PMPOBCRI

1.1.4.Dimensão Trabalho

A Figura 8 mostra as análises referentes a razão entre o número de pessoas de 18

anos ou mais de idade ocupadas e que já concluíram a graduação do ensino superior e o

número total de pessoas ocupadas nessa faixa etária multiplicado por 100.

A partir dos dados obtidos, é perceptível que a mediana dos municípios é 6,400%,

e que poucos são os estados que possuem mais do que 8,8150% de indivíduos com ensino

superior completo, já que este é o valor do terceiro quartil. O que pode ser analisado

também é que observando os pontos em outlier, alguns municípios isolados possuem uma

quantidade grande de indivíduos com ensino superior completo, sendo que a maior delas

é São Caetano do Sul, com 37,53%. Estes pontos representam municípios que são casos

isolados, e que poderiam servir como base para um estudo de quais as razões para terem

atingido este patamar mais elevado, e assim adotar as boas práticas em outros municípios.

A educação superior é um indicativo importante para o IDH, já que representa uma

escolha pessoal, e é uma forma do indivíduo construir sua história e alcançar suas

potencialidades.

A Figura 9 mostra os resultados das análises do percentual da população

economicamente ativa (PEA) com 18 anos ou mais que estava desocupada, ou seja, que

não estava ocupada na semana anterior à data do Censo mas havia procurado trabalho ao

longo do mês anterior à data da pesquisa.

Estes dados, apresentam um valor médio de 6,1945% com um desvio padrão de

3,6559%. O que é possível perceber visualizando o histograma é que algumas cidades

tem um índice de desocupação baixo, porém, algumas tem o índice bem elevado. Também

é possível notar alguns pontos isolados, o que mostra que em muitas cidades faltam

oportunidades de emprego, como na cidade de Campo Alegre do Fidalgo. Estes dados

podem servir como apoio para políticas de incentivo a criação de emprego em áreas mais

carentes, para que haja uma maior oportunidade em diferentes regiões do Brasil, visando

um desenvolvimento mais igualitário.

363024181260

Median

7,27,06,86,66,46,2

Median 6,4000

Maximum 37,5300

6,9409 7,1303

6,3000 6,5000

3,5393 3,6733

A -Squared 84,72

P-V alue < 0,005

Mean 7,0356

StDev 3,6051

V ariance 12,9967

Skewness 1,53911

Kurtosis 5,31372

N 5565

Minimum 0,3200

Análises Estatísticas da Variável P_SUPER

Figura 8: Análise descritiva da variável P_SUPER

363024181260

Median

6,256,005,755,50

Median 5,6600

Maximum 38,4500

6,0984 6,2906

5,5700 5,7700

3,5892 3,7251

A -Squared 65,62

P-V alue < 0,005

Mean 6,1945

StDev 3,6559

V ariance 13,3657

Skewness 1,26280

Kurtosis 3,45260

N 5565

Minimum 0,0000

Análises Estatísticas da Variável T_DES18M

Figura 9: Análise descritiva da variável_DES18M

A Figura 10 apresenta a razão entre o número de empregados de 18 anos ou mais

de idade sem carteira de trabalho assinada e o número total de pessoas ocupadas nessa

faixa etária multiplicado por 100.

5648403224168

Median

25,5025,2525,0024,7524,50

Median 24,750

Maximum 62,230

24,965 25,483

24,460 25,071

9,673 10,040

A -Squared 11,46

P-V alue < 0,005

Mean 25,224

StDev 9,853

V ariance 97,081

Skewness 0,324240

Kurtosis -0,261239

N 5565

Minimum 3,030

Análises Estatísticas da Variável TRABSC

Figura 10: Análise descritiva da variável TRABSC

Estes dados mostram um alto número de indivíduos que trabalham sem carteira

profissional assinada. A mediana é 24,750% o que mostra, no valor da mediana, que

praticamente ¼ da população não trabalha com carteira profissional assinada. Em alguns

municípios este número é maior. Seria interessante, porém conhecer as causas deste

número e compreender quais atividades estes indivíduos exercem e qual o contexto dos

municípios em relação ao mercado de trabalho.

Figura 10: Análise descritiva da variável TRABSC

1.1.5 Dimensão Habitação

A Figura 11 mostra a razão entre a população que vive em domicílios particulares

permanentes com água canalizada para um ou mais cômodos e a população total residente

em domicílios particulares permanentes multiplicado por 100. A água pode ser

proveniente de rede geral, de poço, de nascente ou de reservatório abastecido por água

das chuvas ou carro-pipa.

Pode-se perceber que o problema da falta de água está muito presente no cotidiano

de muitos municípios. Uma das coisas mais fundamentais para a manutenção da vida e

da saúde é o acesso a água, e de acordo com os dados apresentados, muito ainda precisa

ser feito para que todos possam ter acesso a ela. De acordo com o gráfico e a partir da

análise da mediana, em 50% dos municípios brasileiros mais do que 9,72% das pessoas

ainda não possuem acesso a água canalizada. A situação é mais grave se for observado o

primeiro quartil que mostra que para 25% dos municípios mais do que 20,365% das

pessoas não tem acesso a água encanada. Pode-se perceber também que nos outros 50%

dos municípios mais de 90,280% dos indivíduos possuem água encanada. Ainda existe

muito a ser feito para levar água para os municípios que mais necessitam.

988470564228140

Median

91908988878685

Median 90,280

Maximum 100,000

85,211 85,985

89,870 90,701

14,453 15,000

A -Squared 270,99

P-V alue < 0,005

Mean 85,598

StDev 14,721

V ariance 216,717

Skewness -1,89166

Kurtosis 4,71167

N 5565

Minimum 0,150

Análises Estatísticas da Variável T_AGUA

Figura 11: Análise descritiva da variável T_ÁGUA

A Figura 12 representa a análise estatística da razão entre a população que vive

em domicílios particulares permanentes com iluminação elétrica e a população total

residente em domicílios particulares permanentes multiplicado por 100. Considera-se

iluminação proveniente ou não de uma rede geral, com ou sem medidor.

Pode-se perceber que com relação a energia elétrica existe um avanço social

grande, já que a mediana é 99,390%, e o primeiro quartil é 97,645%. Estes dados mostram

que a grande maioria das pessoas já possuem acesso a eletricidade que é um direito de

extrema importância no cenário contemporâneo. Porém, é possível observar que alguns

municípios ainda possuem pouco acesso à energia elétrica como a cidade de Uiramutã.

Algumas cidades possuem 100% dos indivíduos com luz elétrica como a cidade de

Guaribas por exemplo. É necessário conhecer quais são estes municípios representados

pelos pontos dos gráficos para adotar estratégias para levar a energia a estes indivíduos.

10090807060504030

Median

99,599,098,598,097,597,0

Median 99,390

Maximum 100,000

97,031 97,348

99,350 99,430

5,915 6,138

A -Squared 938,37

P-V alue < 0,005

Mean 97,190

StDev 6,024

V ariance 36,293

Skewness -4,2167

Kurtosis 23,1543

N 5565

Minimum 27,410

Análises Estatísticas da Variável T_LUZ

Figura 12: Análise descritiva da variável T_LUZ

A Figura 13 representa a análise da razão entre as pessoas que vivem em

domicílios cujas paredes não são de alvenaria nem de madeira aparelhada e a população

total residente em domicílios particulares permanentes multiplicado por 100. São

considerados apenas os domicílios particulares permanentes.

847260483624120

Median

654321

Median 1,6400

Maximum 82,7400

5,1183 5,6129

1,5400 1,7500

9,2388 9,5886

A -Squared 742,14

P-V alue < 0,005

Mean 5,3656

StDev 9,4104

V ariance 88,5557

Skewness 3,2668

Kurtosis 12,9995

N 5565

Minimum 0,0000

Análises Estatísticas da Variável PAREDE

Figura 13: Análise descritiva da variável PAREDE

É possível observar que, apesar da mediana estar situada em 1,6400%, ainda

existem muitos municípios com altos índices de indivíduos que moram em casa sem

paredes adequadas. A mediana está muito próxima do primeiro quartil. Enquanto a média

é 5,3656%, o desvio padrão é alto e vale 9,4104%. Existem cidades que os indivíduos

vivem predominantemente em habitações sem paredes adequadas, como na cidade de

Anapurus, onde 82,74% vivem em casas sem paredes adequadas. É necessário priorizar

estes espaços para adotar políticas de habitação, e assim alcançar um maior índice de

desenvolvimento, já que a qualidade da habitação está diretamente relacionada a

qualidade de vida e saúde.

1.1.6 Dimensão Vulnerabilidade

A Figura 14 apresenta as análises estatísticas da variável referente a razão entre as

pessoas de 15 a 24 anos que não estudam nem trabalham e são vulneráveis à pobreza e a

população total nesta faixa etária multiplicado por 100. Define-se como vulneráveis à

pobreza as pessoas que moram em domicílios com renda per capita inferior a 1/2 salário

mínimo de agosto de 2010. São considerados apenas os domicílios particulares

permanentes.

56484032241680

Median

15,014,514,013,5

1st Q uartile 7,295

Median 13,670

Maximum 55,250

14,546 15,006

13,299 14,340

8,592 8,917

A -Squared 61,38

P-V alue < 0,005

Mean 14,776

StDev 8,751

V ariance 76,588

Skewness 0,388117

Kurtosis -0,679693

N 5565

Minimum 0,000

Análises Estatísticas da Variável T_NESTUDA_NTRAB_MMEIO

Figura 14: Análise descritiva da variável T_NESTUDA_NTRAB_NMEIO

A partir da visualização do histograma presente na figura 14, é possível verificar

novamente a diferença das regiões geográficas brasileiras. Existem dois picos no

histograma, e este fato pode estar relacionado a diferenças regionais. Também é possível

verificar quatro cidades com um índice de pobreza bem acima da média. Este histograma

demonstra que muitas cidades brasileiras possuem um percentual muito alto de indivíduos

vivendo em situação de vulnerabilidade. Este histograma possui formato semelhante ao

gerado pelo gráfico de mortalidade infantil e de indivíduos que vivem na pobreza, e

possivelmente existe relação entre a pobreza, o fato de não haver estudo e nem trabalho

e a taxa de mortalidade infantil.

A Figura 15 representa a análise referente a razão entre o número de mulheres que

são responsáveis pelo domicílio, não têm o ensino fundamental completo e têm pelo

menos 1 filho de idade inferior a 15 anos morando no domicílio e o número total de

mulheres chefes de família multiplicado por 100. São considerados apenas os domicílios

7260483624120

Median

20,520,019,519,018,518,0

Median 18,090

Maximum 77,590

19,684 20,227

17,799 18,430

10,133 10,517

A -Squared 68,62

P-V alue < 0,005

Mean 19,956

StDev 10,321

V ariance 106,532

Skewness 0,99289

Kurtosis 1,37190

N 5565

Minimum 0,000

Análises Estatísticas da Variável T_MULCHEFEFIF014

Figura 15: Análise descritiva da variável T_MULCHEFEFIF014

É possível verificar que até a mediana 18,090% das mulheres estão na situação de

serem chefes de família e não possuírem ensino fundamental completo. Este fato pode

gerar implicações devido a relação entre o grau de escolaridade e a renda. Indivíduos com

menos escolaridade tendem a ganhar salários menores do que indivíduos mais

escolarizados. O fato de as mulheres serem as únicas provedoras dos recursos familiares

também pode gerar um problema devido a quantidade de tarefas acumuladas por elas.

Muitos municípios possuem quantidades consideráveis de mulheres que vivem nesta

situação e em alguns deles, este número ultrapassa o 50%.

1.1.7 Dimensão População

A Figura 16 mostra as análises referentes a quantidade da população masculina de

10 a 14 anos e a Figura 17 mostra as análises referentes a população masculina de 70 a

74 anos.

De acordo com as Figuras 16 e 17 é possível verificar que a maioria dos

municípios brasileiros são constituídos de pequena população. Desta maneira, o terceiro

quartil da figura 15 tem o valor de 1198, o que significa que 75% dos municípios

brasileiros tem menos de 1198 indivíduos com idade entre 10 e 14 anos. São poucas as

cidades maiores e mais populosas.

Também é possível verificar pela figura 16 que o terceiro quartil representa 230,

ou seja, o número de indivíduos homens idosos no terceiro quartil é aproximadamente

19% em relação ao número de crianças. Desta forma, é interessante fazer uma análise

para verificar nestas regiões quais as principais causas de mortalidade entre os indivíduos

e se estas causas em maior grau se dão de forma natural ou devido a situações de

vulnerabilidade. Pode ser verificado também se os jovens se mudam das cidades na fase

adulta e qual a relação entre a taxa de ocupação profissional dos indivíduos na fase adulta

e a permanência em determinada região.

É importante conhecer estas variáveis para saber se os indivíduos estão mudando

de localidade, de onde estão saindo, para onde estão indo, e em qual situação vivem.

420000360000300000240000180000120000600000

Median

1750150012501000750500

1st Q uartile 252

Median 553

3rd Q uartile 1198

Maximum 438356

1357 1779

532 572

7889 8188

A -Squared 1517,21

P-V alue < 0,005

Mean 1568

StDev 8036

V ariance 64571757

Skewness 35,75

Kurtosis 1724,58

N 5565

Minimum 31

Análises Estatísticas da Variável HOMEM10A14

Figura 16: Análise descritiva da variável HOMEM10A14

Figura 17: Análise descritiva da variável HOMEM70A74

1.1.8 Dimensão IDHM

A figura 18 representa as análises do Índice de Desenvolvimento Humano

Municipal. No qual é apresentado a média geométrica dos índices das dimensões renda,

educação e longevidade, com pesos iguais.

0,840,770,700,630,560,490,42

Median

0,6700,6680,6660,6640,6620,6600,658

Median 0,66500

Maximum 0,86200

0,65727 0,66105

0,66200 0,66900

0,07068 0,07336

A -Squared 40,51

P-V alue < 0,005

Mean 0,65916

StDev 0,07200

V ariance 0,00518

Skewness -0,155605

Kurtosis -0,844490

N 5565

Minimum 0,41800

Análises Estatísticas da Variável IDHM

Figura 18: Análise descritiva da variável IDHM

A distribuição do histograma mostra novamente as diferenças regionais do Brasil.

Pode-se perceber que de um lado se encontram as regiões com um maior IDHM

representadas pelo segundo pico, e de um outro as regiões com um menor IDHM,

representadas pelo primeiro pico. É necessário estabelecer políticas a fim de melhorar as

condições dos indivíduos que moram nas regiões menos desenvolvidas. O box-plot

também não apresenta simetria, e a distância entre o terceiro quartil e a mediana é menor

do que a distância entre o primeiro quartil e a mediana. É necessário realizar testes para

compreender exatamente quais as delimitações das duas regiões do Brasil com essa

disparidade e estabelecer políticas de desenvolvimento nestas localidades.

A Figura 19 mostra as análises do índice sintético da dimensão educação que é

um dos 3 componentes do IDHM. Este indicador é obtido através da média geométrica

do subíndice de frequência de crianças e jovens na escola, com peso de 2/3, e do subíndice

de escolaridade da população adulta, com peso de 1/3.

O gráfico box-plot mostra que a diferença entre o primeiro e o terceiro quartil são

próximas em relação a mediana. Pode-se perceber um conjunto de municípios que

possuem estes indicadores mais baixo e outros mais altos.

A Figura 20 mostra a análise do índice da dimensão longevidade que é um dos 3

componentes do IDHM. É obtido a partir do indicador Esperança de vida ao nascer,

através da fórmula: [(valor observado do indicador) - (valor mínimo)] / [(valor máximo)

- (valor mínimo)], onde os valores mínimo e máximo são 25 e 85 anos, respectivamente.

Pode-se observar que existem dois picos máximos, o que pode explicar em partes

o resultado encontrado no IDHM da Figura 18. Desta maneira, existem diversos

municípios que possuem uma expectativa de vida muito menor do que em outros, o que

acaba por gerar este resultado no histograma. Também é possível perceber que o box-plot

não apresenta uma grande simetria, e a mediana está mais próxima do terceiro quartil do

que do primeiro. Este resultado indica as diferenças regionais, no qual em algumas regiões

os indivíduos possuem uma expectativa de vida maior do que em outras.

0,810,720,630,540,450,360,27

Median

0,5630,5620,5610,5600,5590,5580,557

Median 0,56000

Maximum 0,82500

0,55664 0,56155

0,55700 0,56300

0,09163 0,09509

A -Squared 9,32

P-V alue < 0,005

Mean 0,55909

StDev 0,09333

V ariance 0,00871

Skewness -0,098463

Kurtosis -0,515837

N 5565

Minimum 0,20700

Análises Estatísticas da Variável IDHM_E

Figura 19: Análise descritiva da variável IDHM_E

0,870,840,810,780,750,720,69

Median

0,8100,8080,8060,8040,8020,800

Median 0,80800

Maximum 0,89400

0,80039 0,80274

0,80600 0,80900

0,04387 0,04553

A -Squared 35,06

P-V alue < 0,005

Mean 0,80156

StDev 0,04468

V ariance 0,00200

Skewness -0,409358

Kurtosis -0,486243

N 5565

Minimum 0,67200

Análises Estatísticas da Variável IDHM_L

Figura 20: Análise descritiva da variável IDHM_L

A Figura 21 representa a análise do índice da dimensão Renda que é um dos 3

componentes do IDHM. É obtido a partir do indicador Renda per capita, através da

fórmula: [ln (valor observado do indicador) - ln (valor mínimo)] / [ln (valor máximo) - ln

(valor mínimo)], onde os valores mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços

de agosto de 2010).

0,840,770,700,630,560,490,42

Median

0,6560,6520,6480,6440,640

Median 0,65400

Maximum 0,89100

0,64075 0,64499

0,65000 0,65700

0,07919 0,08219

A -Squared 55,08

P-V alue < 0,005

Mean 0,64287

StDev 0,08066

V ariance 0,00651

Skewness -0,101024

Kurtosis -0,873212

N 5565

Minimum 0,40000

Análises Estatísticas da Variável IDHM_R

Figura 21: Análise descritiva da variável IDHM_R

Este histograma pode ser utilizado para explicar o formato do histograma que

representa o IDHM. Pode-se perceber que existe uma diferença de renda em duas regiões

brasileiras. Existem um grupo de municípios que possuem uma renda mais baixa do que

outro grupo de municípios. Pode-se dividir o Brasil em municípios ricos e municípios

pobres. Existe uma desigualdade de renda que faz com que o IDHM tenha estes dois

valores de pico.

O que é possível perceber é que se levarmos em conta o histograma da

longevidade e da renda, os dois agregados fazem com que o histograma do IDHM tenha

a curva que possui.

1.2 Considerações

A partir da observação dos dados, é possível verificar que o Brasil, em relação ao

IDHM, pode ser dividido em dois. De um lado existem municípios com o IDHM

relativamente alto e com um maior grau de desenvolvimento. Por outro lado, existem os

municípios com o IDHM baixo e com menor grau de desenvolvimento.

Analisando os histogramas é possível perceber que a má distribuição de renda e a

diferença nos graus de longevidade são os aspectos principais que levam a este resultado.

É necessário melhorar muito também no quesito educação, pois é perceptível que alguns

municípios possuem altas taxas de analfabetismo e indivíduos com baixa escolaridade.

É necessário realizar políticas que busquem desenvolver estes municípios pouco

desenvolvidos, para que eles possam se igualar aos municípios mais desenvolvidos

buscando uma maior equidade social.

Para que se alcance um maior IDHM, é necessário que os indivíduos tenham a

possibilidade de escolher a vida que pretendem levar, e atingir o seu potencial individual.

Para que esse caminho seja possível, é necessário o investimento em educação, pois ela é

capaz de fazer com que os indivíduos sejam mais críticos e tomem decisões mais

racionais.

Outro ponto a se destacar é que são necessárias políticas públicas que melhorem

a saúde, e levar os municípios menos desenvolvidos a se desenvolverem de forma a

melhorar a renda nas localidades mais carentes. Desta forma, pode-se diminuir o nível de

pobreza destes municípios.

CAPITULO 2. RELAÇÕES ENTRE VARIÁVEIS

Neste segundo capítulo será realizada inicialmente uma análise sobre o percentual

de municípios em cada estado e região brasileira, a fim de compreender melhor como se

dá a distribuição dos municípios. Após esta análise, será analisada a correlação entre as

variáveis escolhidas e descritas no capítulo 1 nas oito dimensões e, depois, será gerado o

dendograma dessas variáveis com o auxílio do software estatístico MINITAB.

2.Análise das Variáveis

A análise das variáveis está dividida em três tópicos. No primeiro, será analisado

a distribuição dos municípios nos diversos estados brasileiros e nas cinco regiões. O

segundo tópico consiste no estudo da correlação entre as variáveis, na construção de

diagramas de dispersão e suas respectivas análises. Na terceira parte será realizada a

construção do dendograma.

2.1.Distribuição dos Municípios Brasileiros por Estado e Região

A Figura 1 representa o gráfico de pizza que mostra a distribuição dos municípios

brasileiros de acordo com os estados. Pode-se perceber que o estado com mais municípios

é Minas Gerais, com 15,3% do total de municípios, seguida por São Paulo com 11,6%.

Os outros estados da região Sudeste são Espírito Santo com 1,4% e Rio de Janeiro

com 1,7% de municípios do total. Na região Sul, o percentual de municípios em relação

ao total no estado do Paraná é 7,2%, em Santa Catarina é 5,3% e no Rio Grande do Sul é

8,9%. Na região Centro-Oeste o estado do Mato Grosso do Sul possui 1,4%, Mato Grosso

possui 2,5 % e Goiás possui 4,4% de municípios em relação ao total. Na região Norte o

estado de Rondônia possui 0,9%, o Acre possui 0,4%, o Amazonas possui 1,1%, Roraima

0,3%, Pará 2,6%, Amapá 0,3% e Tocantins 2,5%. Na região Nordeste, o estado do

Maranhão possui 3,9% de municípios em relação ao total do Brasil, o Piauí 4,0%, o Ceará

3,3%, o Rio Grande do Norte 3,0%, a Paraíba 4,0%, Pernambuco 3,3%, Alagoas 1,8%,

Sergipe 1,3% e Bahia 7,5%.

C eará

Rio Grande do Norte

Paraíba

Pernambuco

A lagoas

Sergipe

Minas Gerais

Espírito Santo

Rio de Janeiro

Rondônia

São Paulo

Paraná

Santa C atarina

Rio Grande do Sul

Mato Grosso do Sul

Mato Grosso

Goiás

Distrito Federal

A mazonas

Roraima

A mapá

Tocantins

Maranhão

P iauí

Estados

Gráfico de Pizza dos Municípios por Estado

Figura 1: Gráfico de Pizza dos Municípios por Estado

A partir destes dados é possível calcular que a região Nordeste tem 32,1% do total

de municípios do Brasil, a região Norte tem 8,1%, a região Centro Oeste 8,3%, a região

Sudeste 30% e a região Sul 21,4%.

2.2. Correlação das Variáveis

O coeficiente de correlação é uma medida que mostra as relações entre as variáveis

e pode variar de 1 a -1. De acordo com Anderson, Sweeney e Williams (2011), quando o

coeficiente de correlação é 1, existe uma correlação linear positiva perfeita entre duas

variáveis, e quando está próximo de -1 existe uma correlação linear negativa perfeita entre

duas variáveis.

Quando o coeficiente de correlação está abaixo de 1 e acima de -1, indica-se que

os pontos do diagrama de dispersão não estão todos em linha reta. O diagrama de

dispersão descreve a relação entre duas variáveis. Pode haver uma correlação positiva ou

negativa que não é perfeita quando o coeficiente de correlação estiver próximo de 1 ou

quando o coeficiente de correlação for 0 indica-se que não existe correlação entre as

variáveis e quanto mais próximo de 0 mais fraca é a correlação linear das variáveis

(ANDERSON; SWEENEY; WILLIAMS, 2011).

A seguir estão apresentados os resultados do cálculo das correlações realizados

pelo software MINITAB. Para as análises que se seguem, apenas serão considerados os

valores maiores do que 0,800. Estes valores estão indicados em vermelho.

Correlations: FECTOT; MORT1; E_ANOSESTUDO; T_ANALF15A17; PIND; PINDCRI; ... FECTOT MORT1 E_ANOSESTUDO

MORT1 0,514

E_ANOSESTUDO -0,431 -0,454

0,000 0,000

T_ANALF15A17 0,510 0,668 -0,530

0,000 0,000 0,000

PIND 0,606 0,765 -0,530

0,000 0,000 0,000

PINDCRI 0,568 0,777 -0,520

0,000 0,000 0,000

PPOBCRI 0,575 0,784 -0,556

0,000 0,000 0,000

P_SUPER -0,382 -0,499 0,392

0,000 0,000 0,000

T_DES18M 0,264 0,371 -0,280

0,000 0,000 0,000

TRABSC 0,337 0,495 -0,376

0,000 0,000 0,000

T_AGUA -0,324 -0,546 0,410

0,000 0,000 0,000

T_LUZ -0,500 -0,332 0,446

0,000 0,000 0,000

PAREDE 0,522 0,470 -0,321

0,000 0,000 0,000

T_NESTUDA_NTRAB_ 0,565 0,741 -0,541

0,000 0,000 0,000

T_MULCHEFEFIF014 0,577 0,576 -0,469

0,000 0,000 0,000

HOMEM10A14 -0,074 -0,056 0,015

0,000 0,000 0,276

HOMEM70A74 -0,093 -0,065 0,030

0,000 0,000 0,024

IDHM -0,610 -0,829 0,653

0,000 0,000 0,000

IDHM_E -0,562 -0,684 0,710

0,000 0,000 0,000

IDHM_L -0,527 -0,967 0,441

0,000 0,000 0,000

IDHM_R -0,597 -0,814 0,544

0,000 0,000 0,000

T_ANALF15A17 PIND PINDCRI

PIND 0,737

PINDCRI 0,727 0,991

0,000 0,000

PPOBCRI 0,649 0,833 0,856

0,000 0,000 0,000

P_SUPER -0,403 -0,495 -0,503

0,000 0,000 0,000

T_DES18M 0,305 0,328 0,333

0,000 0,000 0,000

TRABSC 0,362 0,422 0,448

0,000 0,000 0,000

T_AGUA -0,540 -0,662 -0,669

0,000 0,000 0,000

T_LUZ -0,455 -0,575 -0,536

0,000 0,000 0,000

PAREDE 0,496 0,600 0,565

0,000 0,000 0,000

T_NESTUDA_NTRAB_ 0,670 0,817 0,825

0,000 0,000 0,000

T_MULCHEFEFIF014 0,515 0,613 0,609

0,000 0,000 0,000

HOMEM10A14 -0,031 -0,058 -0,059

0,019 0,000 0,000

HOMEM70A74 -0,044 -0,068 -0,068

0,001 0,000 0,000

IDHM -0,723 -0,863 -0,870

0,000 0,000 0,000

IDHM_E -0,666 -0,756 -0,762

0,000 0,000 0,000

IDHM_L -0,646 -0,760 -0,776

0,000 0,000 0,000

IDHM_R -0,690 -0,884 -0,891

0,000 0,000 0,000

PPOBCRI P_SUPER T_DES18M

P_SUPER -0,578

T_DES18M 0,430 -0,076

0,000 0,000

TRABSC 0,654 -0,336 0,313

0,000 0,000 0,000

T_AGUA -0,603 0,456 -0,117

0,000 0,000 0,000

T_LUZ -0,413 0,237 -0,138

0,000 0,000 0,000

PAREDE 0,457 -0,277 0,173

0,000 0,000 0,000

T_NESTUDA_NTRAB_ 0,894 -0,473 0,546

0,000 0,000 0,000

T_MULCHEFEFIF014 0,612 -0,414 0,312

0,000 0,000 0,000

HOMEM10A14 -0,083 0,249 0,072

0,000 0,000 0,000

HOMEM70A74 -0,093 0,259 0,043

0,000 0,000 0,001

IDHM -0,918 0,698 -0,322

0,000 0,000 0,000

IDHM_E -0,815 0,692 -0,215

0,000 0,000 0,000

IDHM_L -0,812 0,543 -0,368

0,000 0,000 0,000

IDHM_R -0,940 0,658 -0,389

0,000 0,000 0,000

TRABSC T_AGUA T_LUZ

T_AGUA -0,295

T_LUZ -0,197 0,408

0,000 0,000

PAREDE 0,205 -0,248 -0,439

0,000 0,000 0,000

T_NESTUDA_NTRAB_ 0,592 -0,541 -0,399

0,000 0,000 0,000

T_MULCHEFEFIF014 0,342 -0,413 -0,311

0,000 0,000 0,000

HOMEM10A14 -0,082 0,069 0,032

0,000 0,000 0,017

HOMEM70A74 -0,081 0,072 0,042

0,000 0,000 0,002

IDHM -0,571 0,659 0,490

0,000 0,000 0,000

IDHM_E -0,505 0,615 0,491

0,000 0,000 0,000

IDHM_L -0,519 0,549 0,341

0,000 0,000 0,000

IDHM_R -0,587 0,641 0,448

0,000 0,000 0,000

PAREDE T_NESTUDA_NTRAB_ T_MULCHEFEFIF014

T_NESTUDA_NTRAB_ 0,478

T_MULCHEFEFIF014 0,438 0,579

0,000 0,000

HOMEM10A14 -0,026 -0,058 -0,025

0,051 0,000 0,065

HOMEM70A74 -0,038 -0,070 -0,047

0,005 0,000 0,000

IDHM -0,499 -0,837 -0,646

0,000 0,000 0,000

IDHM_E -0,434 -0,722 -0,602

0,000 0,000 0,000

IDHM_L -0,439 -0,753 -0,566

0,000 0,000 0,000

IDHM_R -0,511 -0,877 -0,620

0,000 0,000 0,000

HOMEM10A14 HOMEM70A74 IDHM

HOMEM70A74 0,974

IDHM 0,130 0,137

0,000 0,000

IDHM_E 0,131 0,134 0,951

0,000 0,000 0,000

IDHM_L 0,073 0,082 0,852

0,000 0,000 0,000

IDHM_R 0,137 0,146 0,948

0,000 0,000 0,000

IDHM_E IDHM_L

IDHM_L 0,704

IDHM_R 0,820 0,834

0,000 0,000

Cell Contents: Pearson correlation

P-Value

As variáveis que apresentaram maior coeficiente de correlação foram:

IDHM x MORT1 = -0,829; IDHM_L x MORT1 = -0,967; IDHM_R x MORT1

= -0,814; PINDCRI x PIND = 0,991; PPOBCRI x PIND = 0,833; PPOBCRI x PINDCRI

= 0,856; T_NESTUDA_NTRAB x PIND = 0,817; T_NESTUDA_NTRAB x PINDCRI

= 0,825; IDHM_R x PIND = -0,884; IDHM_R x PINDCRI = -0,891;

T_NESTUDA_NTRAB x PPOBCRI = 0,894; IDHM x PPOBCRI = -0,918; IDHM_E x

PPOBCRI = -0,815; IDHM_L x PPOBCRI = -0,812; IDHM_R x PPOBCRI = -0,940;

IDHM_R x T_NESTUDA_NTRAB = -0,877; HOMEM70A74 x HOMEM10A14 =

0,974; IDHM_E x IDHM = 0,951; IDHM_L x IDHM = 0,852; IDHM_R x IDHM =

0,948; IDHM_R x IDHM_E = 0,820; IDHM_R x IDHM_L = 0,834.

A partir destes resultados, foram construídos os diagramas de dispersão para a

realização das análises.

A Figura 2 apresenta o diagrama de dispersão das variáveis MORT1 e IDHM.

5040302010

Diagrama de Dispersão das Variáveis IDHM vs MORT1

Figura 2: Diagrama de Dispersão das Variáveis IDHM X MORT1

É possível verificar uma correlação negativa entre as duas variáveis, com uma

correlação de -0,829. Pode-se perceber que quanto maior o índice de desenvolvimento

humano dos municípios menor é o número de crianças que não sobrevivem ao primeiro

ano de vida. O índice de desenvolvimento humano está relacionado com a longevidade e

a saúde, e altas taxas de mortalidade infantil indicam condições de saúde precárias. Desta

maneira, é importante que haja investimentos na área de saúde e em acompanhamento

das mães para que haja uma diminuição da taxa de mortalidade infantil, e

consequentemente um aumento no IDHM, de modo que os recém-nascidos tenham o

direito de viver com qualidade.

A Figura 3 representa o diagrama de dispersão das variáveis IDHM_L e MORT1.

5040302010

Diagrama de Disersão das Variáveis IDHM_L vs MORT1

Figura 3: Diagrama de Dispersão das Variáveis IDHM_L X MORT1

É possível verificar que a correlação entre estas duas variáveis é -0,967, ou seja,

próxima de -1. Existe uma correlação linear negativa entre as duas variáveis. Este

resultado se deve ao fato que o IDHM_L é uma medida de longevidade. Em regiões com

altas taxas de mortalidade infantil são também regiões com menores índices de

longevidade, já que nestes locais os habitantes vivem menos.

A Figura 4 representa a correlação entre as variáveis IDHM_R e MORT1.

5040302010

Diagrama de Dispersão das Variáveis IDHM_R vs MORT1

Figura 4: Diagrama de Dispersão das Variáveis IDHM_R X MORT1

A Figura 4 mostra que existe uma correlação entre a variável que mede o IDHM_R

e a taxa de mortalidade infantil. O coeficiente de correlação é -0,814, o que indica que

quanto menor a renda dos indivíduos que residem em um determinado município maior

a quantidade de indivíduos que morrem antes de completar 1 ano. Desta forma, é

importante que haja um maior desenvolvimento dos locais menos desenvolvidos para que

os indivíduos consigam receber uma maior renda, a fim de que haja menos mortalidade

infantil, e consequentemente aumente o Índice de Desenvolvimento Humano no Brasil.

A Figura 5 mostra o diagrama de dispersão entre as variáveis PINDCRI e PIND.

706050403020100

Diagrama de Dispersão das Variáveis PINDCRI vs PIND

Figura 5: Diagrama de Dispersão das Variáveis PINDCRI X PIND

O resultado do coeficiente de correlação destas variáveis é 0,991. Este resultado

está muito próximo de 1, o que indica que as duas variáveis possuem alta correlação. Este

fato se deve ao significado das variáveis, em que PIND é a proporção dos indivíduos com

renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, em reais de agosto de

2010 e PINDCRI representa a proporção dos indivíduos com até 14 anos de idade que

têm renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, em reais de agosto

de 2010. O universo de indivíduos é limitado àqueles que vivem em domicílios

particulares permanentes. Os dados possuem alto grau de correlação pois quanto mais

indivíduos viverem na extrema pobreza, maior o número de crianças vivendo na extrema

pobreza. O número de crianças está contido no número de indivíduos vivendo na extrema

pobreza. Também deve-se considerar que as condições financeiras dos filhos são reflexo

da dos pais.

A Figura 6 representa o diagrama de dispersão das variáveis PPOBCRI e PIND.

100806040200

PPOBCRI

Diagrama de Dispersão das Variáveis PIND vs PPOBCRI

Figura 6: Diagrama de Dispersão das Variáveis PIND X PPOBCRI

A correlação entre estas duas variáveis é 0,833, o que significa que existe

correlação, mas esta não é tão próxima de 1. O PPOBCRI índia a proporção dos

indivíduos com até 14 anos de idade que têm renda domiciliar per capita igual ou inferior

a R$ 255,00 mensais, em reais de agosto de 2010, equivalente a 1/2 salário mínimo nessa

data. O universo de indivíduos é limitado àqueles com até 14 anos e que vivem em

domicílios particulares permanentes. Neste diagrama é possível verificar que ele aumenta

com uma maior inclinação após o valor aproximadamente de 50 da variável PPOBCRI.

O que indica que após este valor, conforme aumenta o índice de indivíduos que vivem na

pobreza nos municípios, o número de indivíduos que vivem na extrema pobreza também

aumenta proporcionalmente em maior grau. Desta maneira, quanto mais indivíduos

vivem na pobreza, a proporção de indivíduos que vivem na extrema pobreza aumenta em

relação a este número. É necessário lembrar que a variável PIND está contida na variável

PPOBCRI.

A Figura 7 representa o diagrama de dispersão das variáveis PPOBCRI x

PINDCRI.

80706050403020100

PINDCRI

Diagrama de Dispersão das Variáveis PPOBCRI vs PINDCRI

Figura 7: Diagrama de Dispersão das Variáveis PPOBCRI X PINDCRI

A correlação desta variável é 0,856, de modo que quando uma aumenta, a outra

também aumenta. É necessário se atentar que os indivíduos representados pela variável

PINDCRI também estão representados na variável PPOBCRI. Quando a variável

PPOBCRI está no valor aproximado de 60, a variável PINDCRI possui um valor

aproximado entre 0 e 20. Porém, após o número 60, a quantidade de municípios com o

PINDCRI alto sobe rapidamente, de forma que a partir do valor 80, uma pequena variação

na variável PPOBCRI, faz com que haja uma grande variação na variável PINDCRI. Em

municípios que possuem muitas crianças vivendo pobreza, a proporção de indivíduos

vivendo na extrema pobreza em relação a esta variável tende a ser maior em relação aos

outros municípios.

A Figura 8 representa o diagrama de dispersão das variáveis

T_NESTUDA_NTRAB x PIND.

706050403020100

Diagrama de Dispersão das Variáveis T_NESTUDA_NTRAB_MMEIO vs PIND

Figura 8: Diagrama de Dispersão das Variáveis T_NESTUDA_NTRAB_MMEIO X PIND

A correlação entre estas duas variáveis é 0,817, o que indica que um aumento em

uma gera um aumento na outra. A distribuição não é muito próxima de 1, porém é possível

perceber que em áreas onde existem poucas oportunidades de trabalho e estudo mais

indivíduos vivem na extrema pobreza.

A Figura 9 mostra o diagrama de dispersão das variáveis T_NESTUDA_NTRAB

x PINDCRI.

80706050403020100

PINDCRI

Diagrama de Dispersão das Variáveis T_NESTUDA_NTRAB_MMEIO vs PINDCRI

Figura 9: Diagrama de Dispersão das Variáveis T_NESTUDA_NTRAB_MMEIO X PINDCRI

A correlação entre estas duas variáveis é 0,825. É possível perceber uma

correlação com valor positivo entre estas duas variáveis, de modo que em locai nos quais

a população não tem acesso à educação e nem ao trabalho, mais crianças vivem na

extrema pobreza. Se os pais não conseguem renda através do trabalho, consequentemente

as crianças também não vão ter renda. É necessário mudar esta realidade, buscando

desenvolver o país com mais igualdade para que todos tenham acesso à educação e

trabalho, e consequentemente aumente o IDHM. A educação é fator importante para que

os indivíduos consigam construir a história de vida que desejam.

A Figura 10 representa o diagrama de dispersão das variáveis IDHM_R x PIND e

a Figura 11 das variáveis IDHM_R x PINDCRI. A correlação destas variáveis é -0,884,

e -0,891.

706050403020100

Diagrama de Dispersão das Variáveis IDHM_R vs PIND

Figura 10: Diagrama de Dispersão das Variáveis IDHM_R X PIND

80706050403020100

PINDCRI

Diagrama de Dspersão das Variáveis IDHM_R vs PINDCRI

Figura 11: Diagrama de Dispersão das Variáveis IDHM_R X PINDCRI

Existe uma correlação negativa entre estas variáveis. Este resultado se deve ao

fato de que o IDHM_R está diretamente relacionado com a renda do município, portanto,

municípios que possuem muitos indivíduos vivendo na extrema pobreza terão um valor

de IDHM_R menor, os diagramas das Figuras 10 e 11 são parecidos, já que o número de

crianças vivendo na extrema pobreza também está relacionado ao número de adultos

vivendo na extrema pobreza.

A Figura 12 representa o diagrama de dispersão das variáveis

T_NESTUDA_NTRAB x PPOBCRI.

100806040200

PPOBCRI

Diagrama de Dispersão das Variáveis T_NESTUDA_NTRAB_MMEIO vs PPOBCRI

Figura 12: Diagrama de Dispersão das Variáveis T_NESTUDA_NTRAB_MMEIO X PPOBCRI

A correlação destas variáveis é 0,894, o que demonstra uma correlação positiva

entre elas. É possível verificar que quanto mais indivíduos vivem sem estudar e trabalhar

mais crianças vivem na pobreza. É possível verificar também que conforme a taxa de

pobreza vai aumentando de valor, existe uma gama maior de municípios com diferentes

taxas na variável T_NESTUDA_NTRAB_MMEIO. Conforme o valor da variável

referente e pobreza vai diminuindo, esta faixa de municípios vai se afunilando. Isso pode

indicar que a taxa de pobreza está relacionada não somente a quantidade de indivíduos

que não estudam e nem trabalham, mas também a qualidade do emprego em determinadas

localidades. Podem haver diversos municípios nos quais os indivíduos trabalham, porém

recebem salários baixos.

A figura 13 mostra o diagrama de dispersão das varáveis IDHM x PPOBCRI. A

correlação destas variáveis é -0,918. Este número indica que quanto maior o IDH do

município menor a quantidade de crianças vivendo na pobreza.

100806040200

PPOBCRI

Diagrama de Dispersão das Variáveis IDHM vs PPOBCRI

Figura 13: Diagrama de Dispersão das Variáveis IDHM X PPOBCRI

A Figura 14 apresenta o diagrama de dispersão das variáveis IDHM_E x

PPOBCRI. A correlação é -0,815. A Figura 15 mostra o diagrama de dispersão das

variáveis IDHM_L x PPOBCRI, neste caso a correlação é -0,812. A Figura 16 representa

o diagrama de dispersão das variáveis IDHM_R x PPOBCRI, a correlação é -0,940.

100806040200

PPOBCRI

Diagrama de Dispersão das Variáveis IDHM_E vs PPOBCRI

Figura 14: Diagrama de Dispersão das Variáveis IDHM_E X PPOBCRI

100806040200

PPOBCRI

Diagrama de Dispersão das Variáveis IDHM_L vs PPOBCRI

Figura 15: Diagrama de Dispersão das Variáveis IDHM_L X PPOBCRI

100806040200

PPOBCRI

Diagrama de Dispersão das Variáveis IDHM_R vs PPOBCRI

Figura 16: Diagrama de Dispersão das Variáveis IDHM_R X PPOBCRI

É possível notar que a taxa de crianças vivendo na pobreza é inversa ao IDHM_E,

IDHM_L e IDHM_R. Ou seja, quanto maiores são estes três indicadores, menos crianças

vivem na pobreza nestes municípios. Os diagramas representados pelas Figuras 14 e 15

apresentam um comportamento similar, mas o diagrama representado pela Figura 16

representa uma maior correlação. Isto se deve ao fato deste indicador estar diretamente

relacionado a renda. O que é possível verificar é que a quantidade de crianças vivendo na

pobreza está negativamente relacionado com o indicador referente a educação e a

longevidade, de modo que quanto mais crianças vivem na pobreza menor a longevidade

dos indivíduos residentes no município e menor a escolaridade.

A Figura 17 representa o diagrama de dispersão das variáveis IDHM_R e

T_NESTUDA_NTRAB.

6050403020100

T_NESTUDA_NTRAB_MMEIO

Diagrama de Dispersão das Variáveis IDHM_R vs T_NESTUDA_NTRAB_MMEIO

Figura 17: Diagrama de Dispersão das Variáveis IDHM_R X T_NESTUDA_NTRAB_MMEIO

O coeficiente de correlação é -0,877, o que mostra que quanto mais indivíduos

que não estudam e nem trabalham, menor é o indicador relacionado a renda no IDHM.

Entre as variáveis escolhidas, a maior correlação é nas variáveis HOMEM70A74

e HOMEM10A14 = 0,974. A Figura 18 representa o diagrama de dispersão destas

variáveis.

5000004000003000002000001000000

100000

HOMEM10A14

Diagrama de Dispersão das Variáveis HOMEM70A74 vs HOMEM10A14

Figura 18: Diagrama de Dispersão das Variáveis HOMEM70A74 X HOMEM10A14

Este resultado provavelmente se deve ao fato que as cidades mais populosas

possuem mais indivíduos de 10 a 14 anos e mais indivíduos de 70 a 74 anos. De forma

que estas relações estão de acordo com a população total de indivíduos, e

proporcionalmente elas são similares.

A Figura 19 representa o diagrama de dispersão das variáveis IDHM_E x IDHM,

com correlação de 0,951, a Figura 20 representa o diagrama de dispersão das variáveis

IDHM_L x IDHM, com correlação de 0,852 e a Figura 21 o das variáveis IDHM_R x

IDHM com correlação de 0,948.

0,90,80,70,60,50,40,30,2

IDHM_E

Diagrama de Dispersão das Variáveis IDHM vs IDHM_E

Figura 19: Diagrama de Dispersão das Variáveis IDHM X IDHM_E

0,900,850,800,750,70

IDHM_L

Diagrama de Dispersão das Variáveis IDHM vs IDHM_L

Figura 20: Diagrama de Dispersão das Variáveis IDHM X IDHM_L

0,90,80,70,60,50,4

IDHM_R

Diagrama de Dispersão das Variáveis IDHM vs IDHM_R

Figura 21: Diagrama de Dispersão das Variáveis IDHM X IDHM_R

A correlação entre estas variáveis é positiva. O IDHM é derivado dos IDHM_E,

IDHM_L e IDHM_R. Desta maneira, o comportamento dos três gráficos é parecido e

quando o valor de uma das variáveis aumenta, a outra aumenta também. Porém pode-se

perceber que a correlação das variáveis IDHM_R e IDHM_E com a variável IDHM é

maior. Existe maior dispersão no diagrama IDHM_L com relação ao IDHM.

A Figura 22 mostra o diagrama de dispersão das variáveis IDHM_R x IDHM_E,

com correlação de 0,820 e a Figura 23 apresenta o diagrama de dispersão da variável

IDHM_R x IDHM_L com correlação de 0,834.

Figura 22: Diagrama de Dispersão das Variáveis IDHM_E X IDHM_R

Figura 23: Diagrama de Dispersão das Variáveis IDHM_L X IDHM_R

Em ambos os casos a correlação é positiva, porém não são tão próximas de 1. É

possível perceber que existe uma correlação entre o indicador de renda e de educação, ou

seja, quanto maior a renda maior o grau de instrução dos indivíduos que vivem no

município. Outro ponto a se destacar é que quanto maior o índice relacionado a renda,

maior o índice relacionado a longevidade, ou seja, nos municípios mais ricos, os

indivíduos também tendem a possuir maior longevidade.

0,90,80,70,60,50,4

IDHM_R

Diagrama de Dispersão das Variáveis IDHM_E vs IDHM_R

0,90,80,70,60,50,4

IDHM_R

Diagrama de Dispersão das Variáveis IDHM_L vs IDHM_R

2.2. Análise do Dendograma

O dendograma mostra de forma visual o grau de similaridade entre as variáveis

de estudo, o que permite reduzir o número de variáveis explicativas de um determinado

fenômeno (LAS CASAS; DE HOYOS, 2010).

A Figura 24 mostra o dendograma com o número de cluster igual a 1, a Figura 25

com o número de cluster igual a 4 e a Figura número 26 com o número de cluster igual a

EFIF01

100,00

Variables

Dendrograma com 1 clusterSingle Linkage; Correlation Coefficient Distance

Figura 24: Dendograma com 1 cluster

Figura 25: Dendograma com 4 clusters

EFIF01

100,00

Variables

Dendrograma com 4 clustersSingle Linkage; Correlation Coefficient Distance

EFIF01

100,00

Variables

Dendrograma com 7 clustersSingle Linkage; Correlation Coefficient Distance

Figura 26: Dendograma com 7 clusters

É possível observar que se reduzir as variáveis em 4 clusters, forma-se um

agrupamento com as variáveis FECTOT, MORT1, PIND, PINDCRI, PPOBCRI,

T_NESTUDA_NTRAB_MMEIO, T_ANALF15A17, TRABSC,

T_MULCHEFEFIF014, PAREDE, T_DES18M, o outro agrupamento seria o das

variáveis E_ANOSESTUDO, IDHM, IDHM_E, IDHM_R, IDHM_L, P_SUPER,

T_AGUA, o outro agrupamento é a variável T_LUZ e o quarto agrupamento as variáveis

HOMEM10A14 e HOMEM 70A74.

Estes agrupamentos nestes grupos permitem mostrar as variáveis que estão mais

correlacionadas entre si em quatro grupos diferentes, que podem ser utilizados para

explicar o modelo. Pode-se perceber que no primeiro grupo se encontram as variáveis

relacionadas a taxa de mortalidade infantil, pobreza, educação e trabalho. O segundo

grupo se encontram as variáveis relacionadas com os indicadores de IDHM, o acesso a

água e aos estudos. O terceiro agrupamentos possui apenas uma variável, que é o acesso

a luz elétrica, e o quarto se relaciona com a população de homens com idade entre 10 e

14 anos e entre 70 e 74 anos nos diversos município. Estes resultados mostram uma certa

proximidade destas variáveis.

Se o número de clusters for aumentado para sete, o primeiro grupo formado é com

a variável FECTOT, o segundo com as variáveis MORT1, PIND, PINDCRI, PPOBCRI,

T_NESTUDA_NTRAB_MMEIO, T_ANALF15A17, TRABSC,

T_MULCHEFEFIF014, o terceiro com a variável PAREDE, o quarto com a variável

T_DES18M, o quinto E_ANOSESTUDO, IDHM, IDHM_E, IDHM_R, IDHM_L,

P_SUPER, T_AGUA, o sexto com a variável T_LUZ e o sétimo com as variáveis

HOMEM10A14 e HOMEM 70A74.

Desta forma, pode-se realizar estes agrupamentos para se encontrar 7 grupos com

variáveis similares.

Este modelo pode auxiliar também a conhecer qual o grau de similaridade entre

as variáveis, e assim, poder trabalhar com elas de modo que não se tornem redundantes

para a confecção dos modelos matemáticos de análise. De modo que, por exemplo, as

variáveis HOMEM70A74 e HOMEM10A14 são bastante similares entre si. Assim é

possível reduzir o número de variáveis utilizadas para a construção de um modelo

matemático, utilizando aquelas que auxiliem a explicar o fenômeno estudado com uma

alta porcentagem de acerto sem haver redundância. O dendograma permite uma visão a

respeito de quais variáveis são similares entre si pelas suas correlações e em que medida

são similares.

2.3 Considerações

O presente trabalho apresentou uma visão sobre a distribuição dos municípios nos

estados brasileiros, pode-se perceber os estados com maior percentual de municípios são

Minas Gerais com 15,3%, seguida por São Paulo com 11,6%. Os estados com menos

municípios são Roraima e Amapá com 0,3%.

A região que concentra mais municípios é a Nordeste com 32,1%, seguida por

Sudeste com 30%, Sul com 21,4%, Centro-Oeste com 8,3% e Norte com 8,1%.

Foram calculados os índices de correlação das variáveis estudadas e traçados os

diagramas de dispersão, a fim de verificar quais das variáveis são mais correlacionadas e

se possuem correlações positivas ou negativas. As variáveis mais positivamente

correlacionadas foram PINDCRI e PIND com correlação de 0,991, seguida por

HOMEM10A14 E HOMEM70A74 com 0,974. As variáveis mais negativamente

correlacionadas são IDHM_L e MORT1 com correlação de -0,967, seguida por IDHM_R

e PPOBCRI, com correlação de -0,940.

Também foram apresentados os dendogramas, que permitiram visualizar as

similaridades entre as variáveis, e quais estavam mais correlacionadas entre si,

agrupando-as em quatro e em sete clusters.

CAPÍTULO 3. ANÁLISES DE TENDÊNCIAS

O presente capítulo tem como objetivo realizar uma análise de tendência e

projeções de três variáveis quantitativas. Os dados foram obtidos através do site do

Instituto Brasileiro de Geografia e Estatística (IBGE), que os disponibiliza para que se

possa realizar análises. Os dados são disponibilizados de forma ordenada, seguindo um

intervalo de tempo. O site possui dados das dimensões social, demográfica e econômica.

Os dados selecionados para a análise estão relacionados com a educação. De

acordo com o site do IBGE (2017), a educação escolar é um tema de grande importância

tanto no âmbito profissional dos indivíduos quanto no desenvolvimento da cidadania, já

que atualmente os indivíduos estão vivendo em um mundo globalizado, tecnológico e

com grande quantidade de informações disponíveis.

As variáveis selecionadas foram “Taxa de Analfabetismo Funcional”, “Média de

Anos de Estudo de Pessoas com 10 Anos ou Mais de Idade” e “Docentes com Nível

Superior no Ensino Fundamental na Rede Pública”

As análises estatísticas foram realizadas com o auxílio do software MINITAB.

3. Entendendo os Dados

Os dados são séries históricas, disponibilizados pelo IBGE e estão relacionados

com a educação e a qualidade da educação.

3.1 Entendendo as Variáveis

A Tabela 1 representa as variáveis selecionadas, o significado destas variáveis e

suas respectivas unidades de medida.

Tabela 1: Variáveis

Medida

Ano É o ano a que se refere o dado de cada variável. Variável

Categórica

Numéric

Taxa de

Analfabeti

smo Funcional

Indica a porcentagem de pessoas de uma determinada

faixa etária que tem escolaridade de até 3 anos de

estudo em relação ao total de pessoas na mesma faixa etária. A abrangência geográfica é todo o Brasil,

porém nos dados apresentados até o ano de 2003 não

estão incluídas a população rural de Rondônia, Acre,

Amazonas, Roraima, Pará e Amapá (IBGE, 2017).

Variável Quantitativa

Percentual (%)

Média de

Anos de Estudo de

Pessoas

com 10

Anos ou Mais de

Classificada em função da série e do nível que o

indivíduo estava frequentando ou havia frequentado, considerando como contagem a última série cursada

com aprovação. Cada série concluída corresponde a

um ano de aprovação. A abrangência geográfica é

todo o Brasil, porém nos dados apresentados até o ano de 2007 não estão incluídas a população rural de

Rondônia, Acre, Amazonas, Roraima, Pará e Amapá.

Nos anos de Censo demográfico a PNAD não vai a campo (IBGE, 2017).

Numérico (Anos)

Docentes

com Curso

Superior no Ensino

Fundament

al da Rede Pública

Indica o percentual de docentes com nível superior no

ensino fundamental da rede pública em nível nacional

(IBGE, 2017).

Percentu

al (%)

Fontes: IBGE; MEC/INEP; EDUDATABRASIL

A fonte dos dados referente a variável “Taxa de Analfabetismo Funcional” é o

IBGE, Pesquisa Nacional por Amostra de Domicílios, e os dados foram extraídos das

Sínteses de Indicadores Sociais de 2001 a 2009. A fonte dos dados referentes a variável

“Média de Anos de Estudo de Pessoas com 10 Anos ou Mais de Idade” é o IBGE, na

Pesquisa Nacional por Amostra de Domicílio de 1995 a 2009. A fonte dos dados

referentes a variável “Docentes com Curso Superior no Ensino Fundamental da Rede

Pública” é o MEC/INEP, Censo Escolar, 1999-2006; EDUDATABRASIL – Sistema de

Estatística educacional.

3.2. Tabelas dos dados analisados

A tabela 2 apresenta os dados da variável “Taxa de Analfabetismo Funcional”. A

primeira coluna representa o ano em questão e a segunda coluna representa o percentual

de pessoas que possuem até 3 anos de estudo em relação ao percentual total da população.

Tabela 2: Taxa de Analfabetismo Funcional, por ano.

Taxa de Analfabetismo Funcional (%)

2001 27,3

2002 26

2003 24,8

2004 24,4

2005 23,5

2006 22,2

2007 21,7

2008 21

2009 20,3 Fonte: IBGE, Pesquisa Nacional por Amostra de Domicílios; Sínteses de Indicadores Sociais de 2001 a 2009.

A tabela 3 apresenta os dados da variável “Média de Anos de Estudo de Pessoas

com 10 Anos ou Mais de Idade”. A primeira coluna representa o ano em questão e a

segunda coluna representa o número médio de anos de estudo de pessoas com 10 anos ou

Tabela 3: Média de Anos de Estudo de Pessoas com 10 Anos ou Mais de Idade, por ano.

Média de Anos

de Estudo de

Pessoas com 10

Anos ou Mais de

Idade (Anos)

1995 5,2

1996 5,3

1999 5,8

2001 6,1

2002 6,3

2003 6,5

2004 6,6

2005 6,7

2006 6,9

2007 7

2008 7,1

2009 7,2 Fonte: IBGE, Pesquisa Nacional por Amostra de Domicílio 1995 a 2009.

A tabela 4 representa os dados da variável “Docentes com Curso Superior no

Ensino Fundamental da Rede Pública”. A primeira coluna representa o ano em questão e

a segunda o percentual de professores do ensino fundamental que possuem ensino

superior.

Tabela 4: Docentes com Curso Superior no Ensino Fundamental da

Rede Pública,por ano.

Docentes com Curso Superior

no Ensino Fundamental da

Rede Pública (%)

1999 44,5

2000 45,9

2001 47,7

2002 50,2

2003 54,6

2004 56,9

2005 64

2006 70,7 Fonte: MEC/INEP, Censo Escolar, 1999-2006; EDUDATABRASIL – Sistema de Estatística educacional.

3.3 Análise das Variáveis

As variáveis foram analisadas com o auxílio do software estatístico MINITAB, e

buscou-se compreender as tendências e realizar projeções futuras para essas variáveis.

Para isso, as projeções e os gráficos de tendências foram traçados através dos modelos

linear, quadrático, exponencial e de curva S.

É possível observar que os gráficos de tendência com modelo linear apresentam

uma função de primeiro grau, do tipo Y(t) = b + a*t, os gráficos de tendência dos modelos

quadráticos apresentam uma função do tipo Y(t) = c + b*t + c*t² e os gráficos de tendência

dos modelos exponenciais apresentam uma função do tipo Y(t) = b*(a*t²).

Inicialmente, foi analisado a variável Taxa de Analfabetismo Funcional. A Figura

1 representa o gráfico de tendência com modelo linear dos dados desta variável. A Figura

2 representa o gráfico de tendência com modelo quadrático. A Figura 3 representa o

gráfico de tendência com modelo exponencial e a Figura 4 representa o gráfico de

tendência com modelo de curva S. Foram realizadas projeções para 10 anos a partir da

data limite do último ano disponível pelos dados obtidos através do site.

As Tabelas 5, 6, 7 e 8 apresentam os dados das previsões de 10 anos para os

modelos linear, quadrático, exponencial e S-Curve, respectivamente.

Nos gráficos que se seguem, os pontos e a linha preta representam os dados atuais

e reais, os pontos e a linha vermelha representam a linha de tendência ajustada e os pontos

e a linha verde representam as projeções futuras geradas a partir da tendência dos dados.

Os números apresentados nas tabelas a seguir serão retratados fielmente de acordo

com o que foi gerado pelo MINITAB, porém nas discussões e análises feitas no texto

serão utilizados os números aproximados com apenas uma casa decimal, a fim de estar

de acordo com a quantidade de algarismos significativos dos dados disponibilizados pelo

2019201720152013201120092007200520032001

MAPE 0,831603

MAD 0,195556

MSD 0,063037

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência para a Variável Taxa de Analfabetismo FuncionalLinear Trend Model

Yt = 27,750 - 0,856667*t

Figura 1: Análise de Tendência para a Variável Taxa de Analfabetismo Funcional; Modelo Linear.

Fonte: IBGE

Tabela 5: Previsões de 2010 a 2019 para a Variável Taxa de Analfabetismo Funcional;

Modelo Linear.

Ano Previsão da Taxa de

Analfabetismo Funcional (%)

2010 19,1833

2011 18,3267

2012 17,4700

2013 16,6133

2014 15,7567

2015 14,900

2016 14,0433

2017 13,1867

2018 12,3300

2019 11,4733 Fonte: Tabela obtida através da análise dos dados do IBGE, Pesquisa Nacional por Amostra de Domicílios;

Sínteses de Indicadores Sociais de 2001 a 2009.

2019201720152013201120092007200520032001

MAPE 0,616015

MAD 0,148052

MSD 0,032503

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência para a Variável Taxa de Analfabetismo FuncionalQuadratic Trend Model

Yt = 28,298 - 1,155*t + 0,0299*t**2

Figura 2: Análise de Tendência para a Variável Taxa de Analfabetismo Funcional; Modelo Quadrático.

Fonte: IBGE

Modelo Quadrático.

2010 19,7310

2011 19,2029

2012 18,7345

2013 18,3259

2014 17,9770

2015 17,6879

2016 17,4585

2017 17,2888

2018 17,1789

2019 17,1287 Fonte: IBGE

2019201720152013201120092007200520032001

MAPE 0,689694

MAD 0,164578

MSD 0,039424

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência para a Variável Taxa de Analfabetismo FuncionalGrowth Curve Model

Yt = 28,0331 * (0,96420**t)

Figura 3: Análise de Tendência para a Variável Taxa de Analfabetismo Funcional; Modelo Exponencial.

Fonte: IBGE

Modelo Exponencial.

2010 19,4691

2011 18,7721

2012 18,1001

2013 17,4521

2014 16,8274

2015 16,2249

2016 15,6441

2017 15,0841

2018 14,5441

2019 14,0234 Fonte: IBGE

2019201720152013201120092007200520032001

Intercept 27,980

Asymptote -109,240

Asym. Rate 1,030

Curve Parameters

MAPE 0,635494

MAD 0,153835

MSD 0,040406

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência para a Variável Taxa de Analfabetismo FuncionalS-Curve Trend Model

Yt = (10**2) / (-0,915416 + 4,48942*(1,02982**t))

Figura 4: Análise de Tendência para a Variável Taxa de Analfabetismo Funcional; Modelo S-Curve.

Fonte: IBGE

Modelo Linear.

2010 19,5782

2011 18,9136

2012 18,2743

2013 17,6595

2014 17,0682

2015 16,4993

2016 15,9517

2017 15,4246

2018 14,9169

2019 14,4279 Fonte: IBGE

Para descobrir qual dos quatro gráficos representa melhor os dados e é capaz de

fazer uma melhor projeção, é necessário analisar quais possuem os menores erros

representados pelo Erro Percentual Absoluto Médio (MAPE), que é uma expressão de

porcentagem de erro, pelo Desvio Absoluto Médio (MAD), que expressa a imprecisão na

mesma unidade dos dados, e pelo Desvio Quadrado Médio (MSD), que mede a exatidão

dos valores temporais ajustados.

A tabela 9 apresenta os valores do MAPE, MAD e MSD dos gráficos

representados pelas Figuras de 1 a 4, que representam os modelos de tendência linear,

quadrático, exponencial e s-curve da variável Taxa de Analfabetismo Funcional.

Tabela 9: MAPE, MAD e MSD da variável Taxa de Analfabetismo Funcional.

Linear Quadrática Exponencial S-Curve

MAPE 0,831603 0,616015 0,689694 0,635494

MAD 0,153835 0,148052 0,164578 0,153835

MSD 0,040406 0,032503 0,039224 0,040406 Fonte: IBGE

Verifica-se através da observação da tabela que o modelo quadrático é o que

melhor se encaixa para realizar a análise de tendências e a projeção desta variável, já que

os valores do MAPE, MAD e MSD são menores do que todas as outras opções.

É possível perceber uma queda na taxa de analfabetismo funcional entre os anos

de 2001 e 2009, passando de aproximadamente 27,3% para 20,3%. Esta é uma queda

considerável. A projeção do gráfico para o ano de 2009 seria 19,7%, atingindo no ano de

2019 17,1%. Por se tratar de uma função quadrática, existe uma variação no intervalo de

queda de um ano para o outro, sendo que quanto mais o tempo passa, mais lentamente o

percentual da taxa de analfabetismo irá diminuir. Em outras palavras, a variação na

diminuição da taxa de analfabetismo funcional entre 2001 e 2003 foi de aproximadamente

-1%, e num mesmo intervalo de tempo de 2 anos, de acordo com o gráfico, a variação na

taxa de analfabetismo funcional de 2017 para 2019 será de aproximadamente -0,2%.

Esta variação indica, em termos matemáticos, que apesar de a taxa de

analfabetismo funcional ir diminuindo ao longo dos anos, ela irá diminuir cada vez mais

lentamente. Outro ponto a se destacar é que esta taxa está relacionada a outros fatores,

como por exemplo, o fator econômico, social, político, e durante os períodos de previsão

podem haver alguns eventos que causem mudanças neste cenário, fazendo com que os

dados se modifiquem e a função tenha um outro comportamento.

Também é perceptível a diferença dos resultados gerados pela previsão do modelo

linear e do modelo quadrático, enquanto no modelo linear o valor da taxa de

analfabetismo funcional em 2019 é de aproximadamente 11,5%, no modelo quadrático é

de 17,1%. Cabe ressaltar que o modelo linear é o que apresenta os maiores valores de

MAPE, MAD e MSD.

Também foram realizadas as análises para a variável “Média de Anos de Estudo

de Pessoas com 10 Anos ou Mais de Idade”. A Figura 5 representa o gráfico de tendência

com modelo linear dos dados desta variável, a Figura 6 representa o gráfico de tendência

com modelo quadrático, a Figura 7 representa o gráfico de tendência com modelo

exponencial e a Figura 8 representa o gráfico de tendência com modelo de curva S. Para

esta variável também foram realizadas projeções para 10 anos a partir da data limite do

último ano disponível pelos dados obtidos através do site do IBGE. As Tabelas 10, 11,

12 e 13 apresentam os dados das previsões de 10 anos para os modelos linear, quadrático,

exponencial e S-Curve, respectivamente, da variável.

20152013201120092007200520032001199919971995

MAPE 2,15857

MAD 0,13225

MSD 0,02334

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Média de Anos de EstudosLinear Trend Model

Yt = 5,212 + 0,181*t

Figura 5: Análise de Tendência para a Variável Média de Anos de Estudo de Pessoas com 10 Anos

ou Mais de Idade; Modelo Linear.

Fonte: IBGE

Tabela 10: Previsões de 2010 a 2019 para a Variável Média de Anos de Estudo de

Pessoas com 10 Anos ou Mais de Idade; Modelo Linear.

Ano Previsão da Média de Anos de

Estudo de Pessoas com 10

Anos ou Mais de Idade (Anos)

2007 7,57121

2008 7,75268

2009 7,93415

2010 8,11562

2011 8,29709

2012 8,47855

2013 8,66002

2014 8,84149

2015 9,02296

2016 9,20443 Fonte: IBGE

20152013201120092007200520032001199919971995

MAPE 0,914544

MAD 0,055145

MSD 0,004795

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Média de Anos de EstudosQuadratic Trend Model

Yt = 4,8205 + 0,3493*t - 0,01291*t**2

Figura 6: Análise de Tendência para a Variável Média de Anos de Estudo de Pessoas com 10 Anos ou

Mais de Idade; Modelo Quadrático

Fonte: IBGE

Pessoas com 10 Anos ou Mais de Idade; Modelo Quadrático.

2007 7,17955

2008 7,18024

2009 7,15512

2010 7,10417

2011 7,02740

2012 6,92480

2013 6,79638

2014 6,64213

2015 6,46206

2016 6,25617 Fonte: IBGE

20152013201120092007200520032001199919971995

MAPE 2,57141

MAD 0,15933

MSD 0,03215

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Média de Anos de EstudosGrowth Curve Model

Yt = 5,2594 * (1,02960**t)

Figura 7: Análise de Tendência para a Variável Média de Anos de Estudo de Pessoas com 10 Anos ou

Mais de Idade; Modelo Exponencial.

Fonte: IBGE

Pessoas com 10 Anos ou Mais de Idade; Modelo Exponencial.

2007 7,68496

2008 7,91246

2009 8,14669

2010 8,38786

2011 8,63617

2012 8,89182

2013 9,15505

2014 9,42607

2015 9,70511

2016 9,99241 Fonte: IBGE

20152013201120092007200520032001199919971995

Intercept 4,79785

Asymptote 7,52711

Asym. Rate 0,81476

Curve Parameters

MAPE 0,832735

MAD 0,049371

MSD 0,004243

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Média de Anos de EstudosS-Curve Trend Model

Yt = (10**2) / (13,2853 + 7,55736*(0,814763**t))

Figura 8: Análise de Tendência para a Variável Média de Anos de Estudo de Pessoas com 10 Anos ou Mais de

Idade; Modelo S-Curve.

Fonte: IBGE

Pessoas com 10 Anos ou Mais de Idade; Modelo S-Curve.

2007 7,23994

2008 7,29147

2009 7,33400

2010 7,36902

2011 7,39780

2012 7,42147

2013 7,44077

2014 7,45662

2015 7,46958

2016 7,48017 Fonte: IBGE

representados pelas Figuras de 5 a 8, que representam os modelos linear, quadrático,

exponencial e s-curve da variável Média de Anos de Estudo de Pessoas com 10 Anos ou

Mais de Idade.

Tabela 14: MAPE, MAD e MSD da variável Taxa de Analfabetismo Funcional.

Linear Quadrática Exponencial S-Curve

MAPE 2,15857 0,914544 2,57141 0,832735

MAD 0,13225 0,055145 0,15933 0,049371

MSD 0,02334 0,004795 0,03215 0,004243 Fonte: IBGE

Dos quatro modelos apresentados, o que possui os menores valores no MAPE,

MAD e MSD é o S-Curve, e verificando-se os gráficos é possível perceber que é o que

melhor representa as projeções da quantidade de anos de estudos das pessoas com 10 anos

ou mais de idade. Esta função mostra uma taxa de variação bem pequena na quantidade

de anos de estudo no decorrer dos anos. Pode-se perceber que nas projeções demoraria

seis anos aproximadamente para que ocorresse um acréscimo de 0,1 de ano de estudo em

média na população, entre os anos de 2011 e 2016. A taxa de variação da média dos anos

de estudo deste modelo vai diminuindo com o passar dos anos, fazendo com que a curva

do gráfico se torne cada vez mais linear. Estes valores das projeções não consideram

possíveis variações no ambiente decorrentes de questões políticas, econômicas entre

outras.

O que é interessante notar é que o modelo quadrático, apesar de possui um MAPE,

MAD e MSD relativamente próximo, possui uma curva que é uma parábola com

concavidade para baixo. Desta maneira, o número de anos de estudo da população

chegaria a um ponto máximo no ano de 2008 e após este ano começaria a cair. Este

modelo possui este comportamento por ser uma função de segundo grau, mas

provavelmente o número de anos de estudo da população não deve cair, mas aumentar,

portanto este modelo não parece muito bom para projetar o futuro.

Os modelos linear e exponencial possuem valores de MAPE, MAD e MSD muito

altos, e observando os gráficos, pode-se perceber que são modelos muito otimistas em

relação as projeções futuras, aumentando o número médio de anos de estudos no decorrer

dos anos muito rapidamente, o que não parece estar de acordo com a realidade.

Realizou-se as análises de tendência e as projeções para a variável “Docentes com

Curso Superior no Ensino Fundamental da Rede Pública”.

A Figura 9 representa o gráfico de tendência com modelo linear dos dados desta

variável, a Figura 10 representa o gráfico de tendência com modelo quadrático, a Figura

11 representa o gráfico de tendência com modelo exponencial e a Figura 12 representa o

gráfico de tendência com modelo de curva S. Para esta variável também foram realizadas

projeções para 10 anos a partir da data limite do último ano disponível pelos dados obtidos

através do site do IBGE. As Tabelas 15, 16, 17 e 18 apresentam os dados das previsões

de 10 anos para os modelos linear, quadrático, exponencial e S-Curve, respectivamente,

desta variável.

201520132011200920072005200320011999

MAPE 3,62475

MAD 1,96250

MSD 4,98448

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Docentes com Curso SuperiorLinear Trend Model

Yt = 37,92 + 3,64*t

Figura 9: Análise de Tendência para a Variável Docentes com Curso Superior no Ensino Fundamental da

Rede Pública; Modelo Linear.

Fonte: MEC/INEP; EDUDATABRASIL

Tabela 15: Previsões de 2007 a 2016 para a Variável Docentes com Curso Superior no

Ensino Fundamental da Rede Pública; Modelo Linear.

Ano Docentes com Curso Superior

Rede Pública (%)

2007 70,700

2008 74,342

2009 77,983

2010 81,625

2011 85,267

2012 88,908

2013 92,550

2014 96,192

2015 99,830

2016 103,475 Fonte: MEC/INEP; EDUDATABRASIL

201520132011200920072005200320011999

MAPE 0,828721

MAD 0,452679

MSD 0,399472

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Docentes com Curso SuperiorQuadratic Trend Model

Yt = 44,93 - 0,564*t + 0,4673*t**2

Rede Pública; Modelo Quadrático.

Ensino Fundamental da Rede Pública; Modelo Quadrático.

Rede Pública (%)

2007 77,709

2008 86,023

2009 95,272

2010 105,455

2011 116,573

2012 128,626

2013 141,612

2014 155,534

2015 170,390

201520132011200920072005200320011999

MAPE 2,70829

MAD 1,49781

MSD 3,02162

Accuracy Measures

Actual

Forecasts

Variable

Análise de Tendência da Variável Docentes com Curso SuperiorGrowth Curve Model

Yt = 39,9329 * (1,06787**t)

Rede Pública; Modelo Exponencial.

Ensino Fundamental da Rede Pública; Modelo Exponencial.

Rede Pública (%)

2007 72,110

2008 77,004

2009 82,230

2010 87,811

2011 93,771

2012 100,135

2013 106,931

2014 114,118

2015 121,938

201520132011200920072005200320011999

Intercept 25,4559

Asymptote 31,7194

Asym. Rate 1,1069

Curve Parameters

MAPE 1,05906

MAD 0,56618

MSD 0,44014

Accuracy Measures

Actual

Forecasts

Variable

Trend Analysis Plot for Docentes com Curso Superior noS-Curve Trend Model

Yt = (10**3) / (31,5265 - 7,75718*(1,10694**t))

Rede Pública; Modelo S-Curve.

Ensino Fundamental da Rede Pública; Modelo S-Curve.

Rede Pública (%)

2007 82,17

2008 99,01

2009 128,07

2010 189,68

2011 405,79

2012 -1533,60

2013 -244,86

2014 -126,71

2015 -82,59

2016 -59,62 Fonte: MEC/INEP; EDUDATABRASIL

representados pelas Figuras de 9 a 12, que representam os modelos linear, quadrático,

exponencial e s-curve da variável Docentes com Curso Superior no Ensino Fundamental

da Rede Pública.

Tabela 14: MAPE, MAD e MSD da variável Docentes com Curso Superior no Ensino

Fundamental da Rede Pública

Linear Quadrático Exponencial S-Curve

MAPE 3,62475 0,828721 2,70829 1,05906

MAD 1,96250 0,452679 1,49781 0,56618

MSD 4,98448 0,399472 3,02162 0,44014 Fonte: MEC/INEP; EDUDATABRASIL

. Pode-se perceber que o modelo que tem os menores valores de MAPE, MAD e

MSD é o quadrático. Utilizando-se este modelo como parâmetro para realizar as projeções

para os anos futuros da variável Docentes com Curso Superior no Ensino Fundamental

da Rede Pública, é possível perceber que o percentual de professores com formação

superior irá aumentar no futuro, como já vem aumentando no decorrer de 1999 a 2006. É

desejável que os professores sejam qualificados para que as aulas possam tem uma maior

qualidade. Porém este modelo não leva em conta que se trata de um número percentual,

o que faz com que ultrapasse os 100% no ano de 2010, o que não é possível, já que o

limite de percentual de professores com nível superior é 100%. Também não é possível

afirmar que em 2010 todos os professores estarão graduados com nível superior, esta

afirmação provavelmente seria equivocada, o percentual deve subir aos poucos e não

atingir o 100%.

No modelo linear, o percentual atingiria e ultrapassaria o 100% no ano de 2016, o

que também não parece ser uma boa projeção, assim como o modelo exponencial. Estes

modelos apresentam valor que possivelmente estão fora do que acontece na realidade, por

haver muitas variáveis ambientais e históricas que também definem esta taxa, além das

diferenças regionais ao acesso à educação superior no Brasil.

É possível analisar que o modelo gerado pela Curva-S também não é bom, pois a

taxa varia percentualmente muito nos primeiros anos, atingindo um pico de 405,8%, e

depois cai bruscamente atingindo valores negativos. O comportamento deste gráfico e os

valores negativos, neste caso, não fazem sentido, portanto este modelo deve ser

descartado.

3.4 Considerações

Este capítulo buscou construir os gráficos de tendências e realizar as projeções

futuras de três variáveis, “Taxa de Analfabetismo Funcional”, “Média de Anos de Estudo

de Pessoas com 10 Anos ou Mais de Idade” e “Docentes com Nível Superior no Ensino

Fundamental na Rede Pública”. Com isso buscou-se verificar o comportamento provável

destas variáveis nos próximos 10 anos, a partir do último dado disponível pelo IBGE.

Foram utilizados os modelos de tendência linear, quadrático, exponencial e S-

Curve para verificar qual o que melhor se adequa para realizar as previsões. É possível

verificar que as previsões foram construídas apenas com base nos modelos matemáticos

das séries históricas, e não levam em consideração mudanças no ambiente social, político

e econômicos, entre outros.

De acordo com os resultados, os três indicadores devem apresentar melhora nos

próximos anos, já que a taxa de analfabetismo funcional deve cair, a média de anos de

estudo de pessoas com 10 anos ou mais de idade e o percentual de docentes com nível

superior ne ensino fundamental na rede pública devem subir.

É necessário ficar atento aos resultados da variável “Docentes com Nível Superior

no Ensino Fundamental na Rede Pública”, pois aparentemente nenhum dos modelos foi

capaz de realizar projeções para o futuro de forma realista, o que indica que será

necessário considerar outras variáveis para explicar esta.

CAPÍTULO 4. REGRESSÃO LINEAR

O presente capítulo tem como objetivo realizar uma análise de regressão linear

múltipla a partir das variáveis selecionadas para estudo e descritas no capítulo 1.

A regressão linear múltipla é o estudo de como uma variável dependente y se

relaciona com outras variáveis independentes. Os modelos de regressão múltipla se

apresentam de modo similar a y = C + A*X1 + B*X2 + C*X3 + ... + e (ANDERSON;

SWEENEY; WILLIANS).

O trabalho buscará verificar como a variável PIND, que representa “A proporção

dos indivíduos com renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, em

reais de agosto de 2010. O universo de indivíduos é limitado àqueles que vivem em

domicílios particulares permanentes”, se relaciona com as outras variáveis selecionadas

para o estudo.

Desta maneira, pode-se estimar as relações das variáveis independentes Xn, na

variável dependente y através do software estatístico MINITAB.

4.1.Análise de Regressão

Neste capítulo será apresentada a análise de regressão e Step-Wise entre a variável

PIND e as demais variáveis. Com as análises feitas pelo software estatístico MINITAB é

possível verificar como a variável PIND se relaciona com todas as outras variáveis

selecionadas para o estudo, exceto com as variáveis IDHM, IDHM_E, IDHM_L e

IDHM_R.

A seguir são apresentadas as análises realizadas pelo MINITAB.

Regression Analysis: PIND versus FECTOT; MORT1; ... The regression equation is

PIND = 7,63 + 1,12 FECTOT + 0,00062 MORT1 - 0,0934 E_ANOSESTUDO

+ 0,0419 T_ANALF15A17 + 0,726 PINDCRI - 0,0437 PPOBCRI - 0,00541

P_SUPER

- 0,00685 T_DES18M - 0,0168 TRABSC - 0,00955 T_AGUA - 0,0701 T_LUZ

+ 0,0431 PAREDE + 0,0599 T_NESTUDA_NTRAB_MMEIO - 0,00151

T_MULCHEFEFIF014

+ 0,000007 HOMEM10A14 - 0,000030 HOMEM70A74

Predictor Coef SE Coef T P

Constant 7,6342 0,4307 17,73 0,000

FECTOT 1,11584 0,04934 22,61 0,000

MORT1 0,000619 0,004340 0,14 0,887

E_ANOSESTUDO -0,09338 0,02060 -4,53 0,000

T_ANALF15A17 0,04192 0,01057 3,97 0,000

PINDCRI 0,726428 0,002960 245,39 0,000

PPOBCRI -0,043688 0,002297 -19,02 0,000

P_SUPER -0,005412 0,006346 -0,85 0,394

T_DES18M -0,006853 0,006061 -1,13 0,258

TRABSC -0,016827 0,002432 -6,92 0,000

T_AGUA -0,009554 0,001695 -5,64 0,000

T_LUZ -0,070086 0,003836 -18,27 0,000

PAREDE 0,043064 0,002432 17,71 0,000

T_NESTUDA_NTRAB_MMEIO 0,059923 0,005144 11,65 0,000

T_MULCHEFEFIF014 -0,001512 0,002347 -0,64 0,519

HOMEM10A14 0,00000672 0,00000957 0,70 0,483

HOMEM70A74 -0,00003017 0,00004407 -0,68 0,494

S = 1,27226 R-Sq = 98,8% R-Sq(adj) = 98,8%

Analysis of Variance

Source DF SS MS F P

Regression 16 761039 47565 29385,64 0,000

Residual Error 5548 8980 2

Total 5564 770019

Source DF Seq SS

FECTOT 1 282334

MORT1 1 215977

E_ANOSESTUDO 1 16432

T_ANALF15A17 1 35023

PINDCRI 1 208522

PPOBCRI 1 1201

P_SUPER 1 0

T_DES18M 1 4

TRABSC 1 77

T_AGUA 1 24

T_LUZ 1 668

PAREDE 1 556

T_NESTUDA_NTRAB_MMEIO 1 221

T_MULCHEFEFIF014 1 1

HOMEM10A14 1 0

HOMEM70A74 1 1

Unusual Observations

Obs FECTOT PIND Fit SE Fit Residual St Resid

17 2,13 2,6400 3,3678 0,1274 -0,7278 -0,57 X

19 2,93 16,8500 13,6920 0,0586 3,1580 2,48R

61 3,84 49,1700 46,4392 0,1882 2,7308 2,17RX

63 3,71 25,4400 29,2857 0,1249 -3,8457 -3,04RX

64 4,26 39,3100 37,9086 0,1593 1,4014 1,11 X

66 4,22 34,9200 35,0793 0,1275 -0,1593 -0,13 X

69 3,28 63,0500 59,0304 0,2036 4,0196 3,20RX

72 4,89 34,5900 38,0874 0,1197 -3,4974 -2,76R

75 3,43 30,8800 26,4452 0,1074 4,4348 3,50R

76 3,79 42,8100 39,2708 0,1109 3,5392 2,79R

80 3,62 44,7500 43,6120 0,1934 1,1380 0,90 X

82 2,72 47,3700 45,9282 0,2087 1,4418 1,15 X

83 4,86 46,2300 42,9416 0,1365 3,2884 2,60RX

86 4,47 40,0500 35,3915 0,1267 4,6585 3,68RX

92 3,17 41,2700 34,6910 0,0838 6,5790 5,18R

93 3,30 30,3600 26,3728 0,1160 3,9872 3,15R

97 4,18 35,8700 36,3159 0,1400 -0,4459 -0,35 X

98 4,07 37,8000 35,2228 0,0932 2,5772 2,03R

99 3,85 51,4800 47,8834 0,1109 3,5966 2,84R

101 4,05 39,5300 38,7981 0,1791 0,7319 0,58 X

104 3,90 55,5100 50,3293 0,1430 5,1807 4,10RX

105 3,40 27,7900 23,1249 0,0724 4,6651 3,67R

106 3,79 22,5500 22,0515 0,1594 0,4985 0,39 X

107 4,43 32,2300 33,1465 0,1542 -0,9165 -0,73 X

108 4,84 40,9500 38,6758 0,1383 2,2742 1,80 X

112 2,06 3,7500 4,3569 0,5255 -0,6069 -0,52 X

114 3,96 52,1400 45,2763 0,1254 6,8637 5,42RX

116 3,39 43,7800 41,1392 0,1114 2,6408 2,08R

117 2,89 33,1800 30,4614 0,1014 2,7186 2,14R

121 3,71 47,2300 44,4129 0,1391 2,8171 2,23RX

123 2,60 18,2800 14,2826 0,0691 3,9974 3,15R

124 2,87 55,1100 53,8835 0,2675 1,2265 0,99 X

125 3,21 55,8300 46,9832 0,1136 8,8468 6,98R

126 2,43 42,5600 40,5340 0,1231 2,0260 1,60 X

127 3,65 47,9900 43,2069 0,1215 4,7831 3,78R

129 4,44 25,9800 26,9791 0,1219 -0,9991 -0,79 X

133 4,33 30,9300 31,0524 0,1253 -0,1224 -0,10 X

137 4,06 59,8900 60,0276 0,2930 -0,1376 -0,11 X

138 3,57 51,4200 51,3373 0,3037 0,0827 0,07 X

144 2,64 36,2700 35,5449 0,1601 0,7251 0,57 X

146 3,12 47,5900 45,4409 0,2015 2,1491 1,71 X

151 3,45 69,6700 62,3950 0,2348 7,2750 5,82RX

155 3,22 45,6500 41,9619 0,1132 3,6881 2,91R

156 2,25 22,3600 16,1909 0,0782 6,1691 4,86R

160 4,09 38,5300 39,3345 0,1246 -0,8045 -0,64 X

161 1,70 4,1600 3,7778 0,1288 0,3822 0,30 X

164 2,86 33,5800 30,9627 0,0789 2,6173 2,06R

166 3,76 28,3400 30,8369 0,1242 -2,4969 -1,97 X

167 2,63 28,2100 25,5582 0,0531 2,6518 2,09R

170 1,69 3,5400 3,6676 0,1994 -0,1276 -0,10 X

176 2,36 26,6300 23,9529 0,0644 2,6771 2,11R

180 3,20 31,2500 27,6447 0,0812 3,6053 2,84R

188 2,53 43,4100 41,1456 0,1334 2,2644 1,79 X

192 3,17 24,5800 28,6945 0,1192 -4,1145 -3,25R

195 3,68 38,9900 34,7171 0,0816 4,2729 3,37R

210 3,01 31,6500 28,3950 0,0552 3,2550 2,56R

211 2,79 42,4100 39,6180 0,1278 2,7920 2,21RX

222 3,87 43,9200 42,1884 0,1659 1,7316 1,37 X

227 3,47 46,5500 43,7562 0,1357 2,7938 2,21RX

254 2,90 24,4300 25,2440 0,1351 -0,8140 -0,64 X

258 2,50 28,7900 26,0086 0,0802 2,7814 2,19R

269 3,34 36,2200 33,5643 0,1019 2,6557 2,09R

275 3,11 26,1800 22,5903 0,0770 3,5897 2,83R

292 3,26 44,6600 40,9250 0,0819 3,7350 2,94R

296 3,94 21,5300 22,7143 0,1244 -1,1843 -0,94 X

297 3,82 19,6500 22,8573 0,0846 -3,2073 -2,53R

303 2,25 5,8900 6,3856 0,1520 -0,4956 -0,39 X

307 4,68 37,7200 34,2311 0,1426 3,4889 2,76RX

309 4,64 36,8700 34,7090 0,1231 2,1610 1,71 X

319 2,78 17,6300 20,5103 0,0644 -2,8803 -2,27R

320 2,66 24,0600 21,3704 0,0722 2,6896 2,12R

331 2,89 22,0600 19,3578 0,0898 2,7022 2,13R

336 3,32 9,0700 11,8758 0,0846 -2,8058 -2,21R

345 3,31 30,5600 33,2322 0,1387 -2,6722 -2,11RX

370 3,47 25,4200 28,7507 0,1248 -3,3307 -2,63RX

372 3,27 13,8700 16,5723 0,0880 -2,7023 -2,13R

388 2,34 17,8300 14,0570 0,0690 3,7730 2,97R

402 3,33 31,8900 35,0792 0,1312 -3,1892 -2,52RX

409 3,23 15,3600 12,2504 0,0663 3,1096 2,45R

418 4,09 46,7800 48,0858 0,1628 -1,3058 -1,03 X

422 2,85 27,2000 29,1271 0,1283 -1,9271 -1,52 X

432 2,65 36,1500 36,8703 0,1500 -0,7203 -0,57 X

436 2,67 17,2000 14,2644 0,0706 2,9356 2,31R

439 2,35 7,4500 4,7976 0,0546 2,6524 2,09R

442 2,28 6,6800 3,0221 0,0555 3,6579 2,88R

447 2,51 22,2200 19,1305 0,0573 3,0895 2,43R

451 3,44 45,5400 44,2193 0,1321 1,3207 1,04 X

452 3,03 39,0200 36,2419 0,1019 2,7781 2,19R

453 2,78 37,9900 34,2596 0,1008 3,7304 2,94R

454 3,43 36,5500 38,4180 0,1417 -1,8680 -1,48 X

455 2,70 36,6600 33,7272 0,1021 2,9328 2,31R

462 2,94 32,9900 32,8970 0,1746 0,0930 0,07 X

464 3,06 34,7200 31,8436 0,0980 2,8764 2,27R

472 2,72 41,6200 40,1948 0,1246 1,4252 1,13 X

476 3,51 37,5600 34,9042 0,0718 2,6558 2,09R

477 4,11 58,1900 50,0654 0,1237 8,1246 6,42RX

484 2,89 34,8700 31,6312 0,0682 3,2388 2,55R

487 3,04 26,9800 27,4439 0,1495 -0,4639 -0,37 X

492 3,46 55,8600 50,3559 0,1215 5,5041 4,35R

494 3,49 51,3600 50,3691 0,1235 0,9909 0,78 X

498 2,81 36,1400 33,3273 0,0881 2,8127 2,22R

516 3,03 41,8300 38,7675 0,1112 3,0625 2,42R

520 3,32 51,6100 47,7506 0,1208 3,8594 3,05R

524 2,57 21,9900 23,6430 0,1247 -1,6530 -1,31 X

535 4,11 53,4400 49,9151 0,1256 3,5249 2,78RX

536 3,23 43,2100 42,4795 0,1364 0,7305 0,58 X

540 2,87 45,4900 41,4643 0,1349 4,0257 3,18RX

543 2,64 36,0100 31,0399 0,0945 4,9701 3,92R

544 3,06 54,2600 50,4586 0,1676 3,8014 3,01RX

555 2,85 23,1400 25,7977 0,0770 -2,6577 -2,09R

560 4,10 60,7200 57,5563 0,1722 3,1637 2,51RX

565 2,37 41,8600 37,1192 0,1278 4,7408 3,75RX

566 3,58 43,4500 39,6553 0,0833 3,7947 2,99R

567 2,84 50,2900 49,9824 0,1243 0,3076 0,24 X

575 2,42 24,8500 27,5671 0,0659 -2,7171 -2,14R

578 3,32 44,7700 39,7336 0,0896 5,0364 3,97R

580 2,83 40,3700 37,8098 0,0924 2,5602 2,02R

584 2,81 28,5600 25,6653 0,0588 2,8947 2,28R

588 3,73 42,7600 40,3456 0,1245 2,4144 1,91 X

600 3,10 51,8900 48,4550 0,1234 3,4350 2,71RX

601 2,53 27,0000 22,6016 0,0839 4,3984 3,46R

610 3,32 49,1200 46,3557 0,1157 2,7643 2,18R

617 2,92 47,1400 41,6782 0,1082 5,4618 4,31R

618 3,08 50,7800 46,0797 0,1293 4,7003 3,71RX

620 3,42 49,1400 49,3824 0,1484 -0,2424 -0,19 X

622 2,73 36,0300 33,0621 0,0688 2,9679 2,34R

628 2,59 45,5900 43,2199 0,1307 2,3701 1,87 X

629 3,52 34,9500 36,0590 0,1311 -1,1090 -0,88 X

631 3,35 37,0000 36,6475 0,1368 0,3525 0,28 X

634 2,81 37,5400 34,6069 0,0944 2,9331 2,31R

635 1,75 4,5300 4,5645 0,1886 -0,0345 -0,03 X

643 2,36 41,5700 38,3284 0,0898 3,2416 2,55R

644 2,98 44,5300 41,3658 0,1177 3,1642 2,50R

647 3,20 48,6800 46,6981 0,1466 1,9819 1,57 X

670 1,95 28,9100 31,8289 0,1285 -2,9189 -2,31RX

674 3,22 39,7200 35,5311 0,0848 4,1889 3,30R

678 2,65 20,7600 19,9375 0,1299 0,8225 0,65 X

679 2,31 22,6200 20,0130 0,0719 2,6070 2,05R

680 1,69 30,9400 32,2383 0,1242 -1,2983 -1,03 X

682 2,85 48,3200 46,8272 0,1641 1,4928 1,18 X

687 2,82 21,7500 26,3528 0,1062 -4,6028 -3,63R

690 2,19 36,9000 36,1421 0,1384 0,7579 0,60 X

694 2,62 42,1500 42,9850 0,1256 -0,8350 -0,66 X

699 2,12 22,6000 25,4191 0,1681 -2,8191 -2,24RX

702 2,56 26,3900 23,1246 0,1042 3,2654 2,58R

705 1,94 28,7300 26,0791 0,0586 2,6509 2,09R

708 2,32 23,6000 25,7427 0,1258 -2,1427 -1,69 X

710 2,06 44,8000 42,2705 0,2205 2,5295 2,02RX

717 2,58 40,1900 42,2754 0,1952 -2,0854 -1,66 X

719 2,78 45,5900 44,8467 0,1266 0,7433 0,59 X

730 2,40 39,4600 39,5866 0,1874 -0,1266 -0,10 X

734 2,75 21,2700 24,1644 0,0674 -2,8944 -2,28R

737 2,58 37,4900 35,7337 0,1779 1,7563 1,39 X

739 2,44 26,2400 31,1147 0,1774 -4,8747 -3,87RX

741 2,42 30,7000 34,3366 0,1351 -3,6366 -2,87RX

742 2,23 39,2300 40,9330 0,2037 -1,7030 -1,36 X

743 2,25 19,6000 22,1715 0,0577 -2,5715 -2,02R

746 3,08 36,2400 39,5626 0,1371 -3,3226 -2,63RX

751 2,18 26,4500 31,5094 0,0696 -5,0594 -3,98R

754 1,84 18,6200 21,3507 0,0556 -2,7307 -2,15R

758 2,80 43,4000 38,0910 0,1186 5,3090 4,19R

759 2,38 30,1100 27,2216 0,0651 2,8884 2,27R

765 2,45 21,3400 24,8919 0,0660 -3,5519 -2,80R

766 1,92 35,6400 33,7026 0,1438 1,9374 1,53 X

768 2,59 27,1400 24,1058 0,0766 3,0342 2,39R

772 2,53 45,4000 40,3855 0,0830 5,0145 3,95R

777 2,47 37,0100 34,1550 0,0740 2,8550 2,25R

780 2,28 48,0200 45,7970 0,1313 2,2230 1,76 X

781 2,48 36,3300 37,1933 0,1227 -0,8633 -0,68 X

782 2,46 22,0800 25,7980 0,0781 -3,7180 -2,93R

783 2,51 40,4700 35,6130 0,0960 4,8570 3,83R

789 2,61 12,4500 11,4826 0,1666 0,9674 0,77 X

795 1,99 43,9500 42,4743 0,1241 1,4757 1,17 X

799 3,04 45,6300 41,3701 0,1538 4,2599 3,37RX

803 2,66 19,1300 20,3005 0,1277 -1,1705 -0,92 X

805 2,93 28,3000 31,0742 0,0996 -2,7742 -2,19R

806 2,23 28,1500 30,7397 0,0771 -2,5897 -2,04R

807 2,01 34,6400 36,2968 0,1797 -1,6568 -1,32 X

809 2,64 33,1400 34,1011 0,1383 -0,9611 -0,76 X

812 2,87 35,2700 38,9459 0,1209 -3,6759 -2,90R

816 2,91 32,7700 28,8241 0,0889 3,9459 3,11R

818 2,19 23,2600 26,6281 0,1027 -3,3681 -2,66R

824 2,70 42,2700 39,4882 0,0961 2,7818 2,19R

825 2,72 42,6000 39,6031 0,0951 2,9969 2,36R

834 1,69 38,5500 34,5111 0,1052 4,0389 3,19R

835 2,83 28,5900 25,6237 0,0599 2,9663 2,33R

837 2,85 45,6700 42,8411 0,1165 2,8289 2,23R

838 2,76 41,3700 38,4155 0,0983 2,9545 2,33R

851 2,09 17,5700 21,0912 0,0662 -3,5212 -2,77R

852 2,09 48,3800 44,9479 0,1327 3,4321 2,71RX

854 2,64 35,0800 35,3439 0,1692 -0,2639 -0,21 X

855 2,43 32,2400 32,6329 0,1309 -0,3929 -0,31 X

858 2,26 33,9800 37,0576 0,1107 -3,0776 -2,43R

860 2,69 41,1200 41,6283 0,1622 -0,5083 -0,40 X

866 2,14 23,2900 26,5679 0,2046 -3,2779 -2,61RX

868 2,01 27,5600 30,5206 0,1130 -2,9606 -2,34R

873 2,96 36,5700 37,6221 0,1705 -1,0521 -0,83 X

874 2,62 40,5700 40,9694 0,1440 -0,3994 -0,32 X

881 2,50 23,5800 27,0153 0,1005 -3,4353 -2,71R

882 1,42 4,4400 3,9102 0,1452 0,5298 0,42 X

886 2,67 38,1900 39,6199 0,1515 -1,4299 -1,13 X

888 2,45 45,6800 40,5194 0,1167 5,1606 4,07R

889 1,89 31,4300 27,6747 0,1215 3,7553 2,97R

949 1,62 3,3600 3,0251 0,3340 0,3349 0,27 X

1022 2,31 24,5100 27,4160 0,0993 -2,9060 -2,29R

1040 2,42 27,4400 30,1196 0,0757 -2,6796 -2,11R

1090 2,03 20,0300 24,9727 0,0555 -4,9427 -3,89R

1116 2,14 25,8700 21,7893 0,0790 4,0807 3,21R

1126 2,69 15,1800 17,9864 0,0530 -2,8064 -2,21R

1135 2,42 24,4700 27,6596 0,0887 -3,1896 -2,51R

1139 1,93 41,3600 42,2224 0,1285 -0,8624 -0,68 X

1159 2,83 26,0000 29,2351 0,0744 -3,2351 -2,55R

1169 2,55 13,7900 16,6127 0,0859 -2,8227 -2,22R

1170 3,58 23,2000 26,4078 0,0890 -3,2078 -2,53R

1178 2,59 24,7200 27,5403 0,0638 -2,8203 -2,22R

1196 2,37 24,0900 26,8589 0,0683 -2,7689 -2,18R

1223 2,11 23,7500 20,9547 0,0700 2,7953 2,20R

1234 2,72 15,8900 18,9264 0,0623 -3,0364 -2,39R

1237 2,50 12,4700 15,0534 0,0648 -2,5834 -2,03R

1241 2,40 12,7200 9,8823 0,0872 2,8377 2,24R

1242 1,87 29,1400 25,1991 0,0762 3,9409 3,10R

1245 2,01 21,4300 24,3258 0,0504 -2,8958 -2,28R

1247 1,96 21,6400 23,0674 0,1358 -1,4274 -1,13 X

1248 2,34 21,5700 23,8206 0,1237 -2,2506 -1,78 X

1254 2,35 24,2000 28,0219 0,0655 -3,8219 -3,01R

1260 2,11 13,1500 13,9744 0,1417 -0,8244 -0,65 X

1263 2,49 32,0300 30,9883 0,1473 1,0417 0,82 X

1265 2,38 26,9300 29,8992 0,0589 -2,9692 -2,34R

1266 2,47 13,8300 17,4418 0,0756 -3,6118 -2,84R

1284 1,92 20,0800 24,3670 0,0510 -4,2870 -3,37R

1287 2,92 36,9700 33,5899 0,1434 3,3801 2,67RX

1290 1,92 27,0300 23,2128 0,0795 3,8172 3,01R

1298 2,00 24,5800 29,0067 0,0640 -4,4267 -3,48R

1327 1,59 12,5200 9,9561 0,0735 2,5639 2,02R

1332 1,85 13,9400 16,5397 0,0560 -2,5997 -2,05R

1334 2,59 22,0400 25,9041 0,0792 -3,8641 -3,04R

1346 1,62 22,5300 25,2571 0,1083 -2,7271 -2,15R

1367 2,26 33,3000 36,9822 0,0729 -3,6822 -2,90R

1368 2,31 31,9300 35,2885 0,0720 -3,3585 -2,64R

1373 1,96 28,0500 31,8275 0,0823 -3,7775 -2,98R

1375 2,19 22,4700 26,3743 0,0859 -3,9043 -3,08R

1376 1,95 20,7200 18,1396 0,1039 2,5804 2,03R

1387 2,17 22,8500 25,4932 0,0557 -2,6432 -2,08R

1391 1,69 16,7200 19,6596 0,0509 -2,9396 -2,31R

1394 1,68 13,2200 16,2354 0,0676 -3,0154 -2,37R

1400 1,97 31,1300 31,7751 0,1270 -0,6451 -0,51 X

1402 2,23 25,3300 28,0954 0,0755 -2,7654 -2,18R

1408 2,11 27,8500 28,1961 0,1621 -0,3461 -0,27 X

1409 1,85 21,3400 24,0131 0,0673 -2,6731 -2,10R

1418 2,08 15,9000 14,7573 0,1362 1,1427 0,90 X

1420 2,27 11,0000 13,6978 0,0606 -2,6978 -2,12R

1423 2,03 17,5400 21,3322 0,0740 -3,7922 -2,99R

1426 1,99 29,3100 32,9069 0,0807 -3,5969 -2,83R

1428 2,22 18,7400 21,2913 0,0827 -2,5513 -2,01R

1432 2,23 20,4500 23,4885 0,1048 -3,0385 -2,40R

1433 2,23 22,4600 24,5312 0,1399 -2,0712 -1,64 X

1447 2,09 21,6700 24,5212 0,0633 -2,8512 -2,24R

1451 2,85 28,3800 29,9359 0,1307 -1,5559 -1,23 X

1458 1,95 13,9100 12,8415 0,1497 1,0685 0,85 X

1459 1,65 19,8300 22,5359 0,0568 -2,7059 -2,13R

1471 2,28 18,9300 21,7503 0,0838 -2,8203 -2,22R

1498 1,92 42,7700 37,9002 0,0955 4,8698 3,84R

1534 2,33 28,7900 31,3450 0,0696 -2,5550 -2,01R

1541 2,64 41,1900 39,0218 0,1564 2,1682 1,72 X

1570 2,51 41,0500 38,0858 0,1335 2,9642 2,34RX

1582 2,21 34,3600 31,3354 0,0893 3,0246 2,38R

1587 2,91 23,2300 26,4413 0,0635 -3,2113 -2,53R

1596 1,35 4,7700 5,0586 0,1515 -0,2886 -0,23 X

1601 1,74 27,4700 26,1953 0,1447 1,2747 1,01 X

1610 1,90 16,2200 16,2818 0,1227 -0,0618 -0,05 X

1641 2,56 45,0800 41,6968 0,0870 3,3832 2,67R

1645 2,10 21,3400 23,0327 0,1296 -1,6927 -1,34 X

1658 2,66 43,5200 38,5266 0,0757 4,9934 3,93R

1660 2,03 13,7200 13,3713 0,1259 0,3487 0,28 X

1678 2,10 30,9000 26,8576 0,0816 4,0424 3,18R

1679 2,92 17,6400 16,7487 0,1219 0,8913 0,70 X

1681 2,27 39,2200 35,7819 0,0843 3,4381 2,71R

1685 2,59 44,9100 39,1530 0,0889 5,7570 4,54R

1696 1,77 5,2900 6,2131 0,1924 -0,9231 -0,73 X

1712 2,66 46,2500 43,6625 0,1148 2,5875 2,04R

1727 2,66 46,6600 41,3830 0,1059 5,2770 4,16R

1730 2,46 38,1200 35,3651 0,0775 2,7549 2,17R

1737 2,17 37,6700 33,6190 0,1008 4,0510 3,19R

1739 2,83 39,7000 37,1404 0,0931 2,5596 2,02R

1749 2,62 47,1500 45,7089 0,1371 1,4411 1,14 X

1774 2,21 17,5700 20,1494 0,0973 -2,5794 -2,03R

1780 2,31 16,8100 20,0996 0,0545 -3,2896 -2,59R

1804 2,79 36,4100 33,4809 0,0830 2,9291 2,31R

1816 2,30 20,1900 20,6360 0,1317 -0,4460 -0,35 X

1832 1,61 23,6900 28,8833 0,0852 -5,1933 -4,09R

1849 2,63 13,0500 16,4589 0,0657 -3,4089 -2,68R

1858 2,23 24,4300 27,6172 0,0615 -3,1872 -2,51R

1859 2,36 23,3000 25,9289 0,0725 -2,6289 -2,07R

1882 2,57 31,8200 35,1140 0,1050 -3,2940 -2,60R

1891 1,92 27,5800 27,8955 0,1444 -0,3155 -0,25 X

1899 3,18 40,5100 41,3968 0,1432 -0,8868 -0,70 X

1920 1,73 24,6900 27,4260 0,0804 -2,7360 -2,15R

1922 2,73 28,9300 31,6157 0,0719 -2,6857 -2,11R

1933 2,31 17,1800 19,8579 0,0894 -2,6779 -2,11R

1935 1,61 17,2900 20,1493 0,0621 -2,8593 -2,25R

1961 2,01 30,2100 27,3501 0,0610 2,8599 2,25R

1962 2,73 11,3600 14,1036 0,0468 -2,7436 -2,16R

1968 1,83 23,6700 26,7719 0,0737 -3,1019 -2,44R

2005 2,22 29,6500 26,5688 0,0667 3,0812 2,43R

2038 2,62 31,2300 28,3807 0,0747 2,8493 2,24R

2053 3,20 31,4700 35,9140 0,0987 -4,4440 -3,50R

2055 1,98 29,1000 26,2918 0,0748 2,8082 2,21R

2067 1,81 19,2900 22,8476 0,0853 -3,5576 -2,80R

2073 2,65 37,4500 34,7143 0,0730 2,7357 2,15R

2083 2,33 18,2500 21,1966 0,0583 -2,9466 -2,32R

2095 2,70 36,6600 32,6392 0,0717 4,0208 3,17R

2101 2,39 17,4000 20,1275 0,0563 -2,7275 -2,15R

2108 1,89 28,8900 25,8369 0,0726 3,0531 2,40R

2119 3,03 22,5200 25,2909 0,0588 -2,7709 -2,18R

2129 2,73 20,1600 23,3263 0,0830 -3,1663 -2,49R

2145 2,77 23,0900 26,1038 0,0485 -3,0138 -2,37R

2149 2,51 30,9200 26,1887 0,0554 4,7313 3,72R

2162 1,53 3,9700 4,3099 0,3483 -0,3399 -0,28 X

2167 2,35 15,0800 12,4608 0,0824 2,6192 2,06R

2181 2,44 11,3300 8,7588 0,0504 2,5712 2,02R

2204 3,24 47,7700 43,7281 0,1023 4,0419 3,19R

2207 2,58 30,5600 27,0113 0,0715 3,5487 2,79R

2234 2,24 19,4400 22,2850 0,0697 -2,8450 -2,24R

2236 1,91 23,3600 26,7853 0,0721 -3,4253 -2,70R

2242 2,94 15,2500 18,0708 0,0555 -2,8208 -2,22R

2309 1,33 0,7900 0,3457 0,2316 0,4443 0,36 X

2313 3,13 17,7000 20,7382 0,1298 -3,0382 -2,40RX

2334 3,22 20,0200 23,3290 0,0665 -3,3090 -2,60R

2376 1,60 10,5200 13,1654 0,0665 -2,6454 -2,08R

2443 1,85 19,0700 22,3800 0,0695 -3,3100 -2,61R

2457 2,16 14,1600 17,8000 0,0533 -3,6400 -2,86R

2480 1,70 6,8500 3,0538 0,0488 3,7962 2,99R

2484 1,89 20,9200 25,3846 0,0833 -4,4646 -3,52R

2531 2,01 10,4500 13,3174 0,0552 -2,8674 -2,26R

2539 2,61 9,8700 12,4743 0,0628 -2,6043 -2,05R

2549 2,33 9,4400 6,2481 0,0599 3,1919 2,51R

2553 1,81 7,4600 10,3552 0,0776 -2,8952 -2,28R

2556 1,69 20,8600 17,5179 0,0699 3,3421 2,63R

2635 2,57 11,5100 14,4301 0,0510 -2,9201 -2,30R

2644 2,11 18,3100 15,6355 0,0549 2,6745 2,10R

2650 2,13 11,3300 14,0865 0,0494 -2,7565 -2,17R

2741 3,01 32,2500 29,1664 0,0661 3,0836 2,43R

2761 2,47 19,3600 16,2863 0,0702 3,0737 2,42R

2770 2,28 25,3200 28,5694 0,0701 -3,2494 -2,56R

2779 2,19 27,4300 23,9671 0,0703 3,4629 2,73R

2789 1,33 1,2100 -2,3047 0,0616 3,5147 2,77R

2810 2,46 7,3300 9,8868 0,0513 -2,5568 -2,01R

2827 2,32 9,2100 6,5293 0,0552 2,6807 2,11R

2836 1,43 3,3100 0,5496 0,0588 2,7604 2,17R

2884 1,49 4,0800 6,7041 0,0571 -2,6241 -2,06R

2901 2,18 13,6700 16,6899 0,0546 -3,0199 -2,38R

2916 3,13 21,7000 24,6309 0,0700 -2,9309 -2,31R

2947 2,38 39,6900 37,0967 0,1082 2,5933 2,05R

3014 1,50 10,1800 12,8445 0,0504 -2,6645 -2,10R

3020 1,65 8,4000 5,3073 0,0718 3,0927 2,43R

3021 2,24 9,3300 12,8083 0,0663 -3,4783 -2,74R

3031 2,03 5,0500 2,4949 0,0718 2,5551 2,01R

3032 2,60 12,6000 15,6889 0,0576 -3,0889 -2,43R

3174 1,38 0,6400 0,1545 0,1532 0,4855 0,38 X

3199 1,73 2,8300 3,1628 0,1279 -0,3328 -0,26 X

3222 1,41 0,8000 0,4455 0,1967 0,3545 0,28 X

3242 1,56 1,2500 0,8576 0,8919 0,3924 0,43 X

3273 1,32 0,2400 -0,7367 0,1226 0,9767 0,77 X

3375 1,63 1,0600 1,2190 0,1373 -0,1590 -0,13 X

3451 2,09 5,4400 8,2223 0,0623 -2,7823 -2,19R

3479 1,68 1,9500 1,8893 0,2290 0,0607 0,05 X

3520 1,83 14,9800 17,9347 0,0666 -2,9547 -2,33R

3801 1,41 0,7800 0,4350 0,1284 0,3450 0,27 X

3809 1,25 0,6000 0,2529 0,1901 0,3471 0,28 X

3812 1,30 0,0900 -0,4476 0,1712 0,5376 0,43 X

3829 1,52 0,9200 0,6633 0,9540 0,2567 0,30 X

3947 1,53 3,3600 0,8062 0,0478 2,5538 2,01R

4005 1,58 0,4800 0,3764 0,1573 0,1036 0,08 X

4012 1,49 3,2800 6,5628 0,0521 -3,2828 -2,58R

4279 2,60 9,7600 12,5619 0,0643 -2,8019 -2,21R

4311 1,66 5,9600 10,6970 0,0670 -4,7370 -3,73R

4343 2,03 11,6700 8,7037 0,0610 2,9663 2,33R

4398 1,23 0,2700 -0,2763 0,1313 0,5463 0,43 X

4428 3,08 14,8700 17,6643 0,1108 -2,7943 -2,20R

4448 2,36 7,2400 10,0479 0,0560 -2,8079 -2,21R

4599 2,16 2,4200 5,1602 0,0820 -2,7402 -2,16R

4608 1,58 9,4800 14,2887 0,0791 -4,8087 -3,79R

4610 1,65 6,0000 8,9504 0,0564 -2,9504 -2,32R

4645 2,49 16,3300 19,4313 0,0895 -3,1013 -2,44R

4659 2,21 10,2100 12,9143 0,0563 -2,7043 -2,13R

4666 2,00 12,0400 16,7143 0,0681 -4,6743 -3,68R

4684 1,73 6,9000 12,5881 0,0899 -5,6881 -4,48R

4708 2,68 4,8700 8,3542 0,1003 -3,4842 -2,75R

4718 1,33 4,2200 -0,1307 0,0725 4,3507 3,43R

4727 1,82 7,0600 4,0911 0,0699 2,9689 2,34R

4729 1,98 6,2300 8,9681 0,0603 -2,7381 -2,15R

4747 2,35 16,4500 22,6936 0,0965 -6,2436 -4,92R

4750 2,68 5,2900 9,3596 0,0622 -4,0696 -3,20R

4755 2,53 10,0000 12,9280 0,0576 -2,9280 -2,30R

4757 2,00 9,2500 13,6258 0,0775 -4,3758 -3,45R

4768 2,19 9,8500 13,4440 0,0474 -3,5940 -2,83R

4819 1,91 5,3600 8,0295 0,0576 -2,6695 -2,10R

4820 2,10 2,4000 5,1679 0,0604 -2,7679 -2,18R

4828 1,85 16,1600 13,1197 0,0800 3,0403 2,39R

4870 1,43 8,6700 13,3966 0,0700 -4,7266 -3,72R

4928 1,54 0,9200 1,0895 0,1944 -0,1695 -0,13 X

4942 2,90 29,5100 33,0590 0,0863 -3,5490 -2,80R

4953 1,80 6,5800 11,6116 0,0556 -5,0316 -3,96R

4994 2,68 13,2500 16,3916 0,0659 -3,1416 -2,47R

5037 1,77 8,2500 12,3219 0,0663 -4,0719 -3,20R

5062 1,95 7,0500 10,2175 0,0562 -3,1675 -2,49R

5102 2,43 10,5800 13,8155 0,0705 -3,2355 -2,55R

5117 2,59 10,4600 14,9538 0,0439 -4,4938 -3,53R

5124 2,80 16,8700 21,1245 0,0777 -4,2545 -3,35R

5130 2,30 11,2400 15,7692 0,0477 -4,5292 -3,56R

5139 2,48 9,2900 11,8575 0,0482 -2,5675 -2,02R

5148 2,34 9,4500 12,7854 0,0401 -3,3354 -2,62R

5158 3,00 33,5400 37,6534 0,1147 -4,1134 -3,25R

5173 3,32 23,0700 26,2316 0,1084 -3,1616 -2,49R

5178 2,09 14,9100 12,2935 0,0826 2,6165 2,06R

5195 3,26 3,9100 6,8216 0,0840 -2,9116 -2,29R

5198 2,75 37,8200 43,7672 0,1712 -5,9472 -4,72RX

5211 2,48 8,4400 11,4077 0,0375 -2,9677 -2,33R

5222 2,68 34,9500 39,2375 0,2396 -4,2875 -3,43RX

5233 2,67 25,4000 19,3596 0,0821 6,0404 4,76R

5250 2,75 16,2400 22,4210 0,2050 -6,1810 -4,92RX

5251 2,62 12,9000 10,0753 0,0457 2,8247 2,22R

5253 2,30 18,1300 14,0713 0,0581 4,0587 3,19R

5260 1,68 14,7400 10,8178 0,0482 3,9222 3,09R

5278 2,46 9,2200 11,8394 0,0634 -2,6194 -2,06R

5297 2,61 14,5300 16,2082 0,1275 -1,6782 -1,33 X

5359 3,07 18,7200 15,8551 0,0876 2,8649 2,26R

5379 3,10 28,1100 32,2233 0,1353 -4,1133 -3,25RX

5394 1,83 14,2000 11,2901 0,0467 2,9099 2,29R

5405 2,35 29,2300 24,3968 0,0765 4,8332 3,81R

5413 1,42 0,5400 -0,0791 0,1276 0,6191 0,49 X

5424 2,12 3,4100 0,0237 0,0538 3,3863 2,66R

5454 2,26 9,0800 5,1029 0,0610 3,9771 3,13R

5548 2,86 9,5900 12,4161 0,0614 -2,8261 -2,22R

5552 2,21 14,5800 11,9435 0,0518 2,6365 2,07R

5565 1,75 1,1900 1,3903 0,4124 -0,2003 -0,17 X

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large leverage.

A equação gerada pelo MINITAB para a regressão foi PIND = 7,63 + 1,12

FECTOT + 0,00062 MORT1 - 0,0934 E_ANOSESTUDO + 0,0419 T_ANALF15A17 +

0,726 PINDCRI - 0,0437 PPOBCRI - 0,00541 P_SUPER - 0,00685 T_DES18M - 0,0168

TRABSC - 0,00955 T_AGUA - 0,0701 T_LUZ + 0,0431 PAREDE + 0,0599

T_NESTUDA_NTRAB_MMEIO - 0,00151 T_MULCHEFEFIF014 + 0,000007

HOMEM10A14 - 0,000030 HOMEM70A74

O valor de R-Sq foi de 98,8%. O valor encontrado foi alto, o que indica um bom

ajuste do modelo com os dados obtidos, e que 98,8% da variabilidade do PIND pode ser

explicada pela equação.

Os valores de P encontrados indicam a significância das variáveis independentes

para explicar a variável dependente. Desta maneira, quanto menor o valor de P maior o

nível de confiança desta variável no modelo. A maioria das variáveis obtiveram um valor

de P igual a 0,000, com exceção das variáveis MORT1 (0,887), P_SUPER (0,394),

T_DES18M (0,258), T_MULCHEFEFIF014 (0,519), HOMEM10A14 (0,483) e

HOMEM70A74 (0,494). Estes valores apresentam um valor muito alto de P, por isso não

se pode afirmar que a relação entre o PIND e estas variáveis é significativa.

Já as variáveis com o P indicado por 0,000 possuem relação significativa com a

variável PIND com alto grau de confiabilidade, e são elas FECTOT, E_ANOSESTUDO,

T_ANALF15A17, PINDCRI, PPOBCRI, TRABSC, T_AGUA, T_LUZ, PAREDE

T_NESTUDA_NTRAB_MMEIO.

Também é possível verificar que os coeficientes da maioria das variáveis

independentes indicados na equação estão muito próximos de 0 o que denota baixo poder

explicativo delas para a variável PIND, exceto para a variável FECTOT, que o coeficiente

é 1,12 e da variável PINDCRI que é 0,726.

Foi realizado a regressão Step-Wise para verificar quais as variáveis que são mais

capazes de explicar a variável PIND. Os resultados são apresentados abaixo.

Stepwise Regression: PIND versus FECTOT; MORT1; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is PIND on 16 predictors, with N = 5565

Step 1 2 3 4 5 6

Constant -0,8292 11,5321 9,7007 6,2371 5,7542 6,3306

PINDCRI 0,7591 0,7332 0,7158 0,7067 0,7475 0,7405

T-Value 542,20 480,32 445,21 434,34 298,87 292,52

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

T_LUZ -0,1229 -0,1046 -0,0873 -0,0751 -0,0783

T-Value -31,60 -27,80 -23,26 -20,51 -21,61

P-Value 0,000 0,000 0,000 0,000 0,000

PAREDE 0,0614 0,0492 0,0436 0,0418

T-Value 24,91 19,93 18,21 17,65

P-Value 0,000 0,000 0,000 0,000

FECTOT 0,911 1,177 1,124

T-Value 19,23 24,86 23,96

P-Value 0,000 0,000 0,000

PPOBCRI -0,0324 -0,0471

T-Value -20,89 -24,26

P-Value 0,000 0,000

T_NESTUDA_NTRAB_MMEIO 0,0566

T-Value 12,31

P-Value 0,000

S 1,60 1,48 1,40 1,36 1,31 1,29

R-Sq 98,14 98,43 98,58 98,67 98,77 98,80

R-Sq(adj) 98,14 98,42 98,58 98,67 98,77 98,80

Mallows Cp 3273,9 1931,4 1181,4 763,0 305,2 151,7

Step 7 8 9 10

Constant 7,118 7,197 7,861 7,587

PINDCRI 0,7327 0,7286 0,7293 0,7265

T-Value 269,59 262,47 263,14 254,90

P-Value 0,000 0,000 0,000 0,000

T_LUZ -0,0742 -0,0749 -0,0702 -0,0700

T-Value -20,36 -20,63 -18,85 -18,84

P-Value 0,000 0,000 0,000 0,000

PAREDE 0,0454 0,0445 0,0445 0,0433

T-Value 18,89 18,57 18,64 17,98

P-Value 0,000 0,000 0,000 0,000

FECTOT 1,153 1,147 1,129 1,113

T-Value 24,62 24,58 24,20 23,81

P-Value 0,000 0,000 0,000 0,000

PPOBCRI -0,0489 -0,0427 -0,0439 -0,0431

T-Value -25,14 -19,79 -20,31 -19,91

P-Value 0,000 0,000 0,000 0,000

T_NESTUDA_NTRAB_MMEIO 0,0592 0,0624 0,0598 0,0570

T-Value 12,90 13,58 12,99 12,24

P-Value 0,000 0,000 0,000 0,000

T_AGUA -0,0125 -0,0117 -0,0110 -0,0101

T-Value -7,64 -7,19 -6,74 -6,12

P-Value 0,000 0,000 0,000 0,000

TRABSC -0,0161 -0,0168 -0,0168

T-Value -6,68 -6,95 -6,98

P-Value 0,000 0,000 0,000

E_ANOSESTUDO -0,109 -0,093

T-Value -5,53 -4,61

P-Value 0,000 0,000

T_ANALF15A17 0,042

T-Value 4,06

P-Value 0,000

S 1,28 1,28 1,27 1,27

R-Sq 98,81 98,82 98,83 98,83

R-Sq(adj) 98,81 98,82 98,83 98,83

Mallows Cp 94,3 51,4 22,8 8,3

A partir da análise realizada, pode-se perceber que foram consideradas somente

10 variáveis para o modelo de regressão, sendo eles PINDCRI, T_LUZ, PAREDE,

FECTOT, PPOBCRI, T_NESTUDA_NTRAB_MMEIO, T_AGUA, TRABSC,

E_ANOSESTUDO e T_ANALF15A17.

A partir do resultado obtido, a equação poderia ser definida com um R-Sq de

98,83% como: PIND = 7,587 + 0,7265 PINDCRI - 0,0700 T_LUZ + 0,0433 PAREDE +

1,113FECTOT - 0,0431 PPOBCRI + 0,0570 T_NESTUDA_NTRAB_MMEIO - 0,0101

T_AGUA - 0,0168 TRABSC - 0,093 E_ANOSESTUDO + 0,042 T_ANALF.

Porém, pode-se perceber que utilizando-se apenas cinco variáveis, o R-Sq é de

98,77%, desta maneira, elimina-se cinco variáveis e se perde pouco poder de explicação.

Desta forma, a equação passaria a ser: PIND = 5,7542 + 0,7475 PINDCRI – 0,0751

T_LUZ + 0,0436 PAREDE + 1,177 FECTOT – 0,0324 PPOBCRI.

É possível verificar também que a variável que mais influencia no modelo é a

PINDCRI, e o R-Sq é de 98,14% se apenas for utilizada esta variável. A equação ficaria

PIND = -0,8292 + 0,7591 PINDCRI.

Se for acrescentado ao modelo mais uma variável, a T_LUZ, o valor de R-Sq seria

de 98,43%, ou seja, aumentaria apenas 0,29% o poder de explicação.

Este modelo de regressão não diz muita coisa, apesar de seu alto poder explicativo,

porque as variáveis PIND e PINDCRI estão diretamente correlacionadas. É possível

perceber pela observação do dendograma e pelos valores apresentados de correlação entre

estas duas variáveis que a correlação é 0,991. Isto se deve ao significado destas duas

variáveis, no qual a variável PIND está relacionado aos indivíduos que vivem na extrema

pobreza e a variável PINDCRI está relacionada a crianças que vivem na extrema pobreza.

É de se esperar que em locais nos quais os indivíduos vivam na extrema pobreza, muitas

crianças também vivam na extrema pobreza, pois as condições das crianças é um reflexo

das condições dos pais.

Desta maneira, a equação contribui pouco como explicação da variável

dependente PIND pelas variáveis independentes selecionada, pois a relação entre as

variáveis PIND e PINDCRI acabaram se apresentando como óbvias e pouco

esclarecedoras. Mesmo aumentando a quantidade de variáveis e acrescentando outras

como T_LUZ e PAREDE, o poder de explicação da equação aumenta pouco.

4.2.Considerações

Este trabalho teve como objetivo apresentar um modelo de regressão múltipla da

variável PIND com as demais variáveis selecionadas provenientes do estudo realizado

pelo Atlas do Desenvolvimento Humano no Brasil.

De acordo com as análises realizadas, é possível perceber que a variável que mais

tem poder de explicação é a variável PINDCRI, e que mesmo que as outras forem

acrescentadas, o poder de explicação da equação não aumenta de forma considerável.

Devido ao significado destas variáveis, não se pode concluir muitas coisas a partir

dos resultados encontrados, já que uma se relaciona à quantidade de indivíduos que vive

na extrema pobreza e a outra a crianças que vivem em uma situação de extrema pobreza,

o que gera um alto grau de correlação entre si.

CAPÍTULO V – TESTES DE COMPARAÇÃO

Este trabalho apresenta uma comparação entre os valores apresentados pelas cinco

regiões brasileiras para cada variável escolhida. Inicialmente será feito o teste de One-

Way ANOVA de todas as variáveis do estudo e posteriormente serão selecionadas 6

variáveis para a análise de seus box-plots. O Distrito Federal não será considerado na

análise.

5.1.Análise das Variáveis

A seguir serão apresentados o valor do teste One-Way ANOVA para todas as

variáveis.

One-way ANOVA: FECTOT versus REGIÃO Source DF SS MS F P

REGIÃO 4 494,232 123,558 751,86 0,000

Error 5559 913,549 0,164

Total 5563 1407,781

S = 0,4054 R-Sq = 35,11% R-Sq(adj) = 35,06%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

CO 465 2,2550 0,3340 (*)

N 449 2,9593 0,6293 (-*)

NE 1794 2,3648 0,4314 (*

S 1188 1,8952 0,3630 (*)

SE 1668 1,9874 0,3414 *)

--------+---------+---------+---------+-

2,10 2,40 2,70 3,00

Pooled StDev = 0,4054

One-way ANOVA: MORT1 versus REGIÃO Source DF SS MS F P

REGIÃO 4 190952,7 47738,2 2871,93 0,000

Error 5559 92403,7 16,6

Total 5563 283356,4

S = 4,077 R-Sq = 67,39% R-Sq(adj) = 67,37%

Pooled StDev

CO 465 15,731 2,705 (*)

N 449 21,578 4,713 (*)

NE 1794 27,188 5,856 (*

S 1188 12,999 2,138 *)

SE 1668 15,512 2,700 (*

--------+---------+---------+---------+-

16,0 20,0 24,0 28,0

One-way ANOVA: E_ANOSESTUDO versus REGIÃO Source DF SS MS F P

REGIÃO 4 1837,885 459,471 524,13 0,000

Error 5559 4873,223 0,877

Total 5563 6711,108

S = 0,9363 R-Sq = 27,39% R-Sq(adj) = 27,33%

Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

CO 465 9,517 0,984 (*-)

N 449 8,559 1,284 (-*-)

NE 1794 8,934 0,792 (*)

S 1188 10,342 0,861 (*)

SE 1668 9,636 1,004 (*)

-+---------+---------+---------+--------

8,50 9,00 9,50 10,00

One-way ANOVA: T_ANALF15A17 versus REGIÃO Source DF SS MS F P

REGIÃO 4 16555,33 4138,83 1122,39 0,000

Error 5559 20498,90 3,69

Total 5563 37054,23

S = 1,920 R-Sq = 44,68% R-Sq(adj) = 44,64%

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 1,474 1,799 (*-)

N 449 4,155 4,208 (-*)

NE 1794 4,889 2,264 (*

S 1188 1,050 0,695 (*)

SE 1668 1,341 0,881 (*)

--+---------+---------+---------+-------

1,2 2,4 3,6 4,8

One-way ANOVA: PIND versus REGIÃO Source DF SS MS F P

REGIÃO 4 449958,8 112489,7 1954,42 0,000

Error 5559 319957,4 57,6

Total 5563 769916,2

S = 7,587 R-Sq = 58,44% R-Sq(adj) = 58,41%

Pooled StDev

Level N Mean StDev ------+---------+---------+---------+---

CO 465 5,476 6,015 (*)

N 449 21,104 12,468 (*)

NE 1794 22,538 9,765 (*

S 1188 3,079 3,476 (*)

SE 1668 4,196 5,378 (*)

------+---------+---------+---------+---

6,0 12,0 18,0 24,0

One-way ANOVA: PINDCRI versus REGIÃO Source DF SS MS F P

REGIÃO 4 793912 198478 2132,08 0,000

Error 5559 517493 93

Total 5563 1311405

S = 9,648 R-Sq = 60,54% R-Sq(adj) = 60,51%

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

CO 465 7,807 7,989 (*)

N 449 26,538 14,377 (*)

NE 1794 31,449 12,077 (*)

S 1188 5,174 5,425 *)

SE 1668 6,662 7,699 (*

---+---------+---------+---------+------

7,0 14,0 21,0 28,0

One-way ANOVA: PPOBCRI versus REGIÃO Source DF SS MS F P

REGIÃO 4 1765291 441323 2169,84 0,000

Error 5559 1130644 203

Total 5563 2895934

S = 14,26 R-Sq = 60,96% R-Sq(adj) = 60,93%

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

CO 465 48,90 12,92 (*)

N 449 73,80 12,03 (*-)

NE 1794 81,50 7,97 (*

S 1188 37,78 16,15 *)

SE 1668 48,73 18,41 (*

---------+---------+---------+---------+

48 60 72 84

One-way ANOVA: P_SUPER versus REGIÃO Source DF SS MS F P

REGIÃO 4 15017,6 3754,4 366,22 0,000

Error 5559 56989,1 10,3

Total 5563 72006,6

S = 3,202 R-Sq = 20,86% R-Sq(adj) = 20,80%

Pooled StDev

CO 465 8,096 2,739 (-*--)

N 449 6,104 3,188 (--*-)

NE 1794 4,862 2,340 (-*)

S 1188 7,845 3,422 (*-)

SE 1668 8,742 3,891 (*)

-+---------+---------+---------+--------

4,8 6,0 7,2 8,4

One-way ANOVA: T_DES18M versus REGIÃO Source DF SS MS F P

REGIÃO 4 20323,19 5080,80 522,64 0,000

Error 5559 54041,72 9,72

Total 5563 74364,91

S = 3,118 R-Sq = 27,33% R-Sq(adj) = 27,28%

Pooled StDev

CO 465 5,522 2,304 (-*-)

N 449 7,362 3,545 (-*-)

NE 1794 8,307 4,008 (*)

S 1188 3,092 2,025 (-*)

SE 1668 6,004 2,714 (*)

-+---------+---------+---------+--------

3,0 4,5 6,0 7,5

One-way ANOVA: TRABSC versus REGIÃO Source DF SS MS F P

REGIÃO 4 189777,9 47444,5 752,97 0,000

Error 5559 350271,3 63,0

Total 5563 540049,2

S = 7,938 R-Sq = 35,14% R-Sq(adj) = 35,09%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev +---------+---------+---------+---------

CO 465 27,460 7,547 (-*)

N 449 27,600 7,177 (*-)

NE 1794 31,622 8,051 *)

S 1188 15,666 6,332 (*)

SE 1668 23,893 9,064 (*)

+---------+---------+---------+---------

15,0 20,0 25,0 30,0

One-way ANOVA: T_AGUA versus REGIÃO Source DF SS MS F P

REGIÃO 4 350371 87593 569,31 0,000

Error 5559 855288 154

Total 5563 1205659

S = 12,40 R-Sq = 29,06% R-Sq(adj) = 29,01%

Pooled StDev

CO 465 93,20 6,82 (-*-)

N 449 81,82 16,75 (-*-)

NE 1794 74,80 16,83 (*)

S 1188 91,44 7,58 (*-)

SE 1668 91,94 8,89 (*)

------+---------+---------+---------+---

78,0 84,0 90,0 96,0

One-way ANOVA: T_LUZ versus REGIÃO Source DF SS MS F P

REGIÃO 4 49907,4 12476,9 456,25 0,000

Error 5559 152020,1 27,3

Total 5563 201927,5

S = 5,229 R-Sq = 24,72% R-Sq(adj) = 24,66%

Pooled StDev

CO 465 97,672 4,984 (-*)

N 449 88,614 10,850 (*-)

NE 1794 95,786 6,737 (*)

S 1188 99,485 1,052 (*)

SE 1668 99,237 1,744 (*)

------+---------+---------+---------+---

90,0 93,0 96,0 99,0

One-way ANOVA: PAREDE versus REGIÃO Source DF SS MS F P

REGIÃO 4 103287,8 25821,9 368,61 0,000

Error 5559 389419,8 70,1

Total 5563 492707,6

S = 8,370 R-Sq = 20,96% R-Sq(adj) = 20,91%

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 465 3,819 5,362 (-*-)

N 449 13,001 11,478 (-*-)

NE 1794 9,818 12,841 (*)

S 1188 2,067 2,557 (*)

SE 1668 1,305 2,861 (*)

-------+---------+---------+---------+--

3,5 7,0 10,5 14,0

One-way ANOVA: T_MULCHEFEFIF014 versus REGIÃO Source DF SS MS F P

REGIÃO 4 177709,1 44427,3 595,10 0,000

Error 5559 415007,3 74,7

Total 5563 592716,4

S = 8,640 R-Sq = 29,98% R-Sq(adj) = 29,93%

Pooled StDev

Level N Mean StDev -----+---------+---------+---------+----

CO 465 16,306 8,635 (-*-)

N 449 27,170 11,767 (-*-)

NE 1794 26,703 9,683 (*)

S 1188 14,376 7,116 (*)

SE 1668 15,751 7,354 (*)

-----+---------+---------+---------+----

16,0 20,0 24,0 28,0

One-way ANOVA: T_NESTUDA_NTRAB_MMEIO versus REGIÃO Source DF SS MS F P

REGIÃO 4 250910,9 62727,7 1991,10 0,000

Error 5559 175131,3 31,5

Total 5563 426042,2

S = 5,613 R-Sq = 58,89% R-Sq(adj) = 58,86%

Pooled StDev

CO 465 11,283 5,202 (*)

N 449 20,874 6,596 (*)

NE 1794 23,134 5,615 *)

S 1188 6,665 4,532 *)

SE 1668 10,900 6,107 (*

-------+---------+---------+---------+--

10,0 15,0 20,0 25,0

One-way ANOVA: HOMEM10A14 versus REGIÃO Source DF SS MS F P

REGIÃO 4 918840793 229710198 3,69 0,005

Error 5559 3,46469E+11 62325767

Total 5563 3,47388E+11

S = 7895 R-Sq = 0,26% R-Sq(adj) = 0,19%

Pooled StDev

CO 465 1134 3389 (-----------*-----------)

N 449 1989 5672 (-----------*-----------)

NE 1794 1486 4616 (-----*-----)

S 1188 982 3072 (------*-------)

SE 1668 2016 12898 (------*-----)

---+---------+---------+---------+------

600 1200 1800 2400

Pooled StDev = 7895

One-way ANOVA: HOMEM70A74 versus REGIÃO Source DF SS MS F P

REGIÃO 4 56500690 14125172 4,72 0,001

Error 5559 16646629124 2994537

Total 5563 16703129814

S = 1730 R-Sq = 0,34% R-Sq(adj) = 0,27%

Pooled StDev

CO 465 202 591 (---------*----------)

N 449 213 616 (---------*----------)

NE 1794 250 724 (-----*----)

S 1188 223 686 (------*-----)

SE 1668 449 2981 (-----*----)

-------+---------+---------+---------+--

150 300 450 600

Pooled StDev = 1730

One-way ANOVA: IDHM versus REGIÃO Source DF SS MS F P

REGIÃO 4 16,24279 4,06070 1795,58 0,000

Error 5559 12,57163 0,00226

Total 5563 28,81442

S = 0,04756 R-Sq = 56,37% R-Sq(adj) = 56,34%

Pooled StDev

CO 465 0,68918 0,03680 (*)

N 449 0,60795 0,06016 (-*)

NE 1794 0,59068 0,04327 (*

S 1188 0,71411 0,04159 (*)

SE 1668 0,69898 0,05428 (*

--+---------+---------+---------+-------

0,595 0,630 0,665 0,700

One-way ANOVA: IDHM_E versus REGIÃO Source DF SS MS F P

REGIÃO 4 18,83643 4,70911 884,60 0,000

Error 5559 29,59293 0,00532

Total 5563 48,42936

S = 0,07296 R-Sq = 38,89% R-Sq(adj) = 38,85%

Pooled StDev

CO 465 0,58380 0,05977 (-*-)

N 449 0,49043 0,09066 (-*-)

NE 1794 0,48842 0,06579 (*)

S 1188 0,61302 0,06520 (*)

SE 1668 0,60819 0,08287 (*)

--+---------+---------+---------+-------

0,490 0,525 0,560 0,595

One-way ANOVA: IDHM_L versus REGIÃO Source DF SS MS F P

REGIÃO 4 6,94138 1,73535 2318,18 0,000

Error 5559 4,16137 0,00075

Total 5563 11,10275

S = 0,02736 R-Sq = 62,52% R-Sq(adj) = 62,49%

Level N Mean StDev

CO 465 0,82234 0,01833

N 449 0,78038 0,02871

NE 1794 0,75433 0,03016

S 1188 0,83533 0,02616

SE 1668 0,82819 0,02674

Level ---------+---------+---------+---------+

CO (*)

---------+---------+---------+---------+

0,775 0,800 0,825 0,850

One-way ANOVA: IDHM_R versus REGIÃO Source DF SS MS F P

REGIÃO 4 21,93443 5,48361 2143,97 0,000

Error 5559 14,21819 0,00256

Total 5563 36,15262

S = 0,05057 R-Sq = 60,67% R-Sq(adj) = 60,64%

Level N Mean StDev

CO 465 0,68411 0,04209

N 449 0,59282 0,06194

NE 1794 0,56226 0,04611

S 1188 0,71344 0,04419

SE 1668 0,68116 0,05769

Level +---------+---------+---------+---------

CO (*)

+---------+---------+---------+---------

0,560 0,600 0,640 0,680

É possível verificar que com exceção das variáveis HOMEM10A14 e

HOMEM70A74, todas as outras análises tiveram um valor de P igual a 0,000. Estas duas

variáveis tiveram um valor de P igual a 0,005 e 0,001 respectivamente.

A partir da análise destes números e dos gráficos gerados pelos box-plots, é

possível verificar que existem diferenças significativas na média das variáveis escolhidas,

de modo que os municípios das regiões Norte e Nordeste tem uma situação social mais

precária enquanto as regiões Centro-Oeste, Sul e Sudeste possuem, no geral, municípios

com maior desenvolvimento. Desta maneira, entende-se que existem duas realidades

diferentes no Brasil.

Para realizar a escolha das seis variáveis a serem analisadas através dos box-plots,

foi adotado o critério de selecionar as que possuem os maiores valores de F gerados pela

análise. Estas são, com seus valores de F respectivos, MORT1 (2871,93), IDHM_L

(2318,18), IDHM_R (2143,97), PPOBCRI(2169,84), PINDCRI (2132,08) e

T_NESTUDA_NTRAB_MMEIO (1991,10).

A Figura 1 representa o gráfico do box-plot da variável

T_NESTUDA_NTRAB_MMEIO, nas cinco regiões brasileiras e a Figura 2 representa as

médias das cinco regiões da variável de estudo.

SESNENCO

REGIÃO

Boxplot of T_NESTUDA_NTRAB_MMEIO

Figura 1: Box-Plot da variável T_NESTUDA_NTRAB_MMEIO

Fonte: Atlas do Desenvolvimento Humano no Brasil.

Figura 2: Média da Variável T_NESTUDA_TRAB_MMEIO para cada região

A partir da observação destes box-plots, é possível verificar que a mediana das

diferentes regiões brasileiras para esta variável não é similar. Esta variável significa a

“Razão entre as pessoas de 15 a 24 anos que não estudam nem trabalham e são vulneráveis

à pobreza e a população total nesta faixa etária multiplicado por 100. Define-se como

vulneráveis à pobreza as pessoas que moram em domicílios com renda per capita inferior

a 1/2 salário mínimo de agosto de 2010. São considerados apenas os domicílios

particulares permanentes”.

Pode-se perceber que as regiões Norte e Nordeste tem mais municípios que

possuem mais pessoas que não estudam e nem trabalham. Pode-se verificar que tanto na

Média da Variável T_NESTUDA_NTRAB_MMEIO para Cada Região

região Norte quanto Nordeste o primeiro quartil possui valor maior do que o terceiro

quartil das demais regiões. Existe um ponto fora da curva na região Norte, posicionado

com um valor bem mais elevado que os demais, e se trata do município de Amajari, com

um valor de 55,25%. A região Sul possui os menores valores de mediana e primeiro

quartil, e é interessante verificar também que o box-plot possui uma organização na qual

o primeiro quartil está mais próximo da mediana do que o terceiro, indicando que metade

dos municípios estão abaixo de 5,81% de indivíduos que nem estudam e nem trabalham.

A diferença entre a região Sul e as regiões Norte e Nordeste é grande quanto aos

valores da mediana, pois é possível perceber que até mesmo os pontos fora da curva dessa

região ficaram abaixo do terceiro quartil da região Nordeste, com exceção de um ponto

que indica a cidade de Redentora. A região Nordeste também tem dois pontos fora da

curva com um valor da variável menor, sendo eles os municípios de Fernando de

Noronha, com 3,22% e Santa Cruz do Capibaribe, com 7,35%. O valor da mediana da

região Centro-Oeste é 10,32%, da região Norte é 20,75%, Nordeste 22,735%, Sudeste

9,325% e Sul 5,815%. Desta forma é possível verificar a grande desigualdade existente

entre essas regiões. Também é possível observar esta desigualdade através das médias

observadas a partir da Figura 2, no qual as regiões Norte e Nordeste apresentaram um

valor mais alto que as demais, sendo a média de 11,2828% para a região Centro-Oeste,

20,8763% para a região Norte, 23,1342% para a região Nordeste, 6,6652% para a região

Sul e 10,8999% para a região Sudeste.

A Figura 3 representa os box-plots da variável PINDCRI nas diversas regiões

brasileiras e a Figura 4 representa o gráfico das médias desta mesma variável.

SESNENCO

REGIÃO

Boxplot of PINDCRI

Figura 3: Box-Plot da variável PINDCRI

Figura 4: Média da Variável PINDCRI para cada região

A variável PINDCRI representa a “Proporção dos indivíduos com até 14 anos de

idade que têm renda domiciliar per capita igual ou inferior a R$ 70,00 mensais, em reais

de agosto de 2010. O universo de indivíduos é limitado àqueles que vivem em domicílios

particulares permanentes”.

Pode-se perceber a partir da análise desta variável que existe uma distribuição

desigual entre os municípios. As regiões Norte e Nordeste possuem uma incidência maior

de crianças que vivem na situação de extrema pobreza, enquanto as regiões Sul, Sudeste

e Centro-Oeste possuem uma proporção menor. O maior outlier do gráfico está situado

na região Norte, e se trata da cidade de Senador Guiomard com 72,5%. Estes resultados

indicam a necessidade de maior atenção das políticas públicas às regiões Norte e

Nordeste, para que se possa diminuir estes índices extremamente altos de crianças que

vivem na extrema pobreza. As regiões Centro-Oeste, Sul e Sudeste apresentam uma

distribuição que não é simétrica, nas três regiões a distância entre o primeiro quartil e a

mediana é consideravelmente menor do que entre a mediana e o terceiro quartil. Estas

três regiões possuem uma quantidade considerável de pontos fora da curva, desta maneira

é interessante entender o contexto destes pontos, para verificar o motivo desses

municípios serem tão diferentes dos demais na mesma região. A mediana da região

Centro-Oeste é 5,1%, da região Norte é 24,88%, da região Nordeste é 31,22%, da região

Sul é 3,415% e da região Sudeste é 3,63%. A região Nordeste é a que possui os valores

mais altos para esta variável indicando a urgência de realizar políticas que diminuam esta

grande desigualdade. As regiões Sul e Sudeste possuem as medianas com um valor

próximo.

É possível perceber pelo gráfico que representa a média a disparidade entre estas

regiões, nos quais as regiões Norte e Nordeste possuem os valores mais elevados desta

variável. A média da região Centro-Oeste foi de 7,8074%, da região Norte foi de

26,5383%, da região Nordeste foi de 31,4489%, da região Sul de 5,1740% e da região

Sudeste 6,6623%.

A Figura 5 representa os box-plots da varável PPOBCRI das diferentes regiões e

a Figura 6 representa o gráfico das médias da mesma variável para as diferentes regiões.

101520253035

Média da Variável PINDCRI para Cada Região

SESNENCO

REGIÃO

Boxplot of PPOBCRI

Figura 5: Box-plot da variável PPBCRI

Figura 6: Média da Variável PPOBCRI para cada região

Esta variável representa a “Proporção dos indivíduos com até 14 anos de idade

que têm renda domiciliar per capita igual ou inferior a R$ 255,00 mensais, em reais de

agosto de 2010, equivalente a 1/2 salário mínimo nessa data. O universo de indivíduos é

limitado aqueles com até 14 anos e que vivem em domicílios particulares permanentes”.

É possível verificar que o valor da mediana da região centro-oeste é 47,96%, da

região Norte é 75,69%, da região Nordeste é 83,085%, da região Sul é 37,765% e da

região Sudeste é 45,625%. Os valores referentes a estas variáveis são maiores do que os

referentes a PINDCRI porque esta medição inclui também os indivíduos presentes na

variável PINDCRI. É possível verificar novamente a diferença entre as regiões brasileiras

Média da Variável PPOBCRI para Cada Região

neste quesito. As regiões Norte e Nordeste possuem maiores valores de mediana do que

as outras regiões. A região Sul é a que possui os menores índices e a região Sudeste possui

uma diferença visível entre o primeiro quartil e a mediana e entre a mediana e o terceiro

quartil, sendo que neste caso os municípios estão mais dispersos. A região Nordeste tem

um outlier com 8,64% de crianças vivendo na pobreza, e este se trata do município de

Fernando de Noronha. Estes valores indicam a necessidade de pensar em políticas capazes

de fazer com que se aumente a renda nestes municípios, e promover um maior acesso das

crianças aos recursos necessários para que possam se desenvolver integralmente.

O gráfico das médias mostra estas diferenças de maneira bem visual, e é possível

verificar a disparidade das regiões, a região Centro-Oeste tem uma média de 48,9001%,

a região Norte tem média de 73,7973, a região Nordeste 81,5026%, a região Sudeste

37,7771% e a região Sul 48,7268%.

A Figura 7 representa o box-plot da variável IDHM_R para as cinco regiões

diferentes e a Figura 8 o gráfico de médias dessa mesma variável.

SESNENCO

REGIÃO

Boxplot of IDHM_R

Figura 7: Box-plot da variável IDHM_R

Figura 8: Média da Variável IDHM_R para Cada Região

Esta variável representa o “Índice da dimensão Renda que é um dos 3

componentes do IDHM. É obtido a partir do indicador Renda per capita, através da

fórmula: [ln (valor observado do indicador) - ln (valor mínimo)] / [ln (valor máximo) - ln

(valor mínimo)], onde os valores mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços

de agosto de 2010)”.

Esta variável representa o índice da dimensão renda do IDHM, e é possível

perceber que mais uma vez, no quesito rendimento, existe uma diferença perceptível entre

as regiões Norte e Nordeste e as regiões Centro-Oeste, Sul e Sudeste. O valor da mediana

destas regiões é 0,593, 0,559, 0,686, 0,713 e 0,687 respectivamente. É possível verificar

as diferenças regionais, e que é necessário buscar melhorar os indicadores das regiões

Norte e Nordeste em relação as outras regiões. A região Nordeste possui uma

considerável quantidade de outliers, tanto positivamente quanto negativamente. As

médias de cada região foram 0,6841 para a região Centro-Oeste, 0,5923 para a região

Norte, 0,5622 para a região Nordeste, 0,7134 para a região Sul e 0,6811 para a região

Sudeste.

A Figura 9 representa o box-plot da variável IDHM_L e a Figura 10 o gráfico de

médias desta mesma variável para cada região.

Média da Variável IDHM_R para Cada Região

SESNENCO

REGIÃO

Boxplot of IDHM_L

Figura 9: Box-plot da variável IDHM_L

Figura 10: Média da Variável IDHM_L para Cada Região

Esta variável representa o “Índice da dimensão Longevidade que é um dos 3

componentes do IDHM. É obtido a partir do indicador Esperança de vida ao nascer,

através da fórmula: [(valor observado do indicador) - (valor mínimo)] / [(valor máximo)

- (valor mínimo)], onde os valores mínimo e máximo são 25 e 85 anos, respectivamente.”

Novamente as regiões Norte e Nordeste tivera um valor mais baixo no indicador

do que as demais regiões. O valor das medianas foi 0,822 para a região Centro-Oeste,

0,779 para a região Norte, 0,7575 para a região Nordeste, 0,836 para a região Sul e 0,829

para a região Sudeste. A região Sudeste possui dois valores de outliers que aparecem em

destaque e representam os municípios de Santa Helena de Minas e Divisa Alegre. Nestes

municípios os indivíduos tendem a vivem menos do que nos demais da região. É

necessário realizar políticas a fim de melhorar as condições de saúde da região Norte e

Nordeste para que os indivíduos residentes nestas regiões possam ter uma maior

0,85CO

Média da Variável IDHM_L para Cada Região

longevidade. É possível visualizar as diferenças entre as regiões brasileiras a partir do

gráfico de médias. A média deste indicador na região Centro-Oeste é de 0,8223, da região

Norte é de 0,7803, a da região Nordeste é de 0,7543, da região Sul é 0,8353 e da região

Sudeste é de 0,8281.

A Figura 11 representa o box-plot da variável MORT1 e a Figura 12 o gráfico de

médias desta variável. Esta variável obteve o maior valor de F e indica o “Número de

nascidas vivas”.

SESNENCO

REGIÃO

Boxplot of MORT1

Figura 11: Box-plot da variável MORT1

Figura 12: Média da Variável MORT1 para Cada Região

Média da Variável MORT1 para Cada Região

Estes resultados mostram que a região na qual existe o maior número de

mortalidade de crianças com até um ano de idade é a Nordeste, seguida pela Norte. Estes

resultados indicam a necessidade de melhorar a qualidade da saúde nestas regiões. O valor

da mediana nas diferentes regiões é 15,2 no Centro-Oeste, 21,2 no Norte, 26,3 no

Nordeste, 12,8 no Sul e 15,4 no Sudeste. Desta maneira, pode-se perceber a diferença dos

valores das regiões Norte e Nordeste para as demais regiões. O Nordeste também possui

alguns municípios que são representados pelos outliers e que possuem um maior número

de taxa de mortalidade infantil. Um ponto que pode ser destacado é que o outlier com

valor mais elevado na região Sul tem o valor de 19,90, e compreende quatro municípios,

Cantagalo, Cruzmaltina, Bocaina do Sul e Capão Alto. Estes são os maiores valores da

variável nesta região e, mesmo assim, são menores que o valor do primeiro quartil da

região Nordeste que é 30,725 e da mediana da região Norte, que é 21,2.

Também é possível verificar as diferenças das regiões observando o gráfico das

médias. A média da região Centro-Oeste foi de 15,7313, da região Norte foi de 21,5776,

da região Nordeste 27,1878, da região Sul 12,9988 e da região Sudeste 15,5123.

5.2.Considerações

A partir das análises realizadas neste relatório foi possível verificar a existência

de duas realidades diferentes nos municípios brasileiros. A primeira é referente aos

municípios que se encontram na região Norte e Nordeste, e neste caso, os municípios

possuem condições mais precárias do que o das outras regiões. As regiões Sul, Sudeste e

Centro-Oeste possuem municípios que, no geral, são mais desenvolvidos.

As variáveis analisadas com maior profundidade por possuírem um valor de F

maior foram a T-NESTUDA-NTRAB-MMEIO, PINDCRI, PPOBCRI, IDHM_R,

IDHM_L e MORT1. Em todos os casos foi possível verificar as disparidades encontradas

nas regiões brasileiras.

CAPÍTULO 6. AMOSTRAGEM

O presente capítulo tem como objetivo realizar um estudo de amostragem das

variáveis selecionadas provenientes do Atlas do Desenvolvimento Humano no Brasil, que

apresentam indicadores de desenvolvimento humano dos 5565 municípios brasileiros.

Estes dados são provenientes do Censo Demográfico de 2010.

De acordo com Anderson, Sweeney e Williams (2011), “Uma população é um

conjunto de todos os elementos de interesse em um estudo” (ANDERSON; SWEENEY;

WILLIAMS, 2011, p. 238) e “Uma amostra é um subconjunto da população”

(ANDERSON; SWEENEY; WILLIAMS, 2011, p.238).

A estatística, muitas vezes busca estimar hipóteses de uma população a partir de

uma amostra, já que não é viável avaliar os valores das variáveis de toda uma população,

e por esse motivo, a amostra é capaz de gerar uma estimativa dos valores de uma

população (ANDERSON; SWEENEY; WILLIAMS, 2011).

As amostras podem ser aleatórias, de modo que quando se escolhe os elementos

da amostra todos os elementos da população tenham a mesma probabilidade de serem

escolhidos (ANDERSON; SWEENEY; WILLIAMS, 2011).

Para isso, serão realizadas comparações entre os valores das médias e dos box-

plots de diferentes amostragens aleatórias da população total de municípios para cada

variável selecionadas para o estudo de ANOVA no Capítulo 5.

Estas variáveis foram selecionadas entre as apresentadas no capítulo 1, e são elas

T_NESTUDA_NTRAB_MMEIO, MORT1, IDHM_L, IDHM_R, PPOBCRI e

PINDCRI. O motivo da seleção destas variáveis entre as outras é que o valor de F no teste

ANOVA que buscou comparar as médias das diferentes regiões brasileiras foi maior do

que as demais.

Ao organizar os valores dos dados em ordem crescente é possível calcular as

medidas de posição. O primeiro quartil, indica o dado que 25% dos dados possuem um

valor menor que ele, a mediana indica o dado que 50% possuem um valor menor que ele

e o terceiro quartil o dado que 75% dos valores são menores que ele (ANDERSON,

SWEENEY, WILLIANS, 2011).

As análises serão realizadas com o auxílio do software estatístico MINITAB.

6.1 Análise dos Resultados

Este trabalho tem como objetivo fazer uma comparação entre os valores obtidos

no box-plot das variáveis selecionadas para amostras com diferentes quantidades de

dados. Serão comparados os resultados obtidos das análises do box-plot construído com

todos os municípios, com 25 municípios selecionados de fora aleatória, com 100

municípios selecionados de forma aleatória e com 400 municípios selecionados de forma

aleatória. Para selecionar os municípios de forma aleatória foi utilizado o recurso do

Randon Data do MINITAB.

Inicialmente será analisada a variável MORT1, que representa o “Número de

nascidas vivas”.

A Figura 1 representa o histograma e o box-plot da variável MORT1 com todos

os municípios, e a Figura 2, 3 e 4 representa o histograma e o box-plot da variável MORT1

com 25, 100 e 400 municípios escolhidos aleatoriamente.

423630241812

Median

19,519,018,518,017,517,0

Median 16,900

Maximum 46,800

19,059 19,435

16,700 17,173

7,006 7,272

A -Squared 158,86

P-V alue < 0,005

Mean 19,247

StDev 7,137

V ariance 50,932

Skewness 1,00629

Kurtosis 0,43243

N 5565

Minimum 8,490

Análises da Variável MORT1 com Todos os Municípios

Figura 1: Análises da Variável MORT1 com Todos os Municípios

40322416

Median

25,022,520,017,515,0

Median 16,100

Maximum 38,600

16,099 22,316

13,800 23,688

5,880 10,476

A -Squared 1,25

P-V alue < 0,005

Mean 19,208

StDev 7,531

V ariance 56,711

Skewness 1,00010

Kurtosis 0,11476

Minimum 10,900

Análises da Variável MORT1 com 25 Municípios

Figura 2: Análises da Variável MORT1 com 25 Municípios

3630241812

Median

21201918171615

Median 16,700

Maximum 39,900

17,762 20,567

15,400 18,552

6,208 8,213

A -Squared 3,41

P-V alue < 0,005

Mean 19,165

StDev 7,070

V ariance 49,986

Skewness 1,12125

Kurtosis 0,76910

Minimum 9,000

423630241812

Median

2019181716

Median 16,420

Maximum 44,300

18,388 19,789

15,891 17,200

6,667 7,661

A -Squared 14,89

P-V alue < 0,005

Mean 19,088

StDev 7,130

V ariance 50,832

Skewness 1,07755

Kurtosis 0,53115

Minimum 8,720

A partir da análise visual dos histogramas da Figura 1, 2 e 4, pode-se perceber que

a distribuição dos dados foi parecida, porém a distribuição observada pela Figura 3

mostrou-se um pouco diferente da observada pela Figura 1. É possível observar pelo

comportamento da distribuição da Figura 3 alguns vales no histograma entre o valor 24 e

30, que representam um comportamento diferente da Figura 1.

A Figura 5 apresenta a comparação realizada através do método ANOVA pelo

MINITAB dos box-plots da variável MORT1 com todos os municípios, com 25, com 100

e com 400 municípios. One-way ANOVA: MORT1; 25taxmort1; 100taxmort1; 400taxmort1 Source DF SS MS F P

Factor 3 9,9 3,3 0,06 0,978

Error 6086 309975,5 50,9

Total 6089 309985,4

S = 7,137 R-Sq = 0,00% R-Sq(adj) = 0,00%

Level N Mean StDev

MORT1 5565 19,247 7,137

25taxmort1 25 19,208 7,531

100taxmort1 100 19,165 7,070

400taxmort1 400 19,088 7,130

Level -+---------+---------+---------+--------

MORT1 (*-)

25taxmort1 (------------------*------------------)

100taxmort1 (---------*--------)

400taxmort1 (---*----)

-+---------+---------+---------+--------

16,5 18,0 19,5 21,0

400taxmort1100taxmort125taxmort1MORT1

Boxplot of MORT1; 25MORT1; 100MORT1; 400MORT11

Figura 5: Box-Plot da variável MORT1 e suas amostras aleatórias

Observando-se as Figura 1, 2, 3, 4 e 5 é possível verificar que a média das amostras

foram parecidas com a média da população. Espera-se que quanto maior o número de

municípios selecionados maior a precisão da média das amostras em relação à média da

população, porém, neste caso o valor mais próximo da média da população foi o

proveniente da amostra com 25 municípios. Observando-se os box-plots é possível

verificar que a distribuição dos dados em relação a mediana fica mais próxima da pulação

conforme se aumenta o número de municípios da amostra. A amostra com 25 municípios

possui uma distância maior do que as outras estre a mediana e o terceiro quartil, e também

não é possível verificar a existência de outliers nesta distribuição. A mediana e o primeiro

quartil obtiveram um valor próximo da população nas três amostras.

Os valores da média, mediana e desvio padrão da população ficaram dentro dos

valores obtidos nos intervalos de confiança de 95% das amostras.

As Figuras 6, 7, 8 e 9 representam os histogramas, os valores da média, desvio

padrão e o box-plot da variável PINDCRI que representa a “Proporção dos indivíduos

com até 14 anos de idade que têm renda domiciliar per capita igual ou inferior a R$ 70,00

mensais, em reais de agosto de 2010. O universo de indivíduos é limitado àqueles que

vivem em domicílios particulares permanentes”, com a população total de municípios,

com amostra de 25 municípios, com amostra de 100 municípios e com amostra de 400

municípios.

706050403020100

Median

16141210

1st Q uartile 3,020

Median 9,950

Maximum 72,430

15,630 16,437

9,309 10,604

15,073 15,644

A -Squared 251,98

P-V alue < 0,005

Mean 16,034

StDev 15,353

V ariance 235,729

Skewness 0,895387

Kurtosis -0,244425

N 5565

Minimum 0,000

Análise da Variável PINDCRI com Todos os Municípios

Figura 6: Análises da Variável PINDCRI com Todos os Municípios

483624120

Median

2015105

1st Q uartile 2,520

Median 12,960

Maximum 53,190

9,054 21,979

3,435 20,577

12,225 21,781

A -Squared 1,17

P-V alue < 0,005

Mean 15,516

StDev 15,657

V ariance 245,131

Skewness 1,18156

Kurtosis 0,82278

Minimum 0,400

Análise da Variável PINDCRI com 25 Município na Amostra

Figura 7: Análises da Variável PINDCRI com 25 Municípios

50403020100

Median

17,515,012,510,07,55,0

1st Q uartile 3,355

Median 8,710

Maximum 51,860

12,063 17,819

5,842 12,308

12,735 16,849

A -Squared 5,40

P-V alue < 0,005

Mean 14,941

StDev 14,504

V ariance 210,368

Skewness 0,986582

Kurtosis -0,220765

Minimum 0,000

6050403020100

Median

161412108

1st Q uartile 2,750

Median 9,750

Maximum 61,270

13,735 16,582

7,597 13,027

13,542 15,560

A -Squared 16,31

P-V alue < 0,005

Mean 15,158

StDev 14,480

V ariance 209,684

Skewness 0,907388

Kurtosis -0,123959

Minimum 0,000

Observando-se os histogramas da variável PINDCRI é possível observar que eles

possuem uma distribuição parecida. Para comparar melhor os valores da média, mediana

e distribuição de dados das diferentes amostras, a Figura 10 apresenta a comparação

realizada através do método ANOVA pelo MINITAB dos box-plots da variável

PINDCRI com todos os municípios, com 25, com 100 e com 400 municípios.

One-way ANOVA: PINDCRI; PINDCRI25; PINDCRI100; PINDCRI400

Source DF SS MS F P

Factor 3 396 132 0,56 0,638

Error 6086 1421969 234

Total 6089 1422365

S = 15,29 R-Sq = 0,03% R-Sq(adj) = 0,00%

Pooled StDev

PINDCRI 5565 16,03 15,35 (*-)

PINDCRI25 25 15,52 15,66 (-------------------*-------------------)

PINDCRI100 100 14,94 14,50 (---------*---------)

PINDCRI400 400 15,16 14,48 (----*----)

--------+---------+---------+---------+-

PINDCRI400PINDCRI100PINDCRI25PINDCRI

Boxplot of PINDCRI; PINDCRI25; PINDCRI100; PINDCRI400

Figura 10: Box-Plot da variável PINDCRI e suas amostras aleatórias

É possível observar a presença de outliers apenas na amostra com 400 municípios.

Também se verifica que a distribuição dos dados com relação entre as diferenças entre o

primeiro quartil, a mediana e o terceiro quartil da amostra com 25 municípios é diferente

da população total, porém as amostras com 100 e 400 municípios apresentam uma

distribuição próxima da população total. O valor da média das amostras, como é possível

perceber é próximo ao valor da população, sendo que a amostra com 25 municípios possui

o valor mais próximo. O valor da mediana e do terceiro quartil da amostra com 25

municípios é mais distante da população do que as demais amostras.

As Figuras 11, 12, 13 e 14 representam os histogramas, os valores da média,

desvio padrão e o box-plot da variável PPOBCRI que representa a “Proporção dos

indivíduos com até 14 anos de idade que têm renda domiciliar per capita igual ou inferior

a R$ 255,00 mensais, em reais de agosto de 2010, equivalente a 1/2 salário mínimo nessa

data. O universo de indivíduos é limitado àqueles com até 14 anos e que vivem em

domicílios particulares permanentes”, com a população total de municípios, com amostra

de 25 municípios, com amostra de 100 municípios e com amostra de 400 municípios.

847056422814

Median

6261605958

Median 61,040

Maximum 95,440

58,389 59,588

60,029 62,162

22,402 23,250

A -Squared 113,40

P-V alue < 0,005

Mean 58,989

StDev 22,818

V ariance 520,660

Skewness -0,29009

Kurtosis -1,16334

N 5565

Minimum 2,450

Análise da Variável PPOBCRI com Todos os Municípios

Figura 11: Análise da Variável PPOBCRI com Todos os Municípios

80604020

Median

70656055504540

Median 46,610

Maximum 83,810

42,980 61,234

38,207 68,268

17,264 30,759

A -Squared 0,56

P-V alue 0,135

Mean 52,107

StDev 22,110

V ariance 488,868

Skewness -0,07702

Kurtosis -1,26687

Minimum 11,660

Análise da Variável PPOBCRI com 25 Municípios na Amostra

Figura 12: Análises da Variável PPOBCRI com 25 Municípios

907560453015

Median

7065605550

Median 58,960

Maximum 89,790

52,910 61,933

48,252 68,618

19,962 26,411

A -Squared 2,18

P-V alue < 0,005

Mean 57,422

StDev 22,736

V ariance 516,906

Skewness -0,23016

Kurtosis -1,19756

Minimum 7,450

907560453015

Median

65,062,560,057,555,0

Median 59,630

Maximum 95,440

56,060 60,560

55,377 64,467

21,404 24,595

A -Squared 6,91

P-V alue < 0,005

Mean 58,310

StDev 22,888

V ariance 523,863

Skewness -0,23033

Kurtosis -1,17016

Minimum 7,540

É possível perceber que a distribuição dos histogramas é parecida visualmente em

todas as amostras. Para comparar melhor os valores da média, mediana e distribuição de

dados das diferentes amostras, a Figura 15 apresenta a comparação realizada através do

método ANOVA pelo MINITAB dos box-plots da variável PPOBCRI com todos os

municípios, com 25, com 100 e com 400 municípios.

One-way ANOVA: PPOBCRI; PPOBCRI25; PPOBCRI100; PPOBCRI400 Source DF SS MS F P

Factor 3 1555 518 1,00 0,394

Error 6086 3168881 521

Total 6089 3170436

S = 22,82 R-Sq = 0,05% R-Sq(adj) = 0,00%

Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

PPOBCRI 5565 58,99 22,82 (*)

PPOBCRI25 25 52,11 22,11 (-----------------*-----------------)

PPOBCRI100 100 57,42 22,74 (--------*--------)

PPOBCRI400 400 58,31 22,89 (----*---)

----+---------+---------+---------+-----

45,0 50,0 55,0 60,0

PPOBCRI400PPOBCRI100PPOBCRI25PPOBCRI

Boxplot of PPOBCRI; PPOBCRI25; PPOBCRI100; PPOBCRI400

Figura 15: Box-Plot da variável PPOBCRI e suas amostras aleatórias

É possível verificar que a amostra com 25 municípios obteve um valor de média

mais baixo do que a população e do que as outras amostras, com uma diferença de valor

de aproximadamente 7. Este resultado é visível no box-plot. As demais amostram

apresentaram um valor de média muito próximas do valor da população. A distribuição

da amostra com 25 municípios também foi diferente da população total, já que o primeiro

quartil, a mediana e o terceiro quartil focaram bem abaixo dos representados pela

população total, com uma diferença de valores de 7,13; 14,43 e 8,41 respectivamente. Os

outros box-plots tiveram um valor semelhante ao da população total, o que mostra que

estas amostras tiveram um bom poder de representação da população, o que pode ser

verificado se forem observados os valores numéricos apresentados nas Figuras 11, 13 e

desvio padrão e o box-plot da variável T_NSTUDA_NTRAB_MMEIO que representa a

“Razão entre as pessoas de 15 a 24 anos que não estudam nem trabalham e são vulneráveis

à pobreza e a população total nesta faixa etária multiplicado por 100. Define-se como

vulneráveis à pobreza as pessoas que moram em domicílios com renda per capita inferior

a 1/2 salário mínimo de agosto de 2010. São considerados apenas os domicílios

particulares permanentes”, com a população total de municípios, com amostra de 25

municípios, com amostra de 100 municípios e com amostra de 400 municípios.

56484032241680

Median

15,014,514,013,5

1st Q uartile 7,295

Median 13,670

Maximum 55,250

14,546 15,006

13,299 14,340

8,592 8,917

A -Squared 61,38

P-V alue < 0,005

Mean 14,776

StDev 8,751

V ariance 76,588

Skewness 0,388117

Kurtosis -0,679693

N 5565

Minimum 0,000

Análise da Variável T_NESTUDA_NTRAB_MMEIO para Todos os Municípios

Figura 16: Análises da Variável T_NESTUDA_NTRAB_MMEIO com Todos os Municípios

241680

Median

201816141210

1st Q uartile 9,410

Median 14,860

Maximum 28,140

11,630 18,061

10,089 19,249

6,083 10,837

A -Squared 0,28

P-V alue 0,618

Mean 14,846

StDev 7,790

V ariance 60,686

Skewness 0,044807

Kurtosis -0,963053

Minimum 0,780

Análise da Variável T_NESTUDA_NTRAB_MMEIO na Amostra com 25 Municípios

Figura 17: Análises da Variável T_NESTUDA_NTRAB_MMEIO com 25 Municípios

30,022,515,07,50,0

Median

16151413121110

1st Q uartile 6,728

Median 12,515

Maximum 35,320

12,162 15,490

10,286 14,963

7,361 9,739

A -Squared 1,31

P-V alue < 0,005

Mean 13,826

StDev 8,384

V ariance 70,286

Skewness 0,489945

Kurtosis -0,600442

Minimum 0,000

363024181260

Median

16,015,515,014,514,013,513,0

1st Q uartile 7,695

Median 13,870

Maximum 38,660

14,324 16,047

12,861 15,353

8,193 9,414

A -Squared 3,98

P-V alue < 0,005

Mean 15,186

StDev 8,761

V ariance 76,757

Skewness 0,374407

Kurtosis -0,786078

Minimum 0,000

É possível verificar que a distribuição dos histogramas não é muito parecida

visualmente com a distribuição da população. O histograma da população total apresenta

visualmente mais claro a distribuição de dois picos, um com menor e outro com maior

valor, enquanto o histograma das amostras parece possuir uma distribuição mais igual.

Para comparar melhor os valores da média, mediana e distribuição de dados das

diferentes amostras, a Figura 20 apresenta a comparação realizada através do método

ANOVA pelo MINITAB dos box-plots da variável T_NESTUDA_NTRAB_MMEIO

com todos os municípios, com 25, com 100 e com 400 municípios.

One-way ANOVA: T_NESTUDA_NT; 25T_NESTUDA_; 100T_NESTUDA; 400T_NESTUDA Source DF SS MS F P

Factor 3 156,7 52,2 0,68 0,562

Error 6086 465175,9 76,4

Total 6089 465332,6

S = 8,743 R-Sq = 0,03% R-Sq(adj) = 0,00%

Level N Mean StDev

T_NESTUDA_NTRAB_MMEIO 5565 14,776 8,751

25T_NESTUDA_NTRAB_MMEIO 25 14,846 7,790

Pooled StDev

Level ---+---------+---------+---------+------

T_NESTUDA_NTRAB_MMEIO (*)

25T_NESTUDA_NTRAB_MMEIO (----------------*----------------)

100T_NESTUDA_NTRAB_MMEIO (-------*--------)

400T_NESTUDA_NTRAB_MMEIO (---*---)

---+---------+---------+---------+------

12,0 14,0 16,0 18,0

B_MMEIO

RAB_MMEIO; 25T_NESTUDA_NTRAB_MMEIO; 100T_NESTUDA_NTRAB_MMEIO; 400T

Figura 20: Box-Plot da variável T_NESTUDA_NTRAB_MMEIO e suas amostras aleatórias

É possível verificar que a média da população e das amostras são próximas. A

mediana das amostras com 25 e com 100 municípios é mais distante do valor da mediana

da população, porém a mediana da amostra com 400 municípios tem o valor próximo da

mediana da população total. Os terceiros quartis das quatro análises possuem um valor

próximo. Nenhuma das amostras apresentou os outliers.

A Figura 21 representa o histograma e o box-plot da variável IDHM_L com todos

os municípios, e as Figuras 22, 23 e 24 representam o histograma e o box-plot da variável

IDHM_L com 25, 100 e 400 municípios escolhidos aleatoriamente. A variável IDHM_L

representa o “Índice da dimensão Longevidade que é um dos 3 componentes do IDHM.

É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor

observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os

valores mínimo e máximo são 25 e 85 anos, respectivamente”.

0,870,840,810,780,750,720,69

Median

0,8100,8080,8060,8040,8020,800

Median 0,80800

Maximum 0,89400

0,80039 0,80274

0,80600 0,80900

0,04387 0,04553

A -Squared 35,06

P-V alue < 0,005

Mean 0,80156

StDev 0,04468

V ariance 0,00200

Skewness -0,409358

Kurtosis -0,486243

N 5565

Minimum 0,67200

Análise da Variável IDHM_L para Todos os Municípios

Figura 21: Análise da Variável IDHM_L para Todos os Municípios

0,880,840,800,760,72

Median

0,820,810,800,790,780,77

Median 0,79800

Maximum 0,88400

0,78234 0,81998

0,77258 0,81641

0,03559 0,06342

A -Squared 0,24

P-V alue 0,752

Mean 0,80116

StDev 0,04558

V ariance 0,00208

Skewness 0,217462

Kurtosis -0,583071

Minimum 0,71900

Análise da Variável IDHM_L para Uma Amostra com 25 Municípios

Figura 22: Análise da Variável IDHM_L para Uma Amostra com 25 Municípios

0,840,800,760,720,68

Median

0,8150,8100,8050,8000,7950,790

Median 0,80400

Maximum 0,87000

0,79005 0,80753

0,79474 0,81477

0,03868 0,05118

A -Squared 0,72

P-V alue 0,057

Mean 0,79879

StDev 0,04406

V ariance 0,00194

Skewness -0,404751

Kurtosis -0,550106

Minimum 0,68700

0,870,840,810,780,750,720,69

Median

0,8150,8100,8050,8000,795

Median 0,80800

Maximum 0,89000

0,79750 0,80629

0,80091 0,81500

0,04180 0,04803

A -Squared 3,13

P-V alue < 0,005

Mean 0,80189

StDev 0,04470

V ariance 0,00200

Skewness -0,341923

Kurtosis -0,671429

Minimum 0,67700

Observando visualmente os histogramas, é possível verificar que o formato da

distribuição das quatro amostras é similar ao formate de distribuição da população total.

ANOVA pelo MINITAB dos box-plots da variável IDHM_L com todos os municípios,

com 25, com 100 e com 400 municípios.

One-way ANOVA: IDHM_L; IDHM_L25; IDHM_L100; IDHM_L400 Source DF SS MS F P

Factor 3 0,00081 0,00027 0,14 0,939

Error 6086 12,14719 0,00200

Total 6089 12,14800

S = 0,04468 R-Sq = 0,01% R-Sq(adj) = 0,00%

Pooled StDev

IDHM_L 5565 0,80156 0,04468 (-*)

IDHM_L25 25 0,80116 0,04558 (----------------*-----------------)

IDHM_L100 100 0,79879 0,04406 (--------*--------)

IDHM_L400 400 0,80189 0,04470 (---*---)

------+---------+---------+---------+---

0,790 0,800 0,810 0,820

IDHM_L400IDHM_L100IDHM_L25IDHM_L

Boxplot of IDHM_L; IDHM_L25; IDHM_L100; IDHM_L400

Figura 25: Box-Plot da variável IDHM_L e suas amostras aleatórias

Observando-se os valores apresentados nos resultados das análises apresentados

da Figura 21 até a Figura 25, é possível verificar que os valores das médias das amostras

ficaram próximas ao valor da média da população, assim como os valores do primeiro

quartil, da mediana e do terceiro quartil. As amostras representaram bem a população,

porém, a distância entre a mediana e o primeiro e o terceiro quartil foram um pouco mais

precisos a partir da amostra com 100 municípios.

desvio padrão e o box-plot da variável IDHM_R que representa o “Índice da dimensão

Renda que é um dos 3 componentes do IDHM. É obtido a partir do indicador Renda per

capita, através da fórmula: [ln (valor observado do indicador) - ln (valor mínimo)] / [ln

(valor máximo) - ln (valor mínimo)], onde os valores mínimo e máximo são R$ 8,00 e

R$ 4.033,00 (a preços de agosto de 2010)”, com a população total de municípios, com

amostra de 25 municípios, com amostra de 100 municípios e com amostra de 400

municípios.

0,840,770,700,630,560,490,42

Median

0,6560,6520,6480,6440,640

Median 0,65400

Maximum 0,89100

0,64075 0,64499

0,65000 0,65700

0,07919 0,08219

A -Squared 55,08

P-V alue < 0,005

Mean 0,64287

StDev 0,08066

V ariance 0,00651

Skewness -0,101024

Kurtosis -0,873212

N 5565

Minimum 0,40000

Análises da Variável IDHM_R para Todos os Municípios

Figura 26: Análise da Variável IDHM_R para Todos os Municípios

0,760,720,680,640,600,560,52

Median

0,700,680,660,640,620,600,58

Median 0,64700

Maximum 0,76800

0,60812 0,67564

0,57317 0,70241

0,06386 0,11378

A -Squared 0,68

P-V alue 0,066

Mean 0,64188

StDev 0,08179

V ariance 0,00669

Skewness -0,04818

Kurtosis -1,45652

Minimum 0,50200

Análises da Variável IDHM_R para Uma Amostra com 25 Municípios

Figura 27: Análise da Variável IDHM_R para Uma Amostra com 25 Municípios

0,750,700,650,600,550,500,45

Median

0,690,680,670,660,650,640,63

Median 0,66650

Maximum 0,78300

0,63479 0,66675

0,64397 0,69100

0,07070 0,09354

A -Squared 1,40

P-V alue < 0,005

Mean 0,65077

StDev 0,08052

V ariance 0,00648

Skewness -0,491881

Kurtosis -0,649058

Minimum 0,43900

0,840,780,720,660,600,540,48

Median

0,670,660,650,64

Median 0,65200

Maximum 0,85400

0,63542 0,65124

0,63800 0,66809

0,07527 0,08649

A -Squared 3,66

P-V alue < 0,005

Mean 0,64333

StDev 0,08049

V ariance 0,00648

Skewness -0,081221

Kurtosis -0,874451

Minimum 0,45600

É possível verificar visualmente através da observação dos histogramas, que com

exceção da amostra com 100 municípios, a distribuição das amostras ficou parecida com

a distribuição da população.

ANOVA pelo MINITAB dos box-plots da variável IDHM_R com todos os municípios,

com 25, com 100 e com 400 municípios.

One-way ANOVA: IDHM_R; IDHM_R25; IDHM_R100; IDHM_R400 Source DF SS MS F P

Factor 3 0,00620 0,00207 0,32 0,813

Error 6086 39,58859 0,00650

Total 6089 39,59478

S = 0,08065 R-Sq = 0,02% R-Sq(adj) = 0,00%

Level N Mean StDev

IDHM_R 5565 0,64287 0,08066

IDHM_R25 25 0,64188 0,08179

IDHM_R100 100 0,65077 0,08052

IDHM_R400 400 0,64333 0,08049

Level ---------+---------+---------+---------+

IDHM_R (-*)

IDHM_R25 (-------------------*-------------------)

IDHM_R100 (---------*---------)

IDHM_R400 (----*----)

---------+---------+---------+---------+

0,624 0,640 0,656 0,672

IDHM_R400IDHM_R100IDHM_R25IDHM_R

Boxplot of IDHM_R; IDHM_R25; IDHM_R100; IDHM_R400

Figura 30: Box-Plot da variável IDHM_R e suas amostras aleatórias

A partir da observação da Figura 26 até a Figura 30 é possível verificar que o valor

da média, da mediana e do desvio padrão são próximos, e os valores das amostras estão

dentro dos valores da população se for considerado um intervalo de confiança de 95%.

Observando o box-plot, verifica-se que os valores da distância entre a mediana e o

primeiro e o terceiro quartil são próximos, porém, a precisão aumenta a partir da amostra

com 100 municípios.

6.2 Considerações

A partir das análises realizadas, foi possível verificar que os valores da média,

mediana e desvio padrão das amostras foram próximas aos valores da população. Se for

considerada a margem de erro com 95% de confiança, todas tiveram o valor dentro do

valor populacional.

Espera-se que quanto maior o tamanho da amostra, maior a capacidade de

representação da população, porém uma amostra com 25 municípios já conseguiu

mensurar de forma satisfatória os valores referentes a população.

Com este trabalho foi possível verificar que o tamanho da amostra está

relacionado a confiança desejada para avaliar uma população, os resultados das amostras

com maior número de município, no geral, representaram melhor a população, porém a

amostra de 25 municípios também a representaram bem.

CAPÍTULO 7. COMPONENTES PRINCIPAIS

O presente capítulo tem como objetivo realizar um estudo dos componentes

principais e das correlações dos dados provenientes das variáveis selecionadas do Atlas

do Desenvolvimento Humano no Brasil, que apresentam indicadores de desenvolvimento

humano dos 5565 municípios brasileiros. Estes dados são provenientes do Censo

Demográfico de 2010.

Para isso, inicialmente será realizada a normalização e positivação dos dados. A

normalização é realizada através da equação:

CY= (cX-MIN(cX))/(MAX(cX)-MIN(cX))

Onde CY é a célula de destino do resultado e cX a célula de origem dos dados a

serem normalizados. Este procedimento é realizado quando a variável aumenta com

resultados positivos, ou seja, quando quanto maior o valor da variável melhor o indicador.

No caso em que quanto maior o valor dos dados pior é o indicador, além da

normalização, também será realizada a positivação. Para isso deve ser utilizada a equação:

CY = 1-((cX-MIN(cX))/(MAX(cX)-MIN(cX)))

Após realizada esta etapa, serão realizadas as análises dos componentes principais

gerando variáveis sintéticas. A análise dos componentes principais tem como função

diminuir o número de variáveis do modelo.

Também serão realizadas as análises de correlação das variáveis normalizadas e

positivadas e traçado o dendorama.

As análises serão realizadas com o auxílio do software estatístico MINITAB.

7.1.Entendendo os Dados

As variáveis selecionadas para a realização das análises das regressões múltiplas

são os mesmos utilizados para a realização da análise do Capítulo I, porém, as variáveis

que se iniciarem com N foram normalizadas, e as que se iniciarem com NP foram

normalizadas e positivadas. A Tabela 1 apresenta as variáveis selecionadas para a análise.

de Medida

NOMEMUN Nome do Município Variável

Qualitativa

Dimensão Demográfica

NP_FECTOT Número médio de filhos que uma mulher deverá ter

ao terminar o período reprodutivo (15 a 49 anos de

idade).

Variável

Quantitativa

Unidade

NP_MORT1 Número de crianças que não deverão sobreviver ao

primeiro ano de vida de cada 1000 crianças nascidas

vivas.

Variável

Quantitativa

Unidade

Dimensão Educação

N_E_ANOSES

Número médio de anos de estudos que uma criança

que ingressa na escola deverá completar ao atingir 18

anos de idade, se os padrões atuais se mantiverem ao

longo de sua vida escolar.

Variável

Quantitativa

NP_T_ANALF1

Razão entre a população de 15 a 17 anos de idade que

não sabe ler nem escrever um bilhete simples e o total

de pessoas nessa faixa etária multiplicado por 100.

Variável

Quantitativa

Percentual

Dimensão Renda

NP_PIND Proporção dos indivíduos com renda domiciliar per

capita igual ou inferior a R$ 70,00 mensais, em reais

de agosto de 2010. O universo de indivíduos é

limitado àqueles que vivem em domicílios

Variável

Quantitativa

Percentual

NP_PINDCRI Proporção dos indivíduos com até 14 anos de idade

a R$ 70,00 mensais, em reais de agosto de 2010. O

universo de indivíduos é limitado àqueles que vivem

em domicílios particulares permanentes.

Variável

Quantitativa

Percentual

NP_PPOBCRI Proporção dos indivíduos com até 14 anos de idade

a R$ 255,00 mensais, em reais de agosto de 2010,

equivalente a 1/2 salário mínimo nessa data. O

universo de indivíduos é limitado àqueles com até 14

anos e que vivem em domicílios particulares

permanentes.

Variável

Quantitativa

Percentual

Dimensão Trabalho

N_P_SUPER Razão entre o número de pessoas de 18 anos ou mais

de idade ocupadas e que já concluíram a graduação

do ensino superior e o número total de pessoas

ocupadas nessa faixa etária multiplicado por 100.

Variável

Quantitativa

Percentual

NP_T_DES18M Percentual da população economicamente ativa

Variável

Quantitativa

Percentual

NP_TRABSC Razão entre o número de empregados de 18 anos ou

Variável

Quantitativa

Percentual

N_T_AGUA Razão entre a população que vive em domicílios

particulares permanentes com água canalizada para

um ou mais cômodos e a população total residente em

100. A água pode ser proveniente de rede geral, de

poço, de nascente ou de reservatório abastecido por

água das chuvas ou carro-pipa.

Variável

Quantitativa

Percentual

N_T_LUZ Razão entre a população que vive em domicílios

particulares permanentes com iluminação elétrica e a Variável

Quantitativa

Percentual

com ou sem medidor.

NP_PAREDE Razão entre as pessoas que vivem em domicílios

Variável

Quantitativa

Percentual

Dimensão Vulnerabilidade

NP_T_NESTU

DA_NTRAB_M

Razão entre as pessoas de 15 a 24 anos que não

estudam nem trabalham e são vulneráveis à pobreza e

a população total nesta faixa etária multiplicado por

100. Define-se como vulneráveis à pobreza as

pessoas que moram em domicílios com renda per

capita inferior a 1/2 salário mínimo de agosto de

Variável

Quantitativa

Percentual

NP_T_MULCH

EFEFIF014

Razão entre o número de mulheres que são

responsáveis pelo domicílio, não têm o ensino

fundamental completo e têm pelo menos 1 filho de

idade inferior a 15 anos morando no domicílio e o

número total de mulheres chefes de família

multiplicado por 100. São considerados apenas os

domicílios particulares permanentes.

Variável

Quantitativa

Percentual

N_HOMEM10A

População nesta faixa etária e do sexo masculino Variável

Quantitativa

Número

N_HOMEM70A

Quantitativa

Número

Dimensão IDHM

N_IDHM Índice de Desenvolvimento Humano Municipal.

Variável

Quantitativa

Número

N_IDHM_ E Índice sintético da dimensão Educação que é um dos

3 componentes do IDHM. É obtido através da média

geométrica do subíndice de frequência de crianças e

jovens à escola, com peso de 2/3, e do subíndice de

escolaridade da população adulta, com peso de 1/3.

Variável

Quantitativa

Número

N_IDHM_L Índice da dimensão Longevidade que é um dos 3

Esperança de vida ao nascer, através da fórmula:

[(valor observado do indicador) - (valor mínimo)] /

[(valor máximo) - (valor mínimo)], onde os valores

mínimo e máximo são 25 e 85 anos, respectivamente.

Variável

Quantitativa

Número

N_IDHM_R Índice da dimensão Renda que é um dos 3

componentes do IDHM. É obtido a partir do indicador Variável

Quantitativa

Número

Renda per capita, através da fórmula: [ln (valor

observado do indicador) - ln (valor mínimo)] / [ln

(valor máximo) - ln (valor mínimo)], onde os valores

mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a

preços de agosto de 2010). Fonte: Atlas do Desenvolvimento Humano no Brasil

7.2.Análise Descritiva dos Dados Normalizados e Positivados

Inicialmente serão apresentados os resultados das análises descritivas das

variáveis normalizadas ou normalizadas e positivadas. As variáveis que se iniciam por N

foram apenas normalizadas, e as que se iniciam por NP foram normalizadas e positivadas.

As Figuras apresentam a média, desvio padrão, variância, e box-plot de cada uma das

variáveis. As Figuras de 1 a 22 representam as análises de cada uma das variáveis.

0,980,840,700,560,420,280,140,00

Median

0,7550,7500,7450,7400,7350,730

Median 0,75000

Maximum 1,00000

0,73008 0,73726

0,74457 0,75272

0,13420 0,13928

A -Squared 42,50

P-V alue < 0,005

Mean 0,73367

StDev 0,13670

V ariance 0,01869

Skewness -0,99172

Kurtosis 2,01757

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_FECTOT

Figura 1: Análise Estatística da Variável NP_FECTOT

0,980,840,700,560,420,280,140,00

Median

0,7950,7800,7650,7500,7350,720

Median 0,78048

Maximum 1,00000

0,71432 0,72411

0,77335 0,78570

0,18289 0,18981

A -Squared 158,86

P-V alue < 0,005

Mean 0,71921

StDev 0,18629

V ariance 0,03470

Skewness -1,00629

Kurtosis 0,43243

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_MORT1

Figura 2: Análise Estatística da Variável NP_MORT1

0,980,840,700,560,420,280,140,00

Median

0,6080,6060,6040,6020,600

Median 0,60424

Maximum 1,00000

0,60009 0,60689

0,60071 0,60777

0,12700 0,13181

A -Squared 1,38

P-V alue < 0,005

Mean 0,60349

StDev 0,12936

V ariance 0,01673

Skewness -0,208693

Kurtosis 0,451036

N 5565

Minimum 0,00000

Análises Estatísticas da Variável N_E_ANOSESTUDO

Figura 3: Análise Estatística da Variável N_E_ANOSESTUDO

0,980,840,700,560,420,280,140,00

Median

0,9500,9450,9400,9350,9300,9250,920

Median 0,94900

Maximum 1,00000

0,91863 0,92267

0,94721 0,95079

0,07556 0,07843

A -Squared 298,69

P-V alue < 0,005

Mean 0,92065

StDev 0,07697

V ariance 0,00592

Skewness -2,6774

Kurtosis 15,1659

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_T_ANALF15A17

Figura 4: Análise Estatística da Variável NP_T_ANALF15A17

0,980,840,700,560,420,280,140,00

Median

0,920,900,880,860,84

Median 0,91043

Maximum 1,00000

0,83278 0,84165

0,90154 0,91763

0,16577 0,17205

A -Squared 291,12

P-V alue < 0,005

Mean 0,83721

StDev 0,16885

V ariance 0,02851

Skewness -1,10865

Kurtosis 0,49609

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_PIND

Figura 5: Análise Estatística da Variável NP_PIND

0,980,840,700,560,420,280,140,00

Median

0,880,860,840,820,800,780,76

Median 0,86263

Maximum 1,00000

0,77306 0,78420

0,85359 0,87148

0,20811 0,21599

A -Squared 251,98

P-V alue < 0,005

Mean 0,77863

StDev 0,21198

V ariance 0,04493

Skewness -0,895387

Kurtosis -0,244425

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_PINDCRI

Figura 6: Análise Estatística da Variável NP_PINDCRI

0,980,840,700,560,420,280,140,00

Median

0,400,390,380,370,36

Median 0,36993

Maximum 1,00000

0,38554 0,39844

0,35787 0,38080

0,24091 0,25003

A -Squared 113,40

P-V alue < 0,005

Mean 0,39199

StDev 0,24538

V ariance 0,06021

Skewness 0,29009

Kurtosis -1,16334

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_PPOBCRI

Figura 7: Análise Estatística da Variável NP_PPOBCRI

0,980,840,700,560,420,280,140,00

Median

0,1850,1800,1750,1700,1650,160

Median 0,16340

Maximum 1,00000

0,17793 0,18302

0,16071 0,16608

0,09512 0,09872

A -Squared 84,72

P-V alue < 0,005

Mean 0,18048

StDev 0,09688

V ariance 0,00939

Skewness 1,53911

Kurtosis 5,31372

N 5565

Minimum 0,00000

Análises Estatísticas da Variável N_P_SUPER

Figura 8: Análise Estatística da Variável N_P_SUPER

0,980,840,700,560,420,280,140,00

Median

0,8550,8500,8450,8400,835

Median 0,85280

Maximum 1,00000

0,83640 0,84139

0,84993 0,85514

0,09335 0,09688

A -Squared 65,63

P-V alue < 0,005

Mean 0,83889

StDev 0,09508

V ariance 0,00904

Skewness -1,26280

Kurtosis 3,45260

N 5565

Minimum 0,00000

Análises Estatísticas da Variável NP_T_DES18M

Figura 9: Análise Estatística da Variável NP_T_DES18M

0,980,840,700,560,420,280,140,00

Median

0,6400,6350,6300,6250,620

Median 0,63311

Maximum 1,00000

0,62073 0,62948

0,62769 0,63801

0,16340 0,16959

A -Squared 11,46

P-V alue < 0,005

Mean 0,62510

StDev 0,16644

V ariance 0,02770

Skewness -0,324240

Kurtosis -0,261239

N 5565

Minimum 0,00000

Análise Estatística da Variável NP_TRABSC

Figura 10: Análise Estatística da Variável NP_TRABSC

0,980,840,700,560,420,280,140,00

Median

0,910,900,890,880,870,860,85

Median 0,90265

Maximum 1,00000

0,85189 0,85964

0,89855 0,90687

0,14475 0,15023

A -Squared 270,99

P-V alue < 0,005

Mean 0,85576

StDev 0,14743

V ariance 0,02174

Skewness -1,89166

Kurtosis 4,71167

N 5565

Minimum 0,00000

Análise Estatística da Variável N_T_AGUA

Figura 11: Análise Estatística da Variável N_T_AGUA

0,980,840,700,560,420,280,140,00

Median

0,9900,9850,9800,9750,9700,9650,960

Median 0,99160

Maximum 1,00000

0,95910 0,96347

0,99105 0,99215

0,08148 0,08456

A -Squared 938,37

P-V alue < 0,005

Mean 0,96128

StDev 0,08299

V ariance 0,00689

Skewness -4,2167

Kurtosis 23,1543

N 5565

Minimum 0,00000

Análise Estatística da Variável N_T_LUZ

Figura 12: Análise Estatística da Variável N_T_LUZ

0,980,840,700,560,420,280,140,00

Median

0,980,970,960,950,940,93

Median 0,98018

Maximum 1,00000

0,93216 0,93814

0,97885 0,98139

0,11166 0,11589

A -Squared 742,14

P-V alue < 0,005

Mean 0,93515

StDev 0,11373

V ariance 0,01294

Skewness -3,2668

Kurtosis 12,9995

N 5565

Minimum 0,00000

Análise Estatística da Variável NP_PAREDE

Figura 13: Análise Estatística da Variável NP_PAREDE

0,980,840,700,560,420,280,140,00

Median

0,7700,7650,7600,7550,7500,7450,740

Median 0,76685

Maximum 1,00000

0,73931 0,74630

0,76247 0,77060

0,13060 0,13554

A -Squared 68,62

P-V alue < 0,005

Mean 0,74281

StDev 0,13303

V ariance 0,01770

Skewness -0,99289

Kurtosis 1,37190

N 5565

Minimum 0,00000

Análise Estatística da Variável NP_T_MULCHEFEFIF014

Figura 14: Análise Estatística da Variável NP_T_MULCHEFEFIF014

0,980,840,700,560,420,280,140,00

Median

0,7600,7550,7500,7450,7400,7350,730

Median 0,75258

Maximum 1,00000

0,72841 0,73673

0,74045 0,75929

0,15551 0,16140

A -Squared 61,38

P-V alue < 0,005

Mean 0,73257

StDev 0,15840

V ariance 0,02509

Skewness -0,388117

Kurtosis -0,679693

N 5565

Minimum 0,00000

Análise Estatística da Variável NP_T_NESTUDA_NTRAB_MMEIO

Figura 15: Análise Estatística da Variável NP_T_NESTUDA_NTRAB_MMEIO

0,980,840,700,560,420,280,140,00

Median

0,00400,00350,00300,00250,00200,00150,0010

Median 0,00119

Maximum 1,00000

0,00302 0,00399

0,00114 0,00123

0,01800 0,01868

A -Squared 1517,21

P-V alue < 0,005

Mean 0,00351

StDev 0,01833

V ariance 0,00034

Skewness 35,75

Kurtosis 1724,58

N 5565

Minimum 0,00000

Análise Estatística da Variável N_HOMEM10A14

Figura 16: Análise Estatística da Variável N_HOMEM10A14

0,980,840,700,560,420,280,140,00

Median

0,00350,00300,00250,00200,00150,0010

Median 0,00112

Maximum 1,00000

0,00258 0,00354

0,00109 0,00118

0,01799 0,01868

A -Squared 1603,72

P-V alue < 0,005

Mean 0,00306

StDev 0,01833

V ariance 0,00034

Skewness 40,13

Kurtosis 1962,24

N 5565

Minimum 0,00000

Análise Estatística da Variável N_HOMEM70A74

Figura 17: Análise Estatística da Variável N_HOMEM70A74

0,980,840,700,560,420,280,140,00

Median

0,5650,5600,5550,5500,5450,540

Median 0,55631

Maximum 1,00000

0,53889 0,54741

0,54955 0,56532

0,15920 0,16523

A -Squared 40,51

P-V alue < 0,005

Mean 0,54315

StDev 0,16216

V ariance 0,02629

Skewness -0,155605

Kurtosis -0,844490

N 5565

Minimum 0,00000

Análise Estatística da Variável N_IDHM

Figura 18: Análise Estatística da Variável N_IDHM

0,980,840,700,560,420,280,140,00

Median

0,57750,57500,57250,57000,56750,5650

Median 0,57120

Maximum 1,00000

0,56576 0,57370

0,56634 0,57605

0,14826 0,15388

A -Squared 9,32

P-V alue < 0,005

Mean 0,56973

StDev 0,15102

V ariance 0,02281

Skewness -0,098463

Kurtosis -0,515837

N 5565

Minimum 0,00000

Análise Estatística da Variável N_IDHM_E

Figura 19: Análise Estatística da Variável N_IDHM_E

0,980,840,700,560,420,280,140,00

Median

0,620,610,600,590,58

Median 0,61261

Maximum 1,00000

0,57833 0,58891

0,60360 0,61712

0,19759 0,20508

A -Squared 35,06

P-V alue < 0,005

Mean 0,58362

StDev 0,20127

V ariance 0,04051

Skewness -0,409358

Kurtosis -0,486243

N 5565

Minimum 0,00000

Análise Estatística da Variável N_IDHM_L

Figura 20: Análise Estatística da Variável N_IDHM_L

0,980,840,700,560,420,280,140,00

Median

0,520,510,500,49

Median 0,51731

Maximum 1,00000

0,49033 0,49897

0,50916 0,52342

0,16128 0,16739

A -Squared 55,08

P-V alue < 0,005

Mean 0,49465

StDev 0,16428

V ariance 0,02699

Skewness -0,101024

Kurtosis -0,873212

N 5565

Minimum 0,00000

Análise Estatística da Variável N_IDHM_R

Figura 21: Análise Estatística da Variável N_IDHM_R

7.3Analise dos Dados

Foram realizados os testes de correlação das variáveis positivadas e normalizadas,

e os resultados estão apresentados a seguir. As correlações com valores maiores ou iguais

que 0,800 estão pintadas de vermelho.

Correlations: NP_FECTOT; NP_MORT1; N_E_ANOSESTU; NP_T_ANALF15; NP_PIND; ... NP_FECTOT NP_MORT1 N_E_ANOSESTUDO

NP_MORT1 0,514

N_E_ANOSESTUDO 0,431 0,454

0,000 0,000

NP_T_ANALF15A17 0,510 0,668 0,530

0,000 0,000 0,000

NP_PIND 0,606 0,765 0,530

0,000 0,000 0,000

NP_PINDCRI 0,568 0,777 0,520

0,000 0,000 0,000

NP_POBCRI 0,575 0,784 0,556

0,000 0,000 0,000

N_P_SUPER 0,382 0,499 0,392

0,000 0,000 0,000

NP_T_DES18M 0,264 0,371 0,280

0,000 0,000 0,000

NP_TRABSC 0,337 0,495 0,376

0,000 0,000 0,000

N_T_AGUA 0,324 0,546 0,410

0,000 0,000 0,000

N_T_LUZ 0,500 0,332 0,446

0,000 0,000 0,000

NP_PAREDE 0,522 0,470 0,321

0,000 0,000 0,000

NP_T_MULCHEFEFIF 0,577 0,576 0,469

0,000 0,000 0,000

NP_T_NESTUDA_NTR 0,565 0,741 0,541

0,000 0,000 0,000

N_HOMEM10A14 0,074 0,056 0,015

0,000 0,000 0,276

N_HOMEM70A74 0,093 0,065 0,030

0,000 0,000 0,024

N_IDHM 0,610 0,829 0,653

0,000 0,000 0,000

N_IDHM_E 0,562 0,684 0,710

0,000 0,000 0,000

N_IDHM_L 0,527 0,967 0,441

0,000 0,000 0,000

N_IDHM_R 0,597 0,814 0,544

0,000 0,000 0,000

NP_T_ANALF15A17 NP_PIND NP_PINDCRI

NP_PIND 0,737

NP_PINDCRI 0,727 0,991

0,000 0,000

NP_POBCRI 0,649 0,833 0,856

0,000 0,000 0,000

N_P_SUPER 0,403 0,495 0,503

0,000 0,000 0,000

NP_T_DES18M 0,305 0,328 0,333

0,000 0,000 0,000

NP_TRABSC 0,362 0,422 0,448

0,000 0,000 0,000

N_T_AGUA 0,540 0,662 0,669

0,000 0,000 0,000

N_T_LUZ 0,455 0,575 0,536

0,000 0,000 0,000

NP_PAREDE 0,496 0,600 0,565

0,000 0,000 0,000

NP_T_NESTUDA_NTR 0,670 0,817 0,825

0,000 0,000 0,000

N_HOMEM10A14 0,031 0,058 0,059

0,019 0,000 0,000

N_HOMEM70A74 0,044 0,068 0,068

0,001 0,000 0,000

N_IDHM 0,723 0,863 0,870

0,000 0,000 0,000

N_IDHM_E 0,666 0,756 0,762

0,000 0,000 0,000

N_IDHM_L 0,646 0,760 0,776

0,000 0,000 0,000

N_IDHM_R 0,690 0,884 0,891

0,000 0,000 0,000

NP_POBCRI N_P_SUPER NP_T_DES18M

N_P_SUPER 0,578

NP_T_DES18M 0,430 0,076

0,000 0,000

NP_TRABSC 0,654 0,336 0,313

0,000 0,000 0,000

N_T_AGUA 0,603 0,456 0,117

0,000 0,000 0,000

N_T_LUZ 0,413 0,237 0,138

0,000 0,000 0,000

NP_PAREDE 0,457 0,277 0,173

0,000 0,000 0,000

NP_T_NESTUDA_NTR 0,894 0,473 0,546

0,000 0,000 0,000

N_HOMEM10A14 0,083 0,249 -0,072

0,000 0,000 0,000

N_HOMEM70A74 0,093 0,259 -0,043

0,000 0,000 0,001

N_IDHM 0,918 0,698 0,322

0,000 0,000 0,000

N_IDHM_E 0,815 0,692 0,215

0,000 0,000 0,000

N_IDHM_L 0,812 0,543 0,368

0,000 0,000 0,000

N_IDHM_R 0,940 0,658 0,389

0,000 0,000 0,000

NP_TRABSC N_T_AGUA N_T_LUZ

N_T_AGUA 0,295

N_T_LUZ 0,197 0,408

0,000 0,000

NP_PAREDE 0,205 0,248 0,439

0,000 0,000 0,000

NP_T_NESTUDA_NTR 0,592 0,541 0,399

0,000 0,000 0,000

N_HOMEM10A14 0,082 0,069 0,032

0,000 0,000 0,017

N_HOMEM70A74 0,081 0,072 0,042

0,000 0,000 0,002

N_IDHM 0,571 0,659 0,490

0,000 0,000 0,000

N_IDHM_E 0,505 0,615 0,491

0,000 0,000 0,000

N_IDHM_L 0,519 0,549 0,341

0,000 0,000 0,000

N_IDHM_R 0,587 0,641 0,448

0,000 0,000 0,000

NP_PAREDE NP_T_MULCHEFEFIF NP_T_NESTUDA_NTR

NP_T_MULCHEFEFIF 0,438

NP_T_NESTUDA_NTR 0,478 0,579

0,000 0,000

N_HOMEM10A14 0,026 0,025 0,058

0,051 0,065 0,000

N_HOMEM70A74 0,038 0,047 0,070

0,005 0,000 0,000

N_IDHM 0,499 0,646 0,837

0,000 0,000 0,000

N_IDHM_E 0,434 0,602 0,722

0,000 0,000 0,000

N_IDHM_L 0,439 0,566 0,753

0,000 0,000 0,000

N_IDHM_R 0,511 0,620 0,877

0,000 0,000 0,000

N_HOMEM10A14 N_HOMEM70A74 N_IDHM

N_HOMEM70A74 0,974

N_IDHM 0,130 0,137

0,000 0,000

N_IDHM_E 0,131 0,134 0,951

0,000 0,000 0,000

N_IDHM_L 0,073 0,082 0,852

0,000 0,000 0,000

N_IDHM_R 0,137 0,146 0,948

0,000 0,000 0,000

N_IDHM_E N_IDHM_L

N_IDHM_L 0,704

N_IDHM_R 0,820 0,834

0,000 0,000

P-Value

Foi possível verificar que algumas variáveis possuem uma alta correlação entre si.

As variáveis com as correlações mais altas são N_IDHM x NP_MORT1 (0,829),

N_IDHM_L x NP_MORT1 (0,967), N_IDHM_R x NP_MORT1 (0,814), NP_PIND x

NP_PINDCRI (0,991), NP_PIND x NP_PPOBCRI (0,833), NP_PINDCRI x

NP_PPOBCRI (0,856), NP_T_NESTUDA_NTRAB_MMEIO x NP_PIND (0817),

NP_T_NESTUDA_NTRAB_MMEIO x NP_PINDCRI (0825), N_IDHM x NP_PIND

(0863), NP_IDHM x NP_PINDCRI (0,870), N_IDHM_R x NP_PIND (0,884),

N_IDHM_R x NP_PINDCRI (0,891), N_IDHM_E x NP_PPOBCRI (0,918),

N_IDHM_E x NP_PPOBCRI (0,815), N_IDHM_L x NP_PPOBCRI (0,812),

N_IDHM_R x NP_PPOBCRI (0,940), N_HOMEM70A74 x N_HOMEM10A14 (0,974),

N_IDHM_E x N_IDHM (0,951), N_IDHM_L x N_IDHM (0,852), N_IDHM_R x

N_IDHM (0,948), N_IDHM_R x N_IDHM_E (0,820) e N_IDHM_R x N_IDHM_L

(0,834).

A Figura 23 representa o dendorama das variáveis.

EFIF01

N_IDHM

100,00

Variables

DendrogramSingle Linkage; Correlation Coefficient Distance

Figura 23: Dendograma

A partir deste dendograma com 3 clusters pode-se perceber que as variáveis

referentes a quantidade de homens com 10 a 14 e com 70 a 74 anos representam um

agrupamento diferente das outras variáveis, a variável relacionada a desocupação também

está em um agrupamento diferente, enquanto as outras variáveis representam um terceiro

agrupamento. Algumas destas variáveis são mais similares entre si, em especial as

variáveis NP_MORT1 com N_IDHM_L, já que estas duas variáveis estão relacionadas a

saúde e expectativa de vida, as variáveis NP_PIND e N_PINDCRI, já que uma trata dos

indivíduos vivendo na extrema pobreza e a outra das crianças vivendo na extrema

pobreza, e por isso estão relacionadas. As variáveis NP_PPOBCRI, N_IDHM,

N_IDHM_E e IDHM_R também possuem uma alta similaridade.

Para dar continuidade a análise será realizada a análise dos componentes

principais, para estabelecer vetores capazes de diminuir a quantidade de variáveis e que

tenham um alto poder de explicação do modelo.

Principal Component Analysis: NP_FECTOT; NP_MORT1; N_E_ANOSESTU; NP_T_ANALF15; Eigenanalysis of the Correlation Matrix

Eigenvalue 11,499 2,061 1,250 1,059 0,842 0,751 0,636 0,513 0,488

Proportion 0,548 0,098 0,060 0,050 0,040 0,036 0,030 0,024 0,023

Cumulative 0,548 0,646 0,705 0,756 0,796 0,832 0,862 0,886 0,910

Eigenvalue 0,440 0,354 0,320 0,299 0,165 0,133 0,084 0,047 0,028

Proportion 0,021 0,017 0,015 0,014 0,008 0,006 0,004 0,002 0,001

Cumulative 0,930 0,947 0,963 0,977 0,985 0,991 0,995 0,997 0,999

Eigenvalue 0,024 0,006 0,000

Proportion 0,001 0,000 0,000

Cumulative 1,000 1,000 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6

NP_FECTOT 0,200 0,014 -0,230 -0,314 -0,096 -0,354

NP_MORT1 0,253 0,035 0,162 0,028 0,300 -0,048 -

N_E_ANOSESTUDO 0,192 0,044 -0,114 0,049 -0,646 0,022 -

NP_T_ANALF15A17 0,230 0,060 -0,125 -0,038 0,069 0,160 -

NP_PIND 0,271 0,047 -0,134 -0,025 0,185 0,170

NP_PINDCRI 0,272 0,044 -0,080 0,010 0,195 0,179

NP_PPOBCRI 0,274 0,013 0,177 0,031 -0,011 0,016

N_P_SUPER 0,188 -0,213 0,016 0,373 -0,069 -0,368 -

NP_T_DES18M 0,121 0,160 0,429 -0,531 -0,157 0,265 -

NP_TRABSC 0,173 -0,014 0,410 -0,006 -0,289 -0,071

N_T_AGUA 0,199 -0,019 -0,115 0,389 0,104 0,420 -

N_T_LUZ 0,161 0,042 -0,507 -0,151 -0,251 0,348

NP_PAREDE 0,171 0,058 -0,356 -0,359 0,271 -0,264

NP_T_MULCHEFEFIF014 0,206 0,048 -0,041 -0,130 -0,036 -0,397 -

NP_T_NESTUDA_NTRAB_MMEIO 0,262 0,054 0,191 -0,132 -0,001 0,116

N_HOMEM10A14 0,034 -0,673 0,010 -0,163 0,016 0,098 -

N_HOMEM70A74 0,038 -0,670 0,010 -0,185 0,006 0,091 -

N_IDHM 0,286 -0,034 0,025 0,143 -0,051 -0,056

N_IDHM_E 0,261 -0,055 -0,068 0,224 -0,245 -0,104 -

N_IDHM_L 0,255 0,016 0,184 0,055 0,277 -0,061

N_IDHM_R 0,281 -0,029 0,095 0,052 0,077 0,004

NP_FECTOT -0,437 -0,045 -0,314 0,422 0,257 -0,351

NP_MORT1 0,124 0,141 -0,449 -0,249 -0,097 -0,122

N_E_ANOSESTUDO 0,391 0,229 -0,048 -0,182 0,181 -0,273

NP_T_ANALF15A17 0,327 0,294 -0,157 0,675 -0,263 0,344

NP_PIND -0,032 -0,012 0,156 -0,041 0,257 0,142

NP_PINDCRI -0,030 0,000 0,174 -0,061 0,270 0,170

NP_PPOBCRI -0,070 -0,057 0,137 -0,022 0,207 0,046

N_P_SUPER 0,058 -0,603 0,031 0,135 -0,291 0,096

NP_T_DES18M 0,000 -0,364 0,017 0,010 -0,236 -0,098

NP_TRABSC -0,099 0,260 0,123 0,072 -0,317 0,002

N_T_AGUA -0,323 0,116 0,212 0,106 -0,310 -0,556

N_T_LUZ -0,211 -0,236 -0,270 -0,285 -0,272 0,279

NP_PAREDE 0,433 -0,062 0,377 -0,109 -0,250 -0,319

NP_T_MULCHEFEFIF014 -0,395 0,394 0,248 -0,260 -0,252 0,304

NP_T_NESTUDA_NTRAB_MMEIO 0,001 -0,076 0,187 0,105 0,251 0,037

N_HOMEM10A14 0,017 0,084 -0,000 -0,025 0,023 -0,005

N_HOMEM70A74 0,010 0,071 -0,002 -0,022 0,000 -0,010

N_IDHM 0,057 -0,056 -0,036 -0,043 0,088 0,041

N_IDHM_E 0,110 -0,031 0,004 -0,015 0,093 0,063

N_IDHM_L 0,066 0,058 -0,463 -0,237 -0,067 -0,093

N_IDHM_R -0,033 -0,136 0,105 0,005 0,139 0,053

NP_FECTOT -0,067 -0,069 -0,010 0,013 -0,018 -0,009

NP_MORT1 -0,071 0,037 -0,091 -0,023 -0,689 0,037

N_E_ANOSESTUDO -0,314 0,148 0,098 0,006 0,037 -0,020

NP_T_ANALF15A17 0,018 0,048 0,107 0,031 0,020 -0,011

NP_PIND -0,368 -0,253 -0,140 -0,017 0,023 0,016

NP_PINDCRI -0,353 -0,273 -0,105 0,176 0,021 -0,025

NP_PPOBCRI 0,238 0,151 0,563 0,614 -0,123 -0,058

N_P_SUPER -0,326 0,123 -0,077 0,124 -0,035 -0,028

NP_T_DES18M 0,009 -0,265 0,016 0,002 0,002 -0,020

NP_TRABSC -0,199 -0,139 -0,100 -0,029 0,012 0,011

N_T_AGUA 0,051 0,030 -0,014 0,012 0,012 -0,003

N_T_LUZ 0,068 0,156 0,020 0,005 -0,028 -0,005

NP_PAREDE 0,108 -0,002 0,020 0,026 0,032 -0,006

NP_T_MULCHEFEFIF014 0,006 0,086 -0,000 -0,015 0,019 -0,015

NP_T_NESTUDA_NTRAB_MMEIO 0,173 0,653 -0,534 -0,042 0,002 0,015

N_HOMEM10A14 0,025 -0,016 -0,021 -0,054 -0,035 -0,703

N_HOMEM70A74 -0,015 0,008 0,019 0,081 0,035 0,700

N_IDHM 0,282 -0,180 0,024 -0,243 0,096 0,034

N_IDHM_E 0,547 -0,444 -0,299 0,038 -0,068 0,032

N_IDHM_L 0,009 0,063 -0,018 0,105 0,698 -0,044

N_IDHM_R 0,003 0,108 0,480 -0,700 -0,012 0,053

Variable PC20 PC21

NP_FECTOT 0,034 0,002

NP_MORT1 0,002 0,011

N_E_ANOSESTUDO 0,009 -0,001

NP_T_ANALF15A17 0,002 -0,006

NP_PIND -0,713 -0,022

NP_PINDCRI 0,684 0,016

NP_PPOBCRI -0,113 0,009

N_P_SUPER -0,011 0,004

NP_T_DES18M -0,001 -0,000

NP_TRABSC -0,007 0,000

N_T_AGUA 0,002 -0,001

N_T_LUZ 0,022 -0,004

NP_PAREDE 0,019 -0,001

NP_T_MULCHEFEFIF014 -0,002 -0,000

NP_T_NESTUDA_NTRAB_MMEIO 0,019 0,001

N_HOMEM10A14 -0,013 0,003

N_HOMEM70A74 0,010 -0,002

N_IDHM 0,001 0,830

N_IDHM_E -0,000 -0,429

N_IDHM_L -0,015 -0,148

N_IDHM_R 0,088 -0,322

A Figura 24 representa o Scree Plot e a Figura 25 representa o Loading Plot for 2-

componentes traçados com o auxílio do software estatístico MINITAB.

2018161412108642

Component Number

Scree Plot of NP_FECTOT; ...; N_IDHM_R

Figura 24: Scree-plot das variáveis

0,300,250,200,150,100,050,00

First Component

N_IDHM_R

N_IDHM_L

N_IDHM_EN_IDHM

N_HOMEM70A74N_HOMEM10A14

NP_T_NESTUDA_NTRAB_MMEIONP_T_MULCHEFEFIF014NP_PAREDEN_T_LUZ

N_T_AGUANP_TRABSC

NP_T_DES18M

N_P_SUPER

NP_PPOBCRINP_PINDCRINP_PINDNP_T_ANALF15A17

N_E_ANOSESTUDO NP_MORT1NP_FECTOT

Loading Plot of NP_FECTOT; ...; N_IDHM_R

Figura 25: Loading Plot das Variáveis

De acordo com a Figura 24, apenas 4 pontos possuem o Eigenvalue maior do que

1, e estes podem ser usados como vetores, e juntos possuem um poder de explicação de

0,756. Optou-se por utilizar apenas três componentes com Eigenvalue maior do que 1, e

estes possuem um poder de explicação de 70,5%. Ao invés de trabalhar com as 21

variáveis, pode-se trabalhar com 3 variáveis e ter um poder de explicação de 70,5%.

Se fossem adotadas 8 variáveis sintéticas, o poder de explicação seria de 88,6%.

Observando-se a Figura 25, também é possível perceber de maneira visual que

existem quatro vetores principais, formados pelas variáveis agrupadas. O primeiro se

refere a quantidade de homens de 10 a 14 anos e de 70 a 74 anos, o segundo a variável

relativa ao acesso ao ensino superior, o terceiro a variável relativa a taxa de desocupação

e o quarto agrupa as demais variáveis selecionadas.

Foram escolhidas para dar continuidade a análise três novas variáveis sintéticas.

A primeira variável sintética distribui seu peso em diversas variáveis, porém está mais

fortemente associada as variáveis relacionadas a renda e longevidade. Pode-se perceber

que a segunda variável sintética está associada fortemente à quantidade de homem de 10

a 14 anos e de 70 a 74 anos, e a terceira a taxa de desocupação dos indivíduos, trabalho

sem registro, condições de moradia adequada e acesso a luz.

O nome das três variáveis sintéticas será PCRenLong, PCHomem e PCTrab. A

correlação das 3 variáveis sintéticas é 0, já que elas se relacionam com variáveis diferentes

e complementares.

Correlations: PCRenLong; PCHomem; PCTrab PCRenLong PCHomem

PCHomem -0,000

PCTrab -0,000 -0,000

1,000 1,000

P-Value

Foi feito o gráfico Scater-Plot das três variáveis sintéticas, e separadas as cinco

regiões brasileiras diferentes. A Figura 26 representa o Scater-Plot das três variáveis

sintéticas de análises selecionados para cada uma das cinco diferentes regiões.

-20-10

PCRenLong

PCHomem

PCT rab

REGIÃO

3D Scatterplot of PCRenLong vs PCHomem vs PCTrab

Figura 26: Scater-Plot das 3 variáveis sintéticas de análise selecionadas.

Pode-se perceber que existe uma diferença na distribuição das regiões nas três

dimensões selecionadas. É possível verificar que os valores referentes aos municípios da

região Norte e Nordeste ficam mais agrupados, os municípios das regiões Sul e Sudeste

também ficam mais agrupados. Os municípios da região Centro-Oeste possuem uma

distribuição menos homogênea nas três dimensões e não estão muito agrupados.

Para verificar quais variáveis que melhor explicam cada um dos componentes

sintéticos criados foi realizado um teste de Step-Wise. Inicialmente foi realizado o teste

para o componente PCRenLong.

Stepwise Regression: PCRenLong versus NP_FECTOT; NP_MORT1; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is PCRenLong on 21 predictors, with N = 5565

Step 1 2 3 4 5 6

Constant -11,03 -13,30 -13,91 -14,73 -14,95 -15,41

N_IDHM 20,304 14,463 12,605 12,028 10,647 10,274

T-Value 302,38 149,07 134,06 143,55 127,46 132,01

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PIND 6,500 5,220 4,706 4,352 4,222

T-Value 69,76 60,93 61,69 63,20 66,44

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_NESTUDA_NTRAB_MMEIO 3,678 3,494 3,244 3,202

T-Value 43,56 47,02 48,59 52,06

P-Value 0,000 0,000 0,000 0,000

NP_FECTOT 2,312 2,358 1,922

T-Value 40,62 46,32 39,31

P-Value 0,000 0,000 0,000

NP_MORT1 1,974 1,853

T-Value 37,36 37,95

P-Value 0,000 0,000

NP_T_MULCHEFEFIF014 1,631

T-Value 31,56

P-Value 0,000

S 0,812 0,593 0,512 0,450 0,402 0,370

R-Sq 94,26 96,94 97,72 98,24 98,59 98,81

R-Sq(adj) 94,26 96,94 97,72 98,24 98,59 98,81

Step 7 8 9 10 11 12

Constant -17,36 -17,86 -19,27 -19,80 -19,77 -19,29

N_IDHM 9,999 9,380 9,121 7,503 6,572 5,164

T-Value 139,95 140,49 151,20 107,56 96,21 74,84

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PIND 3,709 4,221 3,537 3,779 4,090 3,866

T-Value 61,87 75,42 66,03 77,92 91,52 97,78

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_NESTUDA_NTRAB_MMEIO 3,106 2,462 2,750 3,018 2,982 2,218

T-Value 55,31 45,76 56,22 67,86 74,19 55,67

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_FECTOT 1,834 1,816 1,434 1,390 1,416 1,417

T-Value 41,08 45,07 38,12 41,17 46,39 53,00

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_MORT1 1,668 1,580 1,886 2,072 2,293 2,342

T-Value 37,20 38,97 50,54 61,18 73,44 85,52

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_MULCHEFEFIF014 1,602 1,661 1,839 1,870 1,737 1,689

T-Value 34,00 39,03 47,78 54,14 55,26 61,27

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_ANALF15A17 3,059 3,267 3,010 3,232 2,923 3,291

T-Value 33,57 39,64 40,51 48,30 47,86 60,65

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_TRABSC 1,154 1,148 1,254 1,261 0,967

T-Value 35,63 39,48 47,80 53,19 44,04

P-Value 0,000 0,000 0,000 0,000 0,000

N_T_LUZ 2,157 2,435 2,123 2,291

T-Value 36,69 45,71 43,38 53,18

P-Value 0,000 0,000 0,000 0,000

N_P_SUPER 1,924 2,172 2,341

T-Value 36,74 45,42 55,61

P-Value 0,000 0,000 0,000

T-Value 35,36 45,84

P-Value 0,000 0,000

NP_PPOBCRI 1,481

T-Value 41,01

P-Value 0,000

S 0,338 0,305 0,273 0,245 0,222 0,194

R-Sq 99,01 99,19 99,35 99,48 99,57 99,67

R-Sq(adj) 99,01 99,19 99,35 99,48 99,57 99,67

Step 13 14 15 16 17 18

Constant -19,63 -20,07 -20,82 -20,84 -20,81 -20,69

N_IDHM 4,8238 4,8930 5,3966 5,3015 5,0578 5,1060

T-Value 80,80 108,24 170,40 280,75 373,65 586,44

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PIND 3,5422 3,0518 3,1830 3,2037 3,2569 1,8039

T-Value 102,08 111,58 168,93 285,47 414,86 105,54

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_NESTUDA_NTRAB_MMEIO 2,3423 2,3228 1,6944 1,6676 1,6674 1,7041

T-Value 68,27 89,43 86,81 143,43 205,82 326,63

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_FECTOT 1,6203 1,4296 1,4347 1,4018 1,3726 1,4646

T-Value 69,26 79,63 116,44 190,86 267,47 424,15

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_MORT1 2,3672 2,2962 2,1320 2,1632 1,4188 1,4194

T-Value 100,70 128,79 171,79 292,45 129,09 201,16

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_MULCHEFEFIF014 1,6813 1,5966 1,4949 1,5177 1,5468 1,5339

T-Value 71,07 88,92 120,67 205,62 299,92 462,84

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_ANALF15A17 3,1286 2,9093 2,8409 2,8668 2,9215 2,9148

T-Value 66,98 81,90 116,47 197,34 287,88 447,38

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_TRABSC 1,0157 1,0481 1,0801 1,0581 1,0616 1,0553

T-Value 53,79 73,29 109,96 180,75 260,24 402,83

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_T_LUZ 2,1552 1,9447 1,8542 1,8443 1,8126 1,8817

T-Value 58,10 68,80 95,42 159,39 224,50 359,03

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_P_SUPER 2,2571 2,1992 2,2626 2,0580 2,0387 2,0372

T-Value 62,39 80,26 120,22 180,67 256,73 399,61

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_E_ANOSESTUDO 1,3515 1,3866 1,2568 1,3103 1,4087 1,4222

T-Value 54,30 73,57 96,40 168,37 252,80 397,19

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PPOBCRI 1,4194 1,4992 1,3713 1,4182 1,3796 1,2500

T-Value 45,75 63,75 84,55 146,66 204,18 273,20

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_T_AGUA 0,9596 1,2069 1,3286 1,3364 1,3557 1,3531

T-Value 44,58 72,09 114,61 193,58 281,43 437,53

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PAREDE 1,2977 1,3941 1,3992 1,4533 1,5065

T-Value 64,33 100,32 169,08 250,15 398,83

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 1,2675 1,2930 1,2722 1,2865

T-Value 78,97 135,23 190,80 300,33

P-Value 0,000 0,000 0,000 0,000

N_HOMEM70A74 3,962 3,999 3,997

T-Value 100,50 145,54 226,65

P-Value 0,000 0,000 0,000

N_IDHM_L 0,8269 0,8007

T-Value 76,68 115,54

P-Value 0,000 0,000

NP_PINDCRI 1,193

T-Value 88,96

P-Value 0,000

S 0,167 0,126 0,0866 0,0516 0,0359 0,0231

R-Sq 99,76 99,86 99,93 99,98 99,99 100,00

R-Sq(adj) 99,76 99,86 99,93 99,98 99,99 100,00

Step 19 20 21

Constant -20,67 -20,88 -20,89

N_IDHM 4,87498 1,68635 1,76567

T-Value 951,75 52,66 *

P-Value 0,000 0,000 *

NP_PIND 1,51520 1,59757 1,60749

T-Value 158,00 276,14 *

P-Value 0,000 0,000 *

NP_T_NESTUDA_NTRAB_MMEIO 1,66155 1,65837 1,65510

T-Value 583,05 974,36 *

P-Value 0,000 0,000 *

NP_FECTOT 1,47054 1,46144 1,46337

T-Value 785,94 1303,70 *

P-Value 0,000 0,000 *

NP_MORT1 1,39180 1,35743 1,35717

T-Value 363,45 587,02 *

P-Value 0,000 0,000 *

NP_T_MULCHEFEFIF014 1,54577 1,54623 1,55155

T-Value 859,72 1440,13 *

P-Value 0,000 0,000 *

NP_T_ANALF15A17 2,94069 2,98435 2,98792

T-Value 831,61 1384,07 *

P-Value 0,000 0,000 *

NP_TRABSC 1,04317 1,04140 1,03878

T-Value 733,16 1225,42 *

P-Value 0,000 0,000 *

N_T_LUZ 1,91871 1,94376 1,94462

T-Value 671,62 1127,32 *

P-Value 0,000 0,000 *

N_P_SUPER 1,96394 1,93330 1,94280

T-Value 693,19 1124,45 *

P-Value 0,000 0,000 *

N_E_ANOSESTUDO 1,48072 1,48173 1,48744

T-Value 738,71 1237,88 *

P-Value 0,000 0,000 *

NP_PPOBCRI 1,13273 1,10930 1,11825

T-Value 422,95 686,32 *

P-Value 0,000 0,000 *

N_T_AGUA 1,34647 1,35232 1,35273

T-Value 803,32 1348,82 *

P-Value 0,000 0,000 *

NP_PAREDE 1,50130 1,50612 1,50695

T-Value 733,61 1231,52 *

P-Value 0,000 0,000 *

NP_T_DES18M 1,25469 1,25885 1,26933

T-Value 536,98 901,83 *

P-Value 0,000 0,000 *

N_HOMEM70A74 3,88102 3,84662 2,05641

T-Value 404,02 669,40 *

P-Value 0,000 0,000 *

N_IDHM_L 0,82380 1,27874 1,26883

T-Value 219,16 252,13 *

P-Value 0,000 0,000 *

NP_PINDCRI 1,33557 1,28917 1,28197

T-Value 181,26 291,39 *

P-Value 0,000 0,000 *

N_IDHM_R 0,54255 1,75723 1,71331

T-Value 115,58 141,00 *

P-Value 0,000 0,000 *

N_IDHM_E 1,78205 1,72609

T-Value 100,03 *

P-Value 0,000 *

N_HOMEM10A14 1,84543

T-Value *

P-Value *

S 0,0125 0,00746 0,000000

R-Sq 100,00 100,00 100,00

R-Sq(adj) 100,00 100,00 100,00

Pode-se perceber que a variável N_IDHM é a que mais explica o componente

PCRenLong, com o valor de 94,26%. A próxima variável que explica o componente é a

NP_PIND, com o valor de explicação agregado de 96,94%. A terceira variável é a

NP_T_NSTUDA_NTRAB_MMEIO, que no agregado fica 97,72%. Acrescentando-se

mais variáveis é possível perceber que os ganhos marginais no poder de explicação são

cada vez menores.

Foi realizado o teste para o componente PCHomem.

Stepwise Regression: PCHomem versus NP_FECTOT; NP_MORT1; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is PCHomem on 21 predictors, with N = 5565

Step 1 2 3 4 5 6

Constant 0,2655 -1,7759 -1,9520 -2,7892 -2,8984 -2,6369

N_HOMEM10A14 -75,71 -74,80 -38,47 -37,71 -37,64 -38,55

T-Value -281,94 -356,84 -48,60 -55,30 -77,93 -140,89

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 2,430 2,624 2,398 2,468 2,058

T-Value 60,12 76,22 79,69 115,70 162,59

P-Value 0,000 0,000 0,000 0,000 0,000

N_HOMEM70A74 -37,22 -38,27 -36,17 -34,97

T-Value -47,10 -56,20 -74,85 -127,68

P-Value 0,000 0,000 0,000 0,000

NP_PAREDE 1,099 1,461 0,739

T-Value 44,02 79,66 59,94

P-Value 0,000 0,000 0,000

N_P_SUPER -1,635 -2,288

T-Value -74,31 -165,37

P-Value 0,000 0,000

NP_PIND 1,0450

T-Value 108,55

P-Value 0,000

S 0,367 0,286 0,242 0,208 0,147 0,0835

R-Sq 93,46 96,04 97,17 97,90 98,95 99,66

R-Sq(adj) 93,46 96,03 97,16 97,90 98,94 99,66

Step 7 8 9 10 11 12

Constant -3,177 -3,197 -3,470 -3,425 -3,364 -3,441

N_HOMEM10A14 -38,33 -37,71 -37,50 -37,65 -37,58 -36,89

T-Value -173,18 -205,34 -234,98 -257,57 -276,44 -370,45

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 1,9979 1,9302 1,9510 1,9099 1,8867 1,8381

T-Value 194,08 223,73 259,81 273,29 288,22 381,21

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_HOMEM70A74 -35,12 -35,66 -35,89 -35,73 -35,75 -36,40

T-Value -158,55 -194,13 -224,84 -244,31 -262,88 -365,62

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PAREDE 0,6816 0,6333 0,5901 0,5839 0,5957 0,5664

T-Value 67,99 75,80 80,53 87,01 95,26 123,75

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_P_SUPER -2,3387 -2,4249 -2,4022 -2,4520 -2,4894 -2,2702

T-Value -208,31 -256,60 -292,05 -319,17 -343,10 -369,38

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PIND 0,7723 0,6673 0,5595 0,4539 0,4502 0,5440

T-Value 83,32 83,94 76,05 60,80 64,84 103,90

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_ANALF15A17 0,9565 0,8979 0,8647 0,7797 0,7127 0,7852

T-Value 54,23 61,29 67,83 65,22 62,81 94,20

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_MULCHEFEFIF014 0,3754 0,3940 0,3697 0,3409 0,3841

T-Value 50,51 60,90 61,94 60,47 92,45

P-Value 0,000 0,000 0,000 0,000 0,000

N_T_LUZ 0,4159 0,4764 0,4152 0,4619

T-Value 42,54 52,13 47,47 72,05

P-Value 0,000 0,000 0,000 0,000

NP_MORT1 0,1808 0,1814 0,2225

T-Value 32,77 35,36 58,78

P-Value 0,000 0,000 0,000

T-Value 29,49 70,71

P-Value 0,000 0,000

N_IDHM_E -0,4393

T-Value -70,00

P-Value 0,000

S 0,0675 0,0559 0,0486 0,0445 0,0413 0,0301

R-Sq 99,78 99,85 99,89 99,90 99,92 99,96

R-Sq(adj) 99,78 99,85 99,89 99,90 99,92 99,96

Step 13 14 15 16 17

Constant -3,394 -3,325 -3,371 -3,358 -3,321

N_HOMEM10A14 -37,034 -37,044 -36,917 -36,851 -36,799

T-Value -478,27 -605,88 -767,44 -951,85 -1396,79

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 1,70435 1,67857 1,68764 1,68902 1,68527

T-Value 391,38 484,14 618,30 769,19 1127,65

P-Value 0,000 0,000 0,000 0,000 0,000

N_HOMEM70A74 -36,291 -36,296 -36,359 -36,443 -36,491

T-Value -468,85 -593,87 -756,69 -942,09 -1386,33

P-Value 0,000 0,000 0,000 0,000 0,000

NP_PAREDE 0,56301 0,51698 0,51610 0,49958 0,49307

T-Value 158,24 177,06 224,89 267,10 386,74

P-Value 0,000 0,000 0,000 0,000 0,000

N_P_SUPER -2,2687 -2,2508 -2,1773 -2,1802 -2,1997

T-Value -474,92 -594,74 -674,37 -839,25 -1233,09

P-Value 0,000 0,000 0,000 0,000 0,000

NP_PIND 0,4226 0,4894 0,5687 0,5694 0,5311

T-Value 93,09 129,97 174,76 217,53 288,07

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_ANALF15A17 0,7678 0,7957 0,7759 0,7696 0,7617

T-Value 118,39 154,71 191,25 235,69 342,57

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_MULCHEFEFIF014 0,38724 0,38716 0,38906 0,36301 0,36089

T-Value 119,89 151,81 194,07 215,98 315,56

P-Value 0,000 0,000 0,000 0,000 0,000

N_T_LUZ 0,5089 0,5264 0,5182 0,4801 0,4840

T-Value 100,91 131,81 164,94 183,17 271,34

P-Value 0,000 0,000 0,000 0,000 0,000

NP_MORT1 0,20031 0,20799 0,24055 0,23923 0,24627

T-Value 67,54 88,68 124,94 154,43 232,89

P-Value 0,000 0,000 0,000 0,000 0,000

N_E_ANOSESTUDO 0,33167 0,32920 0,31832 0,31946 0,32344

T-Value 90,09 113,24 138,85 173,22 257,60

P-Value 0,000 0,000 0,000 0,000 0,000

N_IDHM_E -0,50619 -0,48627 -0,45414 -0,45935 -0,44551

T-Value -101,19 -122,65 -143,53 -180,35 -255,85

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_NESTUDA_NTRAB_MMEIO 0,26547 0,26543 0,34819 0,33947 0,36748

T-Value 60,33 76,39 113,25 136,97 213,44

P-Value 0,000 0,000 0,000 0,000 0,000

N_T_AGUA -0,14118 -0,13267 -0,11989 -0,12547

T-Value -57,91 -69,04 -76,69 -117,73

P-Value 0,000 0,000 0,000 0,000

N_IDHM_R -0,2406 -0,2514 -0,2012

T-Value -58,61 -76,00 -86,15

P-Value 0,000 0,000 0,000

NP_FECTOT 0,09166 0,09257

T-Value 55,02 81,67

P-Value 0,000 0,000

NP_TRABSC -0,06970

T-Value -80,26

P-Value 0,000

NP_PINDCRI

T-Value

P-Value

S 0,0234 0,0185 0,0145 0,0117 0,00795

R-Sq 99,97 99,98 99,99 99,99 100,00

R-Sq(adj) 99,97 99,98 99,99 99,99 100,00

Step 18

Constant -3,281

N_HOMEM10A14 -36,798

T-Value -2503,65

P-Value 0,000

NP_T_DES18M 1,68484

T-Value 2020,76

P-Value 0,000

N_HOMEM70A74 -36,487

T-Value -2484,72

P-Value 0,000

NP_PAREDE 0,50671

T-Value 701,98

P-Value 0,000

N_P_SUPER -2,1981

T-Value -2208,36

P-Value 0,000

NP_PIND 0,1951

T-Value 60,94

P-Value 0,000

NP_T_ANALF15A17 0,7685

T-Value 618,75

P-Value 0,000

NP_T_MULCHEFEFIF014 0,35766

T-Value 559,99

P-Value 0,000

N_T_LUZ 0,5030

T-Value 498,13

P-Value 0,000

NP_MORT1 0,23942

T-Value 403,63

P-Value 0,000

N_E_ANOSESTUDO 0,33218

T-Value 471,24

P-Value 0,000

N_IDHM_E -0,45916

T-Value -468,91

P-Value 0,000

NP_T_NESTUDA_NTRAB_MMEIO 0,36081

T-Value 374,91

P-Value 0,000

N_T_AGUA -0,12694

T-Value -213,47

P-Value 0,000

N_IDHM_R -0,2035

T-Value -156,21

P-Value 0,000

NP_FECTOT 0,11267

T-Value 171,27

P-Value 0,000

NP_TRABSC -0,07739

T-Value -158,12

P-Value 0,000

NP_PINDCRI 0,2708

T-Value 110,80

P-Value 0,000

S 0,00444

R-Sq 100,00

R-Sq(adj) 100,00

Step 19 20 21

Constant -3,269 -3,266 -3,280

N_HOMEM10A14 -36,7311 -36,7260 -36,7314

T-Value -4589,19 -16801,53 *

P-Value 0,000 0,000 *

NP_T_DES18M 1,68247 1,68241 1,68245

T-Value 3711,43 13589,83 *

P-Value 0,000 0,000 *

N_HOMEM70A74 -36,5339 -36,5374 -36,5343

T-Value -4574,64 -16752,47 *

P-Value 0,000 0,000 *

NP_PAREDE 0,50696 0,51036 0,51065

T-Value 1293,05 4732,02 *

P-Value 0,000 0,000 *

N_P_SUPER -2,18809 -2,19272 -2,19435

T-Value -3996,55 -14564,16 *

P-Value 0,000 0,000 *

NP_PIND 0,26733 0,27401 0,27938

T-Value 144,60 542,03 *

P-Value 0,000 0,000 *

NP_T_ANALF15A17 0,77815 0,78018 0,78324

T-Value 1144,69 4198,85 *

P-Value 0,000 0,000 *

NP_T_MULCHEFEFIF014 0,35648 0,35796 0,35805

T-Value 1027,16 3770,16 *

P-Value 0,000 0,000 *

N_T_LUZ 0,50228 0,49914 0,50092

T-Value 915,78 3321,71 *

P-Value 0,000 0,000 *

NP_MORT1 0,23918 0,19157 0,18927

T-Value 742,38 949,81 *

P-Value 0,000 0,000 *

N_E_ANOSESTUDO 0,33373 0,33766 0,33809

T-Value 871,13 3194,81 *

P-Value 0,000 0,000 *

N_IDHM_E -0,47605 -0,47786 -0,36124

T-Value -862,86 -3168,25 *

P-Value 0,000 0,000 *

T-Value 620,17 2268,46 *

P-Value 0,000 0,000 *

N_T_AGUA -0,12773 -0,12689 -0,12646

T-Value -395,38 -1437,29 *

P-Value 0,000 0,000 *

N_IDHM_R -0,25466 -0,25743 -0,17724

T-Value -304,81 -1127,04 *

P-Value 0,000 0,000 *

NP_FECTOT 0,10782 0,10555 0,10496

T-Value 299,68 1070,08 *

P-Value 0,000 0,000 *

NP_TRABSC -0,08540 -0,08527 -0,08537

T-Value -310,78 -1136,27 *

P-Value 0,000 0,000 *

NP_PINDCRI 0,21218 0,20856 0,20558

T-Value 149,27 536,93 *

P-Value 0,000 0,000 *

NP_PPOBCRI 0,05939 0,05487 0,05356

T-Value 115,13 386,64 *

P-Value 0,000 0,000 *

N_IDHM_L 0,05051 0,08060

T-Value 262,31 *

P-Value 0,000 *

N_IDHM -0,21052

T-Value *

P-Value *

S 0,00241 0,000658 0,000000

R-Sq 100,00 100,00 100,00

R-Sq(adj) 100,00 100,00 100,00

Para o componente PCHomem, a variável N_HOMEM10A14 possui o maior

poder de explicação, com 93,46%. A variável NP_T_DES18M acrescenta pouco poder

de explicação, se tornando 96,04%, e a variável N_HOMEM70A74 é a terceira e torna o

poder de explicação em 97,17%. A partir desta variável, as outras acrescentam pouco

poder de explicação.

Foi realizada o teste Step-Wise com o componente PCTrab.

Stepwise Regression: PCTrab versus NP_FECTOT; NP_MORT1; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is PCTrab on 21 predictors, with N = 5565

Step 1 2 3 4 5 6

Constant 7,346 6,369 3,078 3,934 4,827 4,465

N_T_LUZ -7,642 -9,217 -9,683 -7,912 -8,247 -7,477

T-Value -51,37 -85,80 -126,54 -130,49 -158,98 -172,81

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_TRABSC 3,985 3,118 3,330 2,793 2,901

T-Value 74,40 78,35 115,15 103,17 134,69

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 5,103 5,430 4,976 5,129

T-Value 74,00 108,48 114,35 148,24

P-Value 0,000 0,000 0,000 0,000

NP_PAREDE -3,171 -3,742 -3,202

T-Value -71,28 -94,44 -97,65

P-Value 0,000 0,000 0,000

N_IDHM_L 1,166 1,461

T-Value 46,74 71,49

P-Value 0,000 0,000

NP_FECTOT -1,706

T-Value -57,34

P-Value 0,000

S 0,921 0,652 0,463 0,335 0,284 0,225

R-Sq 32,18 66,01 82,87 91,05 93,58 95,96

R-Sq(adj) 32,16 65,99 82,86 91,05 93,57 95,96

Step 7 8 9 10 11 12

Constant 5,568 5,215 5,766 6,040 5,712 5,921

N_T_LUZ -7,087 -6,779 -6,816 -6,504 -6,246 -6,152

T-Value -192,55 -203,34 -240,88 -298,41 -319,49 -432,86

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_TRABSC 2,9215 3,0305 2,8145 2,7590 2,6955 2,5670

T-Value 163,13 189,20 195,97 254,78 287,08 365,02

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 5,249 5,343 4,885 4,593 4,504 4,566

T-Value 181,90 209,20 205,15 248,99 282,60 394,71

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_PAREDE -2,935 -2,968 -3,104 -3,280 -3,094 -3,103

T-Value -105,66 -121,16 -147,91 -204,95 -215,87 -299,10

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_IDHM_L 1,8489 1,8612 1,5852 1,7583 1,8908 1,6758

T-Value 98,96 113,02 104,42 150,09 180,64 205,43

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_FECTOT -1,6034 -1,5251 -1,6291 -1,7253 -1,6916 -1,7575

T-Value -64,61 -69,45 -86,82 -121,65 -138,89 -198,28

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

NP_T_ANALF15A17 -2,328 -1,894 -2,295 -1,960 -1,756 -1,673

T-Value -49,88 -44,51 -61,83 -69,07 -71,01 -93,22

P-Value 0,000 0,000 0,000 0,000 0,000 0,000

N_E_ANOSESTUDO -0,8681 -0,9929 -0,9242 -0,9323 -0,9773

T-Value -39,98 -53,33 -65,85 -77,50 -111,95

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_NESTUDA_NTRAB_MMEIO 1,112 1,405 1,773 1,412

T-Value 46,51 75,87 99,21 101,59

P-Value 0,000 0,000 0,000 0,000

N_T_AGUA -0,8480 -0,6738 -0,7806

T-Value -65,40 -57,22 -90,20

P-Value 0,000 0,000 0,000

NP_PIND -0,816 -1,247

T-Value -44,80 -85,96

P-Value 0,000 0,000

N_IDHM_R 1,170

T-Value 71,05

P-Value 0,000

S 0,187 0,165 0,140 0,105 0,0900 0,0651

R-Sq 97,21 97,83 98,44 99,12 99,35 99,66

R-Sq(adj) 97,21 97,83 98,44 99,12 99,35 99,66

Step 13 14 15 16 17

Constant 6,101 6,077 6,178 6,162 6,182

N_T_LUZ -6,1395 -6,0511 -6,1292 -6,1325 -6,1038

T-Value -496,92 -623,48 -915,61 -1179,60 -2097,03

P-Value 0,000 0,000 0,000 0,000 0,000

NP_TRABSC 2,4858 2,4728 2,4610 2,4586 2,4545

T-Value 388,16 496,78 723,91 931,15 1666,48

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_DES18M 4,5658 4,5282 4,5631 4,5811 4,5052

T-Value 454,18 578,23 851,13 1097,51 1856,77

P-Value 0,000 0,000 0,000 0,000 0,000

NP_PAREDE -3,0763 -3,1392 -3,1109 -3,1082 -3,1145

T-Value -340,39 -442,46 -640,89 -824,50 -1480,94

P-Value 0,000 0,000 0,000 0,000 0,000

N_IDHM_L 1,6369 0,9476 0,9172 0,9108 0,9533

T-Value 228,97 74,73 105,90 135,41 252,83

P-Value 0,000 0,000 0,000 0,000 0,000

NP_FECTOT -1,7693 -1,7498 -1,6495 -1,6592 -1,6524

T-Value -229,54 -291,90 -385,49 -498,74 -890,17

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_ANALF15A17 -1,6060 -1,6977 -1,6903 -1,6859 -1,6301

T-Value -102,48 -138,44 -201,98 -259,41 -445,48

P-Value 0,000 0,000 0,000 0,000 0,000

N_E_ANOSESTUDO -1,0121 -1,0494 -0,9981 -0,9942 -0,8779

T-Value -132,63 -176,13 -242,50 -311,00 -424,47

P-Value 0,000 0,000 0,000 0,000 0,000

NP_T_NESTUDA_NTRAB_MMEIO 1,2334 1,2450 1,2150 1,2182 1,2016

T-Value 96,38 125,26 178,88 230,95 407,94

P-Value 0,000 0,000 0,000 0,000 0,000

N_T_AGUA -0,7971 -0,8113 -0,7955 -0,7953 -0,7762

T-Value -105,84 -138,62 -198,95 -256,11 -446,07

P-Value 0,000 0,000 0,000 0,000 0,000

NP_PIND -1,2697 -1,3538 -1,3092 -1,2801 -1,2972

T-Value -100,62 -136,78 -193,20 -242,23 -439,56

P-Value 0,000 0,000 0,000 0,000 0,000

N_IDHM_R 0,7840 0,7991 0,8017 0,7103 0,7800

T-Value 46,23 60,67 89,20 99,46 193,46

P-Value 0,000 0,000 0,000 0,000 0,000

NP_PPOBCRI 0,4576 0,5120 0,5524 0,5774 0,6447

T-Value 42,42 60,78 95,73 128,31 249,69

P-Value 0,000 0,000 0,000 0,000 0,000

NP_MORT1 0,8034 0,8594 0,8742 0,8399

T-Value 60,46 94,50 123,71 212,47

P-Value 0,000 0,000 0,000 0,000

NP_T_MULCHEFEFIF014 -0,3417 -0,3390 -0,3132

T-Value -79,82 -101,97 -167,65

P-Value 0,000 0,000 0,000

N_HOMEM70A74 1,0674 1,1535

T-Value 60,44 116,76

P-Value 0,000 0,000

N_IDHM_E -0,3021

T-Value -110,87

P-Value 0,000

N_P_SUPER

T-Value

P-Value

S 0,0566 0,0440 0,0300 0,0233 0,0130

R-Sq 99,74 99,85 99,93 99,96 99,99

R-Sq(adj) 99,74 99,85 99,93 99,96 99,99

Step 18

Constant 6,153

N_T_LUZ -6,0883

T-Value -3047,35

P-Value 0,000

NP_TRABSC 2,4616

T-Value 2436,96

P-Value 0,000

NP_T_DES18M 4,5130

T-Value 2717,88

P-Value 0,000

NP_PAREDE -3,1173

T-Value -2169,09

P-Value 0,000

N_IDHM_L 0,9286

T-Value 357,91

P-Value 0,000

NP_FECTOT -1,6540

T-Value -1304,10

P-Value 0,000

NP_T_ANALF15A17 -1,6185

T-Value -646,36

P-Value 0,000

N_E_ANOSESTUDO -0,8701

T-Value -614,30

P-Value 0,000

NP_T_NESTUDA_NTRAB_MMEIO 1,2169

T-Value 602,02

P-Value 0,000

N_T_AGUA -0,7807

T-Value -655,98

P-Value 0,000

NP_PIND -1,2635

T-Value -613,34

P-Value 0,000

N_IDHM_R 0,6808

T-Value 225,20

P-Value 0,000

NP_PPOBCRI 0,6680

T-Value 373,60

P-Value 0,000

NP_MORT1 0,8652

T-Value 318,19

P-Value 0,000

NP_T_MULCHEFEFIF014 -0,3152

T-Value -246,93

P-Value 0,000

N_HOMEM70A74 1,0733

T-Value 157,28

P-Value 0,000

N_IDHM_E -0,3654

T-Value -180,53

P-Value 0,000

N_P_SUPER 0,1611

T-Value 79,62

P-Value 0,000

S 0,00887

R-Sq 99,99

R-Sq(adj) 99,99

Step 19 20 21

Constant 6,115 6,110 6,120

N_T_LUZ -6,11245 -6,11200 -6,11329

T-Value -11752,62 -56117,76 *

P-Value 0,000 0,000 *

NP_TRABSC 2,46442 2,46363 2,46370

T-Value 9495,86 45293,95 *

P-Value 0,000 0,000 *

NP_T_DES18M 4,51127 4,51440 4,51438

T-Value 10581,09 50310,32 *

P-Value 0,000 0,000 *

NP_PAREDE -3,13318 -3,13290 -3,13311

T-Value -8393,16 -40076,77 *

P-Value 0,000 0,000 *

N_IDHM_L 0,93520 0,93563 0,91382

T-Value 1403,13 6703,61 *

P-Value 0,000 0,000 *

NP_FECTOT -1,68267 -1,68216 -1,68173

T-Value -4929,63 -23529,89 *

P-Value 0,000 0,000 *

NP_T_ANALF15A17 -1,61858 -1,61717 -1,61939

T-Value -2517,76 -12007,94 *

P-Value 0,000 0,000 *

N_E_ANOSESTUDO -0,87908 -0,87733 -0,87763

T-Value -2408,11 -11452,43 *

P-Value 0,000 0,000 *

T-Value 2325,73 11093,76 *

P-Value 0,000 0,000 *

N_T_AGUA -0,77946 -0,77929 -0,77960

T-Value -2550,77 -12178,44 *

P-Value 0,000 0,000 *

NP_PIND -0,79605 -0,79248 -0,79638

T-Value -455,11 -2162,85 *

P-Value 0,000 0,000 *

N_IDHM_R 0,64153 0,63744 0,57931

T-Value 813,49 3850,36 *

P-Value 0,000 0,000 *

NP_PPOBCRI 0,71608 0,71860 0,71956

T-Value 1461,27 6985,62 *

P-Value 0,000 0,000 *

NP_MORT1 0,86707 0,86673 0,86840

T-Value 1242,00 5928,87 *

P-Value 0,000 0,000 *

NP_T_MULCHEFEFIF014 -0,31224 -0,31064 -0,31070

T-Value -952,21 -4513,95 *

P-Value 0,000 0,000 *

N_HOMEM70A74 1,08213 0,54743 0,54524

T-Value 617,59 346,30 *

P-Value 0,000 0,000 *

N_IDHM_E -0,36265 -0,36624 -0,45077

T-Value -697,76 -3350,17 *

P-Value 0,000 0,000 *

N_P_SUPER 0,16641 0,16907 0,17025

T-Value 320,11 1549,32 *

P-Value 0,000 0,000 *

NP_PINDCRI -0,37682 -0,37931 -0,37714

T-Value -280,35 -1347,25 *

P-Value 0,000 0,000 *

N_HOMEM10A14 0,55093 0,55485

T-Value 347,73 *

P-Value 0,000 *

N_IDHM 0,15258

T-Value *

P-Value *

S 0,00228 0,000477 0,000000

R-Sq 100,00 100,00 100,00

R-Sq(adj) 100,00 100,00 100,00

Para o componente PCTrab, pode-se perceber que a variável que mais o explica é

a N_T_LUZ, com um poder de explicação de 32,18%, seguida por NP_TRABSC com

um poder de explicação agregado de 66,01%. A terceira variável é a NP_T_DES18M

com um poder de explicação agregado de 82,87%. A quarta variável é a NP_PAREDE, e

o poder de explicação agregado é de 91,05%. Neste componente é possível perceber que

as quatro primeiras variáveis acrescentam um poder de explicação significativo para o

componente. A partir da quarta variável, o poder de explicação agregado se torna menor.

7.4.Considerações

De acordo com os resultados obtidos nas análises, foi possível verificar que é

possível diminuir o número de variáveis explicativas do modelo, utilizando menos

variáveis e tendo uma boa explicação dos resultados encontrados. Com isso é possível

simplificar as análises utilizando menos componentes e ter um resultado de análise

preciso.

A quantidade de componentes a ser utilizada depende da precisão desejada no

resultado, neste relatório optou-se por utilizar apenas 3 componentes com um poder de

explicação de 70,5%.

Utilizando-se oito componentes é possível chegar a um valor de explicação de

aproximadamente 90%. Ou seja, pode-se substituir as 21 variáveis selecionadas no estudo

por 8 e ter um poder de explicação de aproximadamente 90%.

CAPÍTULO 8. ANÁLISE DE CONFLOMERADOS

O presente capítulo tem como objetivo realizar um estudo de dendograma e cluster

dos dados provenientes das variáveis selecionadas do Atlas do Desenvolvimento Humano

no Brasil, que apresentam indicadores de desenvolvimento humano dos 5565 municípios

brasileiros. Estes dados são provenientes do Censo Demográfico de 2010.

Com este estudo é possível perceber, a partir dos agrupamentos realizados, quais

estados brasileiros possuem maior similaridade entre si e dividi-los em grupos.

Para realizar as análises serão utilizadas as variáveis normalizadas e positivadas

conforme apresentadas no Capítulo 7.

No Capítulo 7, foram construídas três variáveis sintéticas, a PCRenLong,

explicada 94,26% pela variável N_IDHM, a variável sintética PCHomem, explicada

96,46% pela variável N_HOMEM10A14, e no agregado 96,04% se adicionada a variável

NP_T_DES18M, e a variável sintética PCTrab, explicada por N_T_LUZ em 32,18 %, no

agregado a variável NP_TRABSC gera um poder de explicação de 66,01%, a variável

NP_T_DES18M gera no agregado 82,87% e a variável NP_PAREDE gera um poder de

explicação agregado de 91,05%.

Portanto, para realizar as análises que se seguem, serão utilizadas as variáveis

N_IDHM, N_HOMEM10A14, NP_T_DES18M, N_T_LUZ, NP_TRABSC e

NP_PAREDE.

Será utilizado para análise o software estatístico MINITAB.

8.1.Entendendo as Variáveis Para realizar as análises que se seguem, serão utilizadas as variáveis descritas na

Tabela 1.

de Medida

ESTADO Nome do Estado Variável

Qualitativa

Dimensão Trabalho

NP_T_DES18M Percentual da população economicamente ativa

Variável

Quantitativa

Percentual

NP_TRABSC Razão entre o número de empregados de 18 anos ou

Variável

Quantitativa

Percentual

N_T_LUZ Razão entre a população que vive em domicílios

particulares permanentes com iluminação elétrica e a

com ou sem medidor.

Variável

Quantitativa

Percentual

NP_PAREDE Razão entre as pessoas que vivem em domicílios

Variável

Quantitativa

Percentual

N_HOMEM10A

Quantitativa

Número

Dimensão IDHM

N_IDHM Índice de Desenvolvimento Humano Municipal.

Variável

Quantitativa

Número

As variáveis que começam pela letra N foram todas normalizadas, e pela letra NP

foram positivadas e normalizadas.

8.2.Análise dos Dados

Para iniciar as análises foram traçados os box-plots de cada uma das variáveis

selecionadas para os estados brasileiros. É possível verificar pela média e pela

distribuição dos dados como se comporta cada um dos estados brasileiros para cada uma

das variáveis selecionadas. A Figura 1, 2, 3, 4, 5 e 6 representam os box-plots de cada

uma das variáveis para os estados brasileiros a fim de que que se possa perceber de

maneira visual as similaridades e diferenças entre os valores da média, mediana, primeiro

e terceiro quartil dos estados e seus outliers.

TOSPSESCRSRR

RORNRJPRPIPEPBPAMT

GOESDFCEBAAPAMAL

ESTADO

Boxplot of NP_T_DES18M

Figura 1: Box-plots da Variável T_DES18M Normalizada e Positivada

TOSPSESCRSRR

RORNRJPRPIPEPBPAMT

GOESDFCEBAAPAMAL

ESTADO

Boxplot of NP_TRABSC

Figura 2: Box-plots da Variável TRABSC Normalizada e Positivada

TOSPSESCRSRRRORNRJPRPIPEPBPAMT

GOESDFCEBAAPAMALAC

ESTADO

Boxplot of N_T_LUZ

Figura 3: Box-plots da Variável T_LUZ Normalizada

GOESDFCEBAAPAMALAC

ESTADO

Boxplot of NP_PAREDE

Figura 4: Box-plots da Variável PAREDE Normalizada e Positivada

GOESDFCEBAAPAMALAC

ESTADO

Boxplot of N_HOMEM10A14

Figura 5: Box-plots da Variável HOMEM10A14 Normalizada

GOESDFCEBAAPAMALAC

ESTADO

Boxplot of N_IDHM

Figura 6: Box-plots da Variável IDHM Normalizada

Observando estes box-plots é possível verificar quais os estados que estão

melhores em cada um dos seis indicadores. Pode-se perceber que os estados da Bahia,

Rio Grande do Norte do Norte, Sergipe e Tocantins tem uma menor média para a variável

referente a quantidade de indivíduos que trabalham sem carteira assinada. O acesso a luz

é menor nas regiões do Norte, em especial nos estados do Acre, Amazonas e Pará. Neste

indicador Roraima é o estado que possui a menor média.

Na variável NP_PAREDE, que se refere a quantidade de pessoas que moram em

casas inadequadas, os estados do Maranhão e de Roraima apresentam menores índices,

portanto condições mais precárias de moradia.

A variável referente a quantidade de homens de 10 a 14 anos possuiu uma

distribuição parecida nas diferentes regiões.

Ao observar o box-plot da Figura 6, a variável referente ao IDHM apresenta

distribuições diferentes. É possível verificar que os estados do Sul, Sudeste e Centro-

Oeste possuem uma média melhor do que os demais estados.

As variáveis referentes a taxa de desocupação e ao número de trabalhadores sem

carteira também possui valores de média diferentes para cada estado brasileiro. É possível

verificar que alguns estados são mais similares e outros menos nestas variáveis.

Para dar continuidade as análises, foi realizado um teste de ANOVA para verificar

qual a média de cada uma das seis variáveis normatizadas e positivadas selecionadas para

cada estado brasileiro.

Com os valores das médias, obtidos para cada uma das variáveis em relação a cada

estado brasileiro, foi realizado o teste de cluster com o Linkage Mediun Single e a

Distance Measure Euclidean para as seis variáveis selecionadas com oito clusters.

Cluster Analysis of Observations: MediaNP_T_DE; MediaNP_TRAB; MediaN_T_LUZ; ... Euclidean Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 26 96,2811 0,028588 12 13 12 2

2 25 96,2669 0,028697 16 25 16 2

3 24 94,6705 0,040970 8 9 8 2

4 23 93,0269 0,053604 23 24 23 2

5 22 92,4024 0,058405 8 11 8 3

6 21 91,1329 0,068164 16 20 16 3

7 20 90,9694 0,069421 15 16 15 4

8 19 90,5190 0,072883 1 3 1 2

9 18 90,5094 0,072958 14 17 14 2

10 17 90,0572 0,076434 8 12 8 5

11 16 88,9116 0,085240 2 15 2 5

12 15 88,6338 0,087376 2 5 2 6

13 14 88,4854 0,088517 2 6 2 7

14 13 87,3302 0,097397 1 14 1 4

15 12 87,1875 0,098494 8 18 8 6

16 11 86,2062 0,106037 8 26 8 7

17 10 85,7001 0,109928 8 21 8 8

18 9 85,0060 0,115264 8 19 8 9

19 8 84,6716 0,117834 8 23 8 11

20 7 81,6305 0,141212 1 2 1 11

21 6 81,1068 0,145238 1 4 1 12

22 5 80,3511 0,151047 1 27 1 13

23 4 77,4155 0,173615 1 8 1 24

24 3 71,4674 0,219339 1 10 1 25

25 2 71,1862 0,221501 1 22 1 26

26 1 58,3788 0,319956 1 7 1 27

Final Partition

Number of clusters: 8

Average Maximum

Within distance distance

Number of cluster sum from from

observations of squares centroid centroid

Cluster1 4 0,013421 0,057814 0,062160

Cluster2 7 0,035463 0,067666 0,101224

Cluster3 1 0,000000 0,000000 0,000000

Cluster4 1 0,000000 0,000000 0,000000

Cluster5 11 0,156898 0,111925 0,201236

Cluster6 1 0,000000 0,000000 0,000000

Cluster7 1 0,000000 0,000000 0,000000

Cluster8 1 0,000000 0,000000 0,000000

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6

MediaNP_T_DES18M 0,814855 0,776013 0,69703 0,80286 0,868146 0,80852

MediaNP_TRABSC 0,572825 0,522757 0,62790 0,80170 0,677827 0,55330

MediaN_T_LUZ 0,797100 0,974243 0,92440 0,99880 0,980664 0,91600

MediaNP_PAREDE 0,835275 0,930829 0,89870 0,98370 0,970191 0,59750

MediaN_HOMEM10A14 0,005052 0,003529 0,00562 0,25225 0,004253 0,00379

MediaN_IDHM 0,355725 0,398886 0,50630 0,91440 0,626673 0,35630

Variable Cluster7 Cluster8 centroid

MediaNP_T_DES18M 0,76737 0,80598 0,819366

MediaNP_TRABSC 0,57010 0,53950 0,611081

MediaN_T_LUZ 0,67020 0,87470 0,932574

MediaNP_PAREDE 0,66520 0,85550 0,908504

MediaN_HOMEM10A14 0,00393 0,00114 0,013275

MediaN_IDHM 0,43290 0,49980 0,511785

Distances Between Cluster Centroids

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,000000 0,215385 0,244575 0,698903 0,373064 0,266641 0,230757

Cluster2 0,215385 0,000000 0,179867 0,639958 0,293280 0,343953 0,408012

Cluster3 0,244575 0,179867 0,000000 0,530602 0,233541 0,362340 0,364443

Cluster4 0,698903 0,639958 0,530602 0,000000 0,405472 0,768732 0,746876

Cluster5 0,373064 0,293280 0,233541 0,405472 0,000000 0,485019 0,498714

Cluster6 0,266641 0,343953 0,362340 0,768732 0,485019 0,000000 0,269896

Cluster7 0,230757 0,408012 0,364443 0,746876 0,498714 0,269896 0,000000

Cluster8 0,168502 0,164167 0,155188 0,579262 0,251968 0,298439 0,291453

Cluster8

Cluster1 0,168502

Cluster2 0,164167

Cluster3 0,155188

Cluster4 0,579262

Cluster5 0,251968

Cluster6 0,298439

Cluster7 0,291453

Cluster8 0,000000

A Figura 7 mostra de maneira visual o agrupamento dos estados em oito clusters.

DFRRMASCRSRJROSPPRMT

MGGOESTOAPCEBARNSEPEPBALPIPAAMAC

100,00

Observations

Dendograma dos Estados

Figura 7: Dendograma dos Estados Com os Agrupamentos a Partir das 6 Variáveis

A partir da observação da Figura 7, é possível perceber que é possível dividir o

Brasil em oito grupos de estados similares entre si a partir das variáveis escolhidas para

a análise. No primeiro grupo encontram-se os estados do Acre, Amazonas, Pará e Piauí,

no segundo grupo os estados de Alagoas, Paraíba, Pernambuco, Sergipe, Rio Grande do

Norte, Bahia e Ceará. O terceiro grupo é formado pelo estado do Amapá, o quarto pelo

Tocantins. O quinto grupo é formado por uma grande quantidade de estados, sendo eles

o Espírito Santo, Goiás, Minas Gerais, Mato Grosso do Sul, Mato Grosso, Paraná, São

Paulo, Rondônia, Rio de Janeiro, Rio Grande do Sul e Santa Catarina. O sexto

agrupamento é composto pelo Maranhão, o sétimo por Roraima e o oitavo pelo Distrito

Federal.

É possível perceber que o primeiro agrupamento é formado predominantemente

pelos estados da região Norte, o segundo pelos estados da região Nordeste e no quinto se

encontram os estados mais desenvolvidos, situados na região Sul, Sudeste e Centro-Oeste.

Verifica-se com a leitura dos dados obtidos, que os resultados com oito clusters

possuem uma similaridade de 84,67%, adicionando-se mais um cluster mudaria pouco o

grau de similaridade, e subtraindo-se um cluster não seria possível verificar visualmente

com facilidade as diferenças entre os grupos 1 e 2. Existem cinco cluster que possuem

apenas um estado.

A Figura 8 representa o mapa do Brasil pintado de acordo com os agrupamentos

gerados através da análise dos clusters.

Figura 8: Mapa do Brasil com os Estados Agrupados em 8 Clusters

É possível perceber visualmente que as regiões Centro-Oeste, Sul e Sudeste

formam um agrupamento, sendo estes os municípios mais desenvolvidos. Rondônia,

apesar de pertencer a região Norte também faz parte deste agrupamento. Outro

agrupamento está relacionado com os municípios da região Nordeste, exceto o Piauí e o

Maranhão. Estes municípios, em geral, têm situação mais precárias do que o do

agrupamento cor de rosa. A região Norte também gera um agrupamento, com os estados

pintados de vermelho e o Piauí também está neste agrupamento. Percebe-se que o

Maranhão é um estado a parte, e que este estado também possui situação precária. O

Amapá e o Tocantins também fazem parte de um grupo com apenas um estado. O Distrito

Federal também é único em seu grupo.

8.3.Considerações

Este trabalho teve como objetivo realizar uma análise de cluster e construir um

dendograma para obter uma visão mais geral dos estados brasileiros agrupados por

similaridade.

De acordo com as análises realizadas, foi possível perceber que os estados das

regiões Sudeste, Sul e Centro-Oeste, incluindo o estado de Rondônia formam um

agrupamento. Os municípios que fazem parte destes estados são, em geral, mais

desenvolvidos do que os demais.

Os municípios pertencentes aos demais estados são, em geral, menos

desenvolvidos do que os do primeiro grupo, o que revela a importância de políticas

públicas capazes de levar um maior desenvolvimento a estes municípios.

Alguns municípios apresentaram pouca similaridade com os outros, como é o caso

do Maranhão, Roraima, Tocantins e o Distrito Federal. Desta maneira, eles ficam

sozinhos no agrupamento.

Os estados do Acre, Amazônia, Pará e Piauí formaram um outro agrupamento por

similaridade, e os estados do Rio Grande do Norte, Ceará, Pernambuco, Paraíba, Sergipe,

Alagoas e Bahia também formaram um outro agrupamento.

Desta maneira é possível perceber a partir desta divisão as diferentes realidades

do Brasil, e buscar políticas para auxiliar no desenvolvimento dos estados menos

desenvolvidos.

CAPÍTULO 9. ANÁLISE DISCRIMINANTE

O presente capítulo tem como objetivo dar continuidade ao estudo de dendograma

e cluster dos dados provenientes das variáveis selecionadas do Atlas do Desenvolvimento

Humano no Brasil, que apresentam indicadores de desenvolvimento humano dos 5565

municípios brasileiros. Este estudo teve início no Relatório VIII. Os dados são

provenientes do Censo Demográfico de 2010.

No capítulo 8 foi possível verificar na análise de agrupamentos, que alguns dos

estados brasileiros ficaram sozinhos no agrupamento, e poderiam ser melhor realocados

em grupos que tivessem mais similaridade. Desta maneira, este relatório irá realizar um

estudo de análise discriminante, a fim de reduzir a quantidade de grupos de estados

agrupados por similaridade, a fim de facilitar as análises e sintetizar melhor as

informações.

Com este estudo é possível perceber, a partir dos agrupamentos realizados, quais

estados brasileiros possuem maior similaridade entre si e dividi-los em grupos.

Para realizar as análises serão utilizadas as variáveis normalizadas e positivadas

geradas no estudo realizado e apresentado no Relatório 7.

No capítulo 7 foram construídas três variáveis sintéticas, a PCRenLong, explicada

94,26% pela variável N_IDHM, a variável sintética PCHomem, explicada 96,46% pela

variável N_HOMEM10A14, e no agregado 96,04% se adicionada a variável

NP_T_DES18M, e a variável sintética PCTrab, explicada por N_T_LUZ em 32,18 %, no

agregado a variável NP_TRABSC gera um poder de explicação de 66,01%, a variável

NP_T_DES18M gera no agregado 82,87% e a variável NP_PAREDE gera um poder de

explicação agregado de 91,05%.

Portanto, para realizar as análises de agrupamentos que se seguem, serão

utilizadas as variáveis N_IDHM, N_HOMEM10A14, NP_T_DES18M, N_T_LUZ,

NP_TRABSC e NP_PAREDE, conforme explicadas no capítulo 7.

9.1.Análise Discriminante

Com esta maneira de se agrupar os dados apresentada no capítulo 8, é possível

perceber que muitos estados ficam sozinhos no agrupamento, e que o Distrito Federal

também representa um agrupamento diferente. Para que seja possível melhorar e

simplificar as análises, diminuindo o número de agrupamentos e fazendo com que estes

consigam incluir os estados que ficaram sozinhos nos grupos mais similares, foram

realizadas análises discriminantes para verificar se estes agrupamentos foram adequados.

O Distrito Federal foi excluído das análises que se seguem.

Inicialmente foi realizada uma análise de cluster com o Linkage Method Complete

e o Distance Measure Manhattan com 8 agrupamentos para verificar em qual dos

agrupamentos poderiam ser inseridos os estados que estavam sozinhos ou que possuem

poucos estados no seu agrupamento, a fim de diminuir a quantidade de agrupamentos

para se ter uma melhor visualização das diferenças regionais brasileiras e maior síntese.

Cluster Analysis of Observations: MediaNP_T_DE; MediaNP_TRAB; MediaN_T_LUZ; ... Manhattan Distance, Complete Linkage

Amalgamation Steps

Number

of obs.

1 25 95,8087 0,05704 15 24 15 2

2 24 95,6544 0,05914 11 12 11 2

3 23 94,1878 0,07910 7 8 7 2

4 22 93,8821 0,08326 22 23 22 2

5 21 92,4059 0,10335 7 10 7 3

6 20 90,1522 0,13402 1 3 1 2

7 19 90,0119 0,13593 13 16 13 2

8 18 89,6386 0,14101 14 19 14 2

9 17 87,5922 0,16886 2 15 2 3

10 16 87,0742 0,17591 7 11 7 5

11 15 86,8266 0,17928 6 14 6 3

12 14 85,4224 0,19839 17 25 17 2

13 13 83,6111 0,22304 17 18 17 3

14 12 83,3326 0,22683 1 13 1 4

15 11 83,0328 0,23091 5 6 5 4

16 10 77,8657 0,30123 4 26 4 2

17 9 75,9207 0,32770 2 5 2 7

18 8 74,2064 0,35103 7 20 7 6

19 7 70,9270 0,39566 7 17 7 9

20 6 67,0671 0,44819 9 21 9 2

21 5 65,0810 0,47522 2 4 2 9

22 4 62,4489 0,51104 7 22 7 11

23 3 61,8743 0,51886 1 9 1 6

24 2 44,1782 0,75969 1 2 1 15

25 1 0,0000 1,36092 1 7 1 26

Final Partition

Maximum

Within Average distance

Number of cluster sum distance from from

Cluster1 4 0,0134214 0,0578137 0,062160

Cluster2 7 0,0354633 0,0676663 0,101224

Cluster3 2 0,0120417 0,0775940 0,077594

Cluster4 6 0,0291206 0,0626070 0,123685

Cluster5 1 0,0000000 0,0000000 0,000000

Cluster6 3 0,0138200 0,0677291 0,073928

Cluster7 1 0,0000000 0,0000000 0,000000

Cluster8 2 0,0014367 0,0268022 0,026802

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5

Cluster6

MediaNP_T_DES18M_1 0,814855 0,776013 0,751505 0,860487 0,80852

0,839903

MediaNP_TRABSC_1 0,572825 0,522757 0,583700 0,614100 0,55330

0,702733

MediaN_T_LUZ_1 0,797100 0,974243 0,899550 0,969100 0,91600

0,994500

MediaNP_PAREDE_1 0,835275 0,930829 0,877100 0,960417 0,59750

0,984933

MediaN_HOMEM10A14_1 0,005052 0,003529 0,003380 0,003000 0,00379

0,008280

MediaN_IDHM_1 0,355725 0,398886 0,503050 0,583750 0,35630

0,672967

Variable Cluster7 Cluster8 centroid

MediaNP_T_DES18M_1 0,76737 0,93349 0,820001

MediaNP_TRABSC_1 0,57010 0,83165 0,603750

MediaN_T_LUZ_1 0,67020 0,99460 0,930027

MediaNP_PAREDE_1 0,66520 0,97740 0,905612

MediaN_HOMEM10A14_1 0,00393 0,00197 0,004083

MediaN_IDHM_1 0,43290 0,68600 0,496300

Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7

Cluster1 0,000000 0,215385 0,195152 0,317852 0,266641 0,423699 0,230757

Cluster2 0,215385 0,000000 0,153723 0,224847 0,343953 0,339049 0,408012

Cluster3 0,195152 0,153723 0,000000 0,176331 0,322734 0,267437 0,320720

Cluster4 0,317852 0,224847 0,176331 0,000000 0,438930 0,132338 0,458102

Cluster5 0,266641 0,343953 0,322734 0,438930 0,000000 0,529037 0,269896

Cluster6 0,423699 0,339049 0,267437 0,132338 0,529037 0,000000 0,536566

Cluster7 0,230757 0,408012 0,320720 0,458102 0,269896 0,536566 0,000000

Cluster8 0,499361 0,453028 0,383621 0,253086 0,593552 0,160139 0,602305

Cluster8

Cluster1 0,499361

Cluster2 0,453028

Cluster3 0,383621

Cluster4 0,253086

Cluster5 0,593552

Cluster6 0,160139

Cluster7 0,602305

Cluster8 0,000000

A figura 1 representa o dendograma desta análise.

SCRSRJSPPRROMT

GOESTOAPRNPBCEBASEPEALRRMAPIPAAMAC

100,00

Observations

Figura 1: Dendograma dos Estados com 8 Clusters

Para facilitar a visualização das análises que se seguem, os resultados das análises

foram pintados de vermelho nos dados gerados pelo MINITAB.

Pode-se perceber que o cluster 3 possui apenas 2 estados, AP e TO, e que ele está

mais próximo do cluster 2, com 7 estados, AL, PE, SE, BA, CE, PB e RN. O Cluster 5

possui um estado, do MA, e está mais próximo do cluster 1, composto pelos estados AC,

AM, PA e PI. O cluster 6 possui 3 estados, PR, SP e RJ, e está próximo do cluster 4, que

conta com os estados do ES, GO, MG, MS, MT e RO. O cluster 7 possui 1 estado, RR, e

este está mais próximo do cluster 1. O cluster 8 possui dois estados, RS e SC, e está mais

perto do cluster 4.

Após realizado estas análises, foi possível reagrupar os estados em apenas 3

clusters, desta forma, foi possível sintetizar os dados em 3 grupos.

Após realizar este procedimento for realizada uma análise discriminante, para

verificar se o agrupamento nestes três grupos era adequado.

Discriminant Analysis: grupo4 versus MediaNP_T_DE; MediaNP_TRAB; ... Linear Method for Response: grupo4

Predictors: MediaNP_T_DES18M_1; MediaNP_TRABSC_1; MediaN_T_LUZ_1;

MediaNP_PAREDE_1; MediaN_HOMEM10A14_1; MediaN_IDHM_1

Group 1 2 3

Count 6 9 11

Summary of classification

True Group

Put into Group 1 2 3

1 6 0 0

2 0 9 0

3 0 0 11

Total N 6 9 11

N correct 6 9 11

Proportion 1,000 1,000 1,000

N = 26 N Correct = 26 Proportion Correct = 1,000

Squared Distance Between Groups

1 0,0000 33,3531 65,7687

2 33,3531 0,0000 24,0268

3 65,7687 24,0268 0,0000

Linear Discriminant Function for Groups

Constant -500,9 -569,8 -706,6

MediaNP_T_DES18M_1 716,8 613,9 706,2

MediaNP_TRABSC_1 -36,3 -42,6 -47,8

MediaN_T_LUZ_1 287,1 379,3 392,7

MediaNP_PAREDE_1 167,6 236,1 249,1

MediaN_HOMEM10A14_1 4459,3 3180,1 3713,4

MediaN_IDHM_1 181,6 232,7 302,9

Verifica-se que o primeiro grupo ficou com 6 estados, o segundo com 9 estados e

o terceiro com 11 estados. O valor de Proportion dos três grupos foi 1,000, o que indica

que estes agrupamentos são bons. Os três grupos possuem uma distância boa entre si, o

que mostra que são diferentes.

Realizou-se novamente uma análise de cluster dos resultados encontrados para

apresentar o dendograma de modo mais visual, representado pela Figura 2.

Cluster Analysis of Observations: MediaNP_T_DE; MediaNP_TRAB; MediaN_T_LUZ; ... Manhattan Distance, Complete Linkage

Amalgamation Steps

Number

of obs.

1 25 95,8087 0,05704 15 24 15 2

2 24 95,6544 0,05914 11 12 11 2

3 23 94,1878 0,07910 7 8 7 2

4 22 93,8821 0,08326 22 23 22 2

5 21 92,4059 0,10335 7 10 7 3

6 20 90,1522 0,13402 1 3 1 2

7 19 90,0119 0,13593 13 16 13 2

8 18 89,6386 0,14101 14 19 14 2

9 17 87,5922 0,16886 2 15 2 3

10 16 87,0742 0,17591 7 11 7 5

11 15 86,8266 0,17928 6 14 6 3

12 14 85,4224 0,19839 17 25 17 2

13 13 83,6111 0,22304 17 18 17 3

14 12 83,3326 0,22683 1 13 1 4

15 11 83,0328 0,23091 5 6 5 4

16 10 77,8657 0,30123 4 26 4 2

17 9 75,9207 0,32770 2 5 2 7

18 8 74,2064 0,35103 7 20 7 6

19 7 70,9270 0,39566 7 17 7 9

20 6 67,0671 0,44819 9 21 9 2

21 5 65,0810 0,47522 2 4 2 9

22 4 62,4489 0,51104 7 22 7 11

23 3 61,8743 0,51886 1 9 1 6

24 2 44,1782 0,75969 1 2 1 15

25 1 0,0000 1,36092 1 7 1 26

Final Partition

Average Maximum

Within distance distance

Number of cluster sum from from

Cluster1 6 0,108459 0,123205 0,209044

Cluster2 9 0,084264 0,090635 0,149721

Cluster3 11 0,156898 0,111925 0,201236

Cluster Centroids

Variable Cluster1 Cluster2 Cluster3 centroid

MediaNP_T_DES18M_1 0,805885 0,770567 0,868146 0,820001

MediaNP_TRABSC_1 0,569117 0,536300 0,677827 0,603750

MediaN_T_LUZ_1 0,795767 0,957644 0,980664 0,930027

MediaNP_PAREDE_1 0,767300 0,918889 0,970191 0,905612

MediaN_HOMEM10A14_1 0,004655 0,003496 0,004253 0,004083

MediaN_IDHM_1 0,368683 0,422033 0,626673 0,496300

Cluster1 Cluster2 Cluster3

Cluster1 0,000000 0,233143 0,396995

Cluster2 0,233143 0,000000 0,273114

Cluster3 0,396995 0,273114 0,000000

SCRSRJSPPRROMT

GOESTOAPRNPBCEBASEPEALRRMAPIPAAMAC

100,00

Observations

Figura 2: Dendograma dos Estados com 3 Clusters

Pode-se perceber, que o Brasil pode ser dividido em três agrupamentos de estados

similares, sendo um deles composto pelos estados do AC, AM, PA, PI, MA e RR, o

segundo composto por AL, PE, SE, BA, CE, PB, RN, AP e TO e o terceiro formado por

ES, GO, MG, MS, MT, RO, PR, SP, RJ, RS e SC.

No terceiro agrupamento se encontram os estados mais desenvolvidos, situados

na região Sul, Sudeste e Centro-Oeste do país, e no primeiro e no segundo agrupamento

se encontram os estados menos desenvolvidos situados nas regiões Norte e Nordeste. O

estado de Rondônia, está situado no terceiro agrupamento apesar de pertencer a região

Norte.

Para melhorar a visualização dos resultados obtidos, a Figura 3 apresenta o mapa

do Brasil colorido de forma a evidenciar os agrupamentos.

Figura 3: Mapa do Brasil Agrupado de Acordo com as 3 Regiões Encontradas.

É possível verificar visualmente quais as regiões que necessitam de maiores

investimentos em políticas públicas para melhorar de condição. A região Sul é a mais

desenvolvida.

9.2.Considerações

Com as análises realizadas foi possível dividir o Brasil em três regiões diferentes

de acordo com sua similaridade. Cruzando-se os resultados obtidos com esta divisão e os

obtidos a partir da comparação das médias dos estados para cada uma das seis variáveis

utilizadas para a análise no capítulo 8, é possível chegar a algumas pistas de quais locais

devem receber atendimento prioritário para reduzir os problemas de desigualdade e

aumentar a qualidade de vida dos indivíduos.

A partir das análises obtidas pela comparação da ANOVA das seis variáveis

utilizadas nas análises do capítulo 8, foi possível observar quais estados estão melhores e

piores em cada uma das variáveis. Foi possível verificar que o acesso a luz é menor na

região Norte, nos estados do Acre, Rio Grande do Norte, Sergipe e Tocantins, o que

sugere a necessidade de maior investimento nesta região para que todos tenham acesso a

luz, assim como os estados do Maranhão e Roraima possuem em maior quantidade

indivíduos que não moram em casas com paredes adequadas, nesta região as variáveis

referentes a estrutura são mais precárias.

Já os estados do Nordeste como a Bahia, Rio Grande do Norte e Sergipe, além de

Tocantins possuem menos indivíduos trabalhando com carteira assinada do que os

demais, o que indica a necessidade de desenvolvimento da região.

O IDHM também é melhor nos Estados das regiões Sul, Sudeste e Centro-Oeste

do que nas regiões Norte e Nordeste, o que indica a necessidade de buscar melhorar o

IDHM nestas regiões.

CAPÍTULO 10. REGRESSÃO LOGÍSTICA O presente capítulo tem como objetivo dar continuidade ao estudo dos

agrupamentos dos estados brasileiros através das análises de regressão logística a partir

dos dados provenientes das variáveis selecionadas do Atlas do Desenvolvimento Humano

no Brasil, que apresentam indicadores de desenvolvimento humano dos 5565 municípios

brasileiros. Os dados são provenientes do Censo Demográfico de 2010.

No capítulo 8 foi possível verificar na análise de agrupamento, que alguns dos

estados brasileiros ficaram sozinhos no agrupamento realizados pelos dendogramas, e

poderiam ser melhor realocados em grupos que tivessem mais similaridade. No capítulo

9, foram realizadas novas análises a fim de reagrupar os estados brasileiros com maior

similaridade e diminuir o número de agrupamentos para 3. A Figura 1 representa

visualmente o Brasil dividido nos 3 agrupamentos diferentes, conforme as análises

realizadas pelo capítulo 9, os três agrupamentos são o vermelho, o verde e o azul.

Figura 1: Mapa do Brasil Agrupado de Acordo com o Relatório IX.

Este capítulo buscará verificar as diferenças das regiões verde, vermelha e azul

com relação as 6 variáveis selecionadas para estudo, sendo elas N_IDHM,

N_HOMEM10A14, NP_T_DES18M, N_T_LUZ, NP_TRABSC e NP_PAREDE,

conforme definidas no capítulo 7.

Estas variáveis foram selecionadas devido ao fato que no capítulo 7 foram

construídas três variáveis sintéticas, a PCRenLong, explicada 94,26% pela variável

N_IDHM, a variável sintética PCHomem, explicada 96,46% pela variável

N_HOMEM10A14, e no agregado 96,04% se adicionada a variável NP_T_DES18M, e a

variável sintética PCTrab, explicada por N_T_LUZ em 32,18 %, no agregado a variável

NP_TRABSC gera um poder de explicação de 66,01%, a variável NP_T_DES18M gera

no agregado 82,87% e a variável NP_PAREDE gera um poder de explicação agregado

de 91,05%.

Este capítulo tem como proposta analisar as três regiões nas quais o Brasil foi

dividido em relação a cada uma das seis variáveis. Inicialmente serão realizados testes de

ANOVA para verificar as diferenças nas médias de cada variável para cada uma das três

regiões, e em seguida será feito um teste de regressão logística para verificar quais

variáveis devem receber maior atenção para melhorar as regiões menos desenvolvidas e

que explicam esta divisão.

Inicialmente, foi realizado testes de ANOVA para verificar as diferenças das três

regiões encontradas para cada uma das seis variáveis selecionadas. Os resultados serão

apresentados a seguir.

One-way ANOVA: MediaNP_T_DES18M_1 versus grupo4 Source DF SS MS F P

grupo4 2 0,04869 0,02434 16,61 0,000

Error 23 0,03372 0,00147

Total 25 0,08240

S = 0,03829 R-Sq = 59,08% R-Sq(adj) = 55,53%

Pooled StDev

1 6 0,80588 0,02773 (-------*--------)

2 9 0,77057 0,03834 (------*-----)

3 11 0,86815 0,04256 (-----*-----)

----+---------+---------+---------+-----

0,760 0,800 0,840 0,880

One-way ANOVA: MediaNP_TRABSC_1 versus grupo4 Source DF SS MS F P

grupo4 2 0,10850 0,05425 10,45 0,001

Error 23 0,11938 0,00519

Total 25 0,22789

S = 0,07205 R-Sq = 47,61% R-Sq(adj) = 43,06%

Level N Mean StDev ---------+---------+---------+---------+

1 6 0,56912 0,02501 (---------*---------)

2 9 0,53630 0,05501 (-------*--------)

3 11 0,67783 0,09594 (-------*------)

---------+---------+---------+---------+

0,540 0,600 0,660 0,720

One-way ANOVA: MediaN_T_LUZ_1 versus grupo4 Source DF SS MS F P

grupo4 2 0,14322 0,07161 31,00 0,000

Error 23 0,05313 0,00231

Total 25 0,19636

S = 0,04806 R-Sq = 72,94% R-Sq(adj) = 70,59%

Pooled StDev

1 6 0,7958 0,0843 (-----*----)

2 9 0,9576 0,0414 (----*----)

3 11 0,9807 0,0198 (---*---)

--+---------+---------+---------+-------

0,770 0,840 0,910 0,980

One-way ANOVA: MediaNP_PAREDE_1 versus grupo4 Source DF SS MS F P

grupo4 2 0,16224 0,08112 25,75 0,000

Error 23 0,07247 0,00315

Total 25 0,23471

S = 0,05613 R-Sq = 69,12% R-Sq(adj) = 66,44%

Level N Mean StDev +---------+---------+---------+---------

1 6 0,7673 0,1092 (-----*-----)

2 9 0,9189 0,0329 (----*----)

3 11 0,9702 0,0205 (---*----)

+---------+---------+---------+---------

0,720 0,800 0,880 0,960

One-way ANOVA: MediaN_HOMEM10A14_1 versus grupo4 Source DF SS MS F P

grupo4 2 0,0000054 0,0000027 0,28 0,757

Error 23 0,0002201 0,0000096

Total 25 0,0002255

S = 0,003094 R-Sq = 2,39% R-Sq(adj) = 0,00%

Pooled StDev

1 6 0,004655 0,002138 (----------------*----------------)

2 9 0,003496 0,001643 (-------------*--------------)

3 11 0,004253 0,004191 (------------*------------)

-+---------+---------+---------+--------

0,0015 0,0030 0,0045 0,0060

One-way ANOVA: MediaN_IDHM_1 versus grupo4 Source DF SS MS F P

grupo4 2 0,33432 0,16716 54,38 0,000

Error 23 0,07070 0,00307

Total 25 0,40503

S = 0,05544 R-Sq = 82,54% R-Sq(adj) = 81,03%

Pooled StDev

1 6 0,36868 0,03563 (----*----)

2 9 0,42203 0,05688 (---*---)

3 11 0,62667 0,06202 (---*--)

--------+---------+---------+---------+-

0,40 0,50 0,60 0,70

A Tabela 1 apresenta as médias e o valor de F das ANOVAS de cada uma das três

regiões para as seis variáveis, a fim de que se possa verificar mais facilmente a diferença

entre elas.

Tabela 1: Resultados das ANOVAS Para os Três Grupos de Estados.

NP_T_DES18M NP_TRABSC N_T_LUZ

Vermelho

0,80588 0,56912 0,7958

0,77057 0,53630 0,9576

0,86815 0,67783 0,9807

F 16,61 10,45 31,00

NP_PAREDE N_HOMEM10A14 N_IDHM

Vermelho

0,7673 0,004655 0,36868

0,9189 0,003496 0,42203

0,9702 0,004253 0,62667

F 25,75 0,28 54,38 Fonte: Atlas do Desenvolvimento Humano no Brasil

Com estes resultados, é possível afirmar que em média os estados da região verde

possuem piores taxas nas variáveis referentes a taxa de desocupação da população com

mais de 18 anos e na variável referente aos indivíduos que trabalham sem carteira de

trabalho assinada. Esta região também possui valor menor na variável referente a

quantidade de homens com idade entre 10 e 14 anos. O grupo dos estados da região

vermelha possuem indicadores piores referentes a infraestrutura, como na variável que

indica os indivíduos que vivem em residências sem acesso a luz e em casas sem paredes

com estrutura adequada. Esta região também possui valor menor na variável IDHM. O

grupo azul apresentou números melhores em todos os indicadores.

Observando as médias e os desvios padrão das análises feitas pelo MINITAB,

pode-se perceber que em muitas variáveis as médias de duas ou mais regiões estão

próximas umas das outras, estando inclusive dentro do desvio padrão.

Também foram feitos os testes de ANOVA para as cinco regiões geográficas

brasileiras (Norte, Nordeste, Centro-Oeste, Sudeste e Sul), para que se possa comparar os

valores entre elas.

One-way ANOVA: MediaNP_T_DES18M_1 versus regioes Source DF SS MS F P

regioes 4 0,05005 0,01251 8,12 0,000

Error 21 0,03235 0,00154

Total 25 0,08240

S = 0,03925 R-Sq = 60,74% R-Sq(adj) = 53,26%

Pooled StDev

1 7 0,80055 0,05934 (----*-----)

2 9 0,78306 0,02841 (----*---)

3 4 0,83368 0,03488 (------*------)

4 3 0,85783 0,00399 (-------*-------)

5 3 0,92013 0,02329 (------*-------)

----+---------+---------+---------+-----

0,780 0,840 0,900 0,960

One-way ANOVA: MediaNP_TRABSC_1 versus regioes Source DF SS MS F P

regioes 4 0,16305 0,04076 13,20 0,000

Error 21 0,06484 0,00309

Total 25 0,22789

S = 0,05557 R-Sq = 71,55% R-Sq(adj) = 66,13%

Pooled StDev

1 7 0,60089 0,05404 (---*---)

2 9 0,52689 0,04380 (---*---)

3 4 0,64240 0,07498 (-----*-----)

4 3 0,60343 0,04475 (-----*------)

5 3 0,78980 0,07449 (------*------)

-+---------+---------+---------+--------

0,50 0,60 0,70 0,80

One-way ANOVA: MediaN_T_LUZ_1 versus regioes Source DF SS MS F P

regioes 4 0,11473 0,02868 7,38 0,001

Error 21 0,08163 0,00389

Total 25 0,19636

S = 0,06235 R-Sq = 58,43% R-Sq(adj) = 50,51%

Pooled StDev

1 7 0,8238 0,0988 (-----*-----)

2 9 0,9522 0,0530 (----*----)

3 4 0,9931 0,0069 (-------*-------)

4 3 0,9642 0,0150 (---------*--------)

5 3 0,9930 0,0028 (--------*--------)

---+---------+---------+---------+------

0,800 0,880 0,960 1,040

One-way ANOVA: MediaNP_PAREDE_1 versus regioes Source DF SS MS F P

regioes 4 0,08251 0,02063 2,85 0,050

Error 21 0,15221 0,00725

Total 25 0,23471

S = 0,08513 R-Sq = 35,15% R-Sq(adj) = 22,80%

Pooled StDev

1 7 0,8380 0,0906 (--------*-------)

2 9 0,8847 0,1128 (-------*------)

3 4 0,9874 0,0067 (----------*----------)

4 3 0,9475 0,0220 (-----------*------------)

5 3 0,9752 0,0039 (------------*------------)

----+---------+---------+---------+-----

0,800 0,880 0,960 1,040

One-way ANOVA: MediaN_HOMEM10A14_1 versus regioes Source DF SS MS F P

regioes 4 0,0000642 0,0000161 2,09 0,118

Error 21 0,0001613 0,0000077

Total 25 0,0002255

S = 0,002771 R-Sq = 28,48% R-Sq(adj) = 14,86%

Pooled StDev

1 7 0,004686 0,002127 (-------*------)

2 9 0,003337 0,001380 (-----*------)

3 4 0,007225 0,006275 (---------*---------)

4 3 0,002640 0,000518 (----------*----------)

5 3 0,002173 0,000353 (----------*----------)

----+---------+---------+---------+-----

0,0000 0,0030 0,0060 0,0090

One-way ANOVA: MediaN_IDHM_1 versus regioes Source DF SS MS F P

regioes 4 0,34254 0,08563 28,78 0,000

Error 21 0,06249 0,00298

Total 25 0,40503

S = 0,05455 R-Sq = 84,57% R-Sq(adj) = 81,63%

Pooled StDev

Level N Mean StDev -----+---------+---------+---------+----

1 7 0,43233 0,07429 (---*----)

2 9 0,38813 0,03984 (---*---)

3 4 0,63995 0,06778 (-----*-----)

4 3 0,60433 0,01764 (-----*------)

5 3 0,67050 0,03372 (-----*------)

-----+---------+---------+---------+----

0,40 0,50 0,60 0,70

Os resultados estão apresentados na tabela 2.

Tabela 2: Resultados das ANOVAS Para as Cinco Regiões Geográficas Brasileiras.

NP_T_DES18M NP_TRABSC N_T_LUZ

Norte 0,80055 0,60089 0,8238

Nordeste 0,78306 0,52689 0,9522

Centro-Oeste 0,83368 0,64240 0,9931

Sudeste 0,85783 0,60343 0,9642

Sul 0,92013 0,78980 0,9930

F 8,12 13,20 7,38

NP_PAREDE N_HOMEM10A14 N_IDHM

Norte 0,8380 0,004686 0,43233

Nordeste 0,8847 0,003337 0,38813

Centro-Oeste 0,9874 0,007225 0,63995

Sudeste 0,9475 0,002640 0,60433

Sul 0,9752 0,002173 0,67050

F 2,85 2,09 28,78 Fonte: Atlas do Desenvolvimento Humano no Brasil

A partir destes resultados, é possível verificar que que a região Nordeste, seguida

pela região Norte, tem os piores índices na variável referente a taxa de desocupação de

indivíduos com mais de 18 anos, indivíduos que trabalham sem carteira assinada e IDHM.

Também se verifica que as variáveis referentes aos indivíduos que não possuem acesso a

luz e a casas com paredes adequadas possuem valores mais baixos na região Norte

seguida pela região Nordeste. As demais regiões estão melhores nos 6 indicadores.

Estes valores estão de acordo com a divisão do Brasil em três grupos distintos.

Pode-se verificar que o grupo vermelho possui predominantemente estados da região

Norte, e o grupo verde predominantemente da região Nordeste, e o azul

predominantemente das regiões Centro-Oeste, Sudeste e Sul.

Os valores de F, que indicam se a variabilidade dos grupos é maior do que a

variabilidade dentro dos grupos, é maior para as variáveis NP_T_DES18M, N_T_LUZ,

NP_PAREDE e N_IDHM na divisão com três regiões (verde, vermelha e azul), e o valor

de F das variáveis NP_TRABSC e N_HOMEM10A14 é maior para a divisão do Brasil

em cinco regiões (Norte, Nordeste, Centro-Oeste, Sudeste e Sul).

Após realizadas estas comparações foram feitos testes de regressão logística

ordinal com cada uma das variáveis selecionadas para o estudo para a divisão do Brasil

em três regiões.

Não é possível utilizar mais do que uma variável por vez nos testes de regressão

logística devido à baixa quantidade de dados, o que acaba por gerar valores de P altos nas

análises.

Para dar continuidade, foi rodado o teste apenas com a variável IDHM.

Ordinal Logistic Regression: grupo4 versus MediaN_IDHM_1 Link Function: Logit

Response Information

Variable Value Count

grupo4 1 6

Total 26

Logistic Regression Table

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 15,2141 5,40237 2,82 0,005

Const(2) 20,8241 7,21528 2,89 0,004

MediaN_IDHM_1 -40,2092 13,9935 -2,87 0,004 0,00 0,00 0,00

Log-Likelihood = -10,436

Test that all slopes are zero: G = 34,745, DF = 1, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 24,4941 49 0,999

Deviance 20,8713 49 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 209 95,4 Somers' D 0,91

Discordant 10 4,6 Goodman-Kruskal Gamma 0,91

Ties 0 0,0 Kendall's Tau-a 0,61

Total 219 100,0

Com apenas esta variável o valor do P foi menor do que 5%, e o percentual de

concordância foi 95,4%. Desta forma, esta é uma variável que pode ser considerada como

importante fator na divisão do país nas três regiões do mapa.

Os estados que fazem parte da região vermelha possuem um menor índice de

IDHM, por isso é necessário realizar políticas públicas a fim de melhorar este indicador

nestes estados. Estes estados estão predominantemente na região Norte, o que indica que

é necessário realizar políticas de melhoria de renda, saúde e educação nesta região, já que

o IDHM é composto por estas dimensões. A região verde também possui um IDHM

baixo, apesar de ser um pouco melhor do que o da região vermelha. A região azul possui

o maior de todos os índices de IDHM.

Para dar continuidade a análise, foi realizado o teste de regressão logística para a

variável NP_PAREDE.

Ordinal Logistic Regression: grupo4 versus MediaNP_PAREDE_1 Link Function: Logit

grupo4 1 6

Total 26

Odds 95% CI

Const(1) 80,9229 29,9663 2,70 0,007

Const(2) 89,0046 33,2252 2,68 0,007

MediaNP_PAREDE_1 -94,0177 35,0000 -2,69 0,007 0,00 0,00 0,00

Pearson 16,7110 47 1,000

Deviance 17,6986 47 1,000

Total 219 100,0

Esta variável tem um percentual de concordância de 96,3%, com um valor de P

de 7%. Pode-se considerar também que esta é uma variável que explica a divisão do Brasil

nestas três regiões.

A região vermelha possui um índice de indivíduos que moram em casas sem

paredes adequadas em média significativamente pior do que as duas outras regiões. A

região verde se encontra em uma posição intermediária e a azul possui um bom indicador.

Desta maneira, é importante realizar políticas públicas que visem dar acesso a

moradia digna nas regiões mais precárias, em especial nos estados que fazem parte da

região vermelha. Esta deve ser uma preocupação prioritária, devido a importância da

qualidade de moradia na qualidade de vida dos indivíduos.

Foi realizada as análises de regressão para a variável N_T_LUZ

Ordinal Logistic Regression: grupo4 versus MediaN_T_LUZ_1 Link Function: Logit

grupo4 1 6

Total 26

Odds 95% CI

Const(1) 34,5711 11,9788 2,89 0,004

Const(2) 38,2145 12,8232 2,98 0,003

MediaN_T_LUZ_1 -39,4276 13,1748 -2,99 0,003 0,00 0,00 0,00

Pearson 28,1272 49 0,993

Deviance 32,0942 49 0,970

Total 219 100,0

Esta variável obteve um percentual de concordância menor do que 90%, apesar de

ter um valor de P menor que 5%. Optou-se por apenas utilizar para as análises as variáveis

com percentual de concordância maior que 90%.

As variáveis NP_T_DES18M, NP_TRABSC e N_HOMEM10A14, possuem

baixo valor de F no teste de ANOVA, valor de P maior do que 5% e percentual de

concordância menor do que 90% no teste da regressão logística conforme indicado nas

análises abaixo, portanto não são muito boas para explicar esta divisão do Brasil em três

regiões adotada.

Para realizar estas análises que se seguem, foi necessário transformar o número

do grupo vermelho de 1 para 2 , e o do grupo verde de 2 para 1, a fim de que fosse possível

realizar as análises de regressão logística ordinal do maior para o menor, pois nessas

variáveis a região verde possui indicadores menores do que a região vermelha.

Ordinal Logistic Regression: grupo5 versus MediaNP_T_DES18M_1 Link Function: Logit

grupo5 1 9

Total 26

Odds 95% CI

Const(1) 42,6730 12,8427 3,32 0,001

Const(2) 44,7794 13,2511 3,38 0,001

MediaNP_T_DES18M_1 -53,8921 16,0445 -3,36 0,001 0,00 0,00 0,00

Pearson 39,9782 49 0,817

Deviance 31,9456 49 0,972

Total 219 100,0

Ordinal Logistic Regression: grupo5 versus MediaNP_TRABSC_1 Link Function: Logit

grupo5 1 9

Total 26

Odds 95% CI

Const(1) 19,0846 6,98810 2,73 0,006

Const(2) 20,7773 7,20822 2,88 0,004

MediaNP_TRABSC_1 -34,4614 12,2900 -2,80 0,005 0,00 0,00 0,00

Pearson 41,9706 49 0,751

Deviance 36,0266 49 0,916

Total 219 100,0

Ordinal Logistic Regression: grupo5 versus MediaN_HOMEM10A14_1 Link Function: Logit

grupo5 1 9

Total 26

Odds CI

Predictor Coef SE Coef Z P Ratio Lower

Const(1) -0,342829 0,658967 -0,52 0,603

Const(2) 0,611433 0,665521 0,92 0,358

MediaN_HOMEM10A14_1 -70,9595 131,013 -0,54 0,588 0,00 0,00

Predictor Upper

Const(1)

Const(2)

MediaN_HOMEM10A14_1 5,02074E+80

Pearson 51,8076 49 0,365

Deviance 55,3148 49 0,249

Concordant 105 47,9 Somers' D -0,03

Discordant 111 50,7 Goodman-Kruskal Gamma -0,03

Ties 3 1,4 Kendall's Tau-a -0,02

Total 219 100,0

10.2 Considerações

Este trabalho teve como objetivo verificar quais variáveis podem explicar melhor

a divisão do Brasil nas três regiões construídas a partir das análises estatísticas. Para isso

foram realizados testes de regressão logística, e pode-se verificar que as duas variáveis

dentre as selecionadas que mais contribuem para a divisão do Brasil nas regiões

Vermelha, Verde e Azul são o IDHM e o P_PAREDE.

Desta forma, evidencia-se a importância de investimentos em políticas públicas

capazes de fazer com que os indivíduos que vivem nas regiões mais precárias possam ter

melhor qualidade de moradia, e assim, uma melhor qualidade de vida.

Outro ponto a se destacar é a importância da melhoria dos índices da variável

IDHM nessas regiões, salientando que este indicador leva em consideração a educação,

longevidade e renda. Desta forma, para que se possa buscar a melhoria das regiões mais

precárias é necessário melhorar estas três dimensões, através de políticas públicas que

visem aumentar a renda, melhorar as condições de saúde e de educação.

CAPÍTULO 11. ANÁLISE DE CORRESPONDÊNCIA

O presente capítulo tem como objetivo dar continuidade aos estudos anteriores

através da análise de correspondência a partir dos dados provenientes das variáveis

selecionadas no Atlas do Desenvolvimento Humano no Brasil, que apresentam

indicadores de desenvolvimento humano dos 5565 municípios brasileiros. Os dados são

provenientes do Censo Demográfico de 2010.

No capítulo 8 foi possível verificar na análise de agrupamentos, que alguns dos

estados brasileiros ficaram sozinhos no agrupamento realizados pelas análises dos

dendogramas, e poderiam ser melhor realocados em grupos que tivessem mais

similaridade. No capítulo 9, foram realizadas novas análises a fim de reagrupar os estados

brasileiros com maior similaridade e diminuir o número de agrupamentos para 3. A Figura

representa visualmente o Brasil dividido nos 3 agrupamentos diferentes, conforme as

análises realizadas pelo capítulo 9.

Figura 1: Mapa do Brasil Agrupado de Acordo com o Relatório IX.

Estes agrupamentos foram realizados utilizando as 6 variáveis selecionadas para

estudo, sendo elas N_IDHM, N_HOMEM10A14, NP_T_DES18M, N_T_LUZ,

NP_TRABSC e NP_PAREDE, conforme descritas no capítulo 7.

de 91,05%.

Através do capítulo 10, no qual foram realizadas análises de regressão logística,

foi possível verificar que as duas variáveis que mais contribuem para a divisão do Brasil

em três grupos, o verde, o vermelho e o azul distintos foram IDHM e a P_PAREDE.

Este capítulo tem como proposta fazer uma análise de correspondência para

verificar quais estados, regiões geográficas (Norte, Nordeste, Centro-Oeste, Sudeste e

Sul) e regiões construídas pelas análises estatísticas (verde, vermelha e azul) se

relacionam mais com cada uma das variáveis. Desta forma, é possível verificar quais

variáveis caracterizam mais os estados e as regiões, e quais são as mais representativas.

Será utilizado para realizar estas análises o software estatístico MINITAB.

11.1. Análise dos Dados

Foram realizados testes de correspondência para as seis variáveis selecionadas

(N_IDHM, N_HOMEM10A14, NP_T_DES18M, N_T_LUZ, NP_TRABSC e

NP_PAREDE) e os estados brasileiros, excluindo-se o Distrito Federal.

Simple Correspondence Analysis: MediaNP_T_DE; MediaNP_TRAB; MediaN_T_LUZ; Media Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0050 0,5193 0,5193 ******************************

2 0,0025 0,2621 0,7815 ***************

3 0,0009 0,0936 0,8751 *****

4 0,0007 0,0764 0,9515 ****

5 0,0005 0,0485 1,0000 **

Total 0,0096

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 ac 0,705 0,035 0,043 -0,037 0,118 0,010 -0,083 0,587 0,095

2 al 0,829 0,036 0,060 -0,113 0,807 0,093 -0,019 0,022 0,005

3 am 0,725 0,034 0,057 -0,064 0,257 0,028 -0,086 0,468 0,101

4 ap 0,247 0,037 0,019 0,027 0,152 0,006 0,022 0,095 0,007

5 ba 0,969 0,036 0,033 -0,080 0,738 0,046 0,045 0,230 0,029

6 ce 0,796 0,037 0,046 -0,071 0,421 0,037 0,067 0,374 0,066

7 es 0,869 0,041 0,021 0,037 0,278 0,011 0,054 0,591 0,048

8 go 0,772 0,041 0,033 0,041 0,216 0,014 0,066 0,556 0,071

9 ma 0,394 0,033 0,094 -0,051 0,097 0,018 -0,090 0,296 0,106

10 mg 0,759 0,040 0,010 0,011 0,048 0,001 0,042 0,711 0,028

11 ms 0,904 0,041 0,009 0,043 0,841 0,015 0,012 0,063 0,002

12 mt 0,800 0,040 0,015 0,050 0,700 0,021 0,019 0,100 0,006

13 pa 0,886 0,035 0,025 -0,049 0,354 0,017 -0,061 0,532 0,051

14 pb 0,973 0,037 0,048 -0,106 0,915 0,084 0,027 0,058 0,011

15 pe 0,870 0,037 0,032 -0,079 0,776 0,047 0,028 0,094 0,011

16 pi 0,883 0,034 0,035 -0,085 0,743 0,050 -0,037 0,140 0,019

17 pr 0,951 0,043 0,021 0,067 0,951 0,039 -0,001 0,000 0,000

18 rj 0,515 0,042 0,075 0,078 0,357 0,052 0,052 0,157 0,045

19 rn 0,972 0,037 0,039 -0,072 0,524 0,039 0,067 0,448 0,066

20 ro 0,773 0,041 0,010 0,009 0,037 0,001 -0,042 0,736 0,029

21 rr 0,885 0,032 0,048 0,058 0,235 0,022 -0,097 0,650 0,120

22 rs 0,930 0,045 0,049 0,090 0,765 0,073 -0,042 0,165 0,031

23 sc 0,943 0,046 0,075 0,113 0,816 0,118 -0,045 0,127 0,036

24 se 0,751 0,037 0,027 -0,070 0,699 0,037 0,019 0,052 0,005

25 sp 0,972 0,044 0,067 0,117 0,939 0,121 0,022 0,033 0,008

26 to 0,162 0,037 0,007 0,010 0,058 0,001 0,014 0,105 0,003

Column Contributions

1 des 0,623 0,218 0,117 -0,030 0,177 0,040 -0,048 0,446 0,199

2 trab 0,851 0,161 0,180 0,049 0,224 0,077 -0,082 0,627 0,430

3 luz 0,706 0,247 0,137 -0,053 0,522 0,137 0,031 0,184 0,096

4 pare 0,615 0,241 0,119 -0,039 0,317 0,073 0,038 0,298 0,135

5 hom 0,001 0,001 0,057 0,022 0,001 0,000 -0,000 0,000 0,000

6 idhm 0,988 0,132 0,391 0,159 0,893 0,673 0,052 0,094 0,141

A Figura 1 representa graficamente esta análise.

0,150,100,050,00-0,05-0,10

Component 1

t 2 idhm

pareluz

tospse

Symmetric Plot

Figura 1: Análise de Correspondência para seis variáveis por estado.

A partir das análises da Figura 1, é possível perceber que o estado que mais se

relaciona com o IDHM é São Paulo, estando este mais próximo esta variável no quadrante

de cima a direita, e o estado mais distante é Alagoas e Piauí. A variável referente ao

trabalho está mais próxima ao estado de Roraima, e a de desocupação aos estados do Pará,

Acre, Maranhão, Amapá e Piauí. Estas análises indicam quais variáveis mais se

relacionam com os estados, sendo que para aqueles estados nos quais as variáveis estão

mais próximas, significa que a varável desempenha um papel mais relevante do que as

demais na sua classificação, tanto positivamente quanto negativamente, podendo ser

possível comparar cada uma delas. As variáveis referentes a luz e a parede estão próximas

de Sergipe, Pernambuco, Bahia, Minas Gerais, Ceará e Rio Grande do Norte. A variável

referente a quantidade de homens entre 10 e 14 anos está próxima de Tocantins, Amapá,

Mato Grosso de Sul, Mato Grosso e Paraná.

Alagoas e Paraíba estão representadas no extremo negativo do componente 1,

enquanto São Paulo e Santa Catarina se localizam no extremo positivo do componente 1.

É possível verificar também como se dá o agrupamento dos estados nesta figura, para ver

algumas similaridades. Rio Grande do Sul se encontra próximo de Santa Catarina. Os

estados de Goiás, Espírito Santo, Minas Gerais, Amapá, Mato Grosso, Mato Grosso do

Sul, Paraná e Tocantins também se encontram próximos. Pará, Acre, Amapá e Maranhã

se encontram próximos e Bahia, Pernambuco, Sergipe, Rio Grande do Norte, Ceará e

Paraíba estão também próximos.

Para dar continuidade as análises, foram realizadas as análises de correspondência

das seis variáveis em relação as cinco regiões geográficas brasileiras.

1 0,0034 0,6802 0,6802 *****************************

2 0,0012 0,2467 0,9268 **********

3 0,0002 0,0457 0,9725 **

4 0,0001 0,0275 1,0000 *

Total 0,0050

Row Contributions

1 nort 0,880 0,180 0,132 -0,030 0,249 0,049 0,048 0,631 0,339

2 nord 0,984 0,182 0,416 -0,106 0,978 0,598 -0,008 0,006 0,010

3 cent 0,856 0,211 0,133 0,033 0,335 0,065 -0,041 0,521 0,280

4 sude 0,706 0,204 0,072 0,017 0,164 0,017 -0,031 0,542 0,158

5 sul 0,959 0,223 0,247 0,064 0,746 0,271 0,034 0,212 0,213

1 des 0,786 0,215 0,067 -0,026 0,426 0,042 0,024 0,360 0,099

2 trab 0,969 0,162 0,197 0,043 0,300 0,087 0,064 0,669 0,534

3 luz 0,930 0,243 0,150 -0,048 0,745 0,164 -0,024 0,185 0,112

4 pare 0,936 0,238 0,059 -0,030 0,730 0,064 -0,016 0,206 0,049

5 hom 0,119 0,001 0,043 -0,065 0,020 0,001 -0,143 0,098 0,017

6 idhm 0,999 0,140 0,484 0,125 0,903 0,642 -0,041 0,096 0,188

0,100,050,00-0,05-0,10-0,15

Component 1

pareluz

dessul

sudecent

Symmetric Plot

Figura 2: Análise de Correspondência para seis variáveis para as regiões geográficas

É possível perceber pela visualização da Figura 2 que a variável referente a taxa

de desocupação para pessoas com mais de 18 anos está próxima da região Norte, a região

Sudeste e Centro-Oeste estão próximas entre si e próximas das variáveis relacionadas a

estrutura das paredes e da luz. A variável trabalho está próxima da região Sul, sendo que

esta é a que mais a caracteriza. A região Nordeste está mais próxima das variáveis

referentes a luz, parede e desocupação. O IDHM e a quantidade de homens com 10 a 14

anos está distante das regiões, sendo que se encontram nos extremos da componente 2 e

1 respectivamente.

Observando-se os testes de ANOVA apresentados no capítulo 10, é possível notar

que a região Sul teve uma média consideravelmente maior do que as outras regiões na

varável referente a trabalho sem carteira assinada, sendo o destaque positivo nesta

variável. O Norte teve uma média melhor do que o Nordeste, na variável referente a taxa

de desocupação de indivíduos com 18 anos ou mais e o Nordeste foi melhor que o Norte

nas variáveis relativas aos indivíduos que moram em casas com paredes adequadas e que

possuem acesso a luz elétrica.

Foi realizado o teste com as seis variáveis para os três agrupamentos encontrados

pelos testes estatísticos, verde, vermelho e azul.

1 0,0033 0,6289 0,6289 ******************************

2 0,0019 0,3711 1,0000 *****************

Total 0,0052

Row Contributions

1 vermelho 1,000 0,300 0,330 -0,054 0,519 0,273 0,052 0,481 0,428

2 verde 1,000 0,327 0,279 -0,034 0,257 0,114 -0,057 0,743 0,559

3 azul 1,000 0,374 0,391 0,073 0,988 0,613 0,008 0,012 0,013

1 des 1,000 0,221 0,183 -0,045 0,481 0,140 0,047 0,519 0,257

2 trab 1,000 0,161 0,106 0,005 0,008 0,001 0,058 0,992 0,285

3 luz 1,000 0,247 0,122 -0,025 0,241 0,047 -0,044 0,759 0,249

4 pare 1,000 0,240 0,080 -0,012 0,080 0,010 -0,040 0,920 0,197

5 hom 1,000 0,001 0,006 -0,085 0,261 0,002 0,143 0,739 0,012

6 idhm 1,000 0,128 0,503 0,143 0,999 0,799 0,003 0,001 0,001

0,150,100,050,00-0,05-0,10

Component 1

pareluz

trabdes

vermelho

Symmetric Plot

Figura 3: Análise de Correspondência para seis variáveis para os três agrupamentos

De acordo com os resultados obtidos, é possível verificar que o grupo azul está

mais próximo da variável IDHM, enquanto o grupo verde está mais próximo das variáveis

luz e parede e o grupo vermelho da variável taxa de desocupação e trabalho sem carteira

assinada.

Este resultado está relacionado com as análises feitas através da ANOVA no

capítulo 10, que revela que o grupo vermelho possui piores resultados nas médias das

variáveis referentes ao acesso a luz e a casa com parede adequada, enquanto o grupo verde

possui indicadores piores nas variáveis referentes a desocupação e quantidade de pessoas

que trabalham sem carteira assinada.

Após estas análises iniciais, foram realizadas novas análises de correspondência

utilizando-se apenas as três variáveis mais representativas, encontradas no relatório X,

sendo elas N_IDHM, N_T_LUZ e NP_PAREDE.

Inicialmente, será realizado o teste de correspondência para estas três variáveis e

os estados brasileiros.

Simple Correspondence Analysis: MediaN_T_LUZ_1; MediaNP_PAREDE_1; MediaN_IDHM_1 Analysis of Contingency Table

1 0,0073 0,8448 0,8448 ******************************

2 0,0013 0,1552 1,0000 *****

Total 0,0086

Row Contributions

1 ac 1,000 0,033 0,024 -0,048 0,361 0,010 -0,063 0,639 0,098

2 al 1,000 0,036 0,106 -0,158 0,986 0,124 0,019 0,014 0,010

3 am 1,000 0,032 0,056 -0,100 0,669 0,044 -0,070 0,331 0,119

4 ap 1,000 0,038 0,001 0,011 0,982 0,001 0,001 0,018 0,000

5 ba 1,000 0,037 0,034 -0,086 0,939 0,038 -0,022 0,061 0,013

6 ce 1,000 0,039 0,015 -0,054 0,899 0,016 0,018 0,101 0,009

7 es 1,000 0,043 0,018 0,060 0,997 0,022 -0,004 0,003 0,000

8 go 1,000 0,042 0,026 0,072 0,998 0,030 -0,003 0,002 0,000

9 ma 1,000 0,031 0,127 -0,067 0,126 0,019 0,176 0,874 0,714

10 mg 1,000 0,042 0,003 0,026 0,915 0,004 -0,008 0,085 0,002

11 ms 1,000 0,041 0,016 0,057 0,998 0,019 0,002 0,002 0,000

12 mt 1,000 0,041 0,024 0,071 0,998 0,029 0,003 0,002 0,000

13 pa 1,000 0,033 0,019 -0,070 0,999 0,022 0,002 0,001 0,000

14 pb 1,000 0,038 0,061 -0,117 1,000 0,072 -0,001 0,000 0,000

15 pe 1,000 0,039 0,045 -0,100 1,000 0,053 -0,000 0,000 0,000

16 pi 1,000 0,033 0,044 -0,103 0,931 0,049 -0,028 0,069 0,020

17 pr 1,000 0,043 0,033 0,081 0,999 0,039 0,003 0,001 0,000

18 rj 1,000 0,044 0,037 0,086 0,998 0,044 -0,004 0,002 0,000

19 rn 1,000 0,039 0,025 -0,074 0,995 0,030 -0,005 0,005 0,001

20 ro 1,000 0,040 0,001 -0,002 0,013 0,000 -0,017 0,987 0,009

21 rr 1,000 0,029 0,021 0,079 0,999 0,025 -0,003 0,001 0,000

22 rs 1,000 0,043 0,048 0,097 0,999 0,056 0,003 0,001 0,000

23 sc 1,000 0,044 0,079 0,124 0,998 0,094 0,005 0,002 0,001

24 se 1,000 0,038 0,041 -0,095 0,996 0,048 0,006 0,004 0,001

25 sp 1,000 0,045 0,092 0,133 1,000 0,109 0,001 0,000 0,000

26 to 1,000 0,037 0,003 0,028 1,000 0,004 0,000 0,000 0,000

1 luz 1,000 0,399 0,191 -0,051 0,627 0,142 0,039 0,373 0,459

2 pare 1,000 0,388 0,147 -0,037 0,432 0,075 -0,043 0,568 0,537

3 idhm 1,000 0,213 0,662 0,163 0,999 0,783 0,005 0,001 0,004

0,20,10,0-0,1-0,2

Component 1

to spse scrsrrro

rn rjpr

pepb pa mtmsmg

Symmetric Plot

Figura 4: Análise de Correspondência para três variáveis por estado.

A partir da observação da Figura 4, é possível perceber que o Estado que fica mais

longe destas três variáveis é o Maranhão, sendo pouco representativo por elas com relação

aos demais estados. São Paulo e Santa Catarina estão mais próximos da variável IDHM,

sendo os mais representados por ela, enquanto o Ceará está próximo da variável referente

ao acesso a luz elétrica e o Acre e Roraima ao acesso da população a casas com paredes

adequadas.

Foi realizado o teste de correspondência para as cinco regiões geográficas

brasileiras com estas três variáveis observadas.

Simple Correspondence Analysis: MediaN_T_LUZ; MediaNP_PARE; MediaN_IDHM_ Analysis of Contingency Table

1 0,0049 0,9765 0,9765 *****************************

2 0,0001 0,0235 1,0000

Total 0,0050

Row Contributions

1 nort 1,000 0,173 0,087 -0,045 0,811 0,072 -0,022 0,189 0,697

2 nord 1,000 0,184 0,588 -0,126 0,992 0,597 0,012 0,008 0,210

3 cent 1,000 0,217 0,083 0,044 0,999 0,085 -0,001 0,001 0,004

4 sude 1,000 0,208 0,047 0,033 0,994 0,048 0,003 0,006 0,012

5 sul 1,000 0,218 0,195 0,066 0,991 0,198 0,006 0,009 0,077

1 luz 1,000 0,391 0,176 -0,046 0,941 0,170 0,011 0,059 0,439

2 pare 1,000 0,383 0,077 -0,029 0,831 0,065 -0,013 0,169 0,552

3 idhm 1,000 0,226 0,747 0,128 1,000 0,765 0,002 0,000 0,009

0,150,100,050,00-0,05-0,10

Component 1

luzsulsudecent

Symmetric Plot

Figura 5: Análise de Correspondência para três variáveis por região geográfica.

A partir destas análises, é possível perceber que a região Norte está próxima das

variáveis relacionadas ao acesso a casas com paredes adequadas e a luz elétrica, enquanto

as regiões Sul, Centro-Oeste e Sudeste estão próximas da variável referente ao IDHM.

É possível observar que a região Norte possui indicadores piores nas variáveis

relacionadas ao acesso a luz elétrica e a casas com paredes adequadas, enquanto as regiões

Sul, Sudeste e Centro-Oeste possuem valores melhores para a variável IDHM.

Também foi realizado o teste de correspondência para os três agrupamentos

(verde, vermelho e azul) e os resultados são apresentados abaixo.

Simple Correspondence Analysis: MediaN_T_LUZ; MediaNP_PARE; MediaN_IDHM_ * NOTE * Fewer components than requested

Analysis of Contingency Table

1 0,0046 1,0000 1,0000 ******************************

Total 0,0046

Row Contributions

Component 1

ID Name Qual Mass Inert Coord Corr Contr

1 vermelho 1,000 0,284 0,113 -0,043 1,000 0,113

2 verde 1,000 0,338 0,272 -0,061 1,000 0,272

3 azul 1,000 0,379 0,615 0,086 1,000 0,615

Component 1

ID Name Qual Mass Inert Coord Corr Contr

1 luz 1,000 0,402 0,149 -0,041 1,000 0,149

2 pare 1,000 0,390 0,065 -0,028 1,000 0,065

3 idhm 1,000 0,208 0,785 0,132 1,000 0,785

* ERROR * Wrong axes pair specified

Não foi possível realizar esta análise devido à baixa quantidade de componentes.

11.2. Considerações

Após realizadas as análises de componentes, foi possível verificar quais variáveis

que mais representam os estados, as regiões e os agrupamentos estatísticos dos estados

brasileiros.

Realizando-se as análises a partir das seis variáveis, o estado mais relacionado

com a variável N_IDHM é São Paulo, os estados mais relacionados com a variável

N_HOMEM10A14 são Tocantins, Amapá, Mato Grosso do Sul, Mato Grosso e Paraná,

com a variável NP_T_DES18M são os estados do Pará, Acre, Maranhão, Amapá e Piauí,

com a variável N_T_LUZ e NP_PAREDE são Sergipe, Pernambuco, Bahia, Minas

Gerais, Ceará e Rio Grande do Norte e com a variável NP_TRABSC é Roraima.

Nas análises feitas com as cinco regiões geográficas, a variável NP_T_DES18M

está próxima da região Norte. As regiões Sudeste, Sul e Centro-Oeste estão próximas

entre si, e mais próximas das variáveis NP_PAREDE e N_T_LUZ. A região Nordeste

também está mais próxima da variável N_T_LUZ, NP_PAREDE e NP_T_DES18M.

A variável NP_TRABSC está próxima da região Sul, e esta região teve uma média

maior do que as demais nesta variável. O Norte teve uma média melhor do que o Nordeste,

na variável referente a taxa de desocupação de indivíduos com 18 anos ou mais e o

Nordeste foi melhor que o Norte nas variáveis relativas aos indivíduos que moram em

casas com parede adequadas e que possuem acesso a luz elétrica.

Foi realizado o teste com as seis variáveis para os três grupos no qual o Brasil foi

dividido. O grupo Azul esteve mais próximo da variável N_IDHM, enquanto o grupo

Vermelho esteve mais próximo das variáveis NP_T_DES18M e NP_TRASC e o grupo

Verde da variável NP_PAREDE e N_T_LUZ. Este resultado está relacionado com as

análises feitas através da ANOVA no capítulo 10, que revelam que o grupo vermelho

possui piores resultados nas médias das variáveis referentes ao acesso a luz e a casa com

parede adequada, enquanto o grupo verde possui indicadores piores nas variáveis

referentes a desocupação e quantidade de pessoas que trabalham sem carteira assinada.

Foram realizados testes com apenas as três variáveis que mais contribuem para a

divisão do Brasil nos três grupos, sendo elas a N_IDHM, NP_PAREDE e N_LUZ.

As análises das três variáveis e suas relações com os estados mostram que o

Maranhão ficou distante destas, São Paulo e Santa Catarina estão mais próximos da

variável N_IDHM, sendo os mais representados por ela, enquanto o Ceará está próximo

da variável N_LUZ e o Acre e Roraima à variável NP_PAREDE.

Foi realizado os testes com estas três variáveis para as cinco regiões geográficas,

e os resultados mostram que a região Norte está próxima das NP_PAREDE e N_LUZ,

enquanto as regiões Sul, Centro-Oeste e Sudeste estão próximas da variável N_IDHM. É

possível observar que a região Norte possui indicadores piores nas variáveis relacionadas

ao acesso a luz elétrica e a casas com paredes adequadas, enquanto as regiões Sul, Sudeste

e Centro-Oeste possuem valores melhores para a variável IDHM.

CAPÍTULO 12. ÁRVORE DE CLASSIFICAÇÃO O presente trabalho tem como objetivo dar continuidade aos estudos anteriores.

Para isso serão realizados testes estatísticos de árvore de classificação a partir dos dados

provenientes das variáveis selecionadas no Atlas do Desenvolvimento Humano no Brasil,

que apresentam indicadores de desenvolvimento humano dos 5565 municípios

brasileiros. Os dados são provenientes do Censo Demográfico de 2010.

Desta maneira, a partir das análises estatísticas feitas, será possível verificar quais

variáveis são mais capazes de classificar os estados brasileiros em diferentes regiões e

separá-los.

As análises foram realizadas utilizando as 6 variáveis selecionadas para estudo,

sendo elas N_IDHM, N_HOMEM10A14, NP_T_DES18M, N_T_LUZ, NP_TRABSC e

NP_PAREDE.

de 91,05%.

Desta maneira, poderão ser comparados os resultados encontrados pela análise

discriminante no capítulo 9, regressão logística no capítulo 10 e árvore de classificação

neste capítulo.

Para realizar este estudo de árvore de classificação, foi utilizado o software

estatístico SPSS.

Para dar continuidade as análises, foi realizado o teste de Step-Wise e de árvore

de classificação com o software SPSS, para verificar os possíveis agrupamentos que

podem ser feitos com estes dados.

Variables in the Analysis

Tolerance F to Remove Min. D Squared

Between

Groups

1 idhm 1,000 54,379

2 idhm ,964 37,015 ,229 2,00 and 3,00

luz ,964 19,976 ,926 1,00 and 2,00

3 idhm ,953 29,574 1,025 2,00 and 3,00

luz ,963 8,607 8,915 1,00 and 2,00

pare ,987 4,036 14,006 1,00 and 2,00

4 idhm ,953 16,272 6,984 2,00 and 3,00

luz ,951 8,295 10,272 1,00 and 2,00

pare ,979 3,952 15,779 1,00 and 2,00

des ,979 5,419 16,771 2,00 and 3,00

5 idhm ,907 13,682 11,083 2,00 and 3,00

luz ,911 8,151 15,211 1,00 and 2,00

pare ,894 4,960 20,037 1,00 and 2,00

des ,588 9,918 17,118 2,00 and 3,00

hom ,566 3,945 22,500 2,00 and 3,00

Classification Processing Summary

Processed 26

Excluded Missing or out-of-range

group codes

At least one missing

discriminating variable

Used in Output 26

Classification Resultsa

grupo Predicted Group Membership

Total 1,00 2,00 3,00

Original Count d

1,00 6 0 0 6

2,00 0 9 0 9

3,00 0 0 11 11

1,00 100,0 ,0 ,0 100,0

2,00 ,0 100,0 ,0 100,0

3,00 ,0 ,0 100,0 100,0

a. 100,0% of original grouped cases correctly classified.

Model Summary

Specifications Growing Method EXHAUSTIVE CHAID

Dependent Variable grupo

Independent Variables des, trab, luz, pare, hom, idhm

Validation None

Maximum Tree Depth 3

Minimum Cases in Parent

Minimum Cases in Child

Results Independent Variables

Included

Number of Nodes 5

Number of Terminal Nodes 4

Depth 1

Classification

Observed Predicted

1,00 2,00 3,00 Percent Correct

1,00 5 1 0 83,3%

2,00 0 9 0 100,0%

3,00 0 3 8 72,7%

Overall Percentage 19,2% 50,0% 30,8% 84,6%

Growing Method: EXHAUSTIVE CHAID

Dependent Variable: grupo

De acordo com o teste de árvore de classificação, os estados podem ser divididos

nos três grupos de acordo com o valor obtido para a variável NP_PAREDE. Desta forma,

os estados com valor menor ou igual a 849,300 nesta variável ficariam no grupo 1 com

100% de chance, os com valores entre 849,300 e 910,800 ficariam com 20% de chance

no grupo 1 e 80% de chance no grupo 2, os estados com o valor da variável entre 910,800

e 960,900 ficariam 62,5% no grupo 2 e 37,5% no grupo 3. Os estados com valores da

variável maiores do que 960,900 ficariam no grupo 3.

O percentual de correção da classificação foi 83,3% para o grupo 1, 100% para o

grupo 2 e 72,7% para o grupo 3, no total foi 84,6%. Desta forma, de acordo com as

análises os estados poderiam fazer parte de grupos diferentes do que fizeram nas análises

dos relatórios anteriores.

No Node 1, se encontram os estados do AC, MA, PA, PI e RR, no Node 2 os

estados AL, AM, AP, TO e CE, no Node 3, se encontram os estados BA, MS, MT, PB,

PE, RN, RO e SE. Os estados pertencentes ao Node 4 são ES, GO, MG, PR, RJ, RS, SC

Desta forma, é possível verificar como ficam os três grupos, de acordo com a

árvore de classificação gerada pelo SPSS.

Devido ao fato de que com esta árvore de classificação o Node 3 fica dividido

com percentuais próximos entre os grupos 2 e 3, foi feito um novo teste para subdividir

melhor estes dois agrupamentos. Os resultados seguem abaixo.

Model Summary

Specifications Growing Method EXHAUSTIVE CHAID

Dependent Variable grupo

Independent Variables des, trab, luz, pare, hom, idhm

Validation None

Maximum Tree Depth 3

Minimum Cases in Parent

Minimum Cases in Child

Results Independent Variables

Included

pare, des

Number of Nodes 7

Number of Terminal Nodes 5

Depth 2

Classification

Observed Predicted

1,00 2,00 3,00 Percent Correct

1,00 5 1 0 83,3%

2,00 0 9 0 100,0%

3,00 0 0 11 100,0%

Overall Percentage 19,2% 38,5% 42,3% 96,2%

Growing Method: EXHAUSTIVE CHAID

Dependent Variable: grupo

Com esta nova análise, foi criado mais dois Nodes, utilizando-se a variável

T_DES18M. Desta maneira, o Node 3 foi dividido em Node 5 e 6, sendo que os 8 estados

do Node 3 foram divididos em 5 no grupo 2 e 3 no grupo 3. Assim, verifica-se que o

percentual de correção dos estados do grupo 2 e 3 foram 100%, e do grupo 1, foi 83,3%.

Com esta análise o percentual total foi 96,2%.

Os estados que passaram do Node 3 para o Node 5 foram BA, PB, PE, RN e SE,

e para o Node 6 foram MS, MT e RO.

12.2.Considerações

De acordo com a árvore de classificação encontrada, a variável NP_PAREDE é a

que mais é capaz de explicar a divisão do país nos três agrupamentos realizados, seguida

pela variável NP_T_DES18M. Estas duas variáveis juntas possuem um bom poder de

explicação para esta divisão.

Também é possível notar pelos testes de ANOVA apresentados no capítulo 9, que

as médias dos estados da região vermelha são mais precários na variável PAREDE,

enquanto os estados da região verde são mais precários em relação a variável T_DES18M,

o que pode ter causado esta divisão.

Na regressão logística apresentada no capítulo 10, as variáveis explicativas foram

IDHM, PAREDE e LUZ, e na análise discriminante também se verifica que a divisão do

Brasil nestes três grupos é satisfatória.

A variável PAREDE está presente tanto na regressão logística quanto na árvore

de classificação, e este fato indica a importância da realização de políticas públicas

capazes de fazer com que os indivíduos tenham mais acesso a moradia dignas e de

qualidade, em especial na região vermelha, que possui valores mais baixos para esta

variável. Também é importante fazer com que a região verde se desenvolva

economicamente e que os indivíduos tenham mais acesso a oportunidades melhores de

trabalho.

CAPÍTULO 13. RANKING DOS ESTADOS Este capítulo final tem como objetivo fazer um ranking dos estados brasileiros,

para que se possa compreender quais são os mais desenvolvidos e os menos

desenvolvidos.

Para isso, inicialmente serão realizados os testes de componentes principais com

as variáveis selecionadas para realizar os agrupamentos do Brasil nos três grupos distintos

construídos no capítulo 9. Estes agrupamentos foram realizados utilizando as variáveis

N_IDHM, N_HOMEM10A14, NP_T_DES18M, N_T_LUZ, NP_TRABSC e

NP_PAREDE, descritas no capítulo 7.

A Figura 1 representa visualmente o Brasil dividido nos 3 agrupamentos

diferentes, conforme as análises realizadas e apresentadas no capítulo 9.

Figura 1: Mapa do Brasil Agrupado de Acordo com o Capítulo 9.

Fonte: Através do Atlas do Desenvolvimento Humano no Brasil

13.1. Análise dos Dados

Para fazer a classificação dos 26 estados brasileiros em um ranking, variando do

mais desenvolvido para o menos desenvolvido, inicialmente foi realizado um teste de

componentes principais com as seis variáveis selecionadas.

Principal Component Analysis: MediaNP_T_DE; MediaNP_TRAB; MediaN_T_LUZ; MediaNP Eigenanalysis of the Correlation Matrix

Eigenvalue 2,9836 1,2077 1,0438 0,2850 0,2562 0,2236

Proportion 0,497 0,201 0,174 0,048 0,043 0,037

Cumulative 0,497 0,699 0,873 0,920 0,963 1,000

Variable PC1 PC2 PC3

MediaNP_T_DES18M_1 0,427 0,501 -0,080

MediaNP_TRABSC_1 0,440 0,225 -0,460

MediaN_T_LUZ_1 0,399 -0,388 0,452

MediaNP_PAREDE_1 0,440 -0,377 0,302

MediaN_HOMEM10A14_1 -0,032 -0,637 -0,671

MediaN_IDHM_1 0,520 -0,025 -0,189

Verifica-se que existem três componentes principais com Eigenvalue maior do

que 1, desta maneira, estas três componentes serão utilizadas para os cálculos do ranking

dos estados.

Rodou-se o teste de Step-wise para verificar quais variáveis são as principais do

componente PC1.

Stepwise Regression: PC1 versus MediaNP_T_DES18M; MediaNP_TRABSC_1; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is PC1 on 6 predictors, with N = 26

Step 1 2 3 4 5 6

Constant -6,047 -10,357 -17,275 -17,414 -19,448 -19,165

MediaN_IDHM_1 12,18386 9,35499 6,49327 4,84735 4,00043 4,08363

T-Value 9,99 7,98 7,01 5,98 46,66 *

P-Value 0,000 0,000 0,000 0,000 0,000 *

MediaNP_PAREDE_1 6,30919 6,66730 7,07048 4,51086 4,54064

T-Value 4,10 6,56 9,08 45,55 *

P-Value 0,000 0,000 0,000 0,000 *

MediaNP_T_DES18M_1 9,77381 7,57962 7,80809 7,44093

T-Value 5,57 5,28 52,68 *

P-Value 0,000 0,000 0,000 *

MediaNP_TRABSC_1 3,95887 4,51879 4,60863

T-Value 4,12 45,27 *

P-Value 0,000 0,000 *

MediaN_T_LUZ_1 4,56660 4,50112

T-Value 44,21 *

P-Value 0,000 *

MediaN_HOMEM10A14_1 -10,6962

T-Value *

P-Value *

S 0,776 0,603 0,397 0,302 0,0311 0,000000

R-Sq 80,61 88,79 95,35 97,43 99,97 100,00

R-Sq(adj) 79,80 87,81 94,72 96,94 99,97 100,00

Desta forma, as duas variáveis que mais influenciam no PC1 é N_IDHM_1, com

um poder de explicação de 80,61%, seguida por NP_PAREDE, com poder de explicação

agregado de 88,79%.

Em seguida, rodou-se o teste de Step-Wise para a variável sintética PC2.

Step 1 2 3 4 5

Constant 1,04632 6,34702 -0,65969 -0,89071 0,15366 -

0,01936

MediaN_HOMEM10A14_1 -256,233 -263,416 -208,506 -194,159 -213,291 -

212,171

T-Value -4,81 -6,29 -9,71 -16,29 -184,81

P-Value 0,000 0,000 0,000 0,000 0,000

MediaN_T_LUZ_1 -5,66797 -7,15332 -4,39479 -4,43249 -

4,37583

T-Value -3,99 -9,99 -8,04 -88,77

P-Value 0,001 0,000 0,000 0,000

MediaNP_T_DES18M_1 9,95596 11,17091 8,59665

8,72019

T-Value 8,61 17,06 108,87

P-Value 0,000 0,000 0,000

MediaNP_PAREDE_1 -3,74259 -3,94246 -

3,88652

T-Value -7,24 -83,19

P-Value 0,000 0,000

MediaNP_TRABSC_1 2,25377

2,35306

T-Value 49,96

P-Value 0,000

MediaN_IDHM_1 -

0,19374

T-Value

P-Value

S 0,801 0,629 0,308 0,168 0,0154

0,000000

R-Sq 49,04 69,90 93,11 98,03 99,98

100,00

R-Sq(adj) 46,92 67,28 92,17 97,65 99,98

100,00

Para a PC2, a variável que mais contribui para a explicação é N_HOMEM10A14,

com poder de explicação de 49,04%, seguida por N_T_LUZ com poder de explicação

agregado de 69,90%, seguida de NP_T_DES18M com poder de explicação de 93,11%.

Em seguida, rodou-se o teste de Step-Wise da variável PC3.

Step 1 2 3 4 5

Constant 0,9524 -3,7217 -1,5801 -1,8455 -2,7722 -

1,8715

MediaN_HOMEM10A14_1 -233,244 -226,910 -212,619 -216,709 -213,965 -

223,453

T-Value -4,61 -5,46 -13,90 -21,26 -55,87

P-Value 0,000 0,000 0,000 0,000 0,000

MediaN_T_LUZ_1 4,99805 6,54620 4,69729 5,18852

5,10464

T-Value 3,55 12,30 9,52 27,30

P-Value 0,002 0,000 0,000 0,000

MediaNP_TRABSC_1 -6,02873 -6,45121 -5,15798 -

4,81888

T-Value -12,19 -19,09 -30,29

P-Value 0,000 0,000 0,000

MediaNP_PAREDE_1 2,49194 3,08101

3,11512

T-Value 5,37 16,97

P-Value 0,000 0,000

MediaN_IDHM_1 -1,72392 -

1,48675

T-Value -11,37

P-Value 0,000

MediaNP_T_DES18M_1 -

1,38695

T-Value

P-Value

S 0,759 0,623 0,229 0,152 0,0570

0,000000

R-Sq 47,01 65,78 95,58 98,14 99,75

100,00

R-Sq(adj) 44,81 62,80 94,98 97,79 99,69

100,00

Verifica-se que as variáveis que mais explicam essa é N_HOMEM10A14 com

47,01%, seguida por N_T_LUZ com um poder agregado de 65,78%, seguida por

NP_TRABSC com poder agregado de 95,58%.

A partir destes resultados obtidos, é possível construir uma equação utilizando a

Proportion de cada um dos três vetores e o R-Sq de cada variável para os vetores. Assim,

a equação de pontuação para os estados pode ser descrita como sendo:

Y = 0,497 * (0,8061 * N_IDHM + 0,0818 * NP_PAREDE) + 0,201 * (0,4904 *

N_HOMEM10A14 + 0,2086 * N_T_LUZ + 0,2321 * NP_T_DES18M) + 0,174 * (0,4701

* N_HOMEM10A14 + 0,1877 * N_T_LUZ + 0,298 * NP_TRABSC)

A partir desta equação é possível calcular o valor de cada estado num ranking, do

maior até o menor.

Os resultados obtidos foram normalizados e atribuídos um valor de 0 a 100 através

da expressão:

CY= 100 * (cX-MIN(cX))/(MAX(cX)-MIN(cX))

Os resultados do ranking de estados se encontram apresentados na Tabela 1

abaixo.

Tabela 1: Ranking dos Estados Brasileiros

Ranking Estados Posição

100 sc 1

99,22668 sp 2

90,27953 rs 3

82,15216 rj 4

80,71608 pr 5

72,80133 es 6

71,90206 go 7

66,6757 mt 8

65,96219 ms 9

59,97892 mg 10

50,95945 ro 11

42,01578 ap 12

37,62588 to 13

30,15315 ce 14

28,33828 rn 15

23,15136 pe 16

22,87445 se 17

18,96352 pb 18

16,59364 ba 19

11,6823 rr 20

10,04803 ac 21

8,438665 pa 22

6,729597 al 23

4,301474 ma 24

3,128545 pi 25

0 am 26 Fonte: Atlas do Desenvolvimento Humano no Brasil

A partir dos resultados encontrados é possível verificar quais são os melhores

estados brasileiros e quais se encontram em situação mais precária.

13.2. Considerações

Neste relatório final, foi construído um ranking dos estados brasileiros.

O melhor estado do Ranking é Santa Catarina, seguida por São Paulo, Rio Grande

do Sul, Rio de Janeiro e Paraná. Os cinco estados mais bem posicionados se encontram

nas regiões Sul e Sudeste.

O sexto estado mais bem posicionado é Espírito Santo, seguido por Goiás, Mato

Grosso, Mato Grosso do Sul e Minas Gerais. Desta forma observa-se que os dez melhores

estados brasileiros se encontram nas regiões Sul, Sudeste e Centro Oeste, e fazem parte

do agrupamento azul do mapa da Figura 1.

O décimo primeiro estado é Rondônia, seguido de Amapá, Tocantins, Ceará, Rio

Grande do Norte, Pernambuco, Sergipe, Paraíba, Bahia e Roraima. Estes estados possuem

condições mais precárias e notas mais baixas no ranking. Desta forma, é necessário

realizar políticas capazes de desenvolver estes estados nos indicadores selecionados para

que os moradores destas localidades possam ter melhor qualidade de vida.

Os seis estados mais mal posicionados no ranking, são Acre, Pará, Alagoas,

Maranhão, Piauí e Amazonas. Estes estados precisam de uma maior atenção, pois é

necessário que consigam se desenvolver para aumentar a qualidade de vida dos

indivíduos, melhorando indicadores como a saúde, educação, habitação e renda.

REFERÊNCIAS

ANDERSON, David R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A. Estatística

aplicada à administração e economia. 2. ed. São Paulo: Thomson Learning,

ATLAS DO DESENVOLVIMENTO HUMANO NO BRASIL. Disponível em:

<http://www.atlasbrasil.org.br/2013/>. Acessado em: 17 mar. 2017.

IBGE, Instituto Brasileiro de Geografia e Estatística. Séries Históricas e Estatísticas.

Disponível em: <http://seriesestatisticas.ibge.gov.br/apresentacao.aspx>.

Acessado em: 30 mar. 2017.

LAS CASAS A., DE HOYOS A. Pesquisa de Marketing. São Paulo, Ed. Atlas, 2010.

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 · para que todos possam obter o conhecimento e...

Documents

Revista Espírita - Oitavo ano - 1865 - O CONSOLADORoconsolador.com.br/linkfixo/bibliotecavirtual/revista-espirita... · 1 ÍNDICE GERAL DAS MATÉRIAS DO OITAVO VOLUME ANO JANEIRO

livros.gospelmais.com.br · dos olhos de todos os leitores a cegueira espiritual, para que todos eles possam ver a realidade do mun-do espiritual e aceitem as tuas verdades. Eu peço,

OITAVO APARTAMENTO - Fidelizador

2015 prova 1 primeiro trimestre oitavo

A ODISSEIA DE TIBOR LOBATO - O OITAVO VILAREJO - LIVRO I

O Oitavo Pecado - primeiro capítulo

Os homens são todos iguais - Instituto Camõescvc.instituto-camoes.pt/images/stories/tecnicas... · 2014-05-28 · Os homens são todos iguais ... de genes, embora possam vir em

Revisão oitavo ano respondido

NERVO VESTÍBULOCOCLEAR - OITAVO NERVO CRANIANO

" Atlântida, o oitavo continente ", de Charles Berlitzsuaaltezaogato.com.br/arq/Gavetao/Charles_Berlitz_(Atantida_O... · Atlântida, o oitavo continente A "palavra Atlântida tem

Trigésimo Oitavo Protocolo Adicional

Aula de história interiorização - oitavo ano

OITAVO JORNAL DA OCUPAÇÃO

Oitavo Clube de Inovação

oitavo codigo

CONSELHO PERMANENTE - CITEL sustentável das redes de telecomunicações e de informação e promover o acesso universal, para que todos, em todos os lugares, possam participar da

Análise do conceito espontâneo de grupo económico*analisesocial.ics.ul.pt/documentos/1224257183B9yUE1dj5Lw23JU3.pdf · que nem todos os desenvolvimentos do argumento possam estar

Quando Eu Era Menino Lia o Salmo Oitavo - Poesia - J.T.Parreira

Oitavo mandamento

MIGRAÇÕES. CANTAR DE EMIGRAÇÃO Este parte Aquele parte E todos, todos se vão. Galiza, ficas sem homens Que possam cortar teu pão Tens em troca Órfãos