Upload
alex-alcantara
View
124
Download
2
Embed Size (px)
Citation preview
ESTATÍSTICA DESCRITIVAESTATÍSTICA DESCRITIVA
Prof. MSc. Marcos Antônio Resende MirandaProf. MSc. Marcos Antônio Resende Miranda
1
1 - Introdução
Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão diante de incertezas, justificando cientificamente as decisões.
Os princípios estatísticos são utilizados em uma grande variedade de situações – no governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas e físicas.
2
Estatística é a ciência ou método científico que estuda os fenômenos multicausais, coletivos ou de massa e procura inferir as leis que os mesmos obedecem.
Método estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os passos da metodologia estatística são os seguintes:
3
Definição cuidadosa do problema. Formulação de um plano para coleta das unidades de observação. Coleta, resumo e apresentação das unidades de observação ou de seus valores numéricos. Análise dos resultados. Divulgação de relatório com as conclusões, de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisões.
4
Em geral, é aceita a divisão da estatística em dois grandes grupos: estatística descritiva indutiva.
Descritiva: corresponde aos procedimentos
relacionados com a coleta, elaboração,
tabulação, análise, interpretação e
apresentação dos dados.
5
Isto é, inclui as técnicas que dizem respeito
à sintetização e à descrição de dados
numéricos. Tais métodos podem ser gráficos
e envolvem a utilização de recursos
computacionais.
O objetivo da estatística descritiva é tornar as
coisas mais fáceis de entender, relatar e
discutir.
6
Indutiva (ou inferencial): parte de uma ou
mais amostras (subconjuntos da população)
e conclui sobre a população. Utiliza técnicas
como a teoria das probabilidades, inferência
estatística, amostragem.
Exemplos de utilização: Pesquisas na Educação,
Pesquisa de Mercado, Pesquisa de opinião pública,
Ensaios de medicamentos e em praticamente todo
experimento.
A inferência estatística procura com base nos
dados amostrais tirar conclusões sobre a população.7
Com maior freqüência utilizamos o estudo da
amostra do que da população, não só por
serem menos dispendiosas e consumirem
menos tempo no processamento dos dados,
mas também porque muitas vezes não
dispomos de todos os elementos da
população.
8
O esquema a seguir tente sintetizar as etapas
de uma pesquisa estatística:
Fig. 1.1 – Etapas de uma pesquisa estatística9
Definições:
População: coleção completa de todos os
elementos (valores, pessoas, medidas,...) a
serem estudados.
Amostra: subcoleção de elementos extraídos
da população.
Censo: coleção de dados relativos a todos os
elementos de uma população.
10
Amostragem: coleção de dados relativos a
elementos de uma amostra.
Parâmetro: medida numérica que descreve
uma característica de uma população
Estatística: medida numérica que descreve
uma característica de uma amostra
11
Exemplos:
i) Deseja-se conhecer o perfil sócio- econômico dos pais dos alunos de uma escola.População ou universo: todos os pais dos
alunos.Características: perfil sócio-econômico.
12
ii) Deseja-se conhecer o consumo de energia elétrica em MWh nas residências da cidade de Teófilo Otoni no ano de 2009.
População ou universo: todos as residências que estavam ligadas a rede elétrica em Teófilo Otoni , em 2009.
Características: X = consumo anual de energia elétrica em MWh.
13
iii) Deseja-se saber se nas indústrias situadas no Estado de Minas Gerais, em 2009, existia algum tipo de controle ambiental.
População ou universo: indústrias situadas no Estado de Minas Gerais em 2009.
Característica: X = existência ou não de algum tipo de controle ambiental na indústria.
14
iv) Estudo sobre a precipitação pluviométrica na Região Sudeste no ano 2009.
População ou universo: área referente à
Região Sudeste.
Característica: X = precipitação pluviométrica.
15
Populações finitas e infinitas: Quanto aonúmero de elementos, as populações podemser classificadas em finita ou infinita,dependendo do número de elementos que acompõe.Exemplos :i) População finita: empresas do Pólo Petroquímico de Camaçari.ii) População infinita: as pressõesatmosféricas ocorridas nos diversos pontos doContinente em determinado momento. 16
Em geral, como os universos são grandes, investigar todos os elementos populacionaispara determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de investigação leva a destruição do elemento observado, ou, como no caso de populações infinitas, éimpossível observar a totalidade da população. Assim, estudar parte da população constitui-se um aspecto fundamental da Estatística (amostra).
17
Amostragem
O objetivo da amostragem é permitir fazer inferências sobre uma população após Inspeção de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populaçõesinfinitas tornam a amostragem preferível a umestudo completo (censo).
Os principais tipos de amostragem utilizados são os probabilísticos, onde todos osindivíduos da população têm a mesma chance de serem selecionados.
18
Os planos de amostragem probabilística
são delineados de tal modo que se conhece
todas as combinações amostrais possíveis e
suas probabilidades, podendo-se então
determinar o erro amostral.
Os métodos mais comuns de amostragem
probabilística são:
19
Amostragem aleatória simples: os elementos
de uma população são escolhidos de tal forma
que todos tenham a mesma chance de serem
escolhidos. Pode-se utilizar uma tabela de
números aleatórios ou um programa de
geração de números aleatórios. Amostragem estratificada: subdivide-se a
população em, no mínimo, dois estratos
(subpopulações) que compartilham a mesma
característica e em seguida escolhe-se 20
uma amostra de cada. Exemplo: homens e
mulheres. Amostragem sistemática: escolhe-se um
ponto de partida e então, sistematicamente,
selecionam-se os outros. Por exemplo: o 3°,
403°, 803°, 1203°,... Indivíduos. Amostragem por conglomerados: divide-se a
população em conglomerados (áreas), em
seguida sorteiam-se algumas áreas e analisam-
se todos os elementos dos conglomerados
escolhidos. Por exemplo: bairros. 21
22
23
24
25
Amostragens não probabilísticas são
utilizadas quando a população em estudo é
muito pequena ou de difícil obtenção. Neste
caso a análise de uma amostra poderia
causar distorções. Uma pessoa familiarizada
com a população pode indicar melhor as
unidades amostrais. Este tipo de amostragem
não permite avaliar o erro amostral. EX:
doença rara.
26
Tipos de Variáveis
A característica que nos interessa analisar
recebe o nome de variável.
As características ou variáveis podem ser
divididas em dois tipos: qualitativas e
quantitativas.
27
QUALITATIVA NOMINAL (SEXO, COR DOS OLHOS...)
ORDINAL (CLASSE SOCIAL, GRAU DE INSTRUÇÃO...)
QUANTITATIVA CONTÍNUA (PESO, ALTURA...) DISCRETA (NÚMERO DE FILHOS, NÚMERO
DE CARROS...)28
Variáveis qualitativas - quando o resultado da
observação é apresentado na forma de
qualidade ou atributo. Exemplos: sexo; estado
civil; grau de escolaridade; etc.
Variáveis quantitativas - quando o resultado
da observação é um número, decorrente de
um processo de mensuração ou contagem.
Exemplos: número de filhos; salário mensal;
altura; peso; idade; tamanho da família; etc.
29
Para resumir as informações levantadas
durante uma pesquisa usaremos a técnica e a
representação mais apropriada, a depender do
tipo de variável que estamos analisando.N atu reza d o s D ad o s
E x : n ú m ero d e h ab itan tes d e u m a cid ad e
C o n tagen s
D iscreta
E x : ren d a p er cap ita d e u m a cid ad e
M ed id as
C o n tín u a
Q u an tita tivas
E x : grau d e esco larid ad e
A trib u to s / ca tego rias
Q u alita tivas
V ariáveis
Fig. 1.2 – Natureza dos dados30
Apresentação Gráfica de Dados Após a apuração, há a necessidade de
dispor os dados e os resultados obtidos a partirdeles em uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e facilitar a compreensão das conclusões apresentadas ao leitor. Os dados e os resultados são então apresentados na formade tabelas.
Uma tabela possui elementos essenciais, taiscomo:
31
Título – é obrigatório. Deve ser colocado naparte superior da tabela. Corpo da tabela – é o conjunto de linhas e colunas onde se encontram as informações sobre o fato observado. Cabeçalho – é a parte superior da tabela, onde se especifica o conteúdo de cada coluna. Coluna indicadora – é a parte da tabela emque se especifica o conteúdo de cada linha. Fonte – é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É colocado no fim da tabela. 32
Clubes Porcentagem de torcedores (%)
A 15
B 11
C 7
D 6
E 5
F 4
G 4
H 3
I 2
Tab. 1.1: Ranking das torcidas no futebol brasileiro
Fonte: Rede Globo, 06 de jan. de 200433
Os dados estatísticos, apresentados em tabelas, também podem ser expostos em gráficos. Desde que não haja necessidade de grande precisão, os gráficos dão, melhor do que as tabelas, visão de tendências e ajudam a interpretar um fenômeno.
34
Tabelas, gráficos e medidas podem ser
utilizados para descrever ou explorar um
conjunto de dados, ou comparar dois ou mais
conjuntos. Gráfico de Barras: usado para apresentar
séries cronológicas, geográficas e categóricas.
É mais comum a apresentação das barras em
posição vertical, conforme representado na
Fig. 1.8.
35
No entanto, as barras em posição horizontal
facilitam a identificação das categorias,
principalmente nos casos em que essas
categorias têm nomes muito longos.
Gráfico de Barras Vertical: facilidade de
identificação das categorias, conforme
representado na Fig. 1.9.
36
Fonte: não identificada
Fig. 1.8 – Gráfico de barras
Fonte: Rede Globo, 06 de jan. de 2004 Fig. 1.9 – Gráfico de barras
vertical
Ranking das torcidas
0 5 10 15 20
A
B
C
D
E
F
G
H
I
Clu
bes
Porcentagem de torcedores (%)
Ranking de torcedores
024
68
1012
1416
A B C D E F G H I
Clubes
Porc
entag
em de
torc
edor
es
(%)
37
Gráfico de Setores: usado para comparar
proporções, conforme representado pela Fig.
1.10.
Gráfico de Linhas: usado para apresentar
séries cronológicas, conforme representado
pela Fig. 1.11.
38
Consumo de refrigerantes
38%
26%
18%
10%
8%
Coca-Cola
GuaranáAntárticaFanta
Sprite
Outros
Os brasileiros de férias no exterior
4,2
2,9 2,92,3
1,7 1,9
0
1
2
3
4
5
1 2 3 4 5 6
Ano
Mil
hõ
es d
e v
iaja
nte
s
Fonte: não identificada Fig. 1.10 – Gráfico de setor
Fonte: Revista Veja, 14 de jan. de 2004Fig. 1.11 – Gráfico de linhas
Gráficos Comparativos: são desenhados dois gráficos, lado a lado, para melhor estabelecer a comparação de um fenômeno, conforme representado na Fig. 1.12.
39
Fonte: Folha de São Paulo, 12 de jan. de 2004
As universidades e o cumprimento da LDB
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
1 2 3
Situação das Instituições
Porc
enta
gem
Privadas
Públicas
Total
Situações das Instituições:1 – Com ao menos 1/3 do corpo docente trabalhando em regime integral.2 - Com ao menos 1/3 do corpo docente com título de mestre ou doutor3 – Têm menos de três cursos de pós-graduação recomendados pela Capes
Fig. 1.12 – Gráfico comparativo
40
Exercícios.1. Identifique cada número como discreto ou
contínuo.a) Cada cigarro Camel tem 16,13 mg de
Alcatrão.b) O altímetro de um avião da Varig indica
uma altitude de 21.359 pés.c) Uma pesquisa efetuada com 1015
pessoas indica que 40 delas são assinantes de um serviço de informação on-line.
41
d) O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar passagem a pedestres é de 2367 segundos.
e) De 1000 consumidores pesquisados, 930 reconheceram a marca da “Coca-Cola”.
f) Apresente dois exemplos de dados discretos ou contínuos de sua empresa / pesquisa.
42
2. Uma pessoa foi encarregada de pesquisar
o reconhecimento da marca Nike, devendo
contactar por telefone 1500 consumidores.
Por que razão é incorreta a utilização de
listas telefônicas como população para
fornecer a amostra?
43
3. Um relatório patrocinado pela Florida Citrus
Comission concluiu que os níveis de
colesterol podem ser reduzidos mediante
ingestão de produtos cítricos. Por que razão a
conclusão poderia ser suspeita?
4. Identifique o tipo de amostragem utilizado:
a) Um psicólogo de uma Universidade
seleciona 12 homens e 12 mulheres de cada
uma das quatro turmas de inglês. 44
b) Um cabo eleitoral escreve o nome de cada vereador da cidade, em cartões separados, mistura-se e extrai 3 nomes.
c) Um pesquisador médico da USP entrevista todos os portadores de leucemia em cada um dos 20 hospitais selecionados aleatoriamente.
d) A empresa Sony seleciona cada 200º CD de sua linha de produção e faz um teste de qualidade rigoroso.
45
e) Um professor seleciona 15% de mulheres e 15% de homens de uma turma para responder a uma pergunta.
f) A supervisora escolhe dentre os 28 professores, 3 para representar a escola em um evento na cidade.
46
5. Uma população se encontra dividida em
três estratos, com tamanhos, respectivamente,
A = 80, B = 120 e C = 60. Ao se realizar uma
amostragem estratificada proporcional, 12
elementos da amostra foram retirados do
primeiro estrato. Qual é o número de
elementos da amostra?
47
6. Uma amostragem entre os moradores de
uma cidade é realizada da seguinte forma: em
cada bairro, sorteia-se um certo número de
quarteirões proporcional à área do bairro; de
cada quarteirão, são sorteadas cinco
residências, cujos moradores são entrevistados.
a) Essa amostra será representativa da
população ou poderá apresentar algum vício?
b) Que tipo de amostragem foram usados
no procedimento? Justifique.48
7. Discuta sobre o planejamento de um
experimento enfatizando a importância dos
métodos de boa amostragem.
8. (ENEM/2006) Uma pesquisa de opinião foi
realizada para avaliar os níveis de audiência
de alguns canais de televisão, entre 20h e
21h, durante uma determinada noite. Os
resultados obtidos estão representados no
gráfico de barras abaixo.49
Nº de residências 100
80 60 40 20 0 A B C D nenhum
Fig. 1.13 - Nº de residências ligadas em um determinado canal de TV, entre 20h e 21h, durante uma noite.
I) O número de residências atingidas nessapesquisa foi aproximadamente de:
a) 100 b) 135 c) 150 d) 200 e) 22050
II) A porcentagem de entrevistados que
declararam estar assistindo ao canal B é
aproximadamente:
a) 15% b) 20% c) 22% d) 27% e) 30%
51
20.000
18.000
16.000
14.000
12.000
10.000 1991 1992 1993 1994 1995 1996 1997
9. O quadro abaixo apresenta o número de novos casos de AIDS notificados anualmente no Brasil no período considerado:
Fig. 1.14 - Número de novos casos de AIDS notificados anualmente no Brasil
52
As informações contidas no gráfico permitem concluir corretamente que, no período considerado:
a)a partir de 1997, certamente caiu o número de novos casos de aidéticos;
b)o número aproximado de aidéticos no país, em 1997, era de 112.000;
c)a maior taxa de variação no número de aidéticos ocorreu em 1996;
d)a maior taxa de variação no número de aidéticos ocorreu em 1992;
e)o número máximo de aidéticos ocorreu em 1996. 53
2. REPRESENTAÇÃO GRÁFICA E DISTRIBUIÇÃO DE FREQÜÊNCIA2.1 – Introdução
Ao estudarmos grandes conjuntos de dados, é conveniente organizá-los e resumi-los, construindo uma tabela de freqüências. A título de ilustração, considere o exemplo a seguir, de dados brutos, relativo ao tempo de parada(em minutos) de uma máquina para manutenção (Tab. 2.1).A construção de uma distribuição de freqüência consiste na elaboração de classes a partir de intervalos, fixando um número adequado de classes.
54
Tab. 2.1 - Tempo de parada (em minutos) de uma máquina para manutenção
7 3 4 9 5
8 5 3 8 7
9 3 1 9 9
5 7 7 10 3
4 8 8 8 7
8 8 9 3 8
6 10 7 7 9
9 9 7 8 1
55
O primeiro procedimento a ser tomado para a elaboração de uma distribuição de freqüências de uma variável contínua consiste na ordenação dos dados (rol), para permitir uma melhor manipulação (Tab. 2.2).
Tab. 2.2 - Tempo de parada (em minutos) de uma máquina para manutenção
1 4 7 8 9
1 5 7 8 9
3 5 7 8 9
3 5 7 8 9
3 6 7 8 9
3 7 8 8 9
3 7 8 9 10
4 7 8 9 1056
2.2 – Distribuição de FreqüênciasA precisão de medida corresponde ao
menor valor detectável pelo instrumento ou procedimento de medida empregado. No exemplo dos tempos de parada, a precisão de medida é x = 1. Deve-se atentar que os valores presentes no conjunto de dados não são exatos, mas carregam alguma inexatidão devido à precisão de medida. Assim, um valor de 5 não representa necessariamente uma nota de exatamente 5, mas sim uma nota que pode estar acontecendo em qualquer ponto entre 4,5 e 5,5. 57
A elaboração de uma distribuição de freqüência para variáveis contínuas requer a apresentação de alguns conceitos:
1 – Amplitude: corresponde à diferença entre o maior e o menor valor de um conjunto de dados. Em geral, é simbolizada por “A”.
2 - Amplitude de Classe: consiste na diferença entre o limite superior e o limite inferior de uma classe em uma distribuição de freqüência. Será aqui simbolizada por “c”.
58
A seguir, temos o algoritmo para obtenção de uma
distribuição de freqüência relativa à uma variável
contínua.
Passo 1 – Escolhe-se um número de classes k. É importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüência nula ou muito pequena, apresentando uma distribuição irregular e prejudicial à interpretação do fenômeno.
59
Para determinar o número de classes há diversos métodos. Veremos dois deles:
(1) k = 5, para n 25 e k = √n , para n > 25.
(2) Fórmula de Sturges: k = 1 + 3,3 log n, onde n é o tamanho da amostra. Ex: Se n = 49 teríamos: k = 7 k = 1 + 3,3 log 49 = 6,58 7
nk nk nk
60
Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em mente é que a escolha dependerá, sobretudo da natureza dos dados e da unidade de medida em que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco flexíveis. Para facilitar a análise é conveniente que se mantenham os intervalos de classe sempre constantes.
Passo 2 – Calcula-se a amplitude total A dos dados: A = MVO – mvo onde MVO: maior valor observado e mvo: menor valor observado;
61
Passo 3 – Calcula-se a amplitude de classe c, através de: fazendo o arredondamento igual ao número de casas decimais dos dados.
k
ΔxAc
k
ΔxAc
Passo 4 – O limite inferior LI1 da 1ª classe é obtido por: LI1 = mvo - x/2
62
Passo 5 - O limite superior LS1 da 1ª classe é
obtido por: LS1 = LI1 + c, sendo que LS1 = LI2 e
assim, sucessivamente – soma-se ao valor do limite inferior da primeira classe a amplitude de classe e obtém-se o limite superior, sendo o limite superior da primeira classe o inferior da segunda;
Passo 6 – Construídas as classes, são contados quantos dados estão em cada classe (freqüências absolutas de cada classe);
63
Obs: a freqüência absoluta (fa) é o número de repetições de um valor individual ou de uma classe de valores da variável.Passo 7 - São calculadas as freqüências relativas e percentuais de cada classe.Obs: a freqüência relativa (fr) representa a proporção de observações de um valor individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo.Obs: a freqüência percentual (fp) é o produto da freqüência relativa por 100, tendo como resultado uma porcentagem 64