Upload
evelyn-leao
View
73
Download
0
Embed Size (px)
Citation preview
APOSTILA DE ESTATÍSTICA
PROF. VITOR JOAO D’AMATO
SUMÁRIO
1- Definições Básicas Pág. 3
1.1 Estatística: Pág. 3
1.2 População, Amostra e Censo: Pág. 3
1.3 Estatística Descritiva e Estatística Indutiva Pág. 4
1.4 Tipos de Variáveis Pág. 5
2. A Metodologia da Pesquisa Estatística Pág. 7
2.1. Introdução Pág. 7
2.2. Metodologia da Pesquisa Pág. 8
2.3. Apuração dos Dados e Apresentação dos Resultados. Pag13
2.4. Análise, Interpretação dos Resultados. Pág. 13
2.5. Conclusão ou Comentários Finais Pág. 14
2.6 Bibliografia Pág. 14
3. Técnicas Amostrais Pág. 15
3.1 Amostras Probabilísticas Pág. 15
3.2 Amostragem Aleatória Estratificada Pág. 17
3.3 Amostras Não-Probabilísticas Pág. 19
3.4 Dimensionamento da Amostra Pág. 204 . Índices, Coeficientes E Taxas Pág. 22
5 Representações Gráficas Pág. 23
5.1 Histogramas Pág. 235.2 Gráfico De Barras Simples Pág. 255.3 Gráfico De Setores Pág. 26
5.4 Gráfico De Linha Pág. 27
5.5 Gráfico De Colunas Ou Barras Múltiplas Pág. 28
5.6 Gráfico De Linhas Múltiplas Pág. 29
6. Distribuição De Frequencias - Estatística Descritiva Pág. 307. Medidas de Posição ou Medidas de Tendência Central Pág. 36
7.1 Média Pág. 36
7.2 Moda Pág. 38
7.3 Mediana Pág. 39
8. Medidas de Dispersão Pág. 42
8.1 Desvio Médio Pág. 42
8.2 Variância Pág. 43
8.3 Desvio Padrão Pág. 44
8.4 Amplitude Total, Pág. 45
9. Distribuição de Freqüência –Variável Contínua Pág. 47
10. Medidas de Tendência Central para Variável Contínua
10.1 Média de uma Distribuição de Freqüência, Pág. 49
10.2 Moda de Uma Distribuição de Freqüência, Pág. 50
1
10.3 Mediana de uma Distribuição de Freqüência, Md Pág. 51
10.4 Separatrizes: Quartís, Decís E Percentís Pág. 53
11. Medidas de Dispersão para Variáveis Contínuas
11.1 Cálculo do Dms Para Variável Contínua. Pág. 54
11.2 Variância Pág. 55
11.3 Desvio Padrão Pág. 55
12. Probabilidades
12.1 - Noções de Probabilidade, Tipos de eventos, Aplicações Pág. 56
12.2 - Teorema do Produto Pág. 58
12.3 - Teorema da Soma Pág. 59
12.4 - Eventos com e sem reposição Pág. 60
12.5 União intersecção de 2 e 3 conjuntos . Aplicações Pág. 61
2
DISCIPLINA: ESTATÍSTICA
1- DEFINIÇÕES BÁSICAS
Para podermos estudar a Estatística é de fundamental importância conhecer
algumas definições, bem como, a aplicação de termos técnicos ou nomenclatura específica.
Seguem abaixo as definições básicas
1.1 Estatística:
Na Idade Média colhiam-se informações, em geral com objetivos tributários ou
bélicos. A partir do século XVI começaram a surgir às primeiras análises de fatos sociais,
como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os
primeiros números relativos. No século XVIII o estudo destes fatos foi adquirindo feição
verdadeiramente científica. O alemão Godofredo Achenwall batizou a nova ciência (ou
método) como Estatística, determinando o seu objetivo e suas relações com as ciências.
Vários autores têm procurado conceituar a Estatística, existem muitos livros contendo
conceitos dos mais simples até os mais complexos, citando dois destes conceitos:
“Estatística é uma coleção de método para planejar experimentos, obter
dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair
conclusões” (Triola, 1999, p. 2).
“Estatística é uma parte da Matemática Aplicada que fornece métodos para
coleta, organização, descrição, análise e interpretação de dados e para a utilização
dos mesmos na tomada de decisões”. (Arnot, 1997, p.13).
Atualmente, os estudos estatísticos têm avançado rapidamente e, com seus
processos e técnicas, têm contribuído para a organização dos negócios e recursos do
mundo moderno. Assim, podemos dizer que a Estatística está interessada nos métodos
científicos para coleta, organização, resumo, apresentação e análise de dados, bem como
na obtenção de conclusões válidas para a tomada de decisões baseadas em tais análises.
1.2. População, Amostra e Censo:
Quando formos estudar um fenômeno poderemos coletar dados de várias formas.
Ressaltamos que todo objeto de estudo denomina-se fenômeno (o significado da palavra
fenômeno em estatística não é o de algo incomum ou raro como normalmente utilizado, mas
sim, para definir o que esta sendo estudado).
3
Ao coletar os dados referentes às características de um grupo de objetos ou
indivíduos, como altura e peso de funcionários ou números de peças defeituosas produzidos
em uma empresa, muitas vezes é impossível ou impraticável observar todo o grupo,
especialmente se for muito grande. Em vez de examinar todo o grupo, denominado
População ou universo, examina-se uma pequena parte chamada Amostra. Uma Amostra
é, portanto, um subconjunto finito de uma população que mantém suas características
(totais ou parciais). Cada subconjunto da população é denominado de Amostra.
Exemplo Fenômeno coletivo: Eleição para governador do Estado de SP.
População: Conjunto de todos os eleitores do estado.
Parâmetro: Proporção de votos destinados pela população ao candidato A
Amostra: Grupo de 1580 eleitores escolhidos no Estado
Estimador: Proporção de votos destinados ao candidato A na amostra
Censo: Quando ao efetuarmos o estudo de determinado fenômeno todos os
elementos da população participam na coleta de dados.
Vantagens: Admite erro zero; Confiabilidade 100%
Desvantagens: É caro; É lento; É quase sempre desatualizado; Nem sempre é
viável.
Estimação por amostragem:
É uma avaliação indireta de um parâmetro, com base em um estimador, utilizando-se
de uma amostra.
Vantagens: É bem mais barata; É rápida; É atualizada; Sempre é viável.
Desvantagens: Admite erro processual positivo; Tem confiabilidade menor que 100%
As tabelas tornaram-se mais completas, surgiram às representações gráficas e o
cálculo das probabilidades, e a Estatística deixou de ser catalogação de dados numéricos
coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população),
partindo da observação de partes desse todo (amostra).
1.3. Estatística Descritiva e Estatística Indutiva
Estatística Descritiva ou Dedutiva é aquela que tem por objeto descrever e
analisar determinado grupo, sem pretender tirar conclusões de caráter mais genérico, não
estende seus resultados a outros grupos externos daquele que foram coletados os dados.
Estatística Indutiva ou Inferência Estatística: baseado em resultados obtidos da
análise de determinado grupo / amostra, pode inferir, estender as leis do comportamento da
população da qual a amostra foi retirada. É necessário garantir que a amostra deve ser
representativa da população (universo).
4
O objetivo da Estatística Indutiva é de obter conclusões sobre populações baseado
nos resultados observados em amostras. A palavra indutiva é um processo de raciocínio em
que, partindo do conhecimento de uma parte, procura-se tirar conclusões sobre a realidade
do todo. Ao induzir, portanto, estamos sempre sujeitos a erros. Com responsabilidade e bom
senso, devemos aguçar nossa capacidade de reconhecer dados estatísticos distorcidos. Na
Estatística indutiva, podemos determinar o erro de nossas induções, e qual a probabilidade
de se confiar nas conclusões obtidas. Esse fato é fundamental para uma indução ser
considerada estatística, dizendo também qual precisão de resultados e qual probabilidade; e
a forma como a indução é realizada dependerá de cada problema.
1.4 Tipos de Variáveis
Na execução de análise de dados, várias características de interesse são analisadas
tais como estado civil, sexo, escolaridade, vendas, participação de mercado, número de
filhos, salários, idade, produção de um bem; reajustes mensais, etc. A essas características
chamamos de VARIÁVEIS. Podemos atribuir uma letra, como A, B, C etc. para representar
uma variável, por ex.
Variável Representação Variável
Representação
Estado civil A Salário
D
Escolaridade B Idade
E
Região de residência C Peso F .
Observando estes dados termos seis variáveis.
Variáveis Qualitativas: quando apresentam como possíveis realizações uma
qualidade ou atributo. Ex.: sexo (masculino, feminino), estado civil (solteiro, casado, viúvo,
divorciado), escolaridade (1o grau, 2ograu, superior). Dentre as variáveis qualitativas, ainda
podemos fazer uma distinção entre dois tipos:
Variável qualitativa nominal, para a qual não existe nenhuma ordenação nas
possíveis realizações são elas : sexo:( masculino,feminino:não existe nenhuma ordenação),
região de residência ( cidade, bairro , etc.)
Variável qualitativa ordinal, para a qual existe uma ordem nos seus resultados.
Escolaridade é uma variável ordinal (fundamental 1º grau, 2ograu, superior ou 3º grau).
5
Variáveis Quantitativas: quando apresentam como possíveis realizações números
resultantes de uma contagem ou mensuração Ex. estatura, peso, salário, nº. de filhos.
Variável quantitativa contínua: Quando os valores dos dados ordenados podem
assumir qualquer valor num determinado intervalo. Corresponde a organização dos dados
em uma série estatística, os possíveis resultados são provenientes de uma medição, para
os quais qualquer valor dentro de um intervalo contínuo é possível, normalmente números
inteiros e/ou números decimais: Ex.: peso, idade, nota de alunos, lucro , etc.)
Variável quantitativa discreta: Quando existe uma “distancia” entre os valores dos
dados ordenados. Corresponde a organização dos dados em uma série estatística, os
possíveis valores são provenientes de uma contagem, são somente valores fixos,
normalmente números inteiros: número de filhos, número de empregados, notas de R$50
circulando no país, número de alunos aprovados de numa disciplina, etc.
Resumidamente podemos esquematizar:
Nominal
Qualitativa
Variável Ordinal
Contínua
Quantitativa
Discreta
Notas:
1ª) Em algumas situações podemos atribuir valores numéricos a varias qualidades ou
atributos (ou, ainda, classes) de uma variável qualitativa e depois proceder à análise
como se esta fosse quantitativa, desde que seja passível de interpretação.
2ª) As variáveis discretas quando agrupadas em classes de freqüências, tornam-se
variáveis contínuas.
Toda pesquisa estatística deve seguir uma cronologia, esta ordem é chamada de
Metodologia da Pesquisa Estatística assunto do próximo capítulo.
6
2. A METODOLOGIA DA PESQUISA ESTATÍSTICA
Quando se pretende empreender um estudo estatístico completo, existem fases do
trabalho que devem ser desenvolvidas para chegarmos aos resultados finais do estudo.
Essas etapas são chamadas fases do trabalho estatístico e são de âmbito da Estatística
Descritiva. Para elaborar e desenvolver um projeto de pesquisa e/ou dissertação de
mestrado e/ou tese de doutorado. Estas fases de uma pesquisa estatística denominam-se
de Metodologia da Pesquisa. Resumidamente temos os seguintes estágios ou capítulos:
1- Introdução
Objetivos
Justificativa
2- Planejamento ou Metodologia de Coleta de dados
3- Contagem, apuração e Representação dos dados.
4- Análise e Interpretação dos resultados
5- Conclusão ou comentários finais
6- Bibliografia (quando em trabalhos acadêmicos)
2.1- Introdução
Parte de um aspecto geral, descrevendo o universo do tema até chegarmos ao ponto
particular objeto da pesquisa. Esta parte é extremamente importante e consiste em definir
com exatidão o(s) objetivo(s):
OBJETIVO: é O QUE será pesquisado. Tudo deve ser convenientemente definido
antes de iniciar a coleta de dados da pesquisa. Normalmente expressamos o objetivo como
uma pergunta – denominado de problema de pesquisa, por exemplo:
Objetivo: Verificar qual o perfil dos alunos do curso?
Neste caso poderemos coletar dados para esclarecer os seguintes campos:
- dados pessoais: grau de instrução, religião, nacionalidade, salário, peso, altura,
idade, etc.
- dados sobre vizinhança: circunstâncias em que vivem os indivíduos pesquisados,
relações familiares, habitat, etc.
- dados comportamentais: como se comportam os elementos de uma população,
segundo determinadas circunstâncias. Ex.: comportamento dos alunos de uma classe
quando mudam frequentemente de sala ou de professores.
7
- níveis de informação: opiniões, expectativas dos membros de uma população, ou
seja, suas aspirações em relação a determinado assunto.
Justificativa: é o PORQUÊ da pesquisa
Descreve qual a importância da pesquisa. É importante definir o porque de
estudarmos determinado evento, quais são os itens importantes conhecermos para
desvendar incógnitas e colaborar para a tomada de decisão.
2.2. Metodologia da pesquisa: é o COMO será efetuada a
Coletas de dados:
Com os objetivos claramente definidos, deve ser estabelecida a estratégia que
possibilitará a obtenção dos resultados, que deverá seguir o seguinte lema: “Máximo de
Informes com o Mínimo de Custo e Tempo”. Aqui, a preocupação é com a forma pela qual
os dados serão coletados, se através da observação direta, de entrevista ou de auto-
entrevista, em que áreas serão realizados as pesquisas, quando e quantos dados serão
coletados, qual a precisão exigida, qual tipo de amostragem, qual amplitude (tamanho), qual
tempo disponível e qual custo previsto e também qual o embasamento teórico utilizado.
Algumas formas de se coletarem os dados estão descritas abaixo:
A entrevista é o método mais eficiente, porém caro. Isto porque entrevista pessoal é
feita com cada um dos componentes, da amostra ou da população, a fim de termos absoluta
certeza da opinião do indivíduo acerca de determinado fato.
A observação direta consiste em fazer uma observação do fato através de uma
pessoa ou com auxílio de câmara de TV /vídeo Ex.: ao mudar a embalagem de um produto,
o marketing da empresa quer conhecer a reação dos consumidores devido a modificação.
A auto-entrevista permite que se faça pesquisa com um grande número de
elementos, a um custo relativamente baixo, principalmente quando sua distribuição é feita
pelo correio ou pela mala-direta ou e-mail. Neste caso, o número de questionários a serem
enviados deve ser bem maior do que o necessário, uma vez que, muitos não os devolvem
(média de 15% de retorno).
Questionário: na entrevista e na auto-entrevista, o acessório principal é o
questionário, parte muito importante da pesquisa, pois se for mal formulado, todo o tempo e
custo da pesquisa resultarão em dados inaproveitados. Em alguns casos, durante a
entrevista, utiliza-se apenas um roteiro de entrevista, que também deverá ser feito
obedecendo mesmos critérios de um questionário. Realmente é uma tarefa difícil fazer um
8
bom questionário. Por isso, deve-se contar com a colaboração de pessoas que ajudem na
sua confecção: sociólogos, psicólogos, economistas, administradores, professores etc. Um
bom questionário deve ser: completo, concreto, secreto e discreto.
- Completo no sentido de conter todas as informações que pretendemos obter;
- Concreto no sentido das perguntas serem formuladas de forma clara e objetiva;
- Secreto no sentido de não conter a identificação, para não tolher a liberdade do
entrevistado;
- Discreto no sentido de não conter perguntas que possam ferir a suscetibilidade do
pesquisado.
Tendo em mente estas condições, podemos pensar na estrutura do questionário e
nos tipos de questões que deverá conter: será uma questão aberta ou fechada, será uma
questão por que, ou uma questão intensidade?
PERGUNTAS FECHADAS
Nas perguntas fechadas são fornecidas as possíveis respostas ao entrevistado,
sendo que apenas uma alternativa de resposta é possível.
Exemplo:
Em que bairro o Sr.(a) mora?
( ) Higienópolis ( ) Pacaembu ( ) Pinheiros
( ) Sumaré ( ) Mooca ( ) ________
PERGUNTAS ABERTAS
Nesse tipo de pergunta o entrevistado responde livremente o que pensa sobre o assunto.
Exemplo: Qual a sua opinião sobre o bairro onde mora?
PERGUNTA SEMI-ABERTA
A pergunta semi-aberta é a junção de uma pergunta fechada a uma aberta em que, num
primeiro momento, o entrevistado responde a uma das opções de alternativas e depois
justifica ou explica a sua resposta.
Exemplo:
Em que bairro o sr.(a) mora?
( ) Higienópolis ( ) Pacaembu ( ) Pinheiros
( ) Sumaré ( ) Mooca ( ) ________
Por quê? __________________________________________________________
PERGUNTA DICOTÔMICA
É a pergunta que tem como respostas Sim e Não.
Exemplo:
O Sr.(a) mora em casa própria?
( ) Sim ( ) Não9
PERGUNTAS ENCADEADAS
A segunda pergunta depende da resposta da primeira.
Exemplo:
O Senhor (a) mora em casa própria financiada?
( ) Sim ( ) Não
Caso a resposta seja afirmativa. Qual a entidade financiadora?
( ) BNH ( ) CEF ( ) Construtora ( ) Outros
( ) Banco particular ( ) Banco estatal
PERGUNTA COM MATRIZ DE RESPOSTA
Nesse caso, monta-se um quadro para facilitar a resposta do entrevistado.
Exemplo:
Bairro MOROU Mora Pretende Morar
Higienópolis
Perdizes
Mooca
Pinheiros
Bela Vista
Tatuapé
PERGUNTAS COM ORDEM DE PREFERÊNCIA
É dada ao entrevistado a possibilidade de escolha do 1º, 2º e 3º lugares:
Exemplo:
Caso o Sr.(a) fosse mudar de casa, qual bairro escolheria em 1º, 2º e 3º lugares?
( ) Higienópolis ( ) Mooca ( ) Bela Vista
( ) Perdizes ( ) Pinheiros ( ) Tatuapé
ESCALA ORDINAL DE PREFERÊNCIA
Exemplo: Por favor, indique a sua preferência por companhias aéreas, numerando de 1º a
5º , sendo 1º para a de maior preferência e 5º para a de menor preferência. (mostrar
cartão).
1º .____________
2º .____________ Modelo do
3º .____________ cartão
4º .____________
5º .____________
10
ESCALA ORDINAL DE RANKING
Exemplo: Por favor, coloquem em ordem de preferência as empresas listadas no cartão
(entregar cartão C para o entrevistado), de acordo com as características que estão sendo
avaliadas – sendo 1 para a melhor empresa no atributo e até 4 para a pior empresa. Vamos
começar com superior tecnologia. Que empresa você colocaria em 1º, em 2º, em 3º, em 4º?
tecnologia Cumpre prazos pós-venda
Empresa A __________ _______________ __________
Empresa B __________ _______________ __________
Empresa C __________ _______________ __________
Empresa D __________ _______________ __________
ESCALA DE LEMBRANÇA DE MARCA
Exemplo: “Quando eu menciono indústria farmacêutica, qual nome lhe vem primeiro
à cabeça?” ______________ primeira empresa mencionada.
Lembra outras? _______________ segunda empresa mencionada
_______________ terceira empresa mencionada
Já ouviu falar da Empresa “XW”?
( ) sim ( ) não
ESCALA DE DIFERENCIAL SEMÂNTICO (OSGOOD)
Exemplo: Com relação ao Iogurte marca “P” com polpa de frutas, qual a sua opinião sobre
os seguintes atributos?
Puro 7 6 5 4 3 2 1 Impuro
Saboroso 7 6 5 4 3 2 1 Sem sabor
Natural 7 6 5 4 3 2 1 Artificial
Alta qualidade 7 6 5 4 3 2 1 Baixa Qualidade
Embalagem higiênica 7 6 5 4 3 2 1 Embalagem não-higiênica
ESCALA DE LIKERT
O respondente indica o grau de concordância ou discordância de acordo com as variáveis e
atitudes relacionadas ao objeto:
CT CP NA DP DT
Os tênis importados são melhores que os nacionais 5 4 3 2 1
XZ é uma marca nacional 5 4 3 2 1
As melhores marcas de tênis patrocinam times de futebol 5 4 3 2 1
XZ é um tênis para pessoas jovens e ativas 5 4 3 2 1
CT= concordo totalmente DP= discordo parcialmente
CP= concordo parcialmente DT= discordo totalmente NA= não concordo nem discordo
11
ESCALA ITEMIZADA
Exemplo: “Com relação ao grau de satisfação com seu atual plano de saúde, você afirmaria
que está”:
( ) totalmente satisfeito
( ) parcialmente satisfeito
( ) parcialmente insatisfeito
( ) totalmente insatisfeito
ESCALA DE INTENÇÃO DE COMPRA
Exemplo: Qual a chance de você adquirir a marca “Y” na próxima compra desse tipo de
produto?
( ) certamente comprarei
( ) possivelmente comprarei
( ) não sei se comprarei
( ) possivelmente não comprarei
( ) certamente não comprarei
Alguns cuidados ao elaborar um questionário:
Instruções e definições completas. Tanto entrevistador como entrevistado não
devem ter qualquer dúvida a respeito das informações desejadas e dos termos ou unidades
que devem ser usados na pesquisa. Portanto, antes de sair a campo, o entrevistador deve
conhecer os detalhes e o objetivo da pesquisa.
Evitar perguntas constrangedoras, pois podem ferir a suscetibilidade das pessoas
entrevistadas, podendo dar informações que não correspondem à veracidade dos fatos.
Perguntas de dados pessoais, como renda, costumes, vícios, opções sexuais, etc. devem
ser feitas com muito tato; as respostas podem ser obtidas de forma indireta.
A clareza é essencial. As perguntas devem ser expressas de maneiras simples
clara e direta, pois uma pergunta mal formulada pode conduzir a resultados inúteis.
Perguntas objetivas e facilitando a contagem ao planejar as questões, devemos
formulá-las para que o entrevistado entenda realmente aquilo que desejamos que ele
responda, evitando termos técnicos ou siglas que não são do conhecimento geral.
Planejamento da ordem das perguntas e do tamanho do questionário. A
colocação das perguntas no questionário não deve ser feita de qualquer maneira, mas sim,
deve obedecer a uma ordenação, ou seja, das perguntas mais simples e genéricas até as 12
perguntas mais pessoais, seguindo uma seqüência lógica e aumentando paulatinamente o
seu grau de profundidade, deve–se ter em mente não fazer um questionário muito longo,
além de cansativo, as últimas perguntas poderão ser respondidas sem as devidas reflexões.
Nota: Uma vez elaborado o questionário e antes de ser utilizado na pesquisa, devemos fazer
o que se denomina pré-teste ou pesquisa-piloto com pessoas que entendam do assunto a ser
pesquisado, que emitirão sua opinião e críticas em relação ao perfeito entendimento das perguntas,
isto corresponde à validação do questionário. Feito isso, o questionário estará validado para ser
distribuído para os entrevistados.
2.3. Apuração dos Dados e Apresentação dos resultados.
A coleta dos dados pode ser realizada de duas maneiras: direta ou indiretamente. A
coleta é direta quando é obtida diretamente da fonte. Há três tipos de coleta direta. A coleta
dos dados é indireta quando é inferida a partir dos elementos conseguidos pela coleta
direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam
relacionados com o fenômeno em questão.
a) direta contínua, ocasional, periódica
b) indireta
Apuração dos Dados
A apuração ou sumarização consiste em resumir os dados coletados através de sua
contagem e agrupamento, ou seja, é um trabalho de condensação e de tabulação dos
dados, que chegam de forma desorganizada, tornando impossível à tarefa de apreender
todo o seu significado pela simples leitura.
Exposição ou apresentação dos dados
Há duas formas de apresentação dos dados apurados: em tabelas e ou gráficos.
2.4. Análise, interpretação dos resultados.
A análise dos resultados consiste em comentar exclusivamente os resultados
numéricos obtidos descrevendo e interpretando os tópicos relevantes e está ligada
essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. O
significado exato de cada um dos valores obtidos do cálculo das várias medidas estatísticas
disponíveis deve ser bem interpretado.
13
Alguns autores consideram que estas análises devem estar no mesmo capítulo da
apresentação dos resultados, logo após cada gráfico e/ou tabela. Você deve decidir qual a
sua opinião e fazer sua opção.
2.5. Conclusão ou comentários finais
O interesse maior reside em tirar conclusões que auxiliem o pesquisador a resolver o
problema de pesquisa, ou seja, verificar se os Objetivos da pesquisa foram alcançados.
Deve embasar-se exclusivamente a dados apresentados no corpo/conteúdo do trabalho,
sem “ächismos” do tipo – O grupo achou que... ou também, emitir opiniões, deduções e
conclusões sobre dados que não aparecem no trabalho e não foram pesquisados.
Finalizando, estabelecer se a pesquisa foi elaborada com estatística inferencial, ou
seja, tirar conclusões sobre o todo (população), a partir de informações fornecidas pelos
dados coletados nas amostras, ou estatística descritiva, os resultados são válidos
exclusivamente para descrever a população (ou amostra) de onde coletamos os dados.
Além de efetuar a análise dos resultados obtidos, tirando conclusões e previsões
para ações futuras podem-se propor novas pesquisas para aprofundar o assunto
pesquisado em alguns pontos que não foram objeto no estudo desenvolvido.
2.6. Bibliografia
Elencar todos os meios consultados para a elaboração da pesquisa, livros, apostilas,
artigos e revistas acadêmicas ou de circulação, jornais e consultas eletrônicas (sites, e-mail)
A forma de descrever os meios consultados deve obedecer a Norma Brasileira da
ABNT ( Associação Brasileira de Normas Técnicas ) e , só deverão constar da bibliografia os
elementos realmente utilizados e que existam comprovação no corpo do trabalho.
14
3. TÉCNICAS AMOSTRAIS
Na teoria da amostragem, são consideradas duas dimensões:
Técnicas amostrais (Métodos de amostragem).
Dimensionamento da amostra.
As técnicas amostrais se subdividem em dois grupos: Probabilísticas e Não-
probabilísticas
3.1 AMOSTRAS PROBABILÍSTICAS
Para se obter uma amostra probabilística, utilizam-se os conceitos da estatística,
pois, nesse tipo de amostra, todos os elementos da população têm igual probabilidade, e
diferente de zero, de serem selecionados para compor a amostra. Existem seis
procedimentos básicos para a obtenção de amostras Probabilísticas: simples, estratificada,
sistemática, por grupos, conglomerado e amostragem em múltiplas etapas. Vamos detalhar
os dois tipos mais utilizados A Amostra Aleatória Simples e Estratificada.
AMOSTRAGEM ALEATÓRIA SIMPLES
Este método permite que todos os elementos da população têm igual probabilidade
de compor a amostra, e a seleção de um particular indivíduo ou objeto, não afeta a
probabilidade de qualquer outro ser escolhido.Uma amostra em que a probabilidade de
escolher qualquer dos N elementos em uma única prova é igual a 1/N é uma amostra
aleatória. Significa que os elementos têm a mesma chance de serem incluídos na amostra.
- Se a população é infinita, como por exemplo, chamadas telefônicas, produção futura de
certa máquina, etc; podemos considerá-los um processo probabilístico, compondo as
amostras aleatórias na ordem que ocorrem.
- Se a população é finita, tal como os livros da biblioteca a escolha aleatória envolve a
compilação de uma lista de todos os elementos da população, e a realização de sorteios
equivalente a um sorteio lotérico, para escolher os itens que irão compor a amostra.
Na prática, a amostragem pode ser realizada numerando-se a população de 1 a n e
sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa
seqüência, os quais serão os elementos da amostra. Exemplo: Vamos obter uma amostra
representativa para a pesquisa da estatura de noventa alunos de uma escola.
1º numeramos os alunos de 01 a 90.
2º escrevemos os números de 01 a 90, em cartões, colocando-os dentro de uma caixa e
sorteamos nove números que formarão a amostra. No caso, 10% da população.
15
Quando o número de elementos da amostra é grande, o sorteio torna-se trabalhoso.
Para facilitá-lo, existe a Tabela dos números aleatórios, construída de modo que os dez
algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas. Para obter os elementos
da amostra usando a tabela, sorteiam-se um algarismo da mesma, a partir do qual iremos
considerar números de dois, três ou mais algarismos, conforme nossa necessidade. Os
números obtidos indicarão os elementos da amostra.
A leitura da tabela pode ser feita horizontalmente (da direita para a esquerda ou vice-
versa), verticalmente (de cima para baixo ou vice-versa), diagonalmente (no sentido
ascendente ou descendente) ou formando o desenho de uma letra qualquer. A opção deve
ser feita antes de iniciar o processo
TABELA DE NÚMEROS ALEATÓRIOS
5 7 7 2 0 0 3 9 8 4 8 4 4 1 7 9 6 7 7 1 4 0 2 1 1 3 9 7 5 6 4 9 8 6 5 4 0 8 9 3 2 9 6 8 7 4 5 4 8 3
2 8 8 0 5 3 5 1 5 9 0 9 9 3 9 8 8 7 5 8 7 0 2 7 7 1 7 7 1 7 0 6 3 2 0 2 7 8 6 2 1 6 7 4 6 9 6 5 1 7
9 2 5 9 1 8 5 2 8 7 3 0 4 8 8 6 9 7 4 8 3 5 2 5 1 8 8 8 7 4 0 3 6 2 9 8 3 8 5 8 6 5 8 6 4 2 4 1 0 3
9 0 3 8 1 2 9 1 7 4 3 0 1 9 7 5 8 9 0 7 5 0 6 4 1 5 5 9 7 1 8 8 1 3 7 4 9 5 3 0 5 2 7 8 3 0 1 1 7 5
8 0 9 1 1 6 9 4 6 7 5 8 6 0 8 2 0 6 6 6 9 0 4 7 5 6 1 8 4 6 4 5 1 1 1 2 3 5 3 2 4 5 5 0 4 1 1 3 4 3
2 2 0 1 7 0 3 1 3 2 9 6 9 1 9 2 7 5 4 0 1 6 5 4 2 9 7 2 7 4 9 9 0 0 9 5 9 7 6 1 0 0 9 8 2 4 3 0 0 7
5 6 2 4 1 0 0 4 3 0 2 0 4 6 2 9 9 0 5 3 5 3 1 1 0 5 8 4 4 1 2 1 6 4 7 9 1 9 7 6 2 9 5 1 6 2 6 0 6 6
7 9 4 4 9 2 6 2 0 2 9 6 8 6 6 4 3 0 0 0 9 4 5 6 6 9 3 0 2 0 5 9 8 7 8 7 3 5 4 4 2 2 5 0 9 7 7 8 1 9
5 3 9 9 6 6 4 5 0 8 8 9 7 8 5 0 7 7 5 3 3 7 2 5 7 7 4 1 2 7 6 2 3 8 0 2 2 3 5 7 6 2 0 1 4 1 6 0 3 5
1 8 9 2 8 7 3 5 8 8 5 5 0 5 2 1 3 6 5 1 3 9 2 8 5 0 1 4 6 6 8 5 7 9 3 0 1 9 7 9 7 2 6 6 6 4 3 1 4 5
5 3 0 8 5 8 9 6 6 3 0 5 6 1 2 5 7 0 2 2 5 0 4 1 2 8 9 6 6 2 6 6 4 3 6 3 0 6 6 3 0 1 3 2 7 9 8 5 2 2
0 3 5 8 8 0 2 9 2 8 7 6 8 9 5 1 1 8 2 4 8 8 8 9 4 6 4 7 4 8 5 9 1 9 2 9 8 7 0 3 1 0 3 3 9 9 6 7 1 2
2 7 0 7 8 1 8 8 6 5 6 9 4 9 9 8 0 0 2 8 0 4 7 0 5 1 3 0 0 1 4 7 1 8 9 7 3 3 2 1 8 5 8 2 4 5 4 3 2 4
0 5 2 1 0 8 5 9 0 1 0 6 2 2 2 4 9 8 9 1 8 1 1 7 5 5 4 4 6 6 1 6 0 7 7 3 0 7 6 6 1 0 1 2 3 1 7 8 5 8
4 0 3 6 1 3 2 7 8 4 3 0 8 2 3 3 3 6 3 9 6 9 4 2 0 5 5 8 6 4 6 1 1 2 3 3 8 9 2 7 8 9 5 2 6 6 7 1 9 3
5 4 6 0 2 5 2 8 8 5 8 8 2 0 0 0 1 0 5 9 6 1 0 5 3 6 6 1 3 3 7 2 0 1 0 1 1 9 0 1 6 1 1 0 5 1 2 0 9 1
7 1 5 1 6 3 4 0 7 6 7 1 1 1 7 3 7 3 5 2 3 7 3 1 6 0 4 5 8 8 9 2 7 3 4 3 7 1 2 8 0 4 9 8 0 9 0 2 4 8
6 1 0 2 0 1 8 1 7 3 9 2 6 0 6 6 7 3 5 8 5 3 3 4 4 2 6 8 2 6 3 8 3 4 0 3 2 7 4 4 9 6 0 4 4 6 6 5 9 3
8 2 5 5 9 3 1 3 4 6 3 0 9 5 2 6 5 5 0 6 9 6 1 7 6 5 9 1 7 2 3 9 7 9 9 6 1 2 4 9 5 2 8 0 6 3 2 6 9 9
8 9 9 8 5 4 1 4 2 1 7 4 1 3 5 7 6 8 1 9 8 6 2 8 6 0 8 9 4 7 3 3 1 5 2 6 2 8 7 7 4 5 3 8 4 8 0 8 0 8
0 0 9 9 8 4 8 4 1 4 6 7 9 5 1 3 7 7 5 8 9 0 1 4 5 0 7 9 4 2 7 3 6 3 3 1 0 6 6 0 4 3 4 0 1 2 5 5 0 4
6 2 4 1 5 0 7 8 2 0 4 8 0 5 8 8 4 3 5 2 9 8 0 3 1 9 9 3 9 2 0 3 0 4 9 7 2 5 8 4 9 5 9 5 0 3 6 3 3 1
9 4 2 7 9 0 6 9 2 4 6 8 0 9 9 2 1 1 8 6 0 7 6 3 8 3 1 9 3 2 9 9 5 1 1 5 5 5 7 1 0 9 2 7 0 2 6 7 0 0
Assim, para o exemplo, considerando a 18º linha, tomamos os números de dois
algarismos (tantos algarismos quantos formam o maior número da população), obtendo:
61 02 01 81 73 92 60 66 73 58 53 34
16
Evidentemente, o número 92 será desprezado, pois não consta da população, como
também, será abandonado um número que já tenha aparecido. Temos então:
61 02 01 81 73 60 66 58 53
Medindo as alturas dos alunos correspondentes aos números sorteados, obteremos
uma amostra das estaturas dos noventa alunos.
3.2 AMOSTRAGEM ALEATÓRIA ESTRATIFICADA
Este método é muito similar ao da amostragem aleatória simples, mas é utilizado
quando se pensa que a população possui grupos distintos que podem possuir diferentes
visões sobre os assuntos de interesse. Por exemplo: Os proprietários de carros e
ciclistas/pedestre teriam visões diferentes sobre o lançamento de medidas de controle de
carros no centro de uma cidade. Para superar o perigo de uma amostra acidentalmente não
ser representativa, a amostra pode ser estratificada de acordo com esses grupos, para que
possua aproximadamente as mesmas proporções da população. Se existir 80% de
proprietários de carros e 20% de ciclistas/pedestres na população, então a razão é 4: 1 deve
ser refletida na amostra. Para cada grupo, os membros são selecionados aleatoriamente
(como na amostragem aleatória simples). O processo de escolha (sorteio) deve ser para 4
proprietários de carro e 01 ciclistas/pedestres.
Exemplo 1: Supondo, no exemplo anterior, que dos noventa alunos, 54 sejam homens e 36
sejam mulheres, vamos obter a amostra proporcional estratificada. São, portanto dois estratos (sexo
masculino e sexo feminino) e queremos uma amostra de 10 elementos da população.
sexo total da % amostra
alunos população n = 10
Masc. 54 60% 6
Fem. 36 40% 4
TOTAL 90 100% 10
Determinamos uma amostra com 10 alunos
% = CADA PARCELA x 100%
NÚMERO TOTAL
% Masc = 54 x 100% = 60% e a amostra será 60% de 10 alunos = 6
90
% Fem = 36 x 100% = 40% e a amostra será 40% de 10 alunas = 4
90
Utilizando a tabela de números aleatórios: Numeramos os alunos de 01 a 90, sendo
que de 01 a 54 correspondem os homens e de 55 a 90, mulheres. Tomando na Tabela de
17
números aleatórios a 1ª e 2ª coluna da esquerda, de cima para baixo, obtemos os seguintes
números:
57 28 92 90 80 22 56 79 53 18 53 03 27 05 40
Então temos: 28 22 53 18 03 para os homens; 57 90 80 56 para as mulheres.
Exemplo 2. Em uma indústria existem 250 funcionários, sendo 35 trabalham no
Setor A, 32 no Setor B, 30 no Setor C, 28 no Setor D, 35 no Setor E, 32 no Setor F, 31 no
Setor G e 27 no Setor H. Obtenha uma amostra de 40 funcionários utilizando a amostragem
proporcional.
Solução: Como neste caso foi dado o número de elementos da amostra, devemos
então calcular o número de elementos de cada estrato proporcionalmente ao número de
elementos da amostra, usando Regra de três.
A 35 A =
40 250
usando % = cada parcela ( setor) x 100% = 35 x 100% = 14% 14% x 40 = 5,6 = 6
Total 250
Setores População Proporção Amostra
% N= 40
A 35 14,0% 6
B 32 12,8% 5
C 30 12,0% 5
D 28 11,2% 4
E 35 14,0% 6
F 32 12,8% 5
G 31 12,4% 5
H 27 10,8% 4
250 100,0% 40
Esse é um método comparativamente não tendencioso, gera uma amostra
representativa, entretanto a estratificação adicionará custos ao processo de pesquisa e
também é necessário ter acesso à população.
Outros tipos de amostragem são descritos abaixo
AMOSTRAGEM POR GRUPOS
Freqüentemente utilizado quando os itens da população de interesse são
amplamente diversificados e é desejável que os elementos da amostra sejam agrupados de
alguma forma (talvez geograficamente ou no decorrer de um curto período de tempo).
Exemplo: se um varejista quisesse entrevistar uma amostra de lojistas, faria sentido
selecionar aleatoriamente duas ou três áreas de vendas primeiro. Cada lojista dentro dessas
áreas poderia, então, ser entrevistado: isso evitaria a seleção de um número de lojistas
18
isolados espalhados por todo o país. Método utilizado quando os dados estão muito
espalhados geograficamente e em que a população não é definida exatamente (infinita).
AMOSTRA PROBABILÍSTICA POR CONGLOMERADO
A técnica probabilística por conglomerado exige a utilização de mapas detalhados de
regiões, estados, municípios e cidades, pois, para a seleção da amostra, há subdivisão da
área a ser pesquisada por bairros, quarteirões e domicílios, que serão sorteados para
composição dos elementos da amostra, e a pesquisa será realizada de forma sistemática
para que não haja interferência nas informações.
Por exemplo, se desejamos fazer uma pesquisa no bairro da Mooca, dividimos o
bairro por quarteirões, identificamos a população do quarteirão e então estabelecemos o
intervalo por meio da fórmula de técnica probabilística sistemática.
3.3 AMOSTRAS NÃO-PROBABILÍSTICAS
As amostras não-probabilísticas são selecionadas por critérios subjetivos do
pesquisador, de acordo com sua experiência e com objetivos do estudo. As amostras não-
probabilísticas não são obtidas utilizando-se conceitos estatísticos e podem ser subdivididas
em não-probabilísticas por conveniência, por julgamento e por cota.
AMOSTRA NÃO-PROBABILÍSTICA POR CONVENIÊNCIA
Os elementos da amostra são selecionados de acordo com a conveniência do
pesquisador. São as pessoas que estão ao alcance do pesquisador e dispostas a responder
a um questionário.
Por exemplo: podem-se abordar alunos de uma determinada faculdade para obter
as informações para uma pesquisa. Essa técnica é não-conclusiva e a amostragem é menos
confiável, apesar de mais barata e simples. É importante ressaltar que as amostras obtidas
pelas técnicas não-probabilísticas não permitem a inferência sobre o universo, pois, nesses
casos, é desconhecido o erro cometido na escolha dos elementos que farão a amostra.
A amostragem por cotas é muito utilizada quando a entrevista é o principal método
de coleta de dados. A meta é similar à meta da amostragem estratificada, na qual é
desejável que se garanta que a composição da amostra corresponda à população. O
entrevistador recebe o perfil amostral predeterminado, em que corresponda às proporções
da população. Ele seleciona pessoas dentre as que estão passando para preencher o
número exigido em cada categoria.
Por exemplo: Com base na tabela 2, um entrevistador de uma pesquisa de opinião
política é solicitado a entrevistar 40 pessoas no total: duas dessas pessoas serão mulheres
profissionais (classe A/B com idades entre 45 e 64, etc). Isso terá sido escolhido para que a
proporção na amostra (2/40 = 5%) seja similar à da população original.19
Tabela 2 – Cota de entrevistas para uma pesquisa de opinião política
Classe social A/B C D/E
Idade/sexo M F M F M F
18 - 29 0 0 3 1 2 2
30 - 44 1 1 2 1 4 3
45 – 64 2 2 3 1 2 2
65 ou mais 1 1 2 1 3 0
Esse método tende a fornecer boas taxas de resposta, porque o entrevistador
alcança o conjunto de cotas, os que não respondem são ignorados e outras pessoas são
escolhidas para substituí-las.
3.4 DIMENSIONAMENTO DA AMOSTRA
O cálculo para o tamanho da amostra é uma etapa que exige máxima atenção, pois
é fundamental determinar com precisão quais as características da população em estudo da
qual será extraída a amostra que estará apta a responder à pesquisa, atendendo os
objetivos da pesquisa.
Na verdade, para o dimensionamento de uma amostra probabilística existe um
conjunto de conceitos e relações conhecidos genericamente como Teoria da Amostragem.
Não é nosso propósito aqui tecer considerações sobre este assunto, pois se trata de um
capítulo da Estatística que não é totalmente o foco deste curso e o que nos afastaria muito
de uma apresentação geral. Acreditamos ser o suficiente dizer que dependendo do tipo de
amostra probabilística utilizada existem cálculos e considerações específicos para
determinarmos o tamanho da amostra.
Qualquer que seja o caso, entretanto, o problema da amostragem aleatória simples ,
como sabemos , é o de inicialmente retirar de uma população de N elementos, um conjunto
amostral de n elementos sendo que n < N.
- Determinar qual o grau de certeza nos resultados da pesquisa, também conhecido
como nível de confiança. No caso das pesquisas que trabalham com percentagens os
valores mais comuns adotados para o erro de amostragem (epslon) são de 1%, 2% ,
3% , 4% ,5% e 10%. Quanto maior o grau de confiança que se deseja sobre os resultados e,
menor o erro de amostragem, tanto maior será a mostra requerida. A fórmula para o
tamanho da amostra n da Teoria da Amostragem é:
n = 2.500 ( z / )²
20
Onde é expresso em percentagem e z = X – da distribuição Normal reduzida
Exemplo de aplicação: Desejamos efetuar uma amostra de eleitores de forma a
estimar o vencedor da próxima eleição de governador. O nível de confiança solicitado é de
95% e o erro de amostragem não deverá ultrapassar de 5%. A solução será:
Para nível de confiança de 95% encontraremos z = 1,96 na tabela da Distribuição Normal de
probabilidades e = 5% então temos :
n = 2.500. (1,96 / 5)² = 384,16
O resultado, arredondado para cima será de n= 385 eleitores, com 95% de confiança
e erro de 5% para mais ou menos. Interpretando o resultado:
Supondo que no resultado da pesquisa efetuada com os 385 eleitores, o candidato A
obteve 38% de intenção de votos, com a margem de erro = 5% , podemos afirmar que se
a eleição fosse hoje ele obteria 38% dos votos com margem de 5% para mais ou para
menos , ou seja : entre 33% a 43% dos votos .
Com a fórmula apresentada, podemos elaborar uma tabela com os tamanhos de amostra
necessária em função do nível de confiança e margem de erro requerida.
Tabela - Tamanho de amostras n
% Tamanho da amostra com grau de confiança
Erro de amostragem 95% 97% 99%
+ - 1 9.604 11.733 16.577
+ - 2 2.401 2.944 4.145
+ - 3 1.068 1.309 1.842
+ - 4 601 736 1.037
+ - 5 385 471 664
+ - 6 267 328 461
+ - 7 196 241 339
+ - 8 151 184 260
+ - 9 119 146 205
+ - 10 97 118 166
4 . ÍNDICES, COEFICIENTES E TAXAS
Índice: é a comparação entre duas grandezas independentes.
Ex. QI =
21
Densidade Demográfica =
Coeficiente: é a comparação entre duas grandezas em que uma está contida na
outra.
Ex.: Coef. Mortalidade =
Coef. Aproveitamento Escolar =
Taxas: é o mesmo que o coeficiente, apenas multiplicado por para tornar mais
inteligível o fator.
Taxa percentual = coeficiente . , para n = 2 .
Taxa milesimal = coeficiente . , para n = 3.
Ex. Quantidade de analfabetos na cidade X: 80.080 habitantes . População
dessa cidade: 520.000 habitantes.
Coeficiente de analfabetismo =
Explicações: o coeficiente de analfabetismo é 0,154, significa que em cada um
habitante, 0,154 é analfabeto. Se multiplicarmos o coeficiente (0,154) por teremos 15,4
o que significa que há 15,4 analfabeto em cada 100 habitante. Porém, se multiplicarmos o
coeficiente de analfabetismo (0,154) por 103, teremos a taxa de analfabetismo de
interpretação muito mais clara, ou seja, em cada 1000 habitantes, 154 são analfabetos.
Ou ainda: Taxa de analfabetismo = 0,154 x 1000 = 154 ‰, o que significa que temos
154 analfabetos em cada 1000 habitantes.
5 REPRESENTAÇÕES GRÁFICAS
A apresentação gráfica é um complemento importante da apresentação tabular, ou
seja, uma das maneiras mais concisas de interpretar os dados estatísticos de uma tabela é
através da interpretação gráfica. A principal vantagem de um gráfico sobre a tabela prende
– se ao fato de que ele permite conseguir uma visualização imediata da distribuição dos
valores observados. Os gráficos propiciam uma idéia preliminar mais satisfatória da
concentração e dispersão de valores, uma vez que através deles os dados estatísticos se 22
apresentam em termos de grandezas visualmente interpretáveis. Por outro lado, os fatos
essenciais e as relações que poderiam ser difíceis de reconhecer em massas de dados
estatísticos podem ser observados mais claramente através dos gráficos.
DIFERENTES TIPOS DE GRÁFICOS DE SÉRIES ESTATÍSTICAS
A distribuição de freqüências, tanto de variáveis discretas como de variáveis
contínuas, pode ser interpretada mais facilmente quando os valores dessas variáveis são
apresentados em forma de gráficos.
A Estatística utiliza vários tipos de gráficos: de setores, de barras, de colunas, de
linhas, histogramas e polígonos de freqüência.
5.1 HISTOGRAMAS
Representação gráfica da distribuição de freqüência para variável discreta
São gráficos em colunas que são construídos em eixos cartesianos. No eixo
horizontal (abscissas) são colocados os valores da variável e no eixo vertical (ordenadas)
estão os respectivos valores de suas freqüências.
Exemplo:
Ocupação = Profissão Freqüência
Artesanato 52
Trabalho não qualificado 65
Gerencial 29
Serviços burocráticos 34
Fonte: Livro: Hanan, H.S. & Batalha, B.H.L. Amazônia contradições no paraíso ecológico. Cultura ed. Associados. 5a ed. 1999.
Então o histograma assume a forma:
23
Representação gráfica da distribuição de freqüência de uma variável contínua
É um conjunto de retângulos (colunas) justapostos, representados em um sistema de
coordenadas cartesianas cujas bases são os intervalos de classes e cujas as alturas são
valores proporcionais às freqüências simples correspondentes (fi ).
Exemplo: Notas de 24 alunos de Marketing na prova de Estatística
CLASSES fiNotas
0 I---- 2 3
2 I---- 4 6
4 I---- 6 8
6 I---- 8 5
8 I---- 10 2
24
Notar que o zero correspondente ao valor da variável x i está deslocado à direita do eixo
vertical, propositadamente, criando uma classe fictícia, para se desenhar o que se chama
polígono de freqüências. Também, uma classe fictícia fica marcada à direita do limite
superior da última classe ( ver figura seguinte) .
Polígono de freqüências Unindo com segmentos de reta os pontos médios dos lados
superiores de cada coluna de um histograma, obtemos uma linha poligonal. Essa nova
figura é chamada de polígono de freqüências.
f i
8
6
24
A união dos pontos médios de todas as classes por uma linha, incluindo as duas classes fictícias, forma o que se chama polígono de freqüências. Observe que a área sob o polígono de freqüências é igual a área do histograma.
4
2
0 2 4 6 8 10 x i
5.2 GRÁFICO DE BARRAS SIMPLES
São gráficos em colunas que são construídos em eixos cartesianos. No eixo
horizontal (abscissas) são colocados os valores de suas freqüências e no eixo vertical
(ordenadas) estão os respectivos valores da variável. Exemplo: Produção Nacional de
madeira por região
5.3 GRÁFICO DE SETORES
Sua construção é feita com base em um círculo que é dividido em setores com áreas
proporcionais às freqüências das diversas categorias. É usado para comparar freqüências
relativas. Lembrar que a freqüência relativa de uma variável x i é a razão entre a freqüência f i
e o número total de elementos, multiplicada por 100 (%).
Exemplo: Distribuição dos alunos do Curso de Gestão Ambiental, segundo a situação em
relação às notas.
Para determinarmos o ângulo correspondente a cada setor, utilizando uma regra de três:
Região %
Sudeste 4
Norte 20
Centro-Oeste 7
Sul 69
Situação Freqüência fi fi % Graus
Promovido 12 50,00 1800
Em recuperação 8 33,30 1200
Retido 4 16,70 600
Total 24 100,00 3600
25
24 alunos total 3600
12 promovidos x
X = 12 . 360 = 1800 ou seja , equivalem a metade do setor (círculo)
24
Analogamente determinamos os ângulos dos outros setores.
5.4 GRÁFICO DE LINHA
Constitui uma aplicação do processo de representação das funções num sistema de
coordenadas cartesianas. Este tipo de gráfico se utiliza da linha poligonal para representar a
série estatística.
Exemplo: Produção Brasileira de óleo de dendê 1997 – 2002.
Anos Produção 1000 t
1997 39,31998 39,11999 53,92000 65,12001 69,12002 59,5
26
Vamos tomar os anos como abscissas e as quantidades como ordenadas.
Determinados graficamente, todos os pontos da série, usando as coordenadas,
ligamos todos esses pontos, dois a dois, por segmentos de reta, o que irá nos dar uma
poligonal, que é o gráfico em linha correspondente à série em estudo.
5.5 GRÁFICO DE COLUNAS OU BARRAS MÚLTIPLAS
É aquele em que os retângulos são dispostos um sobre o outro, procurando evidenciar
suas diferenças, facilitando a comparação entre eles. Exemplo:
Quantidade de lixo gerado nos bairros da Cidade de São Paulo (em toneladas/ano).
Anos Bairro A Bairro B
94 8.000 6.000
95 12.000 11.000
96 9.000 10.000
97 11.000 9.500
27
Fonte: Hipotéticos
5.6 GRÁFICO DE LINHAS MÚLTIPLAS
Este gráfico permite representar e comparar duas séries simultaneamente ao longo
do tempo. Exemplo: Quantidade de lixo gerado nos bairros da Cidade de Rio de Janeiro.
Anos Bairro A Bairro B
84 8.000 6.000
85 12.000 11.000
86 9.000 10.000
87 11.000 9.500
Fonte: Hipotéticos
28
A elaboração de gráficos torna-se muito simples utilizando o Excel, do MS Office.
Basta “clicar”com o mouse no ícone “inserir gráfico “na barra de ferramentas e seguir as
instruções que aparecerão na tela ( desde a escolha do tipo de gráfico, dados de origem,
título, escala , etc. até finalizar) após quatro “cliques” no “avançar”, na seqüência
apresentada pelo programa, seu gráfico estará pronto. Caso o tipo de gráfico não agrade
suas pretensões, você poderá mudar o tipo de gráfico. Tente, selecionando os dados em
uma planilha do Excel.
6 . DISTRIBUIÇÀO DE FREQUENCIAS - ESTATÍSTICA DESCRITIVA
ORGANIZAÇÃO E DESCRIÇÃO DOS DADOS COLETADOS EM CAMPO.
Denominamos série estatística toda tabela que apresenta a distribuição de um
conjunto de dados estatísticos em função da época, do local ou da espécie.
Podemos inferir que numa série estatística observamos a existência de três
elementos: tempo, espaço e espécie. Conforme as variações de um dos elementos
podemos classificá-las em:
a) Séries Cronológicas, Históricas, Temporais ou Marcha.
b) Séries Geográficas, Espaciais, Territoriais ou de Localização.
29
c) Séries Específicas ou Categóricas.
d) Séries Conjugadas ou Mistas.
e) Distribuições de Freqüências:
As distribuições de freqüências são séries heterógradas. Neste caso todos os
elementos – época, local e fenômeno são fixos. Temos dois tipos:
1º Distribuição de Freqüência Sem Intervalo de Classe - para variáveis discretas
____________________________
X i f i
____________________________
x1 f 1
x 2 f 2 Nota: N = Nº. de observações
x 3 f 3 f i = freqüência absoluta
. . x i = (variável alvo do estudo)
. .
. .
x i f i
____________________________
f i = N
_____________________________
Usamos a distribuição de freqüência não agrupada, ou seja trabalharemos com cada
variável individualmente, sem intervalo de classe, pois trata-se de variável discreta com
variação relativamente pequena, cada valor tomado individualmente denominaremos de xi
2º Distribuição de freqüência para Dados Agrupados em Classes - variáveis
contínuas
Ex.: Estaturas de 40 alunos no Uni A - 2007
Estaturas (cm) Freqüências
Li Ls f i
150 I--- 154 4
154 I--- 158 9
158 I--- 162 11
162 I--- 166 8
166 I--- 170 5
30
170 I--- 174 3
∑
Este tipo de distribuição é usado quando trabalhamos com uma amostragem
relativamente grande e, as variáveis serão contínuas, ou seja, agruparemos os dados em
classes com determinado intervalo de valores contidos em cada uma delas, facilitando a
análise de dados, elaboração de gráficos e conclusões.
Na análise estatística, a coleta de dados é a primeira etapa de todo o processo com
que se deve trabalhar se o objetivo é analisar dados, obter resultados e testar hipóteses
acerca da natureza da realidade. Procura transformar seus dados brutos num conjunto de
mensurações, organizadas e dotadas de sentido, que possam ser usadas para testar suas
primeiras hipóteses iniciais (dados ordenados ou ROL).
Que é que se faz para transformar essa massa de dados brutos num conjunto/
resumo fácil de entender? O primeiro passo será ordená-los, normalmente em ordem
crescente, e contar qual a freqüência que cada variável aparece, assim, estamos verificando
como as frequencias dos dados coletados estão distribuídas. Em determinado intervalo,
estamos construindo uma DISTRIBUIÇÃO DE FREQÜÊNCIA sob a forma de tabela.
Para elaboração da Tabela de Distribuição de Freqüência deve-se primeiramente
identificar o tipo de variável:
A) DISTRIBUIÇÃO DE FREQUÊNCIA – VARIÁVEL DISCRETA (dados nominais, ordinais )
Chamamos:
Freqüência Absoluta (ou freqüência simples) fi,refere-se ao número de vezes que
cada variável (Xi ) aparece no conjunto de dados.
Freqüência Relativa Absoluta (ou proporção) frel i , é a freqüência fi , número de
vezes que cada variável xi aparece, sobre ao número total de dados coletados N.
Ou seja: freqüência relativa = frel i = f i ou = f i .
N f i
31
Total de observações: N = f i = Número de dados coletados, é a soma das
freqüências absolutas.
freq. relativa percentual :f %i é a freqüência absoluta fi divida pelo total de
observações e multiplicada por 100.
Sendo que: f %i =.= f i . 100 % ou = f i . 100 %
N f i
Freqüência acumulada fac, é a soma das freqüências simples (absolutas fi)
acumuladamente iniciando da 1ª até a última linha da tabela. Representa o número total
de elementos do início até uma linha qualquer da tabela
Freqüência Acumulada Percentual fac % é a soma das freqüências percentuais (
fi %) acumuladamente iniciando da 1ª até a última linha da tabela Representa o
percentual total dos elementos do início até uma linha qualquer da tabela
Freqüência acumulada inversa f ’ac, é a soma das freqüências simples (absolutas fi)
acumuladamente iniciando da última até a1ª linha da tabela.( de baixo para cima) .
Representa o número total de elementos de uma linha qualquer até o final da tabela
Freqüência Acumulada Percentual inversa f ’ac % é a soma das freqüências
percentuais ( fi %) acumuladamente iniciando da última até a1ª linha da tabela.( de baixo
para cima) .
Representa o percentual total dos elementos de uma linha qualquer até o final da tabela.
Exemplo: Tabela1. 1 –Dados brutos com Informações sobre estado civil, grau de instrução,
número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos
e meses) e procedência de 36 funcionários de um Departamento da Empresa BOMP.
Nº. Estado Civil Educação nº. de
filhos
Salário
(Sal. min)
Idade
anos meses
Região de
Procedência
1 Solteiro 1º Grau - 4,00 20 03 Interior
2 Casado 1º Grau 1 4,56 31 10 Capital
3 Casado 1º Grau 2 5,25 28 05 Capital
4 Solteiro 2º Grau - 5,73 36 10 Outro
5 Solteiro 1º Grau - 6,26 42 07 Outro
6 Casado 1º Grau 0 6,66 34 00 Interior
7 Solteiro 1º Grau - 6,86 28 00 Interior
8 Solteiro 1º Grau - 7,39 41 04 Capital
9 Casado 2º Grau 1 7,59 40 10 Capital
32
10 Solteiro 2º Grau - 7,44 36 06 Outro
11 Casado 2º Grau 2 8,12 31 06 Interior
12 Solteiro 1º Grau - 8,46 25 11 Capital
13 Solteiro 2º Grau - 8,74 44 05 Outro
14 Casado 1º Grau 3 8,95 40 02 Outro
15 Casado 2º Grau 0 9,13 33 05 Interior
16 Solteiro 2º Grau - 9,35 26 08 Outro
17 Casado 2º Grau 1 9,77 40 07 Capital
18 Casado 1º Grau 2 9,80 34 07 Outro
19 Solteiro Superior - 10,53 34 08 Interior
20 Solteiro 2º Grau - 10,76 44 04 Interior
21 Casado 2º Grau 0 11,06 30 09 Outro
22 Solteiro 2º Grau 2 11,59 34 02 Capital
23 Solteiro 1º Grau 2 12,00 25 00 Outro
24 Casado Superior 0 12,79 41 01 Outro
25 Casado 2º Grau 2 13,23 32 05 Interior
26 Casado 2º Grau 2 13,60 27 00 Outro
27 Solteiro 1º Grau - 13,85 42 07 Outro
28 Casado 2º Grau 0 14,69 32 08 Interior
29 Casado 2º Grau 5 14,71 37 06 Interior
30 Casado 2º Grau 2 15,99 38 10 Capital
31 Solteiro Superior - 16,22 26 05 Outro
32 Casado 2º Grau 1 16,61 39 04 Interior
33 Casado Superior 3 17,26 33 07 Capital
34 Solteiro Superior - 18,75 48 07 Capital
35 Casado 2º Grau 2 19,40 37 11 Capital
36 Casado Superior 3 23,30 30 02 Interior
1. Usando os dados da Tabela 1.1 construa a distribuição de freqüências do grau de
instrução - determine o ROL, ordenando e contando os dados coletados (ordem crescente)
Resolução:
NATUREZA DA VARIÁVEL QUALITATIVA ORDIINAL: GRAU DE INSTRUÇÃO
A distribuição de freqüência fica:
instrução fi f rel i f % fac fac % f ’ac f ’ac %
10 grau
20 grau
12
18
0,3333
0,5000
33,33
50,00
12
30
33,33
83,33
36
24
100,00
66,67
33
30 grau 6 0,1667 16,67 36 100,00 6 16,67
Total 36 1,0000 100,00
Fonte: Tabela 1.1
Estes valores podem ser interpretados da seguinte forma:
33,33% dos empregados possuem 1o grau;
50,00% dos empregados possuem 2o grau;
16,67% dos empregados possuem 3o grau.
83,33% dos empregados possuem até 2o grau.
NATUREZA DA VARIÁVEL QUANTITATIVA DISCRETA: IDADES
i
idades xi fi fi rel f rel % fac fac% f 'ac f 'ac%
1 20 1 0,0278 2,78% 1 2,78% 36 100,00%2 25 2 0,0556 5,56% 3 8,33% 35 97,22%3 26 2 0,0556 5,56% 5 13,89% 33 91,67%4 27 1 0,0278 2,78% 6 16,67% 31 86,11%5 28 2 0,0556 5,56% 8 22,22% 30 83,33%6 30 2 0,0556 5,56% 10 27,78% 28 77,78%7 31 2 0,0556 5,56% 12 33,33% 26 72,22%8 32 2 0,0556 5,56% 14 38,89% 24 66,67%9 33 2 0,0556 5,56% 16 44,44% 22 61,11%
10 34 4 0,1111 11,11% 20 55,56% 20 55,56%11 36 2 0,0556 5,56% 22 61,11% 16 44,44%12 37 2 0,0556 5,56% 24 66,67% 14 38,89%13 38 1 0,0278 2,78% 25 69,44% 12 33,33%14 39 1 0,0278 2,78% 26 72,22% 11 30,56%15 40 3 0,0833 8,33% 29 80,56% 10 27,78%16 41 2 0,0556 5,56% 31 86,11% 7 19,44%17 43 2 0,0556 5,56% 33 91,67% 5 13,89%18 44 2 0,0556 5,56% 35 97,22% 3 8,33%19 48 1 0,0278 2,78% 36 100,00% 1 2,78%
36 1,0000 100,0%
i = índice, indica a linha ou o número da variável xi = cada uma das variáveis alvo do estudo no caso, idades dos funcionários
Estes valores podem ser interpretados da seguinte forma:
Quantos funcionários e qual o respectivo percentual tem idade menor ou igual a 32
anos ?
São 14 funcionários, representando 38,89% , tem no máximo idade igual a 32 anos. Ou
seja de 20 a 32 anos . Basta seguir na linha de xi = 32 anos até as colunas de fac e fac
% e efetuar a leitura.
Quantos funcionários e qual o respectivo percentual tem idade maior ou igual a 36
anos ?
34
São 16 funcionários, representando 44,44%, tem no mínimo idade igual a 36anos. Ou
seja de 36 a 48 anos. Basta seguir na linha de x i = 36 anos até as colunas de f ’ac e
f ’ac% e efetuar a leitura.
Quantos funcionários e qual o percentual respectivo tem idade igual a 34 anos ?
São 4 funcionários que representam 11,11% , tem 34 anos de idade. Basta seguir a
linha x i = 34 anos e efetuar a leitura nas colunas f i e fi %
Quantos funcionários e qual o percentual respectivo tem idade entre 30 anos a
40anos inclusive ?
Que 19 funcionários, que representam 52,78% , tem idade entre 30 anos a 40 anos
(inclusive 30 e 40 anos).
Deve-se subtrair os valores encontrados nas colunas de fac da linha xi =40 ( fac = 29)
e xi =30 ( fac = 10) , então 30 – 29 = 19 funcionários
Analogamente Fac% de xi =40 será 80,56% e fac % de xi = 30 será 27,78% então :
80,56 – 27,78 = 52,78%
7. MEDIDAS DE POSIÇÃO OU MEDIDAS DE TENDÊNCIA CENTRAL
Para interpretar os dados corretamente, em geral é preciso primeiro organizar e
sumarizar os números, ou seja, um conjunto de números pode reduzir-se a uma ou a
algumas medidas numéricas que resume todo o conjunto. Aqui, estamos interessados em
calcular alguns valores de uma série, que representam bem e resumidamente, todos os
dados dessa série. São posições no eixo horizontal de um gráfico, em torno das quais se
concentram a maioria dos valores da variável xi. Usualmente empregamos as seguintes
Medidas de posição ou de tendência central : A média (aritmética simples e ponderada),
35
a moda e a mediana. Possuem essa denominação por possuírem a tendência de estar no
centro de um conjunto de valores. Podemos determinar seus valores para variáveis
discretas e para variáveis contínuas.
MEDIDAS DE TENDENCIA CENTRAL PARA VARIÁVEIS DISCRETAS
8.1 . MÉDIA
É um valor representativo de todo um conjunto de valores, normalmente utilizada
como um parâmetro comparativo entre grupos distintos, por exemplo, uma classe obteve
médias 6,0 de estatística comparando com outra classe que obteve média 5,4. Qual a
melhor turma? No exemplo diríamos que a melhor sala seria a 1ª turma que obteve média
6,0, embora alguns alunos desta classe certamente sejam piores que outros da sala com
média menor e vice-versa. Na média geral a 1ª turma é melhor.
A.1 Média Aritmética Para calcularmos , a média aritmética determinamos a
soma das observações dividida pelo número delas.Assim a média de 3, 4, 7, 8 e 8 é:
= = = 6
Ou seja: = Onde: = x1 + x2 + x3 + ....+ xn;
n = no de elementos na amostra;
O cálculo de é mesmo para dados amostrais como para população.
A.2 Média Aritmética Ponderada , consideremos por ex.: a situação em que
o professor informe que os pesos da notas bimestres são: 1obimestre: peso 2; 2obimestre:
peso 2; 3obimestre: peso 3; 4obimestre: peso 3. O aluno obteve as seguintes notas em
Matemática: 6,0; 8,0; 9,0 e 5,0, respectivamente.
O cálculo da média ponderada deve levar em conta os pesos desiguais dos bimestres. A
fórmula para o cálculo é:
Média ponderada = = onde = peso de observação de ordem i.
Portanto:
= = = 7,0
A.3 Determinação da Média de uma distribuição de freqüência,
36
Se os dados estão apresentados na forma de uma variável discreta, utilizaremos a
média aritmética ponderada, considerando as freqüências simples f i como sendo as
ponderações dos elementos xi correspondentes.
1. forma da distribuição: mais adequada para distribuição unimodais simétricas;
2. objetivo: é uma medida de tendência central exata, pode frequentemente ser
usada em operações estatísticas mais avançadas,
Pode-se usar a fórmula da média ponderada para determinar a média de uma
distribuição de freqüência. Os pesos são substituídos pelas freqüências (f i) das classes e a
fórmula fica:
= =
Onde: fi é a freqüência da i-ésima classe n é o número de observações (= )
Exemplo: Determinar a média dos seguintes dados:
No acidentes
xi
Freqüência
fi
fi.xi
0 2 0
5 4 20
10 5 50
15 10 150
20 2 40
25 1 25
30 1 30
25 315
Solução: = = = 12,6
8.2 MODA = Mo
É o valor (observação) que ocorre com maior freqüência num conjunto. Sejam os
dados os números 10, 10, 8, 6, 10, há três 10’s. O valor mais freqüente, a moda, é 10.
1. forma da distribuição: mais apropriada para distribuição Bimodais;
2. objetivo: permite obter uma medida de tendência central rápida, simples, embora
grosseira.
37
Exemplo: Número de pessoas da família numa amostra de 26 respondentes de renda
baixa ( Distribuição Bimodal)
Tamanho de família
fi
1 1 Temos uma com apenas algumas
2 2 pessoas (MO = 3)
3 6 e outra com um número
4 2 bastante grande de pessoas(MO = 8)
5 1
6 2 = 6
7 3
8 6 Temos: = 5,58
9 2
10 1
26
B. 2. Determinação da Moda de uma distribuição de freqüência, Mo.
É o valor mais freqüente da distribuição. Para distribuições discretas, a identificação
da Moda é facilitada pela simples observação do elemento que apresenta maior freqüência.
Assim:
X i 243 245 248 251 307
f i 7 17 23 20 8
A moda é 248, ou seja, Mo = 248. Esse no aparece mais vezes nesta distribuição.
8.3 MEDIANA (Md )
Colocados os dados brutos em ordem crescente ou decrescente (ROL), a mediana é
o elemento que ocupa a posição central, ou seja, é o valor da variável que divide um
conjunto em duas partes iguais, quer dizer que os valores dos dados coletados serão 50%
igual ou abaixo do valor da Mediana e 50% igual ou acima do valor da Mediana.
1. forma da distribuição: mais adequada para distribuição assimétricas;
38
2. objetivo: é uma medida de tendência central “confiável”, pode, às vezes ser usada
em operações estatísticas mais avançadas ou “quebrar” uma distribuição em duas
categorias distintas (por exemplo poluentes x não poluentes).
Para pequenas amostras
Assim, se tivermos 05 observações de uma variável, por exemplo, número de
exercícios efetuados por 5 alunos de estatística e obtivermos : 8, 7, 4, 8 e 3, Ordenando os
dados teremos : 3, 4 , 7, 8, 8 . O valor da Md = 7 corresponde à 3a posição (observação)
valor central, significa que 50% dos alunos efetuaram 7 exercícios ou menos e 50%
resolveram 7 exercícios ou mais.
O processo para determinar a mediana é o seguinte:
a) Ordenar os valores (Rol);
b) Verificar se há um número ímpar ou par de observações;
c) Para um número ímpar de observações, a mediana é o valor do meio. Para um
número par de observações, a mediana é a média das duas observações do
meio.
Se n é ímpar – O Rol admite um termo central que ocupa a posição ;
No de elementos da amostra = n = 5 (ímpar) Md = = = 3a posição
Se n é par - usar como Md a média aritmética das duas observações centrais.
Assim, 3, 4, 7, 8, 8 e 9, Md = = 7,5
Exemplos: Par Md Ímpar Md
2, 3, 4, 5 (3+4)/2 = 3,5 1, 2, 3, 3, 3, 4, 7 3
Determinação da Mediana de uma distribuição de freqüência, Md
Se os dados estão apresentados na forma de variável discreta, eles já estão
naturalmente ordenados. Assim, basta verificar se o número de elementos é ímpar ou par.
n (número de elementos da amostra) = ímpar a mediana será o elemento central,
ordem = ;
39
n = par a mediana será a média entre os elementos centrais ordem = e + 1.
Exemplo: medidas de tendência central numa distribuição de salários anuais
Salário anual (R$)
17.000,00 MO = 17.000,00
17.000,00
17.000,00 Md = 51.000,00
85.000,00
170.000,00 = R$ 306.000,00
425.000,00
1.700.000,00
No exemplo acima, se trabalhássemos de relações públicas de uma empresa e
desejássemos angariar-lhe uma imagem pública favorável, calcularíamos, talvez, a média a
fim de demonstrar que o empregado “típico” ganha R$306.000,00 por ano, e é relativamente
bem pago, é que o valor da Média sofre influência de valores extremos, puxando para mais
ou para menos seu valor.
Por outro lado, se nós fôssemos representantes sindicais e estivéssemos procurando
melhorar os níveis salariais, iríamos provavelmente empregar a moda para demonstrar que
o salário médio é apenas 17.000,00, o que representa uma quantia bastante reduzida.
Se fossemos pesquisadores sociais desejosos de dar uma informação acurada do
salário médio dos empregados dessa empresa, empregaríamos, a mediana (R$ 51.000,00),
uma vez que esta medida cai entre outras duas, oferece portanto um quadro mais
equilibrado da estrutura salarial.
Exemplo 02: Dada a distribuição:
xi fi Facumulada=Fac
1 1 1
2 3 4
3 5 9 (60 elem.)
4 2 11
11
40
n = 11 é ímpar, Md = = = 60 elemento. Abre-se a coluna de Fac e através dessas
freqüências acumuladas encontra-se o valor (xi) correspondente à mediana.
Neste exemplo Md = 3 ( será o xi correspondente à classe que contiver a ordem calculada).
Exemplo 02: Dada a distribuição:
xi fi Facumulada
82 5 5
85 10 15
87 15 30 (210 e 220)
89 8 38
90 4 42
42
n= 42 é par, Md será a média entre os elementos de ordem = e + 1
= 210 e + 1 = 220. Observando os elementos 21 e 22 na Fac correspondem a 87.
Logo: = 87 (é a mediana).
8. MEDIDAS DE DISPERSÃO - Para Variáveis Discretas
Considere as três séries de dados coletados seguintes:
X : 10, 10, 10, 10, 10, 10, 10, 10, 10, 10
Y : 7, 8, 9, 9, 10, 10, 11, 11, 12, 13
Z : 3, 4, 5, 6, 10, 10, 14, 15, 16, 17
41
As três séries têm uma característica comum, que é o valor da média. Essa média é
10 para as três séries. Entretanto elas diferem entre si com relação ao agrupamento dos
dados em torno dessa média.
Na série X todos os dados são iguais a 10 e portanto a média representa muito bem
essa série.
Na seqüência Y vê-se que vários dados diferem da média, mas estão próximos dela,
ou seja, apresentam grande concentração em torno de 10. A média representa
razoavelmente bem a série.
Na seqüência seguinte, Z , existem vários valores muito afastados do valor 10 e
portanto a média não representa muito bem a série.
Em resumo, em X todos os dados estão totalmente concentrados na média 10 e,
portanto não há dispersão de dados. Em Y existe forte concentração de dados sobre a
média e fraca dispersão. Em Z há fraca concentração de valores sobre a média e grande
dispersão de dados.
É, portanto importante construir medidas que avaliem a representatividade da média,
estas medidas são denominadas medidas de Dispersão , e como o nome já define , medem
o grau de dispersão dos dados em relação a um determinado valor, normalmente em
relação à Média. As medidas de dispersão mais utilizadas e conhecidas são:
A Amplitude total, O Desvio Médio, A Variância e o desvio Padrão:
8.1 Desvio médio simples ( dm ). É a média aritmética dos desvios de cada
elemento da série em relação à média dessa série. O desvio de um elemento para a média
é o valor absoluto (módulo) da diferença entre ambos.
Cálculo do dm para variáveis discretas.
Na série Y do exemplo anterior,
Y : 7, 8, 9, 9, 10, 10, 11, 11, 12, 13
Esse cálculo pode ser melhor visualizado usando uma tabela de distribuição de
freqüências e aplicando a fórmula para o cálculo do dm.
I di I = xi –
cada variável menos a média
usaremos o valor absoluto (em módulo)
para esta diferença ou seja sempre positivo
42
Notar que sempre é preciso calcular a média da série para se ter o dmLembrar que a média é dada por:
A tabela abaixo representa a série Y:
x i f i di = xi - I dII . f i
7 1 7 3 3
8 1 8 2 2
9 2 18 1 2
10 2 20 0 0
11 2 22 1 2
12 1 12 2 2
13 1 13 3 3
10 100 14
Substituindo os valores na fórmula tem-se que .
A interpretação desse resultado é que, em média, cada elemento da série está
distante 1,4 unidade da média 10.
8.2 Variância
O cálculo do desvio médio simples implica no cálculo do módulo dos desvios dos
dados em relação à media. Esse módulo é sempre um número positivo, que é associado a
uma distância. Uma outra forma de se ter valores positivos para os desvios é considerar o
quadrado de , ou seja, . Substituindo na fórmula do dm o módulo
por essa expressão obtém-se uma nova medida de dispersão chamada variância. Assim,
para uma população de n elementos, a variância é dada por V( x ) .
8.3 Desvio Padrão.
Define-se o desvio padrão como sendo a raiz quadrada positiva de V(x). O desvio
padrão é representado simbolicamente pela letra grega sigma minúsculo
Obs: Quando os elementos da série representam uma população, a variância será
simbolizada por e o desvio padrão por . Se os elementos representam uma
amostra, a variância será denotado por e o desvio padrão por . Os valores de
e diferem numericamente, já que a variância amostral tem como denominador
43
o valor n – 1 e não n, sendo portanto ligeiramente maior que a variância populacional.
Dessa forma, temos:
Desvio padrão populacional:
Desvio padrão amostral:
As fórmulas acima são usadas para o cálculo de desvio padrão de variáveis
discretas. No caso de variáveis contínuas substitui-se o valor da variável xi pelo valor médio
da classe , como veremos no capítulo mais a frente.
Cálculo da variância e do desvio padrão. Variável discreta
Como exemplo, será calculada a variância e o desvio padrão de uma população
representada pela distribuição de freqüências da série Y
x i f i di = xi - I dII . f i di² fi . di²
7 1 7 3 3 9 9
8 1 8 2 2 4 4
9 2 18 1 2 1 2
10 2 20 0 0 0 0
11 2 22 1 2 1 2
12 1 12 2 2 4 4
13 1 13 3 3 9 9
10 100 14 30
44
Acrescenta-se a coluna que é o produto para se calcular a média. A soma dos elementos da segunda coluna dá o número total de elementos na série
Desenha-se outra coluna dos valores .
A soma dos elementos dessa coluna dividida por n dá o valor da variância da
população.
Portanto, V (x) =
O desvio padrão é
Se a série representa uma amostra de uma população, então o denominador será
igual a 9 e os valores da variância e do desvio padrão serão 3,3 e 1,8 respectivamente.
A seguir, serão apresentadas algumas considerações sobre as Medidas de
dispersão (dispersão de números). O conceito de desvio padrão é o que mostra a maneira
como os dados agrupam – se em torno do centro da distribuição.
8.4 A amplitude total At = Vm – vm,
Foi definida como um indicador de variabilidade rápido e grosseiro, facilmente
calculada a partir da diferença entre o maior e o menor dado da distribuição. No exemplo Y
temos At = 13 – 7 = 6
O desvio médio não é muito usado em pesquisa, uma vez que ele não se presta a
muitas análises estatísticas avançadas. Por outro lado, o cálculo do desvio padrão implica a
utilização de um procedimento aceitável do ponto de vista matemático, com vistas de
contornar o problema dos sinais de + , -. O desvio padrão é uma medida de variabilidade
confiável, de nível intervalar, que pode ser utilizada em operações estatísticas avançadas,
descritivas ou inferenciais.
45
9. DISTRIBUIÇÃO DE FREQUÊNCIA–VARIÁVEL CONTÍNUA (dados agrupados)
Um dos objetivos de construir a distribuição de freqüência é resumir o conjunto de
dados. No caso de variáveis contínuas não podemos construir a distribuição de freqüências
listando um a um os resultados, pois não havendo observações iguais não há redução na
tabela. Desta forma é interessante agrupar os resultados em classes.
Para agrupar os dados de uma variável em classes devemos ter alguns cuidados:
1. Adotar classes de mesma amplitude, sempre que possível;
Amplitude total de uma seqüência, At, é a diferença entre o maior e o menor
elemento de uma seqüência. Representa o comprimento total da seqüência:
At = X max – X min
2. Determinar o número de classes K
Se adequarmos muitas classes não reduziremos os dados e, poucas classes
poderemos perder as informações. Sugere-se o uso de entre 5 a 15 classes com a mesma
amplitude.
46
Sendo K = (usual) ou K = 1 + 3,3 log n
n = número de dados coletados
K = o número de grupos, classes que iremos formar ( ou seja o número de linhas que
teremos na tabela) , normalmente arredondaremos o resultado para o número inteiro
maior , por exemplo K = =4,89 então, teremos
K = 5 classes ( 5 linhas na tabela)
3. Amplitude ou intervalo total de classe, h, é o tamanho de cada classe, ou seja,
de quanto em quanto iremos agrupar os dados coletados
Ou h = , onde K = número de classes.
a diferença entre o limite superior e o limite inferior de cada classe:
h = L s – Li Por exemplo: 2 4, Li (limite inferior) = 2 e Ls (limite superior) = 4
Exemplo: Usando os dados da Tabela 1.1 construa a distribuição de freqüências da
variável: salários
Resolução:
Natureza da variável qualitativa contínua: Salários
Da Tabela 1.1, (pág.32) computando as freqüências absolutas de cada classe,
construímos a variável contínua os salários vão de 4 até 23,30. A seqüência que devemos
obedecer é: 1º Ordenar os dados coletados (ordem crescente) e contar quantas vezes cada
variável aparece
Salário
(Sal. min) fi
4,00 1 1º - A t = amplitude total = 23,30 – 4,0 = 19,30
4,56 1
5,25 1
5,73 1 2º - Número de classes = K = = = 6 ;
6,26 1 Logo no de classes, ou grupos quem iremos formar será 5, 6 ou 7
6,66 1
6,86 1 3º - h = Amplitude de classes
7,39 1
h = = = 3,26 = 4
7,44 1
7,59 1 Agruparemos os valores dos salários de 4 em 4
8,12 1
8,46 1
8,74 1 Cada grupo terá um limite inferior Li e um limite Superior Ls
47
8,95 1 Quando h = par usaremos intervalo aberto a direita, e Ls = Li + h - 1
9,13 1
9,35 1 A 1ª classe será de 4 salários a 8 4 I----- 8 com 10 elementos
9,77 1
9,80 1 A 2ª classe será de 4 salários a 8 8 I----- 12 note que o valor de
10,53 1 12 salários não entrará por ser intervalo aberto (não inclui o Ls)
10,76 1
11,06 1
11,59 1
12,00 1 O valor 12 entrará na classe seguinte de 12 I---- 16
12,79 1
13,23 1
13,60 1
13,85 1 A tabela de distribuição ficará então, ver pagina seguinte
14,69 1
14,71 1
15,99 1
16,22 1
16,61 1
17,26 1
18,75 1
19,40 1
23,30 1
Salários
Li L s fi
Xi ou pmfi . xi f %
f ac fac.%
4,00 8,00
8,00 12,00
12,00 16,00
16,00 20,00
20,00 24,00
10
12
8
5
1
4+8/2=6
10
14
18
22
60
120
112
90
22
27,78
33,33
22,22
13,89
2,78
10
22
30
35
36
27,78
61,11
83,33
97,22
100,00
36 404 100,00
Estes valores podem ser interpretados da seguinte forma:
35 empregados recebem salários menores que 20; que corresponde a 97,22% dos
empregados recebem salários menores que 20, assim por diante. Ex.
Sendo xi ou pm = ponto médio de cada classe = Li + Ls
2
48
10. MEDIDAS DE TENDENCIA CENTRAL PARA VARIÁVEL CONTÍNUA
10.1 Determinação da Média de uma distribuição de freqüência,
Se os dados estão apresentados na forma de uma variável contínua, utilizaremos a
média aritmética ponderada, considerando as freqüências simples das classes como sendo
as ponderações dos pontos médios destas classes. A fórmula é a mesma da dist. com
variáveis discretas = =
No exemplo acima temos que a média de salários será :
= = = 11,22 O Salário médio dos funcionários é de 11,22 SM .
Exemplo: Determinar a média dos seguintes dados:
no acidentes
Li Ls
Freqüência
fi
Ponto médio
xi
fi.xi
0 10 2 5 10
10 20 1 15 15
20 30 5 25 125
30 40 8 35 280
40 50 4 45 180
20 610
Os pontos médios das classes x i se determinam tomando-se a média do limite
inferior de cada classe e do limite superior x i = Li + Ls
2
Solução: = = = 30,5
10. 2 Determinação da Moda de uma distribuição de freqüência, Mo
Para determinar a moda de uma variável contínua, podemos optar por vários
processos ( Moda de Pearson, moda de King, moda de Czuber). Daremos destaque para a
moda de Czuber.
MODA DE CZUBER : CZUBER levou em consideração, em sua fórmula a
freqüência simples da classe anterior, a freqüência simples da classe posterior, além da
freqüência simples da classe modal.
49
Mo = Li Mo +
Onde: todos os valores dependem da posição da maior freqüência
f Max = freqüência simples da classe modal = freqüência máxima;
Li Mo = limite inferior da classe modal;
f ant = freqüência simples da classe anterior à classe modal;
f post = freqüência simples da classe posterior à classe modal;
h = amplitude do intervalo de classe.
Exemplo: Calcule a moda de Czuber para a distribuição:
Li Ls fi
0 10 1
10 20 3
20 30 6
30 40 2
Solução: A classe modal é a terceira classe, a Mo vale:
Mo = 20 + = 24,29 (valor mais freqüente nesta distribuição).
Graficamente: É preciso construir o histograma da distribuição, identificar a classe
modal (aquela com maior altura) e fazer a construção abaixo:
1
3
6
2
0
1
2
3
4
5
6
7
1
classes
f
0 a 10
10 a 20
20 a 30
30 a 40
10. 3 Determinação da Mediana de uma distribuição de freqüência, Md
Procedimento:
1. Calcula-se P = , como a variável é contínua, não se preocupe se n é par ou ímpar;
50
2. Localizar P na coluna fac (valor igual ou imediatamente superior a P) identifica-se a
classe que contém a mediana (classe da );
3. Utiliza-se a fórmula:
Md = LMd +
Onde: L Md = limite inferior da classe onde esta P (mediana);
P = elemento mediano ; P = n / 2 ou P = fi / 2
fac ant = soma das freqüências anteriores à classe onde esta P;
h = amplitude da classe Md;
f dP = freqüência simples (fi) da classe onde esta P
Exemplo:
Classes fi Fac
35
45
5 5
45
55
12 17
55
65
18 35(classe Md)
65
75
14 49
75
85
6 55
85
95
3 58
58
10 passo: Calcula-se P = . Como n = 58, temos = 290;
2o passo: Identifica-se P na classe Md na coluna fac. Neste caso, a classe Md é a 3a;
3o passo: Aplica-se a fórmula
51
Md = LMd +
Neste caso:
LMd = limite inferior da classe Md = 55
n = número de elementos = 58
fac ant = soma das freqüências anteriores à classe Md = 17
h = amplitude da classe Md = 10
fdP = freqüência da classe Md = 18
Md = 55 + = 61,57
10.4 Separatrizes: mediana, quartís, decís e Percentís
As separatrizes são valores que ocupam determinados lugares de uma série
ordenada (rol). A mediana (Md) é uma separatriz que divide a distribuição (série
ordenada) em duas partes iguais, como já vimos anteriormente.
Os quartís, decís e Percentís são separatrizes como a mediana.
Os quartís dividem a distribuição em quatro partes iguais, os decís em dez
partes e os Percentís em cem partes iguais. Assim para dividir uma série ordenada
de valores em quatro partes iguais, precisamos de três separatrizes (quartís); para
dividi-la em dez, iremos recorrer a nove separatrizes (decís); em cem, recorremos a
noventa e nove separatrizes (Percentís).Para calculá-los usamos a mesma fórmula
da mediana, havendo diferença apenas nos divisores para a determinação das
posições em que se encontra o elemento desejado.
Quartís: (i = 1, 2, 3)
;
Decís: (i = 1,2,3, ... , 9) ;
; ; ; . . . . ;
Percentís: (i = 1,2,3, ... , 99) ;
; ; ; . . . ;
Nota: N é o número de elementos da distribuição = fi
11. MEDIDAS DE DISPERSÃO PARA VARIÁVEIS CONTÍNUAS
11.1 Cálculo do DMS para variável contínua.
52
Neste caso usa-se a mesma fórmula da variável discreta, substituindo o valor x i pelo
ponto médio da classe
Exemplo: Calcule o DMS da distribuição de freqüências abaixo:
Classes INT.CLASSE f i
1
2
3
4
3 5
5 7
7 9
9 11
4
8
6
4
Classe CLASSE f i di=
1
2
3
4
3 5
5 7
7 9
9 11
4
8
6
4
4
6
8
10
16
48
48
40
2,9
0,9
1,1
3,1
11,6
7,2
6,6
12,4
Então o DMS será: = .
Interpretação do resultado: Em média, cada elemento está afastado 1,7 unidades da
média 6,9.
11.2 Variância
Neste caso os valores contidos em certa classe i não são conhecidos. Calculam-se
então os valores médios das classes, denotados por .
53
Acrescentam-se mais quatro colunas a essa tabela. A primeira é o valor médio de cada classe a segunda é o produto
, a terceira é o desvio do valor médio de cada classe em relação à média da série e a quarta coluna é o produto .
A variância é calculada pela fórmula: V (x) = .
11.3- Desvio Padrão
O desvio padrão populacional é, portanto: S ou =
Se a variável representa uma amostra, a variância será denotada por , que é calculada
pela fórmula:
O desvio padrão amostral é dado por:
Exemplo: Calcule a variância e o desvio padrão para a distribuição de uma amostra dos
valores de 54 notas fiscais emitidas na mesma data, selecionadas em uma loja de
departamentos
Classe Consumo Por Nota
US$N0 de notas
1
2
3
4
5
6
0 50
50 100
100 150
150 200
200 250
250 300
10
28
12
2
1
1
Acrescentam-se as colunas que mostram os valores médios das classes ( ) e o
produto desses valores pelas respectivas freqüências. Isso é útil para se calcular o valor
médio da distribuição
Classe Consumo Por Nota
US$
N 0 de notas
fi
1
2
3
4
5
6
0 ‘ 50
50 100
100 150
150 200
200 250
250 300
10
28
12
2
1
1
25
75
125
175
225
275
250
2.100
1.500
350
225
275
54
54 4.700
A média é:
Finalmente acrescenta-se a coluna com os valores de di² . fi = .
Classe Consumo Por Nota US$ N 0 de notas
1
2
3
4
5
6
0 50
50 100
100 150
150 200
200 250
250 300
10
28
12
2
1
1
25
75
125
175
225
275
250
2.100
1.500
350
225
275
38.440
4.032
17.328
15.488
19.044
35.344
54 4.700 129.676
Variância =
Desvio padrão =
A unidade da variância, neste exemplo, é ( US$ ) 2 e a unidade do desvio padrão é US$.
Comentários sobre a variância e o desvio padrão.
A unidade em que a variância é expressa é o quadrado da unidade de medida de uma
série. Isso leva à conclusão que a variância não admite interpretação. Por exemplo, se os
dados são expressos em unidade de área , metro quadrado , por exemplo, a variância seria
expressa em metro elevado à quarta potência, o que não tem significado.
Entretanto, o desvio padrão tem a mesma unidade de medida dos dados, já que é a raiz
quadrada da variância. O desvio padrão admite, portanto uma interpretação, como será visto
nos exercícios. Em distribuições de freqüências em que os dados são simétricos em relação
à média, como na figura abaixo, o intervalo em torno dessa média, desde até
contém aproximadamente 68 % dos valores da série. Os intervalos e
contêm aproximadamente 95% e 99% dos valores da série,
respectivamente.
55
Se, por exemplo, temos uma série de dados que apresenta média e desvio
padrão , sendo esses dados distribuídos simetricamente em relação à média,
interpretamos esses valores como:
1) Os valores da série estão concentrados em torno de 50;
2) O intervalo contém aproximadamente 68 % dos valores da série;
3) O intervalo contém aproximadamente 95 % dos valores da série;
4) O intervalo contém aproximadamente 99 % dos valores da série.
As medidas de desvio padrão são medidas absolutas da dispersão dos dados de
uma série. Assim, se uma série X tem média 100m, com desvio padrão 5, e outra série Y
tem média 50 com desvio padrão 4, conclui-se que a série X tem uma dispersão absoluta
maior. Entretanto pode-se definir uma medida, chamada coeficiente de variação, que dá a
dispersão relativa da série. Esse coeficiente, denotado por CV(x), é dado por:
O coeficiente de variação é um número puro, ou seja, não tem unidade de medida.
Pode, portanto, ser expresso em porcentagem. Nos exemplos acima calcula-se que para a
série X CV(x) = 5% e para a série Y CV(y) = 8%. Nota-se, portanto, que a série X tem
uma dispersão relativa menor.
12.PROBABILIDADES
12.1 - Noções de Probabilidade Experimento aleatório, Eventos, Definição de
probabilidade, Tipos de eventos, Aplicações
INTRODUÇÃO
Consciente ou inconscientemente, a probabilidade é usada por qualquer indivíduo
que toma decisões em situações de incerteza. Conhecendo ou não regras de cálculo,
muitas pessoas interessam-se por eventos ligados às probabilidades.
São várias situações em que é desejável se ter uma medida (avaliação numérica)
de quão provável é a ocorrência de determinado evento futuro. Por exemplo: lançamento de
56
um produto, bons lucros em uma operação mercantil, meu time vai ganhar o próximo jogo,
etc. Por definição probabilidade pode ser calculada como:
P(A) = N.º de casos favoráveis de ocorrer o evento A
N.º de Casos possíveis no total
Como nas distribuições de freqüências, vamos tratar sobre as distribuições de
probabilidades de populações. Pode-se dizer que uma distribuição de freqüência de
uma amostra é uma estimativa das distribuições de probabilidades da população.
As análises das distribuições de probabilidades possibilitam a construção de
modelos que nos auxiliam no entendimento de fenômenos do mundo real.
VARIÁVEIS ALEATÓRIAS (V.A.)
Uma variável aleatória, X = v.a., fornece um meio para descrever por valores
numéricos os resultados experimentais.
Definição: Uma variável aleatória é uma descrição numérica do resultado de um
experimento
Classificação: variável aleatória discreta e variável aleatória contínua.
Definições: Uma v.a. é considerada discreta se toma valores que podem ser
contados, ou seja, pode assumir um número de valores de X for finito como uma seqüência
infinita numerável (0, 1, 2, 3, ).
Uma v.a. é considerada contínua se pode assumir qualquer valor numérico em um
intervalo ou uma coleção de intervalos.
Tabela 1 - Exemplos de variáveis aleatórias discretas
Experimento Variável aleatória (X) Possíveis valores para X
Contatar cinco clientes Nº de clientes que fecham pedido 0, 1, 2, 3, 4, 5
Inspecionar embarque de 50 rádios Número de rádios defeituosos 0, 1, 2,........48, 49, 50.
Operar um restaurante por um dia Número de clientes 0, 1, 2, 3, .........
Vender um automóvel Sexo do cliente 1 masculino. 2 feminino.
Tabela 2 - Exemplos de variáveis aleatórias Contínuas
Experimento Variável aleatória (X) Possíveis valores para X
Operar um banco Tempo de chegada dos clientes X ³ 0 ( em minutos)
Encher um copo de refrigerante Número de ml 0 £ X £ 343 mL (max.=343 mL)
Elaborar projeto de construção % concluído após 6 meses 0 £ X £ 100
Testar novo processo químico Temperatura ótima de reação 65 £ X £ 100
57
(min 65 oC, max. 100 oC)
obs.: a variável aleatória (x) será utilizada para estabelecer modelos teóricos de probabilidade com a
finalidade de descrever populações
P(A) = N.º de casos favoráveis de ocorrer o evento A
N.º de Casos possíveis no total
Exemplo . Qual a probabilidade de jogando-se um dado : a) sair o lado nº 2
Nº total de resultados ( 1,2,3,4,5,6) = 6 nº de casos favoráveis = ( só nº 2) = 1
P( x=2) = 1 / 6
b) de sair um nº par ?
Nºs pares = 2,4,6, = 3 casos favoráveis então
P (x=par) = 3 / 6
c) de sair um múltiplo de 3 ( múltiplos de 3 são 3,6)
Nºs múltiplos de 3 = 3,6 = 2 casos favoráveis então :
P (x=múltiplo de 3 ) = 2 / 6
d) de sair múltiplo de 3 e nº par ( múltiplos de3 são 3,6 Nºs pares= 2,4,6)
Nºs pares = 3,6, = 2 casos favoráveis então :
12.2 Teorema do Produto
Probabilidade de ocorrer A e B simultaneamente é simbolizado por P(A B) =
A intersecção com B e será = Prob A x Prob de B. O E em probabilidade significa
produto – eventos simultâneos, devem ocorrer os dois ao mesmo tempo
P ( par e múltiplo de 3 ) = P(par) x P(múltiplo de 3 ) = 3 / 6 X 2/6 = 6/36 = 1/6
P( A B) = 1 / 6
Por lógica temos que o único caso favorável de ser par e múltiplo de 3 simultaneamente é 6
P(x par e x múltiplo de 3) = 1/6
12.3 Teorema da Soma
e) de sair múltiplo de 3 ou nº. par ( múltiplos de 3 são 3,6; Nºs pares = 2,4,6).
Neste caso pode ocorrer um evento ou outro simbolizado por P(AUB) - probabilidade de
ocorrer A união com B = P(A) + P(B) – P( )
Probabilidade de ocorrer ou A ou B = Prob A + Prob de B - P( )
58
P (x=múltiplo de 3 ou par) = p( x3) + p(par) – p( x 3 e par ) = 3 / 6 + 2/6 – 1/6 = 5/6
A subtração da intersecção é necessária pois, estaríamos contando com o número 6 duas
vezes, 1 como nº par e outra como múltiplo de 3, o que não é realidade pois no dado, só
temos 1 vez o número 6
Exercícios de aplicação
1- Numa classe com 64 alunos, 16 são mulheres. Qual a probabilidade de sorteando
simultaneamente 2 alunos sejam :
a ) 2 HOMENS b ) 2 MULHERES c ) 2 HOMENS OU 2 MULHERES
Solução:
Temos no Total n=64 alunos sendo mulheres = 16 portanto, homens = 64-16 = 48 homens
a) P(homem) = 48 / 64 (sorteando um só) como são dois simultaneamente, teremos que
retirar um homem E outro homem. O E em probabilidade significa produto – eventos
simultâneos devem ocorrer os dois ao mesmo tempo.
Desta forma teremos que a probabilidade de sair um homem e a seguir outro homem será :
p(H1) x P(H2) = 48/64 x 48/64 = simplificando por 16 fica : 3 / 4 x 3 / 4 = 9 / 16
b) P(mulheres)
Analogamente a probabilidade de sair mulher e a seguir outra mulher será: p(M1) x P(M2) =
16/64 x 16/64 = simplificando por 16 fica: 1 / 4 x 1 / 4 = 1 / 16
d) P (2homens ou 2 mulheres) – o OU em probabilidades significa soma , como no caso
não temos a intersecção P( ) = 0
P(AUB) - probabilidade de ocorrer A união com B = P(A) + P(B)
então p(2H U 2M) = 9/16 + 1/16 = 10/16 = 5/8
12.4 Eventos com e sem reposição
Quando tivermos eventos com reposição dos elementos, significa que o Nº total deles
permanecerá sempre o mesmo , como no exemplo a seguir :
Uma urna tem 2 letras O , 2 C , 2 A , 1 D e 3 letras X .Qual a prob. de retirando-se uma a
uma formar na seqüência a palavra COCADA
a ) Com Reposição ; ; ; ; ; ; ;
Temos o total 10 letras, (será constante) pois, a cada retirada, a letra será reposta na urna
59
1º C 1º O 2º C 1º A 1º D 2º A
2/10 x 2/10 x 2/10 x 2/10 x 1/10 x 2/10 =
2x2x2x2x1x2 /10x10x10x10x10x10 = 32 / 1.000.000
para compararmos com o próximo resultado simplificando por 32 temos : 1 / 31.250
b) Sem Reposição
Temos no total 10 letras, que não será constante, pois, a cada retirada, o número total de
letras que permanecerão na urna será alterado (diminuindo de1) bem como as letras, veja
no exemplo:
1º C 1º O 2º C 1º A 1º D 2º A
2/10 x 2/9 x 1/8 x 2/7 x 2/6 x 1/5 =
2 x 2 x 1x 2 x 2 x 1/10 x 9 x 8 x 7 x 6 = 16 / 151.200
já saiu um C já saiu um A
Simplificando por 16 teremos: 1 / 9450
Compare os resultados e qual sua conclusão.
Faça os exercícios abaixo
1 - Uma urna tem 2 letras B , 2 N , 3 A , 1D . Qual a prob. de retirando-se uma a uma formar
BANANA ?
a ) Com Reposição b ) Sem Reposição
2 - Uma urna tem 2 letras S , 2 R , 3 U , 1 M .Qual a prob. de retirando-se uma a uma formar
a palavra SURURU ?
a ) Com Reposição b ) Sem Reposição
Extra: Agora que você já conhece a probabilidade, determine qual sua chance de
ganhar na Megasena jogando 6 dezenas (lembre-se que são sorteadas 6 dezenas SEM
REPOSIÇÃO, num total de 60 dezenas)
12.5 UNIÃO INTERSECÇÃO DE 2 E 3 CONJUNTOS . APLICAÇÕES
Relembrando
P(A ) = nº de casos favoráveis = p
Nº DE CASOS TOTAL
e a probabilidade desfavorável será = q probabilidade de não ocorrer o evento
p + q = 1 ou em percentual p + q = 100%
A probabilidade de sair o nº 4 no lançamento de um dado será
p = 1 / 6 = 0,1667 ou ainda 16,67%
Portanto a probabilidade de não sair o 4 será :
q = 1 – 1 / 6 = 5 / 6 = 0,8333 ou ainda 83,33%
60
Operações com 2 e 3 Conjuntos
Conceito : Coleção ou agrupamento de objetos , são representados por letra maiúscula
R = Números reais
Q = Números racionais ( sub conjunto dos reais)
N = Números naturais ( sub conjunto dos reais e racionais )
Q R Q esta contido em R
R Q R não esta contido em Q
Q R Q não contem R
Elemento : objetos que constituem um conjunto
OPERAÇÕES COM CONJUNTOS
União AUB = É o conjunto de elementos que pertencem a A ou B
Ex. A ={4,5,3} B = { 0,3,1} AUB = {4,5,3,0,1}
( não contamos 0 3 duas vezes )
Intersecção A B = É o conjunto de elementos que pertencem a A e B , simultaneamente
Ex. A ={ 4,5,3 } B = { 0,3,1} A B = { 3 }
Número de elementos de um conjunto n (A) = 3 n(B) = 3 conjunto finito
N ( R ) = conjunto infinito
NÚMERO DE ELEMENTOS DA UNIÃO DE 2 CONJUNTOS
n (AUB) = n (A) + n ( B ) - n (AB)
Ex. A = { 4,5,3 } B = { 0,3,1}
A B n(A) = 3
4 0 n(B) = 3
5 3 1 n(AB) = 1
n(AUB) = 3 + 3 - 1= 5 elementos
X Un=
Un =conjunto Universo = engloba todos os elementos de certo fenômeno, objeto de estudo
X = conjunto de outros elementos que não pertencem a A ou B
Exemplo Prático
61Número Total de elementos da União de 2 conjuntos e conjunto independente
n (Un)= n (A) + n ( B ) - n (AB) + X ( outros / nenhum )
Num levantamento efetuado com 600 aposentados, mostrou que muitos deles mantém
convênio médico com duas empresas particulares : A = Jesus te espera B = Hate Evil,
conforme quadro abaixo
empresa A B A e B só com INSS
convenio 430 160 60
Pergunta-se qual a probabilidade de serem a ) filiados às duas empresas ?
b ) Quantos são filiados exclusivamente à Jesus te espera ?
Número Total de elementos da União de 2 conjuntos e conjunto independente
Un = n (A) + n ( B ) - n + X ( outros / nenhum )
600 = 430 + 160 - + 60
X = conjunto de outros elementos que não pertencem a A nem a B
600 =430 + 160 - n + 60 A= 430 B = 160 n( ) =650 - 600 Exclusivamente A = 430 – 50 = 380 380 50 110 Exclusivamente B = 160 – 50 = 110
INSS Respostas: a ) 50 / 600 60 Un= 600 b ) 380 / 600
Estude os exercícios abaixo
1 - Numa pesquisa sobre presentes de Natal, uma loja ouviu 2050 meninos, obtendo:
700 querem Play Station 2, 850 querem Autorama e 100 querem PS2 e Autorama
Brinquedo P S 2 Autorama PS2 e Autorama outros
Querem 700 850 100
Determine a probabilidade de meninos que:
a ) Querem OUTROS presentes ? 600 / 2050
b ) Exclusivamente Play Station 2 ? 600 / 2050
c ) NÃO querem Autorama ? 1200/2050
Un = n (A) + n ( B ) - n + outros
2050 = 700 + 850 – 100 + outros
Outros = 2050 – 1450 = 600
PS 2 = 700 A=850
600 100 75062
600 Outros U = 2.050
2 - Numa pesquisa margarinas, um supermercado ouviu 2.000 mulheres, obtendo:
Margarina Doriana Milla D e M outras
Aprovam 1.150 800 400
O supermercado quer saber quantas mulheres e respectivo percentual ( probabilidade)
a) Aprovam as duas margarinas?
b) Exclusivamente Doriana ?
c) NÃO querem Milla?
Un = n (A) + n ( B ) - n + outros
2000 = 1150 + 800 - n + 400
= 2350 – 2000 = 350
D=1150 M=800
800 350 450
Outros
400 U = 2.000
3 - Numa pesquisa sobre preservativos uma empresa ouviu 3.000 meninos, obtendo:
preservativo. Jontex Olla J e O outras
aprovam 1500 600 900
Assim, o povo quer saber qual a probabilidade de garotos que aprovam
a) as duas marcas ?
b )que aprovam exclusivamente Olla ?
c )que NÃO usam Jontex ?
d) que aprovam Outras marcas ?
Un = n (A) + n ( B ) - n + outros
3000 = 1500 + O – 600 + 900
O = 3000 – 1800 = 1200
J =1.500 O =1.200
900 600 600
900 Outras U =3.000
63
NÚMERO DE ELEMENTOS DA UNIÃO DE 3 CONJUNTOS
n (AUBUC) = n (A) + n ( B ) + n ( C ) - n ( ) - n ( ) - n ( ) + n ( )
A B
X = Outros ou nenhum
C U =
Número Total de elementos da União de 3 conjuntos e conjunto independente
n (Un)= n (A) + n ( B ) + n ( C ) - n (AIB) - n (AIC) - n (BIC) + n (AIBIC) + X
Un = Universo = engloba todos os elementos de determinado fenômeno, objeto de estudo
X = conjunto de outros elementos que não pertencem a A nem a B nem C , denominado de outros ou de nenhum,
Exemplo Prático
Numa pesquisa do Campeonato Paulista 2007, obtivemos as seguintes opiniões sobre o futuro Campeão:
CAMPEÃO Santos Corinthians São Paulo S e C S e SP C e SP CeSeSP outrosPONTADO 600 800 600 200 150 250 100 1.500
S =600 C = 800 350 450 100 100 50 150 300 Outros 1.500 SP = 600
U = ?Pergunta-se Quantas pessoas foram ouvidas?
Qual a probabilidade de apontarem:
a ) exclusivamente o São Paulo b ) no mínimo 2 destes times
c ) o Santos ? d ) não apontaram o Timão ?
64
Para resolvermos exercícios deste tipo devemos determinar o número total de elementos
através da fórmula :
n (Un)= n (A) + n ( B ) + n ( C ) – n (AIB) - n (AIC) - n (BIC) + n (AIBIC) + X
U = 600 + 800 + 600 – 200 – 150 – 250 + 100 + 1500 = 3.000
Quando tivermos todos os elementos dos conjuntos poderemos traçar o gráfico sempre
iniciando do valor central no caso 100 torcedores (Intersecção dos três conjuntos).
Agora deveremos colocar no gráfico os elementos das intersecções de 2 conjuntos,
Não esquecer de subtrair os elementos da intersecção de 3 conjuntos
Santos e Corinthians são 200 -100 = 100
Santos e São Paulo são 150 -100 = 50
São Paulo e Corinthians são 250 – 100 = 150
O último passo é colocarmos no gráfico os elementos exclusivos de cada conjunto,
adotando o seguinte procedimento:
O conjunto do Santos deve conter 600 elementos e já possui 100 da intersecção dos três
conjuntos, 100 da intersecção com Corinthians e 50 da Intersecção com o São Paulo,
fazendo um total de 250 elementos.
Para completarmos os 600 elementos do conjunto do Santos temos 600 – 250 = 350
elementos que apontaram exclusivamente o Santos .
De maneira análoga faremos com o conjunto do São Paulo e do Corinthians
São Paulo = 600
Exclusivamente SP = 600 -100 - 50 – 150 = 300
Corinthians = 800
Exclusivamente Corinthians = 800-100 - 100 – 150 = 450
Somando-se todos os elementos internos dos conjuntos obteremos 1.500 torcedores que
adicionado aos 1.500 que apontaram outros times darão os 3.000 elementos ouvidos na
pesquisa.
65
BIBLIOGRAFIA CONSULTADA:
1. BUSSAB, W. O. & MORETIN, P. Métodos Quantitativos: Estatística Básica. 4a ed. São
Paulo. Atual. 1997.
2. DOWNING, D. & CLARK, J. Estatística Aplicada. São Paulo. Saraiva 1997.
3. LEVIN, Jack. Estatística aplicada a ciências humanas. 2a.ed. Trad. COSTA, Sérgio
Francisco. São Paulo : Harbra, 1987.
4. MARTINS, Gilberto Andrade. Estatística geral e aplicada. 2a ed. São Paulo: Atlas, 2002.
5. MARTINS, Gilberto De Andrade, DONAIRE, Denis. Princípios de Estatística. 4a ed. São
Paulo: Atlas, 1979
6. RICCI, Delcínio Estatística Básica para cursos de Administração e Comércio Exterior,
apostila Uni A
7. SAMARA, Beatriz & Barros, José Carlos. Pesquisa de Marketing. São Paulo: Makron Books,
1997.
8. SILVA da, E. M. e colaboradores. Estatística para os Cursos de Economia, Administração
e Ciências Contábeis. V. 01 e 02. 2a ed. São Paulo. Atlas.1997
9. SMAILES, Joanne; MC GRANE, Ângela. Estatística aplicada á administração com Excel.
1a ed. Trad. BRITO, Christiane. São Paulo: Atlas, 2000.
10. STEVENSON,W. J.Estatística Aplicada à Administração. 2a ed. São Paulo. Harbra. 1986.
66
BIBLIOGRAFIAS SUGERIDAS
ANDERSON, David R. Estatística aplicada à administração e economia. 2a ed. Trad. PAIVA, Luís
Sérgio Castro. São Paulo: Pioneira, 2002.
FREUND, John E. & SIMON Geray A. Estatística aplicada para economia, administração e ciências
contábeis. 9a ed., Trad. FARIA, Alfredo Alves de. Porto Alegre: Bookman, 2000.
FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de estatística. 6a.ed. Sao Paulo :
Atlas,1996.
LEVIN, Jack. Estatística aplicada a ciências humanas. 2a.ed. Trad. COSTA, Sérgio Francisco. São
Paulo : Harbra, 1987.
MARTINS, Gilberto Andrade. Estatística geral e aplicada. 2a ed. São Paulo: Atlas, 2002.
OVALLE, Izidoro Ivo. Estatística básica. 2a ed. São Paulo: Atlas,1995.
SMAILES, Joanne; MC GRANE, Ângela. Estatística aplicada á administração com Excel. 1a ed. Trad.
BRITO, Christiane. São Paulo: Atlas, 2000.
ESTATÍSTICA NA INTERNET
Colaboração: Prof. Gilberto Teixeira (FEA/USP)
1. SOFTWARE DE ESTATÍSTICA (Vários)
www.awl-ile.com/stats/index.html
2. DATA DESK 6.0
Software de estatística exploratória
www.awl-ile.com/datadesk/index.html
3. ACTIVE STATS
Curso online interativo
www.awl-ile.com/stats/activestats/index.html
4. ANÁLISE ESTATÍSTICA – Curso on line
www.stat.sc.edu
5. LABORATÓRIO VIRTUAL DE ESTATÍSTICA
Curso on line com muitos links
www.ruf.rice.edu/~lane/hyperstat/contents.html
6. CENTER FOR SOCIAL RESEARCH METHODS
Tudo sobre metodologia de pesquisa
http://trochim.human.cornell.edu/index.html
7. METODOLOGIA DE PESQUISA67
Site rico de informações, tutoriais, softwares, etc
www.york.ac.uk/ins/ctipsuch/resources/res.html
8. STATISCOPE
Software on line para criação de gráficos estatísticos
http://www.df.eth.se/~mikaelb/statiscope
9. WEBSTAT
Software (On line) construído em JAVA com rotinas de Análise Estatística
http:www.stat.sc.edu/~west/webstat
10. CLICK AND LEAR REGRESSION
Software para ensinar regressão (US$ 35,00)
http://nsns.com/click/
11. ACTIVSTATS Software para ensinar estatística – Curso completo
http:www.awl-ile.com/stats/activstats/index.html
12. BUSINESS STATISTICS
Livro com curso completo de estatística – on line (122pg)
http://ubmail.ubalt.edu/~harsham/business-stat/opre564.hb4
Versão interativa em:
http://ubonline.edu/courses/msb/demo/opre504c.nsl
68