60
Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas. 2º Sem. 2012. 1 Disciplina: PROBABILIDADE e ESTATÍSTICA (1ª parte) Mensagem aos estudantes. Prezados estudantes de Probabilidade e Estatística. No projeto do Curso, nossas aulas estão programadas como atividades teóricas. Entretanto, paralelamente ao desenvolvimento dos conteúdos, realizaremos a orientação sobre a solução dos exercícios propostos, incluindo a utilização de softwares. Dentre os utilizados, destacamos principalmente o Excel, Estat D+, R e Sisvar. Bons estudos! A Estatística desempenha papel importante em quase todas as fases da pesquisa humana. Lidando anteriormente apenas com os negócios de Estado de onde se origina seu nome (do latim status), a influência da estatística estendeu-se agora à agricultura, biologia, comércio, química, física, comunicações, economia, educação, ciências políticas, psicologia, sociologia e todos os campos das tecnologias e engenharias. 1. Conceitos preliminares. 1.1 Estatística. Quando as sociedades primitivas se organizaram sentiram necessidade de tomar decisões que exigiam o conhecimento numérico dos recursos disponíveis. As primeiras estatísticas foram realizadas para os governantes das grandes civilizações antigas tomarem conhecimento dos bens que o Estado possuía e como estavam distribuídos pela população. O primeiro dado disponível sobre um levantamento estatístico foi referido por Heródoto o qual diz que em 3050 a. C. se efetuou um estudo da riqueza da população do Egito, cuja finalidade era averiguar quais os recursos humanos e econômicos disponíveis para a construção das pirâmides. No ano 2238 a. C. realizou-se uma estatística ordenada pelo imperador chinês Yao com fins industriais e comerciais. No ano 1400 a. C. Ramsés II mandou realizar um levantamento das terras do Egito. Outro exemplo dos primórdios da estatística encontra-se na Bíblia, através do evangelista Lucas, que nos conta a penosa viagem do casal José e Maria, quando ela estava nos dias de ganhar o menino Jesus. Eles eram judeus e moravam em Nazaré, um vilarejo da Galiléia. Toda a região estava sob o domínio dos romanos e o imperador César Augusto ordenara o recenseamento da população, exigindo que cada família se inscrevesse em sua cidade de origem. Como as famílias deles eram de Belém, cidadezinha da Judéia, precisaram viajar às pressas para cumprir a ordem do imperador (cf. Lucas 2,1 –14). A literatura especializada no tema apresenta duas prováveis origens para a palavra estatística. Do latim status, que significa estado. Do grego statistós, de statízo, que significa estabelecer ou verificar. Como a conceituamos atualmente, a palavra Estatística apareceu pela primeira vez no século XVIII e foi sugerida pelo alemão Gottfried Achemmel (1719-1772). “A Estatística está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise de dados bem como na obtenção de conclusões válidas e na tomada de decisões razoáveis baseadas em tais análises” (SPIEGEL, 1993). “A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento” (MAGALHÃES, 2008). Observação. Em sentido mais restrito, o termo é usado para designar os próprios dados ou números deles derivados como, por exemplo, médias. Assim falamos de estatística de empregos, de acidentes, etc. Dados – conjunto de valores, numéricos ou não. A Teoria Estatística se divide em dois grandes campos: A Estatística Descritiva e a Estatística Indutiva ou Inferencial.

Notas de Aula - 1

Embed Size (px)

Citation preview

Page 1: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

1

Disciplina: PROBABILIDADE e ESTATÍSTICA (1ª parte) Mensagem aos estudantes. Prezados estudantes de Probabilidade e Estatística. No projeto do Curso, nossas aulas estão programadas como atividades teóricas. Entretanto, paralelamente ao desenvolvimento dos conteúdos, realizaremos a orientação sobre a solução dos exercícios propostos, incluindo a utilização de softwares. Dentre os utilizados, destacamos principalmente o Excel, Estat D+, R e Sisvar.

Bons estudos!

A Estatística desempenha papel importante em quase todas as fases da pesquisa humana. Lidando anteriormente apenas com os negócios de Estado de onde se origina seu nome (do latim status), a influência da estatística estendeu-se agora à agricultura, biologia, comércio, química, física, comunicações, economia, educação, ciências políticas, psicologia, sociologia e todos os campos das tecnologias e engenharias. 1. Conceitos preliminares. 1.1 Estatística.

Quando as sociedades primitivas se organizaram sentiram necessidade de tomar decisões que exigiam o conhecimento numérico dos recursos disponíveis. As primeiras estatísticas foram realizadas para os governantes das grandes civilizações antigas tomarem conhecimento dos bens que o Estado possuía e como estavam distribuídos pela população.

O primeiro dado disponível sobre um levantamento estatístico foi referido por Heródoto o qual diz que em 3050 a. C. se efetuou um estudo da riqueza da população do Egito, cuja finalidade era averiguar quais os recursos humanos e econômicos disponíveis para a construção das pirâmides.

No ano 2238 a. C. realizou-se uma estatística ordenada pelo imperador chinês Yao com fins industriais e comerciais.

No ano 1400 a. C. Ramsés II mandou realizar um levantamento das terras do Egito. Outro exemplo dos primórdios da estatística encontra-se na Bíblia, através do evangelista

Lucas, que nos conta a penosa viagem do casal José e Maria, quando ela estava nos dias de ganhar o menino Jesus. Eles eram judeus e moravam em Nazaré, um vilarejo da Galiléia. Toda a região estava sob o domínio dos romanos e o imperador César Augusto ordenara o recenseamento da população, exigindo que cada família se inscrevesse em sua cidade de origem. Como as famílias deles eram de Belém, cidadezinha da Judéia, precisaram viajar às pressas para cumprir a ordem do imperador (cf. Lucas 2,1 –14).

A literatura especializada no tema apresenta duas prováveis origens para a palavra estatística. Do latim status, que significa estado. Do grego statistós, de statízo, que significa estabelecer ou verificar.

Como a conceituamos atualmente, a palavra Estatística apareceu pela primeira vez no século XVIII e foi sugerida pelo alemão Gottfried Achemmel (1719-1772).

“A Estatística está interessada nos métodos científicos para coleta, organização, resumo, apresentação e análise de dados bem como na obtenção de conclusões válidas e na tomada de decisões razoáveis baseadas em tais análises” (SPIEGEL, 1993).

“A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento” (MAGALHÃES, 2008). Observação. Em sentido mais restrito, o termo é usado para designar os próprios dados ou números deles derivados como, por exemplo, médias. Assim falamos de estatística de empregos, de acidentes, etc. Dados – conjunto de valores, numéricos ou não.

A Teoria Estatística se divide em dois grandes campos: A Estatística Descritiva e a Estatística Indutiva ou Inferencial.

Page 2: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

2 1.1.1 Estatística Descritiva – consiste num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa por um número pequeno de medidas, substitutas e representantes daquela massa de dados. A coleta, a organização e a descrição dos dados, estão a cargo da Estatística Descritiva. É também empregada na análise exploratória dos dados. 1.1.2 Estatística Indutiva ou Inferencial – consiste em inferir propriedades de um universo sobre a base de uma amostra – tomar decisões a respeito de uma população, geralmente utilizando dados de uma amostra. Para essas decisões faz-se uso da Teoria da Probabilidade. A análise e a interpretação dos dados coletados ficam a cargo da Estatística Indutiva ou Inferencial. Observação. Alguns autores consideram a Probabilidade como uma das divisões da Estatística. “Probabilidade pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriunda de fenômenos de caráter aleatório” (MAGALHÃES, 2008). 1.2 Fases do Método Estatístico. 1.2.1 Definição do Problema. Descrição dos objetivos da pesquisa e identificação da população/amostra 1.2.2 Planejamento. Identificação das variáveis, método de investigação, técnicas de amostragem, apuração dos dados, pesquisa piloto e cronograma físico-financeiro. 1.2.3 Coleta de Dados.

A coleta pode ser direta e indireta. É direta quando feita sobre elementos informativos de registros obrigatórios (nascimentos,

casamentos e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola, ou ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários, como é o caso das notas de verificação e de exames do censo demográfico, etc.

A coleta direta de dados pode ser classificada relativamente ao fator tempo em: a) contínua – também denominada registro, é feita continuamente, tal como a de nascimentos, casamentos e óbitos ou como no de vendas a vista de uma empresa comercial; b) periódica – quando feita em intervalos constantes de tempo, como os censos em geral (de 10 em 10 anos) e os balanços de uma empresa comercial; c) ocasional – quando feita de tal modo que não se considera o tempo em continuidade e nem periódico, a saber, independente do tempo e é feita quando a requer o estudo de um fenômeno. São realizadas a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros.

A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como por exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta. É coleta indireta também, a pesquisa sobre a duração de vida do ser humano que pode ser feita com os dados colhidos através da coleta direta, obtidos pelos cartórios ou os valores representativos das vendas de uma empresa que são extraídos das notas fiscais e do caixa. 1.2.4 Crítica dos dados.

Com o propósito de identificar possíveis falhas e imperfeições que possam ocasionar erros grosseiros ou de certo vulto e assim, influenciar os resultados, os dados devem se cuidadosamente criticados.

A crítica pode ser externa ou interna. a) Externa: quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; b) Interna: quando visa observar os elementos originais dos dados da coleta. 1.2.5 Apuração dos dados.

É o processamento dos dados obtidos e a disposição mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica. 1.2.6 Exposição ou apresentação dos dados.

Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e posterior obtenção de médias, modas, medianas, etc. 1.2.7 Análise dos resultados.

Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo (população) a partir de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases

Page 3: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

3 anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos através dos métodos da Estatística Indutiva ou Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusões e previsões. 1.3 Variáveis.

Uma variável é um símbolo, como x, y, z, etc. que pode assumir qualquer um de um conjunto de valores correspondentes aos dados observados. É importante ressaltar que os dados em questão não são necessariamente numéricos.

A cada fenômeno corresponde um número de resultados possíveis. Assim por exemplo: � para o fenômeno “sexo” são dois os resultados possíveis: sexo masculino e sexo feminino; � para o fenômeno “número de filhos” há um número de resultados possíveis expresso através dos

números naturais: 0, 1, 2, 3, ...., n; � para o fenômeno “estatura” temos uma situação diferente, pois os resultados podem tomar um

número infinito de valores numéricos dentro de um determinado intervalo; � para o fenômeno “lançamento de um dado” são seis os resultados possíveis: 1,2,3,4,5 ou 6; � para o fenômeno “peso dos estudantes de uma classe”, igualmente ao caso da “estatura”, podem

tomar um número infinito de valores numéricos, pois um dos alunos tanto pode pesar 67 kg, como 67,5 kg, 67,54 kg, etc.

1.3.1.Variável qualitativa – quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (branca, preta, amarela, vermelha, parda), tamanho (pequeno, médio ou grande) etc. 1.3.1.1 Qualitativa ordinal – tem uma ordenação natural, indicando intensidades crescentes de realização. Exemplo. Classe Social (baixa, média ou alta). 1.3.1.2 Qualitativa nominal – Quando não é possível estabelecer uma ordem natural. Exemplo. Fuma (sim, não). 1.3.2 Variável quantitativa – quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola etc.). 1.3.2.1 Variável contínua – uma variável quantitativa que pode assumir, teoricamente, qualquer valor entre dois limites, chama-se variável contínua.

Por exemplo, na determinação das alturas dos adolescentes de uma escola, a variável “altura” é continua. Seja uma classe onde o menor aluno possui 155 cm e o mais alto 190 cm, os demais alunos podem assumir qualquer altura nesse intervalo, digamos 168,5 cm. 1.3.2.2 Variável discreta – uma variável quantitativa que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome de variável discreta.

Por exemplo, na determinação do número de alunos de uma certa turma, a variável, “número de alunos” é discreta.

De um modo geral, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. 1.4 População e Amostra. 1.4.1 População Estatística ou Universo Estatístico. É o conjunto de entes portadores de pelo menos uma característica comum.

Por exemplo, os estudantes constituem uma população, apresentam pelo menos uma característica comum: são os que estudam.

As populações podem ser finitas, como, por exemplo, os alunos matriculados em determinada escola, ou infinitas, como por exemplo, os resultados obtidos quando se joga um dado sucessivamente. Existem populações que embora finita, são consideradas infinitas para qualquer finalidade prática. Como exemplo, imagine o número de peixes que há no mar.

Como em qualquer estudo estatístico temos em mente pesquisar uma ou mais características dos elementos de alguma população, esta característica deve estar perfeitamente definida. 1.4.2 Amostra.

Por impossibilidade ou inviabilidade econômica ou temporal, muitas vezes, limitamos as observações referentes a uma determinada pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra.

“Uma amostra é um subconjunto finito de uma população”

Page 4: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

4 Exemplos:

1) Se quisermos estudar a altura dos alunos de um colégio, estes alunos formam a População e qualquer subconjunto desta é uma amostra.

2) Se quisermos estudar a idade de todas as pessoas que moram num edifício teremos uma População e qualquer subconjunto é uma Amostra. 1.4.3 Amostragem.

É uma técnica especial para recolher amostras, que garanta, tanto quanto possível, o acaso na escolha. Dessa forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o que garante à amostra o caráter de representatividade, da população da qual foi extraída. Uma amostra é representativa de uma população quando é composta por elementos escolhidos de forma não tendenciosa, geralmente, por um procedimento que garanta a casualidade, procedimento importante para a confiabilidade dos resultados e necessário à inferência.

Grande parte das pesquisas científicas ou de resolução de problemas de engenharia é feita por amostragem, ou seja, observamos apenas um subconjunto de elementos da população. A amostragem é particular mente interessante quando:

� a população é particularmente grande ou infinita; � as observações ou mensurações têm alto custo; � as medidas exigem testes destrutivos; � há necessidade de rapidez etc.

1.4.4 Técnicas de Amostragem. a) Amostragem casual ou aleatória simples.

Este tipo de amostragem é equivalente a um sorteio lotérico. Na pratica, a amostragem casual ou aleatória simples pode ser realizada numerando-se a

população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra. Exemplo:

Vamos obter uma amostra representativa para a pesquisa da estatura de noventa alunos de uma escola:

1) Numeramos os alunos de 01 a 90. 2) Escrevemos os números, de 01 a 90, em pedaços iguais de um mesmo papel, colocando-os dentro de uma caixa. Agitamos sempre a caixa para misturar bem os pedaços de papel e retiramos, um a um, nove números que formarão a amostra. Neste caso, 10% da população.

Quando o número de elementos da amostra é grande, esse tipo de sorteio torna-se muito trabalhoso.

Este procedimento pode ser realizado com a utilização de números randômicos que podem ser gerados por uma calculadora científica. Ao adicionar a função RAN (função randômica) sucessivamente, os números aleatórios são gerados, ou seja, cada vez que esta função é acionada, a calculadora gera um novo número que deve ser registrado. Suponha que um pesquisador necessite de números de 1 a 100 para uma amostra de 5 elementos. Aplicando a função RAN os números gerados pela calculadora sejam naquela aplicação: 0,923 – 0,041 – 0,050 – 0,650 – 0433 – 0,008 – 0,794 – 0,697 – 0,087 – 0,543 – 0,038.

RAN

Page 5: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

5 Para gerar uma tabela de números aleatórios, o pesquisador pode também fazer uso do

programa Excel. Com o programa aberto, selecione uma célula qualquer.

Dá-se um clik no ícone “colar função” que geralmente encontra-se habilitado na barra

de ferramentas do programa. Ao adicionar este ícone, abre-se a janela inserir função. Uma vez acionada esta janela do

programa, o pesquisador poderá selecionar, nas opções selecione uma categoria Matemática e trigonometria. Na opção selecione uma função seleciona-se ALEATÓRIO seguido da opção OK. Este procedimento insere na célula selecionada um número aleatório entre 0 e 1. Para gerar uma tabela, basta colocar a ponteira do mouse na alça de preenchimento e arrastá-la; assim, o programa gera em cada nova célula, outro número aleatório, tanto no sentido horizontal como no sentido vertical.

Exemplo.

0,581454 0,875907 0,496074

0,332111 0,151237 0,507445

0,877296 0,82724 0,53584

0,132611 0,693259 0,704523 Ou, na barra de ferramentas, inserir fórmulas, digite = ALEATÓRIO( ). Também podemos utilizar o comando ALEATÓRIOENTRE(inferior; superior)

Page 6: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

6

Com auxílio do programa R. Utilizar o comando > set.seed(arbitrar um valor numérico) > rnorm(número igual à quantidade de números aleatórios desejados)

Ou, retirar uma quantidade pré-definida entre dois limites. Comando: sample(inferior:superior, n).

b) Amostragem proporcional estratificada.

Muitas vezes a população se divide em subpopulações – estratos. Como é provável que a variável em estudo apresente, de estrato, um comportamento

heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos.

É exatamente isso que fazemos quando empregamos a amostragem proporcional estratificada, que, além de considerar a existência dos estratos, obtém os elementos da amostra proporcional ao número de elementos dos mesmos. Exemplo:

Dada a população de 50.000 operários da indústria automobilística, formar uma amostra de 5% de operários para estimar seu salário médio.

Cargos População Amostra Chefes de seção 5.000 250 Operários especializados 15.000 750 Operários não especializados 30.000 1.500 Total 50.000 2.500

A amostragem por estratificação tem as seguintes características: 1) dentro de cada estrato há uma grande homogeneidade, ou então uma pequena variabilidade: 2) entre os estratos há uma grande heterogeneidade, ou então uma grande variabilidade. c) Amostragem por Conglomerados.

A população é dividida em diferentes conglomerados (grupos). Seleciona-se um conglomerado e dentro dele são realizados os estudos.

Se estivermos interessados no salário médio dos operários da indústria automobilística, como no exemplo anterior, podemos selecionar uma montadora e, dentro dela, estudar os salários.

Há uma mudança fundamental na unidade de sorteio. Passamos de elemento para grupo. Consideramos conglomerados os grupos de elementos com as seguintes características:

1) dentro de cada conglomerado há uma grande heterogeneidade, ou então uma grande variabilidade; 2) entre os conglomerados há uma grande homogeneidade, ou então uma pequena variabilidade. d) Amostragem Sistemática.

Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referências. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, as linhas de produção, etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos sistemática.

Page 7: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

7 Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um

para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o tamanho da amostra em 10% da população. Exemplo.

Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma amostra formada por cinqüenta prédios. Podemos, neste caso, usar o seguinte procedimento: como 900/50 = 18, escolheremos por sorteio casual um número de 1 a 18 (inclusive), o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado fosse o 4, tomaríamos, pelo lado direito da rua, o 4o prédio, o 22o, o 40o etc, até voltarmos ao início da rua, pelo lado esquerdo. 1.4.5 Tendenciosidade da Amostra

Muitas vezes as amostras são constituídas por pessoas que devem executar algum tipo de tarefa, como responder perguntas, preencher um questionário ou até mesmo testar um produto. Algumas pessoas se recusam a cooperar. Nesses casos é preciso ter muito senso crítico para avaliar se a amostra efetivamente utilizada é representativa da população. Sempre é possível que a amostra obtida seja tendenciosa ou viciada, isto é, não representativa da população.

O senso crítico ainda é mais importante quando as amostras são constituídas por voluntários. Muitas vezes, o procedimento usado para solicitar voluntários conduz à formação de amostras tendenciosas. Como por exemplo, imagine que um professor de educação física peça que três alunos da turma se apresentem como voluntários para apostar uma corrida. Ora, é bastante razoável imaginar que, neste caso, se apresentarão como voluntários apenas os alunos que sabem ser bons corredores. Então, os três alunos não constituirão uma amostra representativa da turma, mas uma amostra tendenciosa ou viciada. 2. Apresentação de Dados.

Basicamente a apresentação de dados é feita através de tabelas, quadros e gráficos. Tabela é um arranjo de dados na forma de grade com laterais abertas enquanto o quadro

possui as laterais fechadas. As tabelas são mais utilizadas para informações numéricas e os quadros para informações não numéricas. Exemplo de formatos de tabelas e quadros. Superfície dos oceanos. Oceano Superfície Pacífico 180 Atlântico 105 Índico 73 Antártico 20 Ártico 12 Total 390 Fonte: (GIOVANNI, 2009 p. 461) (em milhões de Km2)

Brasil, suas Regiões e Estados. Fonte: www.infoescola.com (23/02/2009) 2.1 Componentes de uma tabela ou quadro. a) Cabeçalho – informações sobre os dados da tabela/quadro. O que? Quando? Onde? b) Corpo – espaço interno à tabela/quadro destinado à apresentação dos dados. c) Rodapé – contém a fonte dos dados e demais informações necessárias ao entendimento, tais como, como notas ou chamadas.

Região Estados Sul Paraná, Rio Grande do Sul e Santa Catarina

Sudeste Espírito Santo, Minas Gerais, Rio de Janeiro e São Paulo Centro-Oeste Distrito Federal, Goiás, Mato Grosso e Mato Grosso do Sul

Nordeste Alagoas, Bahia, Ceará, Maranhão, Paraíba, Piauí, Rio Grande do Norte e Sergipe

Norte Acre, Amapá, Amazonas, Pará, Rondônia, Roraima e Tocantins

Page 8: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

8 3. Distribuições de Frequências.

As pesquisas desenvolvidas, o controle de processos, enfim, a interpretação dos diversos fenômenos do meio físico, precisam ser organizados, de modo a permitir uma visualização global do comportamento das variáveis que os determinam.

Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão ampla da variação dessa ou dessas variáveis. E isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos. 3.1 Dados Brutos. São aqueles que ainda não foram organizados. Um exemplo é o conjunto das alturas de 100 estudantes tirado de uma lista alfabética do registro da universidade. 3.2 Rol. É um arranjo de dados brutos em ordem crescente ou decrescente. Pode-se realizar a ordenação com o auxílio do Excel. Exemplo. O conjunto de dados ao lado contém informações sobre uma turma de alunos. Cada coluna contém informação de uma variável e cada linha contém a informação de um aluno. Na primeira célula de cada coluna temos o título de cada variável. Assim temos que nas colunas: A: número de ordem do aluno; B: a idade; C: o sexo; D: as respostas dadas à pergunta “Usa Celular?”

Todo conjunto de dados pode ser ordenado de forma crescente ou decrescente. Usando o

EXCEL, um conjunto de dados contendo informações sobre uma ou mais variáveis (como ocorre no conjunto a cima) pode ser ordenado segundo a(s) variável(eis) desejada(s).

Por exemplo, para ordenar o conjunto segundo a variável sexo devemos realizar os seguintes

passos:

Page 9: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

9 1. Selecione todo o conjunto de dados incluindo a linha de títulos. 2. Classificação crescente ou decrescente.

3.3 Frequência simples ou absoluta. Frequência simples ou absoluta (fi) do valor xi é o número de vezes que a variável estatística assume o valor xi .

Vamos analisar a seguinte situação: Consideremos o quadro seguinte que mostra as notas de Matemática dos alunos de uma

classe de 8o Série de uma determinada Escola. Notas da prova de Matemática do 8º ano.

Disciplina: Matemática Turma: 8 º ano Número 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Nota 5,0 4,0 6,0 8,0 3,0 5,0 7,0 6,0 8,0 4,0 6,0 9,0 7,0 5,0 7,0 5,0 6,0 8,0 7,0 9,0 4,0 6,0 6,0 8,0 7,0

Fonte: (GIOVANNI, 2009 p. 453) Nesse caso temos:

� População estatística: grupo de 25 alunos do 8º ano � Unidade estatística: cada aluno desse ano � Variável estatística: as notas da prova de Matemática

A partir desse conhecimento, elaboramos a seguinte tabela: Notas da prova de Matemática do 8º ano. i Notas (xi) Número de alunos(fi) 1 0 0 2 1,0 0 3 2,0 0 4 3,0 1 5 4,0 3 6 5,0 4 7 6,0 6 8 7,0 5 9 8,0 4

10 9,0 2 11 10,0 0

Fonte: (GIOVANNI, 2009 p. 453) Com o uso do Excel.

Page 10: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

10 Ordenar o conjunto de dados segundo a variável desejada. A baixo vê-se o conjunto dados

ordenados segundo as variáveis idade e sexo: Desenhar a tabela como no exemplo. As linhas da tabela são feitas selecionando na opção

Bordas.

A contagem de observações na categoria (valor) desejado é feita posicionando o cursor na

célula referente a esta categoria (no exemplo sexo feminino). Na caixa de diálogo selecionar na caixa Categoria da função: Estatística. Na caixa Selecione

uma função: abrir a janela CONT.VALORES.

Após isto, marcar todas as observações da variável desejada (no exemplo, todas as categorias

do sexo feminino (F) que estão nas células C2 a C19). Clicar no botão OK.

Page 11: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

11

Mas o processo dado pode ser inconveniente, já que exige muito espaço, mesmo quando o

número de valores da variável é de tamanho razoável. Sendo possível, a solução mais aceitável, pela própria natureza da variável contínua, é o agrupamento de valores em vários intervalos.

Assim, se um dos intervalos for, por exemplo, 0| 4,0, (é um intervalo fechado à esquerda e aberto à direita, 0 ≤x< 4,0) em vez de dizermos que a nota de nenhum aluno é 0 ou 1,0 ou 2,0 e de 1 aluno é 3,0, diremos que 1 aluno tem nota entre 0, inclusive, e 4,0. Deste modo, estaremos agrupando os valores da variável em intervalos, sendo que, em Estatística, preferimos chamar de classes. Chamando de frequência de uma classe o número de valores da variável pertencentes à classe. Os dados da tabela 2, podem ser dispostos como na tabela 3, denominada distribuição de frequência com intervalos de classe.

Notas da prova de Matemática do 8º ano.

Notas Frequência

0,0 | 2,0 0 2,0 | 4,0 1 4,0 | 6,0 7 6,0 | 8,0 11 8,0 | 10,0 6

Total N = 25 Fonte: (GIOVANNI, 2009 p. 453) O que pretendemos com a construção dessa nova tabela é realçar o que há de essencial nos

dados e, também, tornar possível o uso de técnicas analíticas para sua total descrição, até porque a Estatística tem por finalidade específica analisar o conjunto de valores, desinteressando-se por casos isolados. 3.4 Classes de Frequência.

Classes de frequência ou, simplesmente, classes são intervalos de variação da variável. As classes são representadas simbolicamente por i, sendo i = 1, 2, 3,....,k (onde k é o número total de classes da distribuição).

Assim, em nosso exemplo, o intervalo 2,0 | 4,0 define a segunda classe (i = 2). Como a distribuição é formada de 5 classes, podemos afirmar que k = 5. 3.5 Limite de Classe.

Denominamos de limite de classe os extremos de cada classe. O menor número é o limite inferior da classe ( il ) e o maior número, o limite superior da

classe(Li). Na segunda classe, por exemplo, temos:

2

l = 2,0 e L2 = 4,0

Obs. Segundo Resolução 886/66 do IBGE o intervalo de classe deve ser fechado à esquerda e aberto à direita, e utiliza-se o símbolo | .

Page 12: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

12 3.6 Amplitude de um Intervalo de Classe.

Amplitude de um intervalo de classe ou, simplesmente, intervalo de classe é a medida do intervalo que define a classe. Ela é obtida pela diferença entre os limites superior e inferior dessa classe e indicada por hi Assim:

hi = Li - il

Na distribuição da acima temos: h2 = 4,0 – 2,0 = 2,0 3.7 Ponto Médio de uma Classe.

É o ponto intermediário do intervalo de classe e é obtido somando-se o limite inferior ao limite superior e dividindo-se a soma por 2.

Assim, o ponto médio da segunda classe, em nosso exemplo é: 0,32

0,40,2=

+

3.8 Amplitude Total (R). É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados.

Assim, para as notas de Matemática temos: R = 9 – 3 = 6 3.9 Somatório (∑ ). O símbolo ∑ é usado para escrever abreviadamente expressões que envolvem adição. Assim, indicamos a adição dos termos fi, com i variando de 1 até k (k ∈ N*), como:

∑k

fi1

ou ∑ fi

No exemplo das notas de Matemática, o desenvolvimento do somatório ∑6

1

fi é dado por:

∑6

1

fi = f1 + f2 + f3 + f4 + f5 = 0 + 1 + 7 + 11 + 6 = 25

3.9.1 Propriedades do somatório. (∑=

n

i 1

)

P1) Se xi é uma variável e “a” uma constante, então , ∑ ∑= xx iiaa ..

Exercício. Verifique a propriedade.

P2) Se “a” é uma constante, então ana .=∑

Exercício. Verifique a propriedade.

P3) O somatório de uma soma de variáveis é igual à soma dos somatórios das variáveis.

( ) ∑ ∑∑ +=+ yxyx iiii

Exercício. Verifique a propriedade.

P4) O somatório da diferença de variáveis é igual à diferença dos somatórios das variáveis.

( ) ∑ ∑∑ −=− yxyx iiii

Exercício. Verifique a propriedade.

Page 13: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

13 Observação. “Em vez da discussão geral das questões atinentes à construção de uma tabela de frequências com intervalos de classes, a maioria dos autores se contenta em formular regras arbitrárias quanto ao número de classes a serem usadas em cada caso. Dentre as mais comuns são as que determinam que o número de classes deve variar entre 5 e 15 ou entre 5 e 20. Entretanto, isto parece bastante relativo, pois se tivermos 20 casos não poderemos formar sequer 10 classes, enquanto que, se forem 100000 as ocorrências, poderemos perfeitamente distribuí-las por mais de 20 classes sem deixar de obter uma excelente distribuição.”

Sturges procurou formular uma regra definida para determinação do número de classes, desde que conhecido o número de observações. Esta regra, chamada de Sturges, estabelece que o número de classes seja determinado pela fórmula:

K = 1 + 3,3.logN onde k = número de classes N = número de dados da distribuição, assim: a) achar a amplitude total da série, ou seja, a diferença entre o maior e o menor dos valores ocorrentes; b) dividir essa amplitude pelo número de classes que se tiver fixado como razoável; c) arredondar o resultado, se possível, para um número que facilite os cálculos. 3.10 Frequência Absoluta Acumulada.

A distribuição de frequências absolutas pode ser completada com mais uma coluna, chamada frequências absolutas acumuladas (fia), cujos valores são obtidos adicionando a cada frequência absoluta os valores das frequências anteriores.

Veja como fica o quadro anterior: i Nota fi fia 1 0 0 0 2 1,0 0 0 3 2,0 0 0 4 3,0 1 1 5 4,0 3 1 + 3 = 4 6 5,0 4 4 + 4 = 8 7 6,0 6 8 + 6 = 14 8 7,0 5 14 + 5 = 19 9 8,0 4 19 + 4 = 23

10 9,0 2 23 + 2 = 25 11 10,0 0 25 + 0 = 25

Pelo quadro e usando a frequência acumulada, podemos fazer algumas observações, tais como:

� 8 alunos não obtiveram nota superior a 5,0 � 25 – 14 = 11 alunos obtiveram nota 7,0 ou acima de 7,0.

3.11 Frequência Relativa. Chama-se frequência relativa (fr) do valor de xi da variável o quociente entre a frequência

absoluta (f i) e o número de elementos N da amostra e é, geralmente, expressa em porcentagem ou seja:

N

fifr =

Devemos observar que se a frequência relativa (fr) é dada na forma de porcentagem, ela vai tornar mais clara a análise de certos dados. Se tomarmos como exemplo o quadro de frequência das notas de Matemática de uma classe de 8º ano, poderemos, então, completar o quadro de distribuição de freqüência com mais duas colunas; a coluna das freqüências relativas (fr) e a coluna das freqüências relativas acumuladas(fa).

xi fi fia Fr (%) Fra (%) 3,0 1 1 1/25 = 4% 4% 4,0 3 4 3/25 = 12% 16% 5,0 4 8 4/25 = 16% 32% 6,0 6 14 6/25 = 24% 56% 7,0 5 19 5/25 = 20% 76% 8,0 4 23 4/25 = 16% 92% 9,0 2 25 2/25 = 8% 100%

Observando a tabela, temos:

Page 14: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

14 � 20% dos alunos obtiveram média 7,0 � 56% dos alunos obtiveram média inferior a 7,0 � 100% - 56% = 44% obtiveram média igual ou superior a 7,0. Com uso do Excel. Exemplo.

A tabela seguinte registra uma amostra aleatória de tamanho vinte e cinco das Vendas diárias em milhares de uma empresa. 280 305 320 330 310 340 330 341 369 355 370 360 370 365 280 375 380 400 371 390 400 370 401 420 430

Abrindo uma pasta Excel para este exercício, introduzir os dados brutos, classificar em ordem crescente e determinar o valor máximo, mínimo, o tamanho da amostra, o número de classes e a amplitude total. No final a sua planilha deverá ficar parecida com esta:

Agrupar os dados em classes e calcular as frequências de valores em cada classe. Coloque os

títulos Classe, Limite Inferior e Limite Superior, respectivamente, nas células C12, D12 e E12. A seguir, introduza os intervalos de classe de C13 até C19, como mostrado na planilha abaixo. Depois coloque o cursor na célula D13 e introduza a fórmula = D5. Na célula D14, introduza a seguinte fórmula: = D13+25 e arraste a alça até D19. Na célula E13, coloque a fórmula: = D13+24,99. Para o intervalo ficar aberto à direita. Arraste o resultado até E19. Agora, selecione o intervalo F13 a F19 e introduza a fórmula: =FREQUÊNCIA(B4:B28;E13:E19). Pressione a tecla F2 e depois, ao mesmo tempo, as teclas CTRL +SHIFT + ENTER, para transformar numa fórmula de matriz. Aparecerá os resultados da planilha abaixo.

Determine através do Excel as frequências acumuladas e relativas.

Page 15: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

15

Com o uso do software EstatD+

4. Representação Gráfica.

Após a coleta de dados em uma pesquisa, vimos que uma maneira de organizar dados de forma concisa é construir tabelas de frequências. Uma vez obtida a tabela de frequências podemos visualizar melhor os dados destas, construindo-se gráficos.

A apresentação em gráficos, das distribuições de freqüências de uma variável em estudo, permite ao leitor uma visualização acurada dos resultados inseridos nas tabelas.

A palavra, gráfico, refere-se à grafia, ou às artes gráficas, ou ao que delas se ocupa. Um gráfico pode ser representado por desenho ou figuras geométricas.

A apresentação gráfica é definida como representação de dados e informações por meio de diagramas, desenhos, figura e imagens, de modo a possibilitar a interpretação da informação de forma rápida e objetiva.

Existem diversos tipos de gráficos e a escolha adequada depende basicamente do tipo de dado e da finalidade da apresentação. Os gráficos podem ser facilmente elaborados com uso de softwares específicos, tal como o software Excel.

Page 16: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

16 Barra de ferramentas do Excel.

Após abrir o programa Excel, procura-se a opção assistente de gráfico e escolhe-se o tipo de gráfico.

4.1 Gráfico de Linha.

A tabela seguinte mostra o número de alunos evadidos de uma determinada escola de Ensino Médio no segundo semestre de 2002 (uma série temporal, cujos dados são dispostos de acordo com o tempo). Meses do 2º semestre Julho Agosto Setembro Outubro Novembro Dezembro Nº de alunos evadidos 35 30 40 40 45 50 De acordo com a tabela, construir um gráfico de segmentos cujos pares ordenados serão (julho, 35), (agosto, 30), (setembro, 40), (outubro, 40), (novembro, 45) e (dezembro, 50).

Evasão Escolar

3530

40 4045

50

010

203040

5060

JULH

O

AGOSTO

SETEM

BRO

OUTU

BRO

NOVE

MBR

O

DEZE

MBR

O

Os gráficos de linhas são muito utilizados para mostrar a evolução durante um certo período (séries

temporais). O gráfico permite visualizar muito bem o crescimento, o decréscimo ou a estabilidade do objeto a ser analisado. 4.2 Gráfico de Barras.

É um tipo de gráfico em que barras horizontais com larguras iguais e comprimentos proporcionais à frequência de cada dado.

O gráfico de barras é apropriado para representar graficamente os dados qualitativos, porém pode, também, ser utilizado para representar dados quantitativos discretos.

Exemplo. Consideremos, por exemplo, os dados resultantes de uma pesquisa realizada entre 135 jovens, sobre os

tipos de filmes preferidos. A tabela mostra já esses dados organizados em forma de uma tabela de frequências. Tipos de Filmes Preferidos pelos Jovens.

Tipo de filme Frequência Aventura 42 Drama 20 Policial 26

Romance 35 Terror 12 Soma 135

Fonte: dados fictícios.

Page 17: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

17

Tipos de Filmes Preferidos pelos Jovens

0 5 10 15 20 25 30 35 40 45

Aventura

Romance

Policial

Drama

Terror

Tip

os

de

Film

e

Frequências

4.3 Gráfico de Colunas.

É um tipo de gráfico em que barras verticais com larguras iguais e comprimentos proporcionais à frequência de cada dado. Os valores da variável são colocados no eixo horizontal, e as frequências no eixo vertical. Indicado para séries temporais, séries conjugadas, variáveis qualitativas e quantitativas discretas.

O gráfico de colunas a seguir foi construído com os resultados de uma pesquisa que perguntou a 1.500 pessoas qual jornal diário elas mais gostam de ler: Preferências por Jornais.

Preferência por Jornais

0

100200

300400

500

Jornal A Jornal B Jornal C Jornal D Jornal E

Nome do Jornal

Fre

qu

ênci

as

4.4 Gráfico de Setores.

O gráfico de setores pode ser utilizado tanto para variáveis quantitativas como para variáveis qualitativas e séries geográficas. Este gráfico também possui a peculiaridade de facilitar a visualização de resultados, especialmente quando se trata de porcentagens.

Com os dados do exemplo anterior construir o gráfico de Setores.

Nome do Jornal Frequência Jornal A 420 Jornal B 255 Jornal C 375 Jornal D 360 Jornal E 90

Page 18: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

18

4.5 Histograma.

Para dados agrupados em classes, a representação gráfica da distribuição de frequências é feita por meio de um histograma, que é um gráfico formado por um conjunto de colunas retangulares. No eixo das abscissas marcamos as classes, cujas amplitudes correspondem às bases dos retângulos. No eixo das ordenadas marcamos as frequências absolutas ou relativas, que correspondem às alturas dos retângulos. Os pontos médios das bases dos retângulos coincidem com os pontos médios dos intervalos de classes. 4.5.1 Roteiro para construção do histograma.

a) Obtenha a tabela de frequência a partir dos dados, agrupando-os em classes; b) desenhe dois eixos ortogonais de bom tamanho (não muito grandes nem muito pequenos); c) divida o eixo horizontal em tantas partes quanto for o número de classes mais dois

(considere uma classe à esquerda da primeira classe e uma outra à direita da última classe, para deixar espaço suficiente para traçar o polígono de frequência, que veremos mais adiante), e marque os números correspondentes aos limites inferior e superior de cada classe;

d) identifique a maior frequência da classe na tabela de frequência; escolha um número adequado, maior ou igual àquela frequência; marque esse número na extremidade do eixo vertical; divida o eixo vertical em algumas partes e marque os números correspondentes;

e) para cada classe, desenhe um retângulo com largura igual a amplitude da classe com altura igual à frequência da classe. 4.6 Gráfico Polígono de Frequência.

O polígono de frequência também é estruturado a partir da tabela de frequência, tal qual o histograma.

Define-se o gráfico polígono de frequência como um gráfico de linha, onde os pontos a serem conectados pela linha são os pontos médios dos intervalos de classe para as abscissas com as correspondentes frequências para as ordenadas.

Exemplo. Seja a seguinte distribuição de frequências em classes:

CLASSES FREQUÊNCIAS 160 ├165 4 165 ├170 9 170 ├175 2 175 ├180 2 180 ├185 1

a) Construa o histograma.

Page 19: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

19 b) Construa o polígono de frequência. 4.7 Gráfico Polígono de Frequências Acumuladas (Ogiva). A representação gráfica da frequência acumulada é denominada ogiva e é construída por segmentos de reta interligando os pontos definidos pela frequência acumulada e pelo limite superior de cada classe. Exemplo. Construir a ogiva (gráfico de frequência acumulada) para a distribuição.

CLASSES FREQUÊNCIA FREQÜÊNCIA ACUMULADA

160 ├165 4 165 ├170 9 170 ├175 2 175 ├180 2 180 ├185 1

Observações:

Para obter o histograma, a partir do software Excel, construir a tabela de distribuição de frequência em classes com uma coluna para os pontos médios dos intervalos de classe.

Page 20: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

20 Selecionar as frequências que se quer representar posicionando, simultaneamente, o cursor

nas células e o botão Ctrl. Escolher o ícone Assistente de Gráfico e no Tipo de Gráficos – Colunas.

Avançar.

Completar Título do gráfico e Eixos.

Avançar e zerar largura do espaçamento.

Page 21: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

21

Formatar Série de Dados – Efeitos de preenchimento.

Então,

Page 22: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

22 Para construir o Polígono de Frequência com o Excel, inclua uma classe anterior a primeira e

uma posterior `última, ambas com freqüência zero. Vamos considerar o mesmo exemplo anterior.

Na coluna das frequências marcar as células que se quer representar graficamente,

posicionando simultaneamente o botão nas células e o botão Ctrl. Escolher a guia Inserir, o grupo gráfico e o tipo Linhas.

Para construir o Polígono de Frequência Acumulada (Ogiva) com o Excel, inclua uma classe

anterior a primeira com frequência nula. O gráfico será construído com os limites superiores de cada classe e as respectivas frequências acumuladas.

Page 23: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

23 Com o software EstatD+. Histograma.

Polígono de frequências.

Ogiva.

4.8. Diagrama de Ramo e Folhas.

Apresentação dos dados em que cada elemento possui no mínimo dois dígitos. Geralmente são escolhidos entre 5 e 20 itens – quantidade de ramos.

Para construir o diagrama cada número é dividido em duas partes:

Page 24: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

24 a) ramo – consistindo em um ou mais dígitos iniciais; b) folha – formada pelos dígitos restantes.

À esquerda são listados os ramos escolhidos e à direita de cada ramo são listadas todas as folhas correspondentes aos valores observados na ordem em que elas forem encontradas. Exemplo. Construir um diagrama ramo e folhas para os dados seguintes: 133 183 167 67 218 171 142 150 149 150 158 186 168 167 169 101 163 135 175 170 208 121 120 184 158 157 145 237 160 118 160 181 174 135 172 151 158 160 196 200 115 180 97 229 165 199 148 87 201 201 Ramo Folhas Frequência 6 7 1 8 7 1 9 7 1 10 1 1 11 5 8 2 12 1 0 2 13 3 5 5 3 14 2 5 8 9 4 15 8 8 7 1 8 0 0 7 16 0 7 8 7 9 5 3 0 0 9 17 4 2 1 5 0 5 18 3 6 1 0 4 5 19 9 6 2 20 8 1 0 1 4 21 8 1 22 9 1 23 7 1 Com auxílio do software Estat D+.

Page 25: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

25 Com auxílio do software R. Utilizar o comando stem( nome )

Observação. Adiante veremos o gráfico box-plot. 5. Medidas de Tendência Central ou de Posição. – Estas medidas recebem esta denominação, porque os dados observados tendem a se concentrar em torno de valores centrais. As principais medidas são: a média aritmética, a mediana e a moda. São medidas utilizadas principalmente para a descrição de dados. São valores representativos do conjunto de dados. 5.1 Média Aritmética. É a medida de tendência central mais comum. É entendida como o centro de massa ou ponto de equilíbrio de um conjunto de valores de uma variável.

Média Amostral ( x ). n

xx

i∑= Média Populacional ( µ ).

ix

nµ =∑

sendo:

x ou µ = a média aritmética

ix = os valores da variável n = o número de valores. Exemplo. Relacionam-se a seguir os tempos (em anos) que os 10 primeiros presidentes americanos sobreviveram à posse. Calcule a média dessa amostra: 10 29 26 28 15 23 17 25 0 20 Solução: ∑ x = 10 + 29 + 26 + 28 + 15 + 23 + 17 + 25 + 0 + 20 = 193

3,1910

193==x

A média é 19,3 anos. Com o uso do Excel, uma vez que os dados foram inseridos na planilha de dados, utilizar a

função Colar Função. Primeiramente, deve-se escolher uma célula onde o programa fará a inserção da operação escolhida. A partir de um clik no ícone colar função, abre-se a janela Colar Função do programa. No lado esquerdo da janela, selecionar a opção Estatística no quadro Categoria da Função, procedimento que exibe, automaticamente, no quadro à direita, diversas opções de operações estatísticas. Uma vez feita a opção da função que o operador deseja executar (neste exemplo Média), e clicando na opção OK, o operador terá acionado a caixa de criação de fórmulas que orienta sobre esta operação.

Quando acionada a caixa de criação de fórmulas, o programa ainda não tem definido o conjunto de dados que deve preceder ao cálculo da função estatística escolhida. Deve-se registrar o endereço das células com os dados a serem processados, bastando clicar no ícone da caixa de diálogo número 1. Depois deste procedimento, basta selecionar os argumentos (valores ou dados) que deseja proceder aos cálculos.

Page 26: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

26 10 29 26 28 15 23 17 25 0 20

x =19,3 Ou escrevendo o comando na barra de ferramentas.

Propriedades: P1: Se uma constante k for adicionada ou subtraída a cada um dos elementos do conjunto, a média aritmética do mesmo será acrescida ou diminuída de k. Exercício. Verifique a propriedade.

P2: Se todos os elementos de um conjunto forem multiplicados ou divididos por uma constante k, a média aritmética dos mesmos também será multiplicada ou dividida pelo mesmo valor. (Quando dividida k ≠ 0). Exercício. Verifique a propriedade.

P3: A soma dos desvios dos valores de um conjunto em relação à sua média é nula.

( )∑ =− 0xxi

Exercício. Verifique a propriedade.

Quando os valores de xi estão agrupados com suas respectivas frequências absolutas fi a média aritmética ou média amostral é expressa por:

∑∑

=i

ii

f

fxx Também denominada Média Aritmética Ponderada.

Exemplo. Determinar a idade média para o conjunto de 50 funcionários dados pela distribuição de

frequências em classes. Da tabela de distribuição de frequências, temos: Tabela de idades.

i Idades fi xi xifi

1 18 | 25 6 21,5 129 2 25 | 32 10 28,5 285 3 32 | 39 13 35,5 461,50 4 39 | 46 8 42,5 340 5 46 | 53 6 49,5 297 6 53 | 60 5 56,5 282,50 7 60 | 67 2 63,5 127 ΣΣΣΣ = 50 ΣΣΣΣ = 1.922

Fonte: Dados fictícios.

Logo: anosf

fxx

i

ii44,38

50

1922===

∑∑

Solução pelo Excel.

Page 27: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

27 5.1.1 Média Geométrica.

A média geométrica (Mg) de “n” valores de uma variável é a raiz n-ésima do produto desses

valores.

Dados: x1, x2, x3, ..., xn Mg = nnxxx ....

21 ou Mg = 1 2. . . . .

1 2nN ff f

nxx x

Onde i

N f=∑

Exemplo no Excel. Determinar a média geométrica de 4 e 9.

5.1.2 Média Harmônica.

A média harmônica (Mh) de “n” valores de uma variável é o inverso da média aritmética dos

inversos dos valores dados.

Dados: x1, x2, x3, ..., xn

∑∑==

xx

M

ii

h

n

n

11

1 ou

h

i

i

NM

f

x

=

onde i

N f=∑

Exemplo no Excel. Determinar a média harmônica de 80 e 90.

5.1.3 Relações entre as Médias Aritmética, Geométrica e Harmônica.

xMM gh≤≤

5.2 Mediana (Md). Mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.

5.2.1 Dados não agrupados.

Dada uma série de valores, como por exemplo:

5, 13, 10, 2, 18, 15, 6, 16, 9

de acordo com a definição de mediana, o primeiro passo é a ordenação (ordem crescente ou decrescente) dos valores:

2, 5, 6, 9, 10, 13, 15, 16, 18

Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita e à esquerda. Em nosso exemplo, esse valor é 10, já que nessa série, há quatro elementos acima dele e quatro abaixo. Temos então:

Md = 10

Se porém a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio.

Assim, a série de valores:

2, 6, 7, 10, 12, 13, 18, 21

Page 28: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

28 tem para mediana a média aritmética entre 10 e 12.

Logo:

11112

22

2

1210=⇒==

+= MdMd

Verificamos que, estando ordenados os valores de uma série e sendo n o número de elementos da série, o valor mediano será:

- o termo de ordem 2

1+n, se n for ímpar

- a média aritmética dos termos de ordem 2

ne 1

2+

n, se n for par.

Cálculo da Mediana com o uso do Excel. Após inserir os dados na planilha do Excel deve-se marcar a célula na qual se deseja o resultado, em seguida, clik em Colar Função quando se abrirá a janela Colar Função, em Categoria da função clik em Estatística e em Nome da função clik em MED. No Excel os dados não precisam estar ordenados.

Notas:

� A mediana e a média aritmética não tem necessariamente, o mesmo valor. � A mediada, como vimos, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença marcante entre a mediana e a média. � A mediana é designada, muitas vezes, por valor mediano. 5.2.2 Dados agrupados.

Se os dados se agrupam em uma distribuição de frequência, o cálculo da mediana se processa de modo semelhante aquele dos dados não agrupados.

5.2.2.1 Sem intervalo de classes.

No DE MENINOS fi fia 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 ΣΣΣΣ= 34

A média aritmética dos termos de ordem 2

n e 1

2+

n.

Logo, Md = 2 meninos. Exemplo:

xi fi fia

12 1 1

14 2 3

15 1 4

16 2 6

17 1 7

20 1 8

Page 29: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

29 ΣΣΣΣ= 8

Logo, 5,152

31

2

1615==

+=Md

5.2.2.2 Com intervalo de classes.

Neste caso o problema consiste em determinar o ponto do intervalo em que está compreendida a mediana.

Para tanto, temos inicialmente que determinar a classe na qual se acha a mediana – classe mediana. Tal classe será aquela correspondente a frequência acumulada imediatamente superior a

2

∑ if.

Feito isso, um problema de interpolação (inserção de uma determinada quantidade de valores entre dois números) resolve a questão, admitindo-se agora, que os valores se distribuam uniformemente em todo o intervalo de classe.

Assim, considerando a distribuição acrescida das frequências acumuladas:

i ESTATURAS (cm) fi fia 1 150 | 154 4 4 2 154 | 158 9 13 3 158 | 162 11 24 4 162 | 166 8 32 5 166 | 170 5 37 6 170 | 174 3 40 ΣΣΣΣ = 40

Temos:

2

∑ if= 20

2

40=

Como há 24 valores incluídos nas três primeiras classes da distribuição, a partir do início da série, vemos que este deve estar localizado na terceira classe (i = 3), supondo que as freqüências dessas classes estejam uniformemente distribuídas.

Como há 11 elementos nessa classe e o intervalo de classe é igual a 4, devemos tomar, a partir do limite inferior, à distância:

11

284

11

1320=×

e a mediana será dada por:

54,16011

28158 =+=Md

Logo, Md = 160,5 cm.

Podemos executar os seguintes passos:

1o) Determinamos as frequências acumuladas

2o) Calculamos 2

∑ if

3o) Marcamos a classe correspondente à frequência acumulada imediatamente superior a 2

∑ if -

classe mediana – e, em seguida, empregamos a fórmula:

Page 30: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

30

i

ia

i

f

hantff

lMd

×

+=

∑)(

2

onde:

l é o limite inferior da classe mediana

fia(ant) é a frequência acumulada da classe anterior à classe mediana

fi é a frequência simples da classe mediana

h é a amplitude do intervalo da classe mediana.

Observação. O uso da fórmula para o cálculo da mediana é dispensável.

5.3 Média x Mediana.

A média é muito sensível a valores extremos de um conjunto de observações, enquanto a mediana não sofre muito com a presença de alguns valores muito altos ou muito baixos. Devemos preferir a mediana como medida sintetizadora quando o histograma do conjunto de valores é assimétrico, isto é, quando há predominância de valores elevados em uma das caudas. Ex.: { 200, 250, 250, 300, 450, 460, 510 } Média =345,7 e Mediana =300 Ambas são boas medidas de posição. Ex.: { 200, 250, 250, 300, 450, 460, 2300 } Média = 601 e Mediana = 300 Devido ao valor 2300, a Mediana é preferível à Média. .

5.4 Moda (Mo).

Denominamos moda o valor que ocorre com maior frequência em uma série de valores, ou seja, é o valor de maior frequência absoluta. Desse modo, o salário modal dos empregados de uma indústria é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa indústria. 5.4.1 Dados não agrupados. Quando lidamos com valores não agrupados, a moda é facilmente reconhecida: basta, de acordo com a definição, procurar o valor que mais se repete.

A série de dados:

7, 8, 9, 10, 10, 10, 10, 11, 12, 13, 15

tem moda igual a 10.

Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto em nas quais nenhum valor apareça mais vezes que outros. É o caso da série:

3, 5, 8, 10, 11, 13, 15

que não apresenta moda, então dizemos que é amodal.

Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Na série:

2, 3, 4, 4, 4, 4, 5, 6, 7, 7, 7,7, 8, 9

temos duas modas: 4 e 7, o conjunto se diz bimodal.

Se mais de dois valores ocorrem com a mesma frequência máxima, cada uma deles é uma moda, e o conjunto é multimodal.

Page 31: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

31 5.4.2 Dados agrupados. 5.4.2.1 Sem intervalo de classe.

Uma vez agrupado os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior frequência.

Na distribuição da Tabela abaixo, à frequência máxima (12) corresponde o valor 3 da variável.

No DE MENINOS fi 0 2 1 6 2 10 3 12 4 4 ΣΣΣΣ= 34

Logo: Mo = 3

Cálculo da Moda com o uso do Excel. Após inserir os dados na planilha do Excel deve-se marcar a célula na qual se deseja o resultado, em seguida, clik em Colar Função quando se abrirá a janela Colar Função, em Categoria da função clik em Estatística e em Nome da função clik em MODO. Não há necessidade de ordenar os dados quando resolvido pelo Excel. Pode-se registrar a fórmula diretamente na barra de ferramentas.

5.4.2.2 Com intervalo de classe.

A classe que apresenta a maior frequência é denominada classe modal. Conforme Fonseca1 a moda pode ser calculada por:

∆∆∆+

+=

21

1.h

lM io.

Exercício. Demonstrar a fórmula do cálculo da moda.

1 Fórmula de Czuber. Curso de Estatística, Jairo Simon da Fonseca, 1987, p. 114.

Page 32: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

32 Determinar a Moda da distribuição:

i ESTATURAS (cm) fi 1 150 | 154 4 2 154 | 158 9 3 158 | 162 11 4 162 | 166 8 5 166 | 170 5 6 170 | 174 3 ΣΣΣΣ = 40

Resposta. Mo = 159,6 6. Separatrizes ou Quantis.

Como vimos, a mediana caracteriza uma série de valores devido à sua posição central. Colocados em ordem crescente, mediana é o valor que divide a amostra, ou a população, em duas partes iguais. Assim:

0% 50% 100% Md A mediana é denominada uma medida de tendência central mas também é uma

separatriz. Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, já que se baseiam em sua posição na série. Essas medidas – os quartis, os decis e os percentis – são, juntamente com a mediana, conhecidas pelo nome genérico de separatrizes ou quantis. 6.1 Quartis.

Denominamos, quartis os valores de uma série que a dividem em quatro partes iguais. Há portanto, três quartis: a) O primeiro quartil (Q1) – valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. b) O segundo quartil (Q2) – evidentemente, coincide com a mediana (Q2 = Md) c) O terceiro quartil (Q3) – valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior.

Quando os dados são agrupados, para determinar os quartis usamos a mesma técnica do

cálculo da mediana, bastando substituir, na fórmula da mediana 2

∑ if por:

4

∑ ifk sendo k o número de ordem do quartil.

Assim temos: i

iai

kf

hantffk

lQ

×

+=

∑)(

4

Observação. Pode-se executar os cálculos – como no caso da mediana, sem utilização de formulário.

Page 33: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

33 Exemplo.

Primeiro Quartil Terceiro Quartil

104

40

4==

∑ if 30

4

403

4

3=

×=

∑ if

( )66,156

9

44101541 =

×−+=Q

( )165

8

424301623 =

×−+=Q

cmQ 7,1561 = cmQ 1653 =

Com o uso do Excel, uma vez que os dados foram inseridos na planilha de dados, (neste caso

pontos médios), utilizar a função Colar Função. Primeiramente, deve-se escolher uma célula onde o programa fará a inserção da operação escolhida. A partir de um clik no ícone colar função, abre-se a janela Inserir Função do programa. Selecione a opção Estatística no quadro categoria, procedimento que exibe abaixo, diversas opções de operações estatísticas. Uma vez feita a opção da função que o operador deseja executar (Quartil), e clicando na opção OK, o operador terá acionado a caixa de criação de fórmulas que orienta sobre esta operação.

Quando acionada a caixa de criação de fórmulas, o programa ainda não tem definido o conjunto de dados que deve preceder ao cálculo da função estatística escolhida. Deve-se registrar o endereço das células com os dados a serem processados, bastando clicar no ícone da caixa de diálogo número 1. Depois deste procedimento, basta selecionar os argumentos (valores ou dados) que deseja proceder aos cálculos. Na primeira janela coloca-se o intervalo das células e na segunda o número do quartil desejado (1, 2 ou 3).

152 152 152 152 156 156 156 156 156 156 156 156 156 160 160 160 160 160 160 160 160 160 160 160 164 164 164 164 164 164 164 164 168 168 168 168 168 172 172 172

1ºQuartil=156

ESTATURAS (cm) fi fia 150 | 154 4 4 154 | 158 9 13 ← (Q1)

158 | 162 11 24

162 | 166 8 32 ← (Q3)

166 | 170 5 37 170 | 174 3 4

ΣΣΣΣ = 40

Page 34: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

34 6.2 Decis.

Continuando o estudo das separatrizes, tem-se os decis. São os valores que dividem a série em 10 partes iguais. D1 , D2 , D3, . . . ,D9

Quando os dados são agrupados, para determinar os decis usamos a mesma técnica do

cálculo da mediana, bastando substituir, na fórmula da mediana 2

∑ if por:

10

∑ ifk sendo k o número de ordem do decil.

Assim temos: i

ia

i

kf

hantffk

lD

×

+=

∑)(

10

6.3 Percentis. São medidas que dividem a série em 100 partes iguais. P1 , P2 , P3, . . . ,P99. O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém, a fórmula

2

∑ if será substituída por: 100

∑ ifk sendo k o número de ordem do percentil.

Assim temos: i

iai

kf

hantffk

lP

×

+=

∑)(

100

Exemplo. Estaturas (cm) fi fia

150 | 154 4 4 154 | 158 9 13 158 | 162 11 24 162 | 166 8 32 166 | 170 5 37 170 | 174 3 40

ΣΣΣΣ = 40

Considerando a Tabela, temos para o oitavo percentil:

2,3100

408

100

88 =

×=⇒=

∑ ifk Logo:

2,1534

4)02,3(1508 =

×−+=P cmP 2,1538 =

Observação. Pode-se executar os cálculos – como no caso da mediana - sem utilização de formulário. 6.4 Gráfico Box - plot. É um gráfico em forma retangular “caixa” com os níveis superior e inferior dados pelos terceiro e primeiro quartil respectivamente. A mediana é representada por um segmento paralelo às bases e segmentos de reta são colocados na caixa até os valores máximo e mínimo da distribuição. Gráfico box-plot para o exemplo anterior.

Page 35: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

35 Pode-se substituir o Mínimo por

1 3 11, 5( )

i Q Q Ql = − − e o Máximo por 1 3 1

1, 5( )i Q Q QL = + − .

Não considera os valores que se afastam muito do conjunto de dados (outliers). 6.4.1 Construção do Gráfico Box – plot com o Excel.

O primeiro passo é gerar as estatísticas para o conjunto de dados conforme descrito abaixo, e na mesma sequência. Dados 1 Dados 2 Dados 3

1º Quartil 8,49 8,22 8,49 Mínimo 8,32 8,00 8,36 Mediana 8,52 8,34 8,52 Máximo 8,65 8,77 8,65

3º Quartil 8,55 8,48 8,54 Selecione toda a informação, incluindo os rótulos de dados e depois selecione Gráfico e

escolha Linha. Selecione o sub-tipo ‘linha com marcadores exibidos a cada valor de dado’. Clique em avançar, e selecione ‘séries em: linhas’ e depois clik em ‘concluir’.

Agora serão executados comandos sobre o gráfico. Clique com o botão direito do mouse sobre uma das linhas do gráfico. Selecione ‘formatar série de dados’, vá para ‘opções’ e selecione ‘linhas de máximo/mínimo’ e ‘barras superiores/inferiores’. A ‘largura do espaçamento’ poderá variar entre diversos valores, pois isso não importa para o Boxplot. O resultado deverá ser algo do tipo:

7,6

7,8

8

8,2

8,4

8,6

8,8

9

1 2 3

1º Quartil

Mínimo

Mediana

Máximo

3º Quartil

As linhas serão removidas uma a uma, inicialmente clicando com o botão direito do mouse

sobre a linha. Selecionar ‘formatar série de dados’ em ‘padrões’ observar o campo ‘linha’ e marcar sobre ‘nenhuma’. Isso deve ser feito para todas as linhas. O resultado final será como está abaixo.

7,6

7,8

8

8,2

8,4

8,6

8,8

9

1 2 3

1º Quartil

Mínimo

Mediana

Máximo

3º Quartil

7. Medidas de Dispersão ou de Variabilidade.

As medidas de dispersão medem a variabilidade dos dados em estudo. Permitem verificar se o conjunto de dados é homogêneo ou heterogêneo.

Consideremos os seguintes conjuntos de dados: a) 10 11 11 11 12 12 12 12 13 14 14 b) 1 5 6 9 11 12 12 15 18 21 22

Esses dois conjuntos têm valores iguais para média, mediana e moda mas existem diferenças entre eles, como podemos verificar ao colocá-los num diagrama, como mostram as figuras abaixo.

Page 36: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

36 a) _____________________________________________________ 0 2 4 6 8 10 12 14 16 18 20 22 24 b) _____________________________________________________ 0 2 4 6 8 10 12 14 16 18 20 22 24

A figura é um diagrama mostrando a dispersão dos dados. Isto indica que necessitamos de um outro tipo de medida para distinguir os dois conjuntos de

dados. Observando a figura, podemos notar que o primeiro conjunto apresenta valores concentrados em relação à média, enquanto que o segundo apresenta valores dispersos (espalhados) em relação à média. As medidas que tratam desta característica são chamadas de medidas de dispersão. (AKANIME e YAMAMOTO, 1998). 7.1 Amplitude (R). Amplitude total ou máxima é a diferença entre o maior e o menor valor de um conjunto de dados.

R = Valor máximo – Valor mínimo

Nos dois conjuntos de dados acima temos:

a) R = 14 – 10 = 4 b) R = 22 – 1 = 21

Podemos observar que o segundo conjunto de dados é mais disperso que o primeiro. A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série,

descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade do resultado. Ela é apenas uma indicação aproximada da dispersão ou variabilidade. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia ou no ano, no controle de qualidade ou como uma medida de cálculo rápido, e quando a compreensão popular é mais importante que a exatidão e a estabilidade. Com auxílio do Excel.

7.2 Desvio Médio ou Desvio Médio Absoluto – Erro Médio.

É a média dos módulos ou valores absolutos dos desvios. Se considerássemos somente os desvios, a soma deles seria sempre zero, pois existem desvios positivos e negativos.

dm = n

xxn

i

i∑=

−1 ou

=

=

−×

=n

i

i

i

n

i

i

m

f

xxf

d

1

1 (dados da distribuição agrupados).

Exemplo. 1) A tabela abaixo mostra o total de pontos obtidos por dois times de futebol no período de 1996 a 2000.

1996 1997 1998 1999 2000 TIME A 7 12 20 16 10 TIME B 18 16 15 9 12

Page 37: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

37 Fonte: Dados fictícios. a) Qual o desvio médio de cada um desses times? Resposta:Time A desvio médio = 4 Time B desvio médio = 2,8 b) Qual o time mais regular nesse período? Resposta:Time B

Com auxílio do Excel.

2) Considere a distribuição de frequência representada pelo quadro abaixo e determine: a) a média aritmética b) o desvio médio

i Classe fi

1 0 | 4 2

2 4 | 8 6

3 8 | 12 8

4 12 | 16 3

5 16 | 20 1

Tomando como base essa distribuição, vamos fazer um quadro mais completo, que nos

permite calcular a média, os desvios em relação à média e o desvio médio. I Classe Ponto médio

da classe (xi) if .fi

xi xxi − xxf ii −

1 O | 4 2

2 4 | 8 6

3 8 | 12 8

4 12 | 16 3

5 16 | 20 1

∑= ∑= ∑=

Resposta: média aritmética = 9 desvio médio = 3,2 � Desvio Médio com o uso do Excel.

Na barra de ferramentas selecionar Colar Função . Em Categoria da função, selecionar ESTATÍSTICA, selecione uma função, selecionar DESV. MÉDIO.

Page 38: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

38

7.3 Variância. Ao iniciar as análises de um agrupamento de dados, a média permite que se estabeleça um juízo sobre tal conjunto. Porém, não permite avaliar a dispersão, principalmente para conjunto de dados numerosos. O variância foge a falha que ocorre na amplitude, por levar em conta todos os valores em questão. Portanto, a variância é muito mais conveniente no cálculo da dispersão.

A variância é definida como a média dos quadrados dos desvios.

Podemos definir duas variâncias: Variância populacional σ2 (leia-se sigma ao quadrado) e

Variância Amostral (s2). 7.3.1 Desvio Padrão.

É definido como a raiz quadrada positiva da Variância. 7.3.1.1 Variância e Desvio Padrão para dados populacionais.

( )n

ix∑ −=

µσ

2

2

n

ix )(2

µσ

−Σ= µ = média da população

7.3.1.2 Variância e Desvio Padrão para dados amostrais.

( )1

2

2

−=∑ −

n

i xxs

( )1

2

Σ=

−n

isxx x = média amostral.

Em geral, a finalidade de calcular uma estatística amostral é estimar o parâmetro populacional correspondente.

A razão pela qual utilizamos n – 1 no denominador da variância e desvio padrão de dados provenientes de amostras deve-se a motivos que veremos em notas de aulas referentes a problemas de Estatística Indutiva.

Se bem que a fórmula dada para o cálculo da variância seja a que torna mais fácil a sua compreensão, ela não é uma boa fórmula para fins de computação, pois, em geral, a média aritmética é um número fracionário, o que torna pouco prático o cálculo das quantidades (xi - µ )2 . Exercício. A partir da definição de variância populacional demonstre as fórmulas alternativas:

∑ ∑−=

n

xx i

n

i

22

2

σ

22

−=∑∑

n

x

n

x iiσ Populacional

Page 39: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

39 Analogamente é possível desenvolver para variância e desvio padrão amostrais.

( ))1.(

.22

2

∑−=∑

nn

in xx

si

( )1

. )(22

−Σ=

Σnn

in

sxxi Amostral

Variância com o uso do Excel. Para população.

Para amostra.

Desvio Padrão com o uso do Excel. Na barra de ferramentas selecionar Colar Função . Em categoria, selecionar ESTATÍSTICA, em selecione uma função, selecionar DESVPAD (para amostra) e DESVPADP (para população).

Exemplo de aplicação com o Excel.

Page 40: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

40

O desvio padrão pode ser obtido diretamente da raiz da variância com o comando =RAIZ(VAR( )).

7.3.2 Aplicações do Desvio Padrão.

No argumento que levou à definição do desvio padrão, observemos que a dispersão de um conjunto de dados é pequena se os valores estão bem concentrados em torno da média, e é grande se os valores estão muito espalhados em torno da média. Essa idéia é expressa mais formalmente pelo Teorema de Tchebichev.

7.3.3 Teorema de Tchebychev. (Em notas de aulas futuras veremos ( )e

eXP2

2

σµ ≤≥− )

Para qualquer conjunto de dados (população ou amostra) e qualquer constante “k” maior do que 1, a proporção dos dados que devem estar a menos de k desvios padrão de qualquer um dos dois

lados da média é pelo menos k

2

11 −

Para k = 2, (4

311

22

=− ), pelo menos 75% dos valores de qualquer conjunto de dados devem

estar a menos de dois desvios padrão de qualquer um dos dois lados da média.

Para k = 5, (25

2411

52

=− ), pelo menos 96% dos valores de qualquer conjunto de dados devem

estar a menos de cinco desvios padrão de qualquer um dos dois lados da média. O teorema de Tchebichev pode ser aplicado a qualquer tipo de dados, mas tem suas

limitações. Como ele nos diz meramente “pelo menos qual proporção” de um conjunto de dados deve estar entre certos limites isto é, fornece apenas uma cota inferior à verdadeira proporção. Observação. Para as distribuições normais temos que: (a) 68,27% dos casos estão incluídos entre σµσµ +− e , isto é, um desvio padrão de cada lado da média. (b) 95,45% dos casos estão incluídos entre σµσµ 22 +− e , isto é, dois desvios padrões de cada lado da média. (c) 99,73% dos casos estão incluídos entre σµσµ 33 +− e , isto é, três desvios padrões de cada lado da média.

Page 41: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

41 7.4 Coeficiente de Variação ou de Dispersão.

O coeficiente de variação (dispersão) dá uma idéia da precisão de um experimento ou da dispersão de um conjunto de dados. É definido como o quociente entre desvio padrão e a média, multiplicado por 100. Logo, o coeficiente de variação nada mais é do que o desvio padrão em porcentagem da média.

%100×=x

sCV (amostral) %100xCV

µ

σ= (populacional)

Exemplo.

Para uma distribuição cuja média é x = 161 cm e o desvio padrão é s = 5,57 cm, logo:

%5,3459,3100161

57,5==×=CV

Observação: O coeficiente de variação pode ser interpretado da seguinte forma: ⇒ CV ≤ 20 % = trata-se de amostra homogênea ⇒ CV >20% = trata-se de amostra heterogênea. Quanto maior o valor do coeficiente de variação, maior é a dispersão dos valores do conjunto e quanto menor o valor do coeficiente de variação, mais homogêneo é o conjunto. 7.5 Cálculo do Desvio Padrão. Exemplos. 7.5.1 Dados não agrupados.

Tomemos, como exemplo, a seguinte amostra: 40 45 48 52 54 62 70 O modo mais prático para se obter o desvio padrão é formar uma tabela com duas colunas,

uma pra xi e outra para xi2.

xi xi

2

40 45 48 52 54 62 70

∑ = 371 ∑= 20293

Como n = 7, temos: )17.(7

20293.7 3712

−=s = 10,25 logo, s = 10,25

7.5.2 Dados agrupados.

Como, neste caso, temos a presença de frequências, devemos levá-las em consideração, resultando a fórmula:

22

−=∑∑

n

xf

n

xf iiiiσ Populacional

)1.(

2.. ).(2

−Σ=

Σnn

iin

sxfxf

ii Amostral

Page 42: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

42 Consideremos a amostra da seguinte tabela:

O modo mais prático para se obter o desvio padrão é abrir, na tabela dada, uma coluna para os produtos fixi e outra para fixi

2, lembrando que para obter fixi2 basta multiplicar cada fixi pelo seu

respectivo xi. Assim: xi fi fixi fixi

2

0 2 1 6 2 12 3 7 4 3 ∑ = 30 ∑ = 63 ∑ = 165

Logo:

)130.(30

165.30 632

−=s = 1,062 Daí: s = 1, 062

Observação. Quando for uma distribuição de frequências com intervalos de classes, utilizar com xi o ponto médio da classe. Exemplo. Calcular o desvio padrão para a seguinte distribuição de frequências.

I ESTATURAS (cm) fi xi fixi fixi2

1 150 | 154 4

2 154 | 158 9

3 158 | 162 11

4 162 | 166 8 5 166 | 170 5

6 170 | 174 3

ΣΣΣΣ = 40 ∑ = 6440 ∑= 1038080

Logo:

)140.(40

1038080.40 64402

−=s daí: s = 5,64

8. Medidas de Forma: Assimetria e Curtose. A medida de assimetria indica o grau de distorção da distribuição em relação a uma distribuição

simétrica. As distribuições podem ser: simétrica, assimétrica positiva ou assimétrica negativa. 8.1 Distribuição de Frequência Simétrica:

Uma distribuição é dita simétrica se existe um eixo de simetria no gráfico gerado pela tabela de frequência. Esse eixo divide o gráfico em duas partes iguais, de modo que, se rebatermos uma na

xi 0 1 2 3 4

fi 2 6 12 7 3

Page 43: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

43 outra, elas se sobrepõem completamente. Como mostra as figuras abaixo. Sempre que os dados tiverem média, mediana e moda iguais, a distribuição será simétrica.

x=Md=Mo 8.2 Distribuição de Frequência Assimétrica.

Se a distribuição não for simétrica, podemos ter dois casos de assimetria: assimetria positiva e assimetria negativa. A assimetria será negativa se a cauda da distribuição estiver do lado esquerdo do gráfico, como mostra a figura seguinte (a), e será positiva se a cauda da distribuição estiver do lado direito do gráfico, (b). A assimetria geralmente ocorre devido à extensão de uma das caudas da distribuição. Uma vez que os valores da cauda afetam muito a média, mas não a mediana e a moda, a média sempre acompanha o lado da cauda da distribuição.

Nas figuras abaixo, podemos verificar que a distância da média em relação à moda e a

mediana será maior, quanto maior for a extensão da cauda da distribuição e, conseqüentemente, maior será a assimetria da distribuição.

Page 44: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

44 Sendo a distribuição simétrica, a média e a moda coincidem; sendo a distribuição

assimétrica à esquerda ou negativa, a média é menor que a moda; e sendo assimétrica à direita ou positiva, a média é maior que a moda. Baseando-se nessas relações entre média e a moda, podemos empregá-las para determinar o tipo de assimetria. Assim, calculando o valor da diferença:

Mox − se:

x - Mo = 0 ⇒ assimetria nula ou distribuição simétrica

x - Mo < 0 ⇒ assimetria negativa ou à esquerda

x - Mo > 0 ⇒ assimetria positiva ou à direita 8.3 Coeficiente de Assimetria.

A medida de assimetria de uma distribuição pode ser realizada pelo coeficiente de assimetria de Pearson, dado por:

s

MdxAs

)(3 −=

Dependendo do valor de As, podemos classificar a distribuição em: � Simétrica, se |As| < 0,15 � Assimétrica moderada, se 0,15 ≤ |As| <1,0 � Assimétrica forte, se |As| ≥ 1,0

Exemplo. Distribuição A

Pesos (kg) fi 2 | 6 6

6 | 10 12 10 | 14 24 14 | 18 12 18 | 22 6

60

x = _______ Md =_______ Mo =_______ s =_______ Distribuição B

Pesos (kg) fi 2 | 6 6

6 | 10 12 10 | 14 24 14 | 18 30 18 | 22 6

78

x = _______ Md =_______ Mo =_______ s =_______ Distribuição C

Pesos (kg) fi 2 | 6 6

6 | 10 30 10 | 14 24 14 | 18 12 18 | 22 6

78

x = _________ Md =_________ Mo =_________ s =_________

Page 45: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

45 Logo: A:______- _________ = ______ ⇒ a distribuição é _______________________ B:______- _________ = ______ ⇒ a distribuição é _______________________ C: ____ -_________ = ___ ___ ⇒ a distribuição é _______________________

Considerando os gráficos das distribuições anteriores, temos:

8.4 Medidas de Achatamento ou Curtose. A medida de curtose nos indica a forma da curva de distribuição em relação ao seu

achatamento. O coeficiente de curtose mede o achatamento de uma distribuição de frequências, em comparação com uma distribuição normal. A forma da curva de distribuição em relação à curtose pode ser leptocúrtica, mesocúrtica ou platicúrtica.

Quando a distribuição apresenta uma curva de frequência mais fechada que a normal (ou mais aguda em sua parte superior), ela recebe o nome de leptocúrtica. Quando a distribuição apresenta uma curva de frequência mais aberta que a normal (ou mais achatada na sua parte superior), ela é chamada de platicúrtica.

A curva normal que é a referencial, recebe o nome de mesocúrtica. 8.4.1 Coeficiente de Curtose: A curtose pode ser medida pela seguinte expressão:

)(2 1090

13

PP

QQc

−=

Essa fórmula é conhecida como coeficiente percentílico de curtose.

Relativamente a curva normal, temos; c = 0,263 Assim:

C = 0,263 ⇒ curva mesocúrtica C < 0,263 ⇒ curva leptocúrtica C > 0,263 ⇒ curva platicúrtica

Page 46: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

46 Exemplo.

Sabendo-se que uma distribuição apresenta as seguintes medidas: Q1 = 24,4 cm, Q3 = 41,2 cm, P10 =20,2 cm e P90 =49,4 cm, temos:

287,02866,0

5,588,16

)2,205,49(24,242,41

=⇒==−

−= CC

Como: 0,287>0,263, concluímos que a distribuição é platicúrtica, em relação a normal. EXERCÍCIOS. 1) Classificar as variáveis: a. População: os alunos de uma escola Variável: cor dos cabelos R. qualitativa nominal

b. P: casais residentes em uma cidade V: número de filhos R. quantitativa discreta

c. P: as jogadas de um dado V: o ponto obtido em cada jogada R. quantitativa discreta

d. P: peças produzidas por certas máquinas V: número de peças produzidas por hora R. quantitativa discreta

e. P: peças produzidas por certa máquina V: diâmetro externo R. quantitativa contínua

f. P: estação meteorológica de uma cidade V: precipitação pluviométrica, durante um ano R. quantitativa contínua

g. P: alunos de uma cidade V: cor dos olhos R. qualitativa nominal

h. P: bolsa de valores de São Paulo V: números de ações negociada R. quantitativa discreta

i. P: pregos produzidos por uma máquina V: comprimento R. quantitativa contínua

j. P: propriedades agrícolas no Brasil V: produção de algodão R. quantitativa contínua

k. P: segmento de reta V: comprimento R. quantitativa contínua

l. P: biblioteca da cidade de Curitiba V: número de volumes R. quantitativa discreta

2) A massa (em quilogramas) de 20 trabalhadores de uma empresa com 100 funcionários esta registrada a seguir:

62 52 73 80 65 50 70 75 80 65 70 77 82 91 75 52 68 86 70 80

Com base nos dados obtidos, responda: a) Qual a população dessa pesquisa? R. cem funcionários b) Qual é a sua amostra? R. vinte trabalhadores c) Qual é a variável nessa pesquisa? R. massa Ela é discreta ou contínua? R. contínua 3) Uma população encontra-se dividida em três estratos, com tamanhos, respectivamente, n1=40, n2= 100 e n3= 60. Sabendo-se que, ao ser realizada uma amostragem estratificada proporcional, nove elementos da amostra foram retirados do 3o estrato, determine o número total de elementos da amostra. R. 30 4) Sejam os conceitos obtidos na prova de Estatística por 30 alunos de uma turma:

D A B A C B A C E B C A A B C B B C B B C C C B B B C C C B

Page 47: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

47 Complete a tabela:

Conceito Freqüências absolutas

Freqüências relativas

Freqüências acumuladas

Freqüências relativas acumuladas

A B C D E

Total 5) Um dentista anotou o número de clientes atendidos por dia, durante um período de 30 dias, e obteve os seguintes dados:

4 6 7 4 4 5 4 6 5 5 4 5 7 5 5 4 7 5 6 5 4 5 5 6 5 7 4 6 6 7

Organize esses dados em forma de uma tabela de freqüências acumuladas. 6) Numa pesquisa de opinião pública com 800 telespectadores sobre o programa de televisão de sua preferência, obteve-se a seguinte tabela de frequências absolutas:

Programa de TV Número de Telespectadores

Novela 360

Esportes 128

Filmes 80

Noticiário 32

Shows 200

Construa um quadro com as distribuições de frequências absolutas acumuladas, freqüências relativas e frequências relativas acumuladas. 7) Suponhamos termos feito uma coleta de dados relativos às estaturas de quarenta alunos, que compõem uma amostra de alunos de um colégio A, resultando a seguinte tabela de valores:

166 160 161 150 162 160 165 167 164 160 162 161 168 163 156 173 160 155 164 168 155 152 163 160 155 155 169 151 170 164 154 161 156 172 153 157 156 158 158 161 Determine: a) O rol da tabela primitiva acima. b) A distribuição de frequência c) Distribuição de frequência com intervalos de classe.(usar a regra de Sturges) d) A segunda classe. e) Os limites da terceira classe. f) O intervalo (amplitude) da segunda classe. g) A amplitude amostral h) O ponto médio da terceira classe. i) A frequência absoluta da segunda classe.

8) A tabela abaixo apresenta as vendas diárias de um determinado aparelho elétrico, durante um mês, por uma firma comercial:

14 12 11 13 14 13 12 14 13 14 11 12 12 14 10 13 15 11 15 13 16 17 14 14

Forme uma distribuição de frequências absolutas e acumuladas sem intervalos de classe.

Page 48: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

48 9) Considerando as notas de um teste de inteligência aplicado a 100 alunos:

64 78 66 82 74 103 78 86 103 87 73 95 82 89 73 92 85 80 81 90 78 86 78 101 85 98 75 73 90 86 86 84 86 76 76 83 103 86 84 85 76 80 92 102 73 87 70 85 79 93 82 90 83 81 85 72 81 96 81 85 68 96 86 70 72 74 84 99 81 89 71 73 63 105 74 98 78 78 83 96 95 94 88 62 91 83 98 93 83 76 94 75 67 95 108 98 71 92 72 73

Forme a distribuição de frequências de classes: 10) Em um mercado de telefones celulares da Região Oeste do Paraná, considerando-se uma fatia de mercado meramente ilustrativa, obtiveram-se os resultados conforme descritos na tabela abaixo:

MARCAS PARTICIPAÇÃO NO MERCADO Nokia 60%

Ericson 20% Gradiente 15% Motorola 5%

Total 100% Construa um gráfico de setores. 11) No laboratório de Eletromecânica, um aluno pesquisador testa cinco diferentes ligas metálicas para resistência de tensores. O experimento foi efetuado com diversos ensaios relativos às diferentes ligas. Os resultados obtidos constam da Tabela abaixo:

Com base nos dados obtidos, construa: a) Um gráfico de colunas para as ligas 1 e 2. b) Um gráfico de barras para as ligas 3, 4 e 5. 12) É dado um conjunto de 20 números cuja média aritmética é 64. Cada número desse conjunto é multiplicado por 2 e, em seguida, acrescido de 5 unidades. Qual é a média aritmética dos 20 números assim obtidos? R. 133 13) Em certa empresa trabalham 4 analistas de mercado, 2 supervisores, 1 chefe de seção e 1 gerente, que ganham respectivamente: R$ 13.000,00; R$ 16.000,00; R$ 17.500,00 e R$ 25.000,00. Qual o valor do salário médio desses funcionários? R. R$ 15.812,50 14) A média das idades de um grupo de estudantes é 22 anos. Excluindo-se o mais novo deles, que tem 17 anos, a média do novo grupo formado passa a ser 23 anos. Quantos estudantes há no primeiro grupo? R. 6 15) Um comerciante mistura 4 kg do café tipo A, que custa R$ 6,00 o quilo; 10 kg do café B, que custa R$ 5,60 o quilo; e 6 kg do café C, que custa R$ 5,00 o quilo. Qual o preço por quilo da mistura? R. R$ 5,50 16) O quadro de frequências a seguir, refere-se às idades dos jogadores de basquete de um clube. Idade 14 15 16 20 23

Número de jogadores 6 12 15 24 9

Qual será a mediana dos dados nesse caso? R. 18

Page 49: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

49 17) Medindo-se o diâmetro externo de uma engrenagem, foram obtidos valores em mm, de acordo com a seguinte distribuição:

Classes fi

1000 | 1010 3

1010 | 1020 12

1020 | 1030 28

1030 | 1040 82

1040 | 1050 74

1050 | 1060 30

1060 | 1070 17

1070 | 1080 4

Calcule a Média, a Mediana e a Moda. R. 1.040,6 ; 1.040 e 1.038,71

18) Num laboratório de materiais, uma amostra de 10 corpos de prova de concreto forneceu as seguintes resistências à ruptura em kg/cm2: 340 329 337 348 351 360 354 330 348 350. Calcule, para este conjunto de dados, a média, a mediana e identifique a moda se houver. R. 344,7 ; 348 e 348 19) A tabela a seguir mostra o número de votos por classe de dois candidatos que estão concorrendo a uma vaga de representante no conselho da escola. Onde A, B, C, D, E e F são todas as turmas onde os candidatos podem concorrer.

3ª 3B 3C 3D 3E 3F

VITOR 12 15 12 16 14 15

RAFAEL 12 11 18 9 19 15

Calcule o desvio-padrão de cada um desses candidatos. R. Vitor = 1,53 e Rafael = 3,651 Qual dos dois candidatos é o mais regular? R. Vitor 20) Considere a amostra. O tempo gasto por seis alunos para fazer um trabalho foi, em minutos, 6, 5, 5, 3, 3, 2. Nessas condições, calcule a média aritmética, o desvio médio, a variância e o desvio padrão dessa distribuição. R. 4 ; 1,33 ; 2,4 e 1,55 21) Seja uma amostra do tempo de espera em minutos, de clientes do Jefferson Valley Bank. 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Calcule o desvio padrão dessa amostra. R. 0,48 22) Uma amostra de oitenta peças retiradas de um grande lote forneceu a seguinte distribuição de comprimentos:

Classe Frequências

50 | 60 1

60 | 70 3

70 | 80 6

80 | 90 15

90 | 100 25

100 | 110 20

110 | 120 7

120 | 130 3

∑ =

Page 50: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

50 A especificação para esse tipo de material exige que o comprimento médio das peças esteja

compreendido entre 92 e 96 mm e que o coeficiente de variação seja inferior a 20%. Verificar se a amostra atende as exigências da especificação. R. Sim. 95,4 e 14,78% 23) Um estudo nutricional de um certo tipo de queijo de baixos teores de gordura mostrou que, em média, uma fatia de 30 gramas contém 3,50 gramas de gordura com desvio padrão de 0,04 gramas de gordura.

a) De acordo com o Teorema de Tchebichev, pelo menos qual percentagem de uma fatia de 30 gramas desse tipo de queijo deve ter um conteúdo de gordura entre 3,38 e 3,62 gramas de gordura? R. 88,9% das fatias de 30g do queijo têm um conteúdo de gordura entre 3,38 e 3,62 gramas de gordura.

b) De acordo com o Teorema de Tchebichev, entre quais valores deve estar o conteúdo de gordura de pelo menos 93,75% das fatias de 30 gramas desse tipo de queijo? R. entre 3,34 e 3,66 g de gordura 24) Os registros de um hospital mostram que, em média, uma certa cirurgia dura 111,6 minutos, com um desvio padrão de 2,8 minutos. Pelo menos qual percentagem dessas cirurgias leva algum tempo entre:

a) 106,0 e 117,2 minutos. R. 75% b) 97,6 e 125,6 minutos. R. 96%

25) Com referência ao exercício anterior, entre quais quantidades de minutos devem estar as durações de:

a) pelo menos 35/36 dessas cirurgias. R. entre 94,8 e 128,4 minutos b) pelo menos 99% dessas cirurgias. R. entre 83,6 e 139,6 minutos

26) Observou-se o número dos 100 sapatos vendidos em uma loja de calçados. Os resultados obtidos estão em forma de tabela, a seguir:

Número de sapato fi xi fixi fixi2 fia

25 | 28 2 28 | 31 9

31 | 34 17 34 | 37 35 37 | 40 20

40 | 43 10

43 | 46 7

∑= ∑=

Classifique quanto a assimetria e curtose. R. Assimétrica e Leptocúrtica. 27) O valor do módulo de Young foi determinado para amostras de chapas fundidas feitas de algumas substâncias metálicas, resultando nas observações a seguir: 116,4 115,9 114,6 115,2 115,8 a) Calcule a média e os desvios em relação à média. b) Use os desvios calculados na parte (a) para obter a variância amostral e o desvio padrão amostral. c) Calcule s2 usando a fórmula alternativa - sem o uso da média. d) Subtraia 100 de cada observação para obter uma amostra de valores transformados. Agora calcule a variância amostral desses valores transformados e compare com s2 dos dados originais. 28) Numa pesquisa amostral, observa-se que o salário médio mensal dos indivíduos entrevistados é de $ 500,00. Os salários médios de homens e mulheres são $ 600,00 e $ 420,00, respectivamente. Assinale a opção que dá a relação entre o número de homens e mulheres da amostra. R. O número de homens é 4/5 do número de mulheres. (Prova para Auditor-Fiscal da Previdência Social/2002).

29) Considere a seguinte distribuição de frequências acumuladas, de salários anuais, em milhares de dólares, da Cia. Alfa.

Classes de salários Frequências acumuladas ( 3 ; 6] 12 ( 6 ; 9] 30 ( 9 ; 12] 50 (12 ; 15] 60 (15 ; 18] 65 (18 ; 21] 68

Page 51: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

51 Determine: a) O salário médio anual para os empregados da Cia. Alfa. R. 9,93 b) Estimar o salário mediano anual dos empregados da Cia. Alfa. R. 9,60 c) Suponha que a tabela de frequências acumuladas tenha sido construída a partir de uma amostra de 10% dos empregados da Cia. Alfa. Deseja-se estimar, utilizando interpolação linear, a frequência populacional de salários anuais iguais ou inferiores a $ 7.000,00 na Cia. Alfa. R. 180 (Prova para Auditor-Fiscal da Receita Federal/2002). 30) Os dados seguintes, ordenados do menor para o maior, foram obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada em uma bolsa de valores internacional. A unidade monetária é o dólar americano. 4,5,5,6,6,6,6,7,7,7,7,7,7,8,8,8,8,8,8,8,8,8,9,9,9,9,9,9,10,10,10,10,10,10,10,10,11,11,12,12,13,13,14,15, 15,15,16,16,18,23 Os valores seguintes foram calculados para a amostra:

( )668

50490

2

2=

∑−= ∑∑

xxx

ieii

. Determine a mediana e a variância amostral.

R. 9 e 13,6. (Prova para Auditor-Fiscal do Tesouro Nacional/1998)

31) Com base nos dados da questão 30, qual o preço modal. R. 8 32) Sendo a moda menor que a mediana e, esta, menor que a média, o que se pode afirmar quanto a assimetria? R. Assimétrica à direita ou positiva. (Prova para Analista – Instituto de Resseguros do Brasil/2005).

33) O atributo do tipo X, numa amostra de tamanho 100, obtida de uma população de 1.000 indivíduos, produziu a tabela de freqüências seguinte: (Prova para Auditor-Fiscal da Receita Federal/2002)

Classes Frequências 29,5 ├ 39,5 4 39,5 ├ 49,5 8 49,5 ├ 59,5 14 59,5 ├ 69,5 20 69,5 ├ 79,5 26 79,5 ├ 89,5 18 89,5 ├ 99,5 10

a) Determine a mediana amostral do atributo X. R. 71,04 b) Calcule o número de indivíduos na população com valores do atributo X maiores que 50,5 e menores que 95,5. R. 826 c) Qual o valor modal do atributo X? R. 73,79 34) Do Livro Noções de Probabilidade e Estatística - Marcos Magalhães, página 19 exercícios 1, 2, 3, 4 e 5. 35) Do Livro Noções de Probabilidade e Estatística - Marcos Magalhães, página 23 exercícios 1, 2, 3, 4, 5, 7, 9, 11, 12, 13, 14, 17, 19 e 21. Aplicações com o programa R. 1) Importação de dados de uma planilha no Excel. Para importar os dados do uma planilha do Excel é necessário seguir os seguintes passos: a) importar planilha denominada Banco de Dados que está armazenada no disco D e Plan2.

Page 52: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

52

Fonte: (MAGALHÃES, 2008 p.7) b)Abrir o programa R e digitar os seguintes comandos.

Page 53: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

53

c) Estatística Descritiva. c1)Média Aritmética: > mean (nome da variável como está na tabela). c2) Desvio padrão: > sd (nome da variável como está na tabela). c3) Mediana: > median (nome da variável como está na tabela). c4) Mínimo> min (nome da variável como está na tabela). c5) Máximo> max (nome da variável como está na tabela).

Page 54: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

54 c6) Histograma para os pesos.

Histograma das alturas.

c7) Resumo das principais medidas de uma variável.

Page 55: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

55 c8) Box Plot.-. gráfico boxplot das alturas por sexo.

c9) Box Plot.-. gráfico boxplot dos pesos por sexo.

2) Construção de planilhas no R. As planilhas são construídas para variáveis qualitativas (nominais ou ordinais) e numéricas (discretas e contínuas). O formato ideal de armazenamento destes dados no R é o data.frame. Para entrar com estes dados diretamente no R pode-se usar o editor que vem com o programa. As variáveis qualitativas podem ser armazenadas na forma de códigos, por exemplo, solteiro 1, casado 2, masculino 1, feminno 2, etc. Para abrir a planilha use o eguinte comando: > nome <- edit(data.frame()). Após introduzir os dados na planilha , fecha-se a mesma clicando no canto superior direito – (x). Chama-se a planilha pelo nome dado no comando inicial. Exemplo.

Page 56: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

56 Criar no programa R plailha de parte da tabela de (MAGALHÃES, 2008 p.7).

Caso seja necessário voltar com a planilha para introduzir ou alterar dados usar o comando: fix(nome). Para iniciar a tomada de informações utiliza-se o comando is.data.frame(nome). Com o comando names(nome) é possível ver o nome das variáveis. Com o comando dim(nome) é possível ver o número de linhas e colunas.

Para iniciar análise dos dados utilizar o comando attach(nome) e o nome da variável que se deseja analisar.

Tabela de frequências simples ou absolutas.

Tabela e frequências relativas em % e em decimais. Pra construir o gráfico em setores utilizar o comando pie(table(nome da variável)).

Page 57: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

57

Para analizar outra variável – Idade. Basta digitar no R o nome da variável. > Idade De forma semelhante se obtém as tabelas de frequências.

Com o comando summary(nome da variável) obtem-se as principais medidas do conjunto de dados daquela variável.

Caso a variável Idade fosse encarada como quantitativa discreta o gráfico mais recomendado é obtido pelo comando plot(Idade.tb).

Page 58: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

58

É possível construir gráficos de frequências relativas e de frequências acumuladas. Para frequências relativas. > plot(nome.tbr) Para frequências acumuldas. > nome.fac <- cumsum(nome.tbr) > nome.fac > plot(nome.fac, type = “S”)

Para a frequência acumulada.

Page 59: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

59

3) Algumas medidas de dispersão calculadas isoladamente. a) Amplitude total. Utilizar o comando range(nome). Serão apresentados o mínimo e o máximo dos valores da variável. Para o valor da amplitude (R) utilizar o comando diff(range(Idade)).

Para a variância usar o comando var(nome), para o desvio padrão sd(nome) e o coeficiente de variação 100*sd(nome)/mean(nome).

Resumo de medidas com o EstatD+.

Page 60: Notas de Aula - 1

Prof.Paulo Alessio – Definições, exercícios e algumas figuras foram extraídos do referencial bibliográfico. Notas de aulas não comercializáveis. Utilizadas para apoio às aulas.

2º Sem. 2012.

60

BIBLIOGRAFIA. BARBETA, Pedro Alberto. Estatística: para engenharia e informática. São Paulo, Atlas, 2004. BOLFARINE, Heleno e BUSSAB, Wilton O. Elementos de Amostragem. São Paulo: Blucher, 2005. COSTA, Antonio F. B. Controle Estatístico de Qualidade. São Paulo: Atlas, 2005. COSTA NETTO, Pedro Luiz de O. Estatística. São Paulo: Edgard Blücher, 2002. DEVORE, Jay L. Probabilidade e estatística: para engenharia e ciências. São Paulo, Pioneira Thomson Learning, 2006. FONSECA, Jairo da e MARTINS, Gilberto de Andrade. Curso de Estatística. São Paulo: Atlas, 1996. FREUND, John E. Estatística Aplicada. Porto Alegre: Bookman, 2006. LAPPONI, Juan Carlos. Estatística usando Excel. Rio de Janeiro: Elsevier, 2005. LARSON, Ron e FARBER, Betsy. Estatística Aplicada. São Paulo: Pearson, 2004. MAGALHÃES, Marcos Nascimento. Noções de Probabilidade e Estatística. São Paulo: Edusp, 2008. MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. São Paulo, Atlas, 2002. MEYER, Paul L. Probabilidade. Aplicações à Estatística. Rio de Janeiro, Livro Técnico, 1972. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Pioneira, 2004. MONTGOMERY, Douglas C, RUNGER, George, HUBEL, Norma. Estatística Aplicada à Engenharia. Rio de Janeiro: LTC, 2004. MORETTIN, Pedro A. e BUSSAB, Wilton de O. Estatística Básica. São Paulo: Saraiva, 2003. MORETTIN, Luiz Gonzaga. Estatística básica: probabilidade e inferência. São Paulo: Pearson Prentice Hall, 2010. WALPOLE, Ronald. Probabilidade e estatística para engenharia e ciências. São Paulo: Pearson Prentice Hall, 2009.