68
ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I Página 1 de 68

Notas de aula Estatística

  • Upload
    maiarac

  • View
    352

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

Página 1 de 56

Page 2: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

SUMÁRIO

1. INTRODUÇÃO À ESTATÍSTICA...................................................................................................................................4

1.1 VISÃO GERAL..........................................................................................................................................................4

1.2 CLASSIFICAÇÃO DE DADOS.....................................................................................................................................6

1.3 COLETANDO DADOS...............................................................................................................................................7

1.4 TÉCNICAS DE AMOSTRAGEM.................................................................................................................................7

1.5 USOS E ABUSOS...................................................................................................................................................10

2. MEDIDAS DE TENDÊNCIA CENTRAL........................................................................................................................12

2.1 MÉDIA..................................................................................................................................................................12

2.2 MEDIANA.............................................................................................................................................................12

2.3 MODA..................................................................................................................................................................12

2.4 MÉDIA PONDERADA.............................................................................................................................................13

3. DISTRIBUIÇÕES DE FREQUÊNCIA............................................................................................................................15

3.1 DETERMINANDO FREQUÊNCIAS DE UM CONJUNTO DE DADOS AGRUPADOS.....................................................15

3.2 PONTO MÉDIO.....................................................................................................................................................16

3.3 FREQUÊNCIA RELATIVA........................................................................................................................................16

3.4 FREQUÊNCIA CUMULATIVA.................................................................................................................................16

3.5 MÉDIA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA.................................................................................................16

4. GRÁFICOS...............................................................................................................................................................21

4.1 HISTOGRAMA DE FREQUÊNCIAS..........................................................................................................................21

4.2 POLÍGONO DE FREQUÊNCIAS...............................................................................................................................21

4.3 HISTOGRAMA OU POLÍGONO DE FREQUÊNCIAS RELATIVAS................................................................................21

4.4 GRÁFICO DE FREQUÊNCIA CUMULATIVA OU OGIVA............................................................................................21

4.5 ASPECTO DAS DISTRIBUIÇÕES..............................................................................................................................21

5. MEDIDAS DE POSIÇÃO...........................................................................................................................................27

5.1 QUARTIL...............................................................................................................................................................27

5.2 AMPLITUDE INTERQUARTIL.................................................................................................................................27

Página 2 de 56

Page 3: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

5.3 PERCENTIS E OUTROS FRACTIS............................................................................................................................27

6. MEDIDAS DE VARIAÇÃO.........................................................................................................................................31

6.1 AMPLITUDE TOTAL...............................................................................................................................................31

6.2 DESVIO.................................................................................................................................................................31

6.3 VARIÂNCIA...........................................................................................................................................................31

6.4 DESVIO PADRÃO..................................................................................................................................................31

6.5 COEFICIENTE DE VARIAÇÃO.................................................................................................................................32

7. DISTRIBUIÇÃO NORMAL DE PROBABILIDADE.........................................................................................................35

7.1 PROPRIEDADES DE UMA DISTRIBUIÇÃO NORMAL...............................................................................................35

7.2 CURVAS NORMAIS E PROBABILIDADES................................................................................................................38

7.3 DISTRIBUIÇÃO NORMAL PADRÃO........................................................................................................................40

8. CORRELAÇÃO E REGRESSÃO..................................................................................................................................46

8.1 CORRELAÇÃO.......................................................................................................................................................46

8.2 COEFICIENTE DE CORRELAÇÃO............................................................................................................................47

8.3 TESTANDO A CORRELAÇÃO PARA A POPULAÇÃO................................................................................................49

8.4 RETAS DE REGRESSÃO..........................................................................................................................................50

8.5 COEFICIENTE DE DETERMINAÇÃO........................................................................................................................53

8.6 ERRO PADRÃO DA ESTIMATIVA...........................................................................................................................54

8.7 INTERVALOS DE PREVISÃO...................................................................................................................................55

Página 3 de 56

Page 4: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

1. INTRODUÇÃO À ESTATÍSTICA

1.1 VISÃO GERALO campo da Estatística lida com a coleta, a apresentação, a análise e o uso dos dados para tomar decisões e resolver problemas. Engenheiros resolvem problemas de interesse da sociedade pela aplicação eficiente de princípios científicos. O método de engenharia ou científico é a abordagem para formular e resolver esses problemas. As etapas no método de engenharia são dadas a seguir:1. Desenvolver uma descrição clara e concisa do problema.2. Identificar, no mínimo tentar, os fatores importantes que afetam esse problema ou que possam desempenhar um papel em sua solução.3. Propor um modelo para o problema, usando conhecimento científico ou de engenharia do fenômeno em estudo.4. Conduzir experimentos apropriados e coletar dados para testar ou validar o modelo-tentativa ou conclusões feitas nas etapas 2 e 3.5. Refinar o modelo com base nos dados observados.6. Manipular o modelo com base nos dados observados.7. Conduzir um experimento apropriado para confirmar que a solução proposta para o problema é efetiva e eficiente.8. Tirar conclusões ou fazer recomendações baseadas na solução do problema.Essas etapas são mostradas na Figura a seguir.

Devido a muitos aspectos da prática de engenharia envolver o trabalho com dados, obviamente algum conhecimento de estatística é importante para qualquer engenheiro. Especificamente, técnicas estatísticas podem ser ajuda poderosa no planejamento de novos produtos e sistemas, melhorando projetos existentes e planejando, desenvolvendo e melhorando os processos de produção.

Página 4 de 56

Page 5: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

Métodos estatísticos são usados para nos ajudar a entender a variabilidade. Por variabilidade, queremos dizer que sucessivas observações de um sistema ou fenômeno não produzem exatamente o mesmo resultado. A Estatística moderna pode ser dividida em 3 partes:A estatística descritiva é a parte da estatística que se ocupa da coleta, organização, resumo e apresentação dos dados ou informações que representam e descrevem os fenômenos em estudo.Na estatística indutiva ou inferencial pretende-se concluir ou predizer a evolução de fenômeno ao longo do tempo, com base em ocorrências verificadas no passado. A ferramenta básica no estudo da estatística indutiva é a teoria das probabilidades.A teoria das probabilidades originou-se nos jogos de azar. É o estudo das situações ou fenômenos em que os resultados possíveis dos experimentos são previamente conhecidos, mas incertos quanto à sua ocorrência ou não. Busca-se a quantificação do grau de incerteza, apresentado por certo resultado particular nas repetições do mesmo experimento.Os dados consistem em informações provenientes de observações, contagens, medidas ou respostas. Existem dois tipos de conjuntos de dados que você irá usar ao estudar estatística. Esses conjuntos são chamados de:

POPULAÇÃO é o conjunto de todos os resultados, respostas, medidas ou contagens que são de interesse. AMOSTRA é um subconjunto da população.

A menos que uma população seja pequena, geralmente é impraticável obter todos os seus dados. Na maior parte dos estudos a informação deve ser obtida a partir de uma amostra.

EXEMPLO

Em um levantamento recente, perguntou-se a 3.002 adultos no Brasil se liam notícias na Internet pelo menos uma vez por semana. Seiscentos adultos responderam que sim. Identifique a população e a amostra. Descreva o conjunto de dados.

A população consiste nas respostas de todos os adultos do Brasil. A amostra consiste na resposta de 3.002 adultos do Brasil no levantamento. O conjunto de dados consiste em 600 respostas positivas e 2.402 respostas negativas.

O fato de um conjunto de dados ser uma população ou amostra depende geralmente do contexto da situação na vida real. No exemplo acima, a população era o conjunto de respostas de todos os adultos no Brasil. Dependendo do propósito do levantamento, a população poderia ter sido o conjunto de respostas de todos os adultos que vivem no Paraná, ou daqueles que tivessem telefone, ou ainda que fossem leitores de um determinado jornal.

Página 5 de 56

POPULAÇÃOResposta de todos os adultos do Brasil

AMOSTRAResposta dos adultos no levantamento

Page 6: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

EXEMPLO

A ANP realiza levantamentos semanais em 800 postos de gasolina para determinar o preço médio da gasolina comum. Em 14 de maio de 2011 o preço médio era de R$ 2,513 por litro. Identifique a população e a amostra. A população consiste nos preços de gasolina comum em todos os postos do Brasil. A amostra consiste no preço da gasolina comum nos 800 postos levantados. O conjunto de dados consiste em 800 preços.

Dois termos importantes que serão usados são parâmetro e estatística: PARÂMETRO é uma descrição numérica de uma característica da POPULAÇÃO. ESTATÍSTICA é uma descrição numérica de uma característica da AMOSTRA.

EXEMPLO

Decida se o valor numérico descreve um parâmetro populacional ou uma estatística amostral.

1. Um recente levantamento de uma amostra de pessoas que possuem um diploma de MBA revelou que o salário médio inicial para elas é inferior a R$ 65 mil.

Como a medida numérica de R$ 65 mil baseia-se num subconjunto da população, ela é uma estatística amostral.

2. O salário inicial para os 667 diplomados em MBA pela FGV aumentou 8,5% em relação ao ano anterior.

Como a medida numérica de 8,5% baseia-se no salário inicial de todos os 667 diplomados, ela é um parâmetro populacional.

3. Em uma verificação aleatória de uma amostra de lojas de varejo, a ANVISA observou que 34% delas não estavam armazenando peixe a uma temperatura adequada.

Como a medida numérica de 34% baseia-se em um subconjunto da população, ela é uma estatística amostral.

1.2 CLASSIFICAÇÃO DE DADOSOs dados podem ser qualitativos e quantitativos. Os dados qualitativos consistem em atributos, classificações ou registros não numéricos. Os dados quantitativos consistem em medidas ou contagens numéricas.

EXEMPLOOs preços básicos de veículos estão na tabela a seguir. Quais dados são qualitativos e quais são quantitativos?

MODELO PREÇOGol Special 21.855Gol City 1.0 Mi 8v 2p 22.247Gol 1.0 Plus 16 v 2p 25.273Gol 1.0 Plus 16 v 4p 27.233Fox City 1.0 Mi 3p 29.943Fox City 1.0 Mi 4 30.781Fox Plus 1.0 Mi 3p 32.703Fox Plus 1.0 Mi 4p 34.688

As informações mostradas na tabela podem ser separadas em dois conjuntos de dados. Um deles contém os nomes dos modelos de veículos, enquanto o outro, os preços. Os nomes são registros não numéricos, logo, estes são os dados qualitativos. Os preços são registros numéricos e, portanto, são dados quantitativos.

Página 6 de 56

Page 7: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

1.3 COLETANDO DADOSHá várias maneiras de coletar dados. Frequentemente, o foco do estudo determina a melhor maneira de coletá-los. A seguir, apresentamos um breve resumo de quatro métodos de coleta de dados.

a) CENSO – é a contagem ou medição de toda uma população. O censo fornece informações completas, mas é frequentemente dispendioso e difícil de ser realizado.

b) AMOSTRA – é uma contagem ou medição de parte de uma população. As estatísticas calculadas a partir da amostra são usadas para predizer vários parâmetros populacionais. O uso da amostra é frequentemente mais prático que a realização de um censo.

c) SIMULAÇÃO – é o uso de um modelo matemático ou físico para reproduzir as condições de uma situação ou de um processo. A coleta de dados geralmente faz uso de computadores. As simulações permitem estudar situações que seria pouco prático ou até mesmo perigoso criar na vida real, além de poupar tempo e dinheiro. Por exemplo, fabricantes de automóveis usam simulações com bonecos para estudar efeitos que as colisões têm em seres humanos.

d) EXPERIMENTO - é aplicado um tratamento a uma parte da população e são observadas as respostas. Uma segunda parte da população é, em geral, usada como um grupo de controle. Esse grupo não recebe tratamento algum ou recebe um placebo. Após serem observadas as respostas dos dois grupos os resultados são comparados.

EXEMPLO

Qual método de coleta de dados você empregaria em cada caso abaixo descrito?

1. Um estudo a respeito do efeito que a mudança dos padrões de voo tem sobre o número de acidentes aéreos.Como não é prático criar essa situação, você preferiria usar uma simulação.

2. Um estudo sobre o efeito da aspirina na prevenção de ataques cardíacos.Neste estudo você deseja medir o efeito de um tratamento, assim é preferível realizar um experimento.

3. Um estudo sobre o peso de todos os jogadores do Campeonato Brasileiro 1ª Divisão.Como os times do Campeonato Brasileiro da 1ª Divisão mantêm um registro preciso dos dados físicos de todos os jogadores, seria possível fazer um censo.

4. Um estudo sobre o índice de aprovação do presidente Lula em meio às pessoas que residem no país.Seria praticamente impossível indagar todos os brasileiros se eles aprovam ou não o desempenho do presidente. Assim, você usaria amostragem para coleta de dados.

1.4 TÉCNICAS DE AMOSTRAGEMPara coletar dados não tendenciosos, é importante que a amostra seja representativa da população. Técnicas de amostragem apropriadas devem ser usadas para garantir que as inferências sobre a população sejam válidas. Um estudo feito com dados imprecisos conduz a resultados questionáveis.Uma amostra tendenciosa é aquela que não é representativa da população da qual foi extraída. Por exemplo, uma amostra constituída apenas de estudantes universitários com idades entre 18 e 22 anos não seria representativa de toda a população que se encontra nessa faixa etária no país.Uma amostra aleatória é aquela na qual todos os membros da população têm chances iguais de serem selecionados. Uma amostra aleatória simples é aquela na qual toda amostra possível tem mesma chance de ser selecionada. Uma maneira de coletar uma amostra aleatória simples é atribuir um número diferente para cada membro da população e então usar uma tabela de números aleatórios como a apresentada na tabela a seguir. Calculadoras e programas de computadores também são usados para gerar números aleatórios.

Página 7 de 56

Page 8: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

EXEMPLOSuponha que 356 alunos estão matriculados no Curso de Engenharia Civil da PUCPR. Você deseja formar uma amostra de 5 estudantes para responder a algumas questões de um levantamento. Selecione os estudantes que farão parte da amostra aleatória simples.

Atribua números de 1 a 356 para cada estudante do Curso. Na tabela de números aleatórios, escolha um lugar de partida ao acaso. Por exemplo, a quinta linha da tabela.

06348 76938 90379 51392 55887 71015 09209 79157 23330 30244

Agrupe os números com 3 dígitos

063│48 7│693│890│379│513│925│588│771│015│092│097│915│723│330│302│44063 487 693 890 379 513 925 588 771 015 092 097 915 723 330 302 44e elimine os valores superiores a 356

063 487 693 890 379 513 925 588 771 015 092 097 915 723 330 302 44

Assim, os cinco alunos que irão responder ao levantamento são aqueles de números:063, 015, 092, 097 e 330Outra forma de obter números aleatórios é utilizar o Excel. Para a versão 2003 proceda da seguinte maneira:

Na caixa Ferramentas, selecione a opção Suplementos. Marque as opções Ferramentas de análise e Ferramentas de análise – VBA. Clique OK. Na célula A1 insira a fórmula =RANDBETWEEN(1;356) Caso o valor não seja apresentado, selecione Ferramentas, Auditoria de fórmulas e modo de auditoria de

fórmulas. Copie o valor da célula A1 para outras quatro células e você terá gera uma lista de cinco números aleatórios

variáveis entre 1 e 356. Anote os valores obtidos. Agora experimente recalcular a planilha usando a tecla F9 ...... veja que novos números são gerados. Também experimente gerar esses números utilizando a sua calculadora.

Para a versão 2010 a função é =ALEATÓRIO ou =ALEATÓRIOENTRE(1;356).

Quando escolher os membros de uma amostra, você deve decidir se é aceitável ou não ter o mesmo membro da população selecionado mais de uma vez. Se for aceitável, diz-se que o processo de amostragem é feito com reposição. Se não for aceitável, então se diz que o processo é feito sem reposição. Há várias outras técnicas comumente usadas para se constituir uma amostra.AMOSTRA POR AGRUPAMENTO

Quando a população apresenta a ocorrência natural de subgrupos, cada um deles com características similares pode ser mais apropriada uma amostra por agrupamento. Para selecionar uma amostra por agrupamento, divida a população em grupos, chamados de agrupamentos, e selecione todos os membros de um ou mais agrupamentos (mas não todos). Exemplos de agrupamentos podem ser as seções diferentes de um mesmo curso ou os diferentes departamentos de um banco. Por exemplo: para coletar uma amostra por agrupamento do número de pessoas que vivem nos domicílios do Prado Velho, divida os domicílios em grupos de acordo com o CEP, depois selecione todos os domicílios segundo um ou mais CEPs (mas não todos) e conte o número de pessoas que vivem em cada domicílio. Quando usarmos uma amostra por agrupamento, devemos ter cuidado para garantir que todos os agrupamentos possuam características similares. Por exemplo, se o agrupamento do oeste apresenta uma maior proporção de pessoas de alta renda, os dados podem não ser representativos da população.

Página 8 de 56

Page 9: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

Página 9 de 56

Page 10: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

AMOSTRA SISTEMÁTICA

Uma amostra sistemática é aquela na qual é atribuído um número a cada membro da população. Os membros da população são então ordenados de alguma maneira, o número inicial é selecionado aleatoriamente e depois os membros da amostra são selecionados segundo intervalos regulares que ocorrem a partir do número inicial. (Por exemplo, cada terceiro, quinto ou centésimo membro é selecionado.).Por exemplo, para coletar uma amostra sistemática do número de pessoas que vivem nos domicílios do Prado Velho, você poderia atribuir um número diferente para cada domicílio, escolher aleatoriamente um número inicial, selecionar um domicílio a cada cem e contar então o número de pessoas que vivem em cada um desses domicílios selecionados.

EXEMPLO

Identificando técnicas de amostragemVocê está fazendo um estudo para determinar a opinião dos estudantes de sua escola com respeito ao controle do porte de armas. Identifique a técnica de amostragem que você irá usar se selecionar uma das amostras relacionadas abaixo.1. Selecione aleatoriamente uma classe e faça perguntas a cada estudante.2. Divida a população estudantil com relação às especialidades estudadas, realize uma seleção aleatória e faça perguntas a alguns estudantes de cada especialidade.3. Atribua um número a cada estudante e escolha números aleatório. Você então irá questionar cada estudante cujo número for selecionado ao acaso.

SOLUÇÃO1. Como cada classe é um subgrupo que ocorre naturalmente (um agrupamento) e você questionará cada estudante da classe, essa é uma amostra por agrupamento.2. Como os estudantes estão divididos em estratos (especialidades) e a amostra é selecionada de acordo com cada especialidade, essa é uma amostra estratificada.3. Cada amostra de mesmo tamanho possui chances iguais de ser selecionada e cada estudante tem chances iguais de ser selecionado; assim, essa é uma amostra aleatória simples.1.5 USOS E ABUSOSUSOS

Levantamentos podem ser importantes na determinação da atitude de uma população acerca de um candidato, produto ou tema. Se você estiver trabalhando para um candidato político, é importante que saiba como os eleitores veem seu candidato. De posse dessa informação, você pode voltar-se para as preocupações dos eleitores e aumentará as chances de seu candidato vencer a eleição.

Se você estiver trabalhando em um departamento de pesquisa de mercado de uma companhia manufatureira, é importante que saiba como o povo irá reagir ao lançamento de um novo produto antes que ele seja produzido. Talvez você possa alterar o projeto do produto para torná-lo mais interessante e conquistar assim uma fatia maior do mercado.

Se você estiver trabalhando para uma organização ativista, é importante que saiba como a população se sente acerca das questões levantadas por sua organização. Se descobrir que a população não apoia uma questão, talvez possa mudar isso por meio de uma campanha informativa.

ABUSOS

Amostras tendenciosas. O abuso (ou mau uso) mais comum da estatística está na utilização de uma amostra não representativa de toda a população em estudo.

Página 10 de 56

Page 11: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

Considere um levantamento de opinião feito por telefone sobre um candidato para o conselho escolar. Dos 930 números discados, 543 responderam. Daqueles que responderam, 162 pessoas concordou em participar do levantamento, e destas, 62%, pensavam, em votar no candidato. Deve ficar claro que, a partir desse levantamento, você não pode concluir que 62% dos eleitores locais planejam votar no candidato. O levantamento não incluiu eleitores com numero de telefone fora da lista, ou que não estavam em casa, ou que não concordaram em participar do levantamento. Em casos assim, dizemos que o levantamento está tendencioso em relação àqueles cujos números de telefones estavam na lista, que saem pouco de casa e que desejam participar de levantamentos.

Questões tendenciosas de levantamento. Outro abuso comum está no uso de questões no levantamento que encorajam os participantes, quer seja intencionalmente ou não a responder de uma determinada maneira. Por exemplo, considere um levantamento sobre porte de armas. Está claro que as seguintes questões irão produzir resultados muito diferentes:(a) Você concorda com a afirmação: As pessoas têm o direito de ter uma arma para sua própria proteção e de sua família?(b) Você concorda com a afirmação: As pessoas têm o direito de possuir armas carregadas em casa?

Página 11 de 56

Page 12: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

2. MEDIDAS DE TENDÊNCIA CENTRAL

Uma medida de tendência central é um valor que representa uma entrada (observação, dado ou valor), de um conjunto de dados. As três medidas de tendência central mais usadas são:

MÉDIA MEDIANA MODA

2.1 MÉDIA

A média de um conjunto de dados é a soma das entradas de dados dividida pelo número de entradas. Para encontrar a média de um conjunto de dados use as seguintes fórmulas:

Média da população: Média da amostra:

onde – a letra grega sigma maiúscula indica uma soma de valoresx – variável que representa uma entrada quantitativa de dadosN – número de entradas em uma populaçãon – número de entradas em uma amostra – a letra grega minúscula mi indica a média da população

- leia como “x barra” que é a média da amostra.

Propriedades da média1. Sempre pode ser calculada.2. Pode assumir qualquer valor real (positivo, negativo, nulo).3. Definido o conjunto de dados, a média aritmética é única.4. É uma medida sensível a todos os valores do conjunto dos dados: qualquer mudança num deles modifica a média.5. É afetada pelas mudanças nas proporções de elementos com certas propriedades (o salário médio, por exemplo, que pode ser separado por categorias).6. Somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de informações, a média aritmética ficará somada ou subtraída dessa constante.7. Se multiplicarmos ou dividirmos cada um dos elementos por uma constante, a média aritmética também ficará multiplicada ou dividida por uma constante.8. É uma medida que tende a se aproximar dos extremos, se estes valores forem altos, e dos pontos de grandes acúmulos de valores.

2.2 MEDIANA

A mediana de um conjunto de dados é o dado que fica no meio quando as entradas são colocadas em ordem crescente ou decrescente. Se um conjunto de dados tiver um número par de entradas, a mediana será a média entre os dois pontos que estiverem no meio do conjunto. Em um conjunto de dados, há um número igual de valores acima e abaixo da mediana.

2.3 MODA

A moda de um conjunto de dados é aquela entrada que ocorre com maior frequência. Se nenhuma entrada é repetida, o conjunto de dados não possui moda e é chamado amodal. Se duas entradas ocorrem com a mesma frequência elevada, cada entrada é uma moda e os dados são chamados de bimodais. A moda é a única medida de tendência central que pode ser usada para descrever dados no nível nominal de medida.

Página 12 de 56

Page 13: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

2.4 MÉDIA PONDERADA

Às vezes, os conjuntos de dados contem entradas que possuem maior efeito sobre a média que os demais. Para encontrar a média de tais conjuntos, você deve calcular a média ponderada.Uma média ponderada é a média de um conjunto de dados cujas entradas têm pesos variáveis. Uma média ponderada é dada por:

ondew – é o peso de cada entrada x

EXERCÍCIOS1) Os preços de um determinado eletrodoméstico foram coletados nas redes de lojas especializadas através de uma amostragem. Pede-se determinar o preço médio, a mediana e a moda desses valores.

500 840 470 480 420 440 440

Soluçãoa) Média

O preço médio do eletrodoméstico é R$ 512,86 ou aproximadamente R$ 513,00.

b) Mediana

Para encontrar o preço mediano, ordene os dados:1 2 3 4 5 6 7420 440 440 470 480 500 840

Uma vez que há sete entradas (um número ímpar), a mediana é o ponto médio, ou seja, a quarta entrada de dados. Assim o preço mediano do eletrodoméstico é R$ 470,00

c) Moda

A partir dos dados ordenados, é possível ver que o valor 440 ocorre duas vezes, enquanto que as demais entradas de dados ocorrem uma vez. Assim, a moda dos preços do eletrodoméstico é R$ 440,00.

2) Suponha que a produção de eletrodoméstico de preço R$ 480,00 foi suspensa. Qual o preço mediano dos aparelhos restantes?SoluçãoOs preços restantes ordenados são:1 2 3 4 5 6420 440 440 470 500 840

Uma vez que temos seis entradas (um número par) a mediana é a média entre os dois pontos médios de entrada.

Página 13 de 56

Page 14: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

3) Encontre a média, a mediana e a moda da seguinte amostra de idades de uma classe. Qual é a medida de tendência central que melhor descreve uma entrada típica?

20 20 20 20 20 20 21 21 21 2122 22 22 23 23 23 23 24 24 65

Note que a idade de 65 anos é um dado estranho.

Solução:a) Média

b) Mediana

c) ModaA entrada que ocorre com maior frequência é 20 anos.

Não há nenhuma resposta certa para a questão “qual é a medida de tendência central que melhor descreve uma entrada típica de dados?”. A média leva em conta todas as entradas, mas é influenciada pelo dado estranho 65. A mediana também leva em conta todas as entradas, mas não é afetada pelo dado estranho. Nesse caso, a moda existe, mas não parece representar uma entrada típica.

Página 14 de 56

Page 15: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

3. DISTRIBUIÇÕES DE FREQUÊNCIA

Quando um conjunto de dados possui muitas entradas, pode ser difícil identificar padrões. Apresenta-se a seguir como organizar um conjunto de dados agrupando-os em intervalos chamados de classes e formando uma distribuição de frequência. A partir dessa distribuição de frequência serão construídos gráficos.

Uma distribuição de frequência é uma tabela que mostra classes ou intervalos de entrada de dados com um número total de entradas em cada classe. A frequência (f) de uma classe é o número de entrada de dados na classe.

Tabela 1 – Exemplo de distribuição de frequência

Classe Frequência (f)1 – 5 5

6 – 10 811 – 15 616 – 20 821 – 25 526 – 30 4

No exemplo acima há seis classes. As frequências para cada uma das seis classes são respectivamente 5, 8, 6, 8, 5 e 4. Cada classe possui um limite inferior de classe, que é o menor número que pode pertencer à classe, e o limite superior da classe, que é o maior número que pode pertencer à classe. No exemplo acima os limites inferiores de classe são 1, 6, 11, 16, 21 e 26, e os limites superiores de classe são 5, 10, 15, 20, 25 e 30. A amplitude de classe é a distância entre os limites inferiores (ou superiores) das classes consecutivas. Por exemplo, a amplitude de classe nessa distribuição é 6 – 1 = 5.

Se cada classe tem mesma amplitude de distribuição de frequência ela é considerada ótima. As respostas mostradas usarão o valor mínimo dos dados para o limite inferior da primeira classe. Às vezes, pode ser mais conveniente escolher um valor que seja ligeiramente menor do que o valor mínimo. A distribuição de frequência obtida irá variar ligeiramente.

A diferença entre o máximo e o mínimo das entradas de dados é chamada de amplitude total. Por exemplo, se a entrada máxima de dados é 30 e a entrada mínima 1, a amplitude total é 30 – 1 = 29.

3.1 DETERMINANDO FREQUÊNCIAS DE UM CONJUNTO DE DADOS AGRUPADOSA seguir estão orientações para construir uma distribuição de frequência a partir de um conjunto de dados.

ORIENTAÇÕES GERAISConstruindo uma distribuição de frequência a partir de um conjunto de dados1. Defina o número de classe a serem incluídas na distribuição de frequência. O número de classes deve estar entre 5 e 20; caso contrário pode ser difícil identificar padrões. O número de classes também pode ser definido pelas seguintes expressões:

ondek – número de classesN – número de entradas2. Determine a amplitude da classe da seguinte maneira. Determine a amplitude total dos dados, divida a amplitude total pelo número de classes e arredonde até o próximo número conveniente.

3. Calcule os limites das classes. Você pode usar a entrada mínima dos dados como limite inferior da primeira classe. Para determinar os limites inferiores remanescentes, adicione a amplitude da classe ao limite inferior da classe precedente. Depois calcule o limite superior da primeira classe. Lembre que as classes não podem se sobrepor. Determine os limites superiores das classes remanescentes.

Página 15 de 56

Page 16: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

4. Marque um risco em cada entrada de dado na linha da classe apropriada.5. Conte os riscos feitos para determinar a frequência (f) para cada classe.

3.2 PONTO MÉDIOO ponto médio de uma classe é a metade da soma entre os limites inferior e superior da classe. Às vezes o ponto médio é chamado de característica da classe.

3.3 FREQUÊNCIA RELATIVAA frequência relativa de uma classe é a porção ou porcentagem de dados nessa classe. Para determinar a frequência relativa de uma classe, divida a frequência (f) pelo tamanho da amostra (N).

A frequência relativa pode ser expressa de forma decimal ou de percentagem. A soma das frequências relativas de todas as classes deve ser igual a 1 (um) ou 100%.

3.4 FREQUÊNCIA CUMULATIVAA frequência cumulativa de uma classe é igual à soma de sua frequência com todas as frequências das classes anteriores. A frequência cumulativa da última classe deve ser igual ao tamanho da amostra (N).

3.5 MÉDIA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAA média de uma distribuição de frequência para uma amostra é aproximada por

onde (xm) e (f) são respectivamente os pontos médios e as frequências de uma classe

EXERCÍCIOS

1) O conjunto de dados amostrais a seguir fornece uma lista do número de minutos que 50 assinantes da Internet gastaram durante sua conexão mais recente. Construa uma distribuição de frequência e determine a média do conjunto de dados agrupados.

50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

SOLUÇÃOa) Número de classes

b) Amplitude total

A entrada de dados mínima é 7, enquanto a entrada de dados máxima é 88; logo a amplitude total é

c) Amplitude de classesPágina 16 de 56

Page 17: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

Esta é determinada dividindo-se a amplitude total pelo número de classes

d) Limite inferior

A entrada de dados mínima é o limite inferior da primeira classe. Para encontrar os limites inferiores das seis classes remanescentes, adicione uma amplitude de classe igual a 12 ao limite inferior da classe anterior.

Classe Limite inferior1ª 72ª 7 + 12 = 193ª 19 + 12 = 314ª 31 + 12 = 435ª 43 + 12 = 556ª 55 + 12 = 677ª 67 + 12 = 79

e) Limite superior

O limite superior da primeira classe é 18, o qual é uma unidade a menos do que o limite inferior da segunda classe. Os limites superiores das outras classes são 18 + 12 = 30, 30 + 12 = 42 e assim por diante.

Classe Limite inferior Limite superior1ª 7 182ª 19 18 + 12 = 303ª 31 30 + 12 = 424ª 43 42 + 12 = 545ª 55 54 + 12 = 666ª 67 66 + 12 = 787ª 79 78 + 12 = 90

f) ContagemPara a primeira classe (7 – 18) a contagem é mostrada abaixo

50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

Classe Limite inferior Limite superior Frequência (f)1ª 7 18 6

Para a segunda classe (19 – 30) a contagem é

50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

Classe Limite inferior Limite superior Frequência (f)2ª 19 30 10

Para a terceira classe (31 – 42) a contagem é

Página 17 de 56

Page 18: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

Classe Limite inferior Limite superior Frequência (f)3ª 31 42 13

Para a quarta classe (43 – 54) a contagem é50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

Classe Limite inferior Limite superior Frequência (f)4ª 43 54 8

Para a quinta classe (55 – 66) a contagem é50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

Classe Limite inferior Limite superior Frequência (f)5ª 55 66 5

Para a sexta classe (67 – 78) a contagem é50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

Classe Limite inferior Limite superior Frequência (f)6ª 67 78 6

Para a sétima e última classe (79 – 90) a contagem é50 40 41 17 11 7 22 44 28 21 19 23 37 51 54 42 88

41 78 56 72 56 17 7 69 30 80 56 29 33 46 31 39 20

18 29 34 59 73 77 36 39 30 62 54 67 39 31 53 44

A distribuição de frequência está mostrada na tabela a seguir. Note que a soma das frequências deverá sempre ser igual ao número total de entradas ou observações. Verifique sempre se a soma das frequências é igual ao número total de valores observados.

Classe Limite inferior Limite superior Frequência (f)1ª 7 18 62ª 19 30 103ª 31 42 134ª 43 54 85ª 55 66 56ª 67 78 67ª 79 90 2 6 + 10 + 13 + 8 + 5 + 6 + 2 = 50

Essas informações podem ser resumidas conforme a tabela a seguir.Página 18 de 56

Page 19: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

Classe Frequência (f)7 – 18 6

19 – 30 1031 – 42 1343 – 54 855 – 66 567 – 78 679 - 90 2

Há vários padrões no conjunto de dados. Por exemplo, o intervalo de conexão mais comum foi de 31 a 42 minutos. Uma vez definida a distribuição de frequências, calcula-se os pontos médios das classes.

Classe Ponto médio Frequência (f)

7 – 18 6

19 – 30 10

31 – 42 13

43 – 54 8

55 – 66 5

67 – 78 6

79 - 90 2

Note que uma vez determinado o primeiro ponto médio, os demais podem ser determinados adicionando-se o valor (12) da amplitude de classe. O cálculo da frequência relativa é apresentado na tabela a seguir:

Classe Ponto médio Frequência (f) Frequência relativa

7 – 18 12,5 6

19 – 30 24,5 10

31 – 42 36,5 13

43 – 54 48,5 8

55 – 66 60,5 5

67 – 78 72,5 6

79 - 90 84,5 2

O cálculo da frequência cumulativa é mostrado na tabela a seguir

Classe Ponto médio Frequência (f) Frequência relativa (fr.) Frequência cumulativa (fac)7 – 18 12,5 6 0,12 ou 12% 6

19 – 30 24,5 10 0,20 ou 20% 6 + 10 = 16

Página 19 de 56

Page 20: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

31 – 42 36,5 13 0,26 ou 26% 16 + 13 = 2943 – 54 48,5 8 0,16 ou 16% 29 + 8 = 3755 – 66 60,5 5 0,10 ou 10 % 37 + 5 = 4267 – 78 72,5 6 0,12 ou 12% 42 + 6 = 4879 - 90 84,5 2 0,04 ou 4% 48 + 2 = 50

A média da distribuição de frequência é dada na tabela a seguir

Classe Ponto médio (x) Frequência (f) x . f7 – 18 12,5 6 75,0

19 – 30 24,5 10 245,031 – 42 36,5 13 474,543 – 54 48,5 8 388,055 – 66 60,5 5 302,567 – 78 72,5 6 435,079 – 90 84,5 2 169,0

n = 50=

2.089,0

Assim, o tempo médio gasto online foi de 41,78 minutos.

Página 20 de 56

Page 21: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

4. GRÁFICOS

Ás vezes é mais fácil identificar padrões de um conjunto de dados analisando um gráfico de distribuição de frequência. Um desses gráficos é um histograma de frequências.

4.1 HISTOGRAMA DE FREQUÊNCIAS

Um histograma de frequências é um gráfico de barras que representa a distribuição de frequência de um conjunto de dados. Um histograma de frequências possui as seguintes propriedadesa. A escala horizontal é quantitativa e mede os valores dos dados.b. A escala vertical mede as frequências de classes.c. Barras consecutivas devem estar encostadas umas às outras.Uma vez que as barras consecutivas de um histograma de frequências devem se encostar, elas começam e terminam nas fronteiras de classes e não nos limites das classes. As fronteiras de classes são os números que separam as classes sem deixar uma falha entre elas. Você pode marcar a escala horizontal tanto nos pontos médios, quanto nas fronteiras de classes, conforme será mostrado a seguir.

4.2 POLÍGONO DE FREQUÊNCIAS

Outra maneira de representar em um gráfico uma distribuição de frequência é por meio do uso de um polígono de frequência. Um polígono de frequência é um gráfico em forma de linha que enfatiza a mudança contínua nas frequências.

4.3 HISTOGRAMA OU POLÍGONO DE FREQUÊNCIAS RELATIVAS

Esses têm escala horizontal igual ao histograma ou polígono de frequência correspondente. A diferença é que a escala vertical mede as frequências relativas e não as frequências.

4.4 GRÁFICO DE FREQUÊNCIA CUMULATIVA OU OGIVA

É uma linha poligonal que mostra a frequência cumulativa de cada classe em seu limite superior. Os limites superiores são marcados sobre o eixo horizontal e as frequências cumulativas sobre o eixo vertical.a) Construa uma distribuição de frequência que tenha uma coluna para frequências cumulativas.b) Especifique as escalas, vertical e horizontal. A escala horizontal consiste dos limites superiores de classe, enquanto que a vertical mede as frequências cumulativas. c) Marque os pontos que representam os limites superiores de classe e suas respectivas frequências cumulativas.d) Conecte os pontos em ordem, da esquerda para a direita.e) O gráfico deve começar no limite inferior da primeira classe (cuja frequência cumulativa é zero) e deve terminar no limite superior da última classe (cuja frequência cumulativa é igual ao tamanho da amostra).

4.5 ASPECTO DAS DISTRIBUIÇÕESUm gráfico revela várias características de uma distribuição de frequência. Uma delas é o aspecto. Uma distribuição de frequência será SIMÉTRICA quando pudermos traçar uma linha vertical pelo ponto médio do gráfico de distribuição e as duas metades resultantes forem aproximadamente imagens especulares. Quando uma distribuição for simétrica, a média, a mediana e a moda serão iguais.

Página 21 de 56

Page 22: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

DISTRIBUIÇÃO SIMÉTRICA

Uma distribuição de frequência será UNIFORME (ou retangular) quando todas as entradas, ou classes, na distribuição tiverem frequências iguais. Uma distribuição uniforme também é simétrica.

DISTRIBUIÇÃO UNIFORME

Uma distribuição de frequência será ASSIMÉTRICA se “a cauda” do gráfico se prolongar mais de um lado do que do outro. Uma distribuição será ASSIMÉTRICA À ESQUERDA (negativamente assimétrica) se “a sua cauda” se prolongar para a esquerda. Se uma distribuição for assimétrica à esquerda, a média será menor do que a mediana que, por sua vez, será geralmente menor que a moda.

Página 22 de 56

Page 23: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

DISTRIBUIÇÃO ASSIMÉTRICA À ESQUERDA

Uma distribuição será ASSIMÉTRICA À DIREITA (positivamente assimétrica) se “a sua cauda” se prolongar para a direita. Se uma distribuição for assimétrica à direita, a média será maior do que a mediana que por sua vez, será geralmente maior do que a moda.

DISTRIBUIÇÃO ASSIMÉTRICA À DIREITA

A média sempre irá cair na direção em que a distribuição for assimétrica. Por exemplo, quando uma distribuição for assimétrica à esquerda, a média estará à esquerda da mediana.

Página 23 de 56

Page 24: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

EXERCÍCIOS

1. Trace o histograma de frequências, o polígono de frequências, o gráfico de frequência cumulativa e o histograma de frequência relativa para os dados de duração de conexão com a Internet.

HISTOGRAMA DE FREQÜÊNCIASClasse Fronteiras de

classesPonto médio Frequência (f)

7 – 18 6,5 – 18,5 12,5 619 – 30 18,5 – 30,5 24,5 1031 – 42 30,5 – 42,5 36,5 1343 – 54 42,5 – 54,5 48,5 855 – 66 54,5 – 66,5 60,5 567 – 78 66,5 – 78,5 72,5 679 - 90 78,5 – 90,5 84,5 2

Utilizando as fronteiras de classes

Utilizando o ponto médio das classes

Página 24 de 56

Page 25: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

POLÍGONO DE FREQÜÊNCIAS

GRÁFICO DE FREQUÊNCIAS CUMULATIVAS

Classe Frequência (f)Fronteira superior da

classeFrequência cumulativa

7 – 18 6 18,5 619 – 30 10 30,5 1631 – 42 13 42,5 2943 – 54 8 54,5 3755 – 66 5 66,5 4267 – 78 6 78,5 4879 - 90 2 90,5 50

Página 25 de 56

Page 26: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

HISTOGRAMA DE FREQUÊNCIA RELATIVAClasse Fronteiras de

classesFrequência (f) Frequência relativa

7 – 18 6,5 – 18,5 6 0,1219 – 30 18,5 – 30,5 10 0,2031 – 42 30,5 – 42,5 13 0,2643 – 54 42,5 – 54,5 8 0,1655 – 66 54,5 – 66,5 5 0,1067 – 78 66,5 – 78,5 6 0,1279 - 90 78,5 – 90,5 2 0,04

Página 26 de 56

Page 27: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPRProbabilidade e Estatística I

5. MEDIDAS DE POSIÇÃO

Nesse capítulo você irá aprender a usar fractis para especificar a posição de um determinado valor dentro de um conjunto de dados de um levantamento estatístico. Quartis são números que dividem em partes iguais um conjunto ordenado de dados. A mediana, por exemplo, é um fractil, pois divide um conjunto ordenado de dados em duas partes iguais.

5.1 QUARTILOs três quartis Q1, Q2 e Q3 dividem aproximadamente um conjunto ordenado de dados em quatro partes iguais. Cerca de um quarto dos dados fica dentro ou abaixo do primeiro quartil Q1. Cerca de metade dos dados fica dentro ou abaixo do segundo quartil Q2 (o segundo quartil é igual à mediana do conjunto de dados). Cerca de três quartos dos dados ficam dentro ou abaixo do terceiro quartil Q3.

ExemploA pontuação nos testes de 15 empregados envolvidos em um curso de treinamento está disposta a seguir. Obtenha os primeiro, segundo e terceiro quartis da pontuação de testes.

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17

Em primeiro lugar ordene o conjunto de valores e obtenha a mediana Q2. Você separou o conjunto de dados em duas metades. O primeiro quartil Q1 é a mediana da metade inferior enquanto que o terceiro quartil Q3 é a mediana da metade superior.

Metade inferior Mediana Metade superior5 7 9 10 11 13 14 15 16 17 18 18 20 21 37

Q1

Q2

Q3

Você pode verificar que cerca de 25% dos empregados obteve 10 pontos ou menos, cerca da metade ou 50% fez 15 pontos ou menos e 75% conseguiu 18 pontos ou menos.

5.2 AMPLITUDE INTERQUARTILA amplitude interquartil de um conjunto de dados é a diferença entre o terceiro e o primeiro quartil.

AIQ = Q3 – Q1

Essa é uma medida que fornece uma ideia de quanto os 50% médios variam. Ela pode ser utilizada para identificar dados estranhos. Qualquer valor de dado acima de 1,5 x AIQ à esquerda de Q1 ou à direita de Q3 é estranho. No exemplo anterior a amplitude interquartil é igual a AIQ = 18 – 10 = 8 e o valor 37 é um dado estranho.

5.3 PERCENTIS E OUTROS FRACTISAlém dos quartis, podemos usar também percentis e decis para especificar uma medida de posição. Os fractis mais comuns podem ser resumidos da seguinte maneira.

Fractil Resumo SímbolosQuartis Divide o conjunto de dados em quatro partes iguais Q1, Q2, Q3

Decis Divide o conjunto de dados em dez partes iguais D1, D2, D3, ..... D9

Percentis Divide o conjunto de dados em cem partes iguais P1, P2, P3, .... P99 Os percentis são frequentemente usados na educação e nos campos relacionados à saúde para indicar como um indivíduo se compara com os outros, em um determinado grupo. Pontuações em testes e medidas de crescimento infantil, por exemplo, são frequentemente expressos em percentis. Se o peso de um bebe de seis meses de idade estiver no 78º percentil significa que ele pesa mais que 78% de todos os bebes de seis meses de idade. Isso não significa que o bebe pese 78% de algum peso ideal.

Página 27 de 56

Page 28: Notas de aula Estatística

0

6

10

13

8

5

6

2

00%

4%

8%

12%

16%

20%

24%

28%

0

2

4

6

8

10

12

14

0,5 12,5 24,5 36,5 48,5 60,5 72,5 84,5 96,5

Freq

uenc

ia (%

)

Freq

uenc

ia (n

º cl

ient

es)

Tempo de conexão (min)

Polígono de frequencia - tempo de conexão Internet

Tempo de conexão Média Mediana Moda

Página 28 de 56

Page 29: Notas de aula Estatística

0%

12%

20%

26%

16%

10%

12%

4%

0%0%

5%

10%

15%

20%

25%

30%

0,5 12,5 24,5 36,5 48,5 60,5 72,5 84,5 96,5

Freq

uenc

ia r

elati

va (

%)

Tempo de conexão (min)

Histograma de frequencia - tempo de conexão Internet

Página 29 de 56

Page 30: Notas de aula Estatística

0%

12%

32%

58%

74%

84%

96%100% 100%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

6 18 30 42 54 66 78 90 102

Freq

uenc

ia c

umul

ativa

(%

)

Tempo de conexão (min)

Polígono de frequencia cumulativa - tempo de conexão Internet

Página 30 de 56

Page 31: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

6. MEDIDAS DE VARIAÇÃO

Nesse capítulo você irá aprender diferentes maneiras de medir a variação de um conjunto de dados. Você será capacitado a determinar a amplitude total, o desvio, a variância, o desvio padrão e o coeficiente de variação de um conjunto de dados ou observações. Você também irá aprender a interpretar o desvio padrão.

6.1 AMPLITUDE TOTAL

A medida de variação mais simples é a amplitude total do conjunto. Conforme já vimos no capítulo de distribuições de frequência, ela é a diferença entre a entrada máxima e mínima do conjunto.

Como medida de variação, a amplitude total tem a vantagem de ser facilmente calculável. Sua desvantagem, porém, é que ela usa somente duas entradas do conjunto de dados.

6.2 DESVIO

O desvio de uma entrada x de um conjunto de dados de uma população ou amostra é a diferença entre a entrada e a média ou do conjunto.

A soma dos desvios deve ser igual a zero. Uma vez que isso é verdade para todo conjunto de dados, não faz sentido determinar a média dos desvios.

6.3 VARIÂNCIA

Para resolver esse problema, você pode elevar ao quadrado cada desvio. Em um conjunto de dados de uma população, a média dos quadrados dos desvios é chamada variância populacional.A desvantagem da variância consiste no fato de suas unidades normalmente não terem sentido.A variância populacional (2 – letra grega sigma minúscula) de um conjunto dados com (N) entradas e média é

A variância amostral (s2) de um conjunto de dados com (n) entradas e média é dada por

Observe que na obtenção da variância populacional você divide por N, o número de entradas. Na obtenção da variância amostral, você divide por (n-1), um a menos do que o número de entradas.

6.4 DESVIO PADRÃO

Consideremos um conjunto de dados populacionais com (N) entradas. O desvio padrão populacional é a raiz quadrada da variância populacional

Página 31 de 56

Page 32: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

O desvio padrão amostral de maneira similar será determinado por

ORIENTAÇÕES GERAIS1. Obtenha a média do conjunto de dados

2. Obtenha o desvio de cada entrada

3. Eleve ao quadrado cada desvio

4. Some os resultados para obter a soma dos quadrados

5. Divida por N ou n-1 para obter a variância

6. Determine a raiz quadrada para obter o desvio padrão

6.5 COEFICIENTE DE VARIAÇÃOO coeficiente de variação é dado pela relação entre o desvio padrão e a média

EXERCÍCIOS

1. Duas empresas contrataram 10 pessoas com curso superior. O salário inicial nessas companhias é mostrado a seguir

Empresa A – Salários em milhares de reais

41 38 39 45 47 41 44 42 37 42Empresa B – Salários em milhares de reais

40 23 41 50 49 32 41 29 52 58

Determinea) a amplitude total dos salários em cada empresa,b) o desvio de cada salário em ambas as empresas,c) a variância e o desvio padrão populacional para as empresas,d) o coeficiente de variação dos salários de cada empresa

SOLUÇÂOEmpresa Aa) amplitude

Página 32 de 56

Page 33: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

b) Desvio

Entrada Salário (x) Desvio (x - )

1 41 41 - 41,5 = -0,5

2 38 38 - 41,5 = -3,5

3 39 39 - 41,5 = -2,5

4 45 45 - 41,5 = 3,5

5 47 47- 41,5 = 5,5

6 41 41 - 41,5 = -0,5

7 44 44 - 41,5 = 2,5

8 42 42 - 41,5 = -0,5

9 37 37 - 41,5 = -4,5

10 42 42 - 41,5 = 0,5

415 0,00

Média 415 / 10 = 41,5

c) Variância e desvio padrão

Entrada Salário (x) Desvio (x - ) Quadrado (x - )2

1 41 -0,5 0,252 38 -3,5 12,253 39 -2,5 6,254 45 3,5 12,255 47 5,5 30,256 41 -0,5 0,257 44 2,5 6,258 41 -0,5 0,259 37 -4,5 20,25

10 42 0,5 0,25415 0,00 88,5041,5

Assim a variância populacional é 8,85 e o desvio padrão populacional é 2,97 ou R$ 2.970,00.

c) Coeficiente de variação

Página 33 de 56

Page 34: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Determine essas medidas de variação para a empresa B.

Página 34 de 56

Page 35: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

7. DISTRIBUIÇÃO NORMAL DE PROBABILIDADE

7.1 PROPRIEDADES DE UMA DISTRIBUIÇÃO NORMALA distribuição normal é uma distribuição contínua de probabilidade de uma variável aleatória x. Sua representação gráfica é chamada de curva normal. A distribuição normal tem as seguintes propriedades:

a) A média, a mediana e a moda são iguais.b) A curva normal tem formato de sino e é simétrica em torno da média.c) A área total sob a curva normal é igual a 1.d) A curva normal aproxima-se mais do eixo x à medida que se afasta da média em ambos os lados, mas nunca

toca o eixo.e) Entre – e + (no centro da curva) o gráfico curva-se para baixo. À esquerda de – e à direita de + o

gráfico curva-se para cima. Os pontos nos quais a curva muda sua curvatura para cima ou para baixo são chamados de pontos de inflexão.

Se x for uma variável aleatória contínua e tiver uma distribuição normal, com média e desvio padrão , pode-se fazer o gráfico de uma curva normal usando a seguinte equação:

A figura a seguir apresenta gráfico da função acima, gerado no Excel, para uma distribuição normal com média igual a 3 e desvio padrão igual a 1.

Página 35 de 56

MédiaMedianaModa

-3 -2 -

x

Área total = 1

Pontos de inflexão

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

5,0

5,5

6,0

6,5

x

Fre

qu

ên

cia

Page 36: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Uma distribuição normal pode ter qualquer média e qualquer desvio padrão positivo. Esses dois parâmetros e determinam completamente o aspecto da curva normal. A média dá a localização do eixo de simetria e o desvio padrão descreve quanto os dados se espalham em torno da média.

Observe que as curvas A e B apresentam mesmo valor médio, embora apresentem desvios padrão diferente a curva com maior desvio padrão é mais espalhada. As curvas B e C mostram igual desvio padrão (mesma abertura), embora a média de cada uma delas (eixo de simetria das curvas) seja diferente.

EXEMPLO 1 – Compreendendo a média e o desvio padrãoSendo dadas as curvas de distribuição normal A e B na figura a seguir, responda:

a) Qual das curvas tem maior média?b) Qual das curvas tem desvio padrão maior?

Página 36 de 56

A

B C

Page 37: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Idem, para as curvas A, B e C da figura a seguir.

Página 37 de 56

Page 38: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

7.2 CURVAS NORMAIS E PROBABILIDADESA área total sob uma curva normal é igual a 1.A área de uma região sob a curva de distribuição normal representa a probabilidade de que a variável aleatória em estudo tenha um valor no intervalo correspondente. Numa distribuição normal com média e desvio padrão , pode-se aproximar áreas sob a curva normal da seguinte maneira:

1. 68% da área está entre e

2. 95% da área está entre e

Página 38 de 56

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5

x

Fre

qu

ênci

a

0,34 0,34

68%

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5

x

Fre

qu

ênci

a

0,34 0,34

0,135 0,135

95%

Page 39: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

3. 99,75% da área está entre e

EXEMPLOAs pontuações de um teste de QI em adultos são normalmente distribuídos com média = 100 e desvio padrão = 15. Calcule a probabilidade de um adulto escolhido ao acaso ter QI entre 70 e 115.

Página 39 de 56

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5

x

Fre

qu

ênci

a

0,34 0,34

0,135 0,135

99,75%

0,0235 0,0235

0,000

0,005

0,010

0,015

0,020

0,025

0,030

50 60 70 80 90 100

110

120

130

140

150

QI

Fre

qu

ênci

a

Page 40: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

7.3 DISTRIBUIÇÃO NORMAL PADRÃOExistem infinitas distribuições normais, cada uma com sua própria média e desvio padrão. A distribuição normal com média 0 (zero) e desvio padrão 1 (um) é chamada distribuição normal padrão. A escala horizontal do gráfico da distribuição normal padrão corresponde aos escores z. Um escore z é uma medida de posição que indica o número de desvios padrão de um valor a partir da média. Pode-se transformar um valor x em um escore z pela fórmula:

EXEMPLOAs contas telefônicas de uma operadora tem média de R$ 70,00 e desvio padrão R$ 8,00. Obtenha o escore z correspondente aos valores R$ 60,00; R$ 71,00 e R$ 92,00.

Propriedades da distribuição normal padrão:a) a área acumulada está próxima de zero para escores z próximos a -3,49;b) a área acumulada cresce à medida que o escore z também cresce;c) a área acumulada para z = 0 é 0,5;d) a área acumulada está próxima de 1 para escores z próximos a 3,49.

Se cada um dos dados de uma variável aleatória normalmente distribuída x for transformado em um escore z, o resultado será a distribuição normal padrão. Quando ocorre essa transformação, a área que está no intervalo sob a curva normal não padronizada é igual àquela que está sob a curva normal padrão com as correspondentes fronteiras z. Uma vez que cada distribuição normal pode ser transformada em uma distribuição normal padrão, pode-se usar escores z e a curva normal padrão para obter áreas (e, portanto probabilidades) sob qualquer curva normal.

Página 40 de 56

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-3,5

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5 0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

Escore padrão (z)

Fre

qu

ênci

a

Page 41: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

TABELA NORMAL PADRÃO – OBTENDO ÁREAS SOB A CURVA NORMAL PADRÃO

z 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0

-3,4 0,0002 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003

-3,3 0,0003 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0005 0,0005 0,0005

-3,2 0,0005 0,0005 0,0005 0,0006 0,0006 0,0006 0,0006 0,0006 0,0007 0,0007

-3,1 0,0007 0,0007 0,0008 0,0008 0,0008 0,0008 0,0009 0,0009 0,0009 0,0010

-3,0 0,0010 0,0010 0,0011 0,0011 0,0011 0,0012 0,0012 0,0013 0,0013 0,0013

-2,9 0,0014 0,0014 0,0015 0,0015 0,0016 0,0016 0,0017 0,0018 0,0018 0,0019

-2,8 0,0019 0,0020 0,0021 0,0021 0,0022 0,0023 0,0023 0,0024 0,0025 0,0026

-2,7 0,0026 0,0027 0,0028 0,0029 0,0030 0,0031 0,0032 0,0033 0,0034 0,0035

-2,6 0,0036 0,0037 0,0038 0,0039 0,0040 0,0041 0,0043 0,0044 0,0045 0,0047

-2,5 0,0048 0,0049 0,0051 0,0052 0,0054 0,0055 0,0057 0,0059 0,0060 0,0062

-2,4 0,0064 0,0066 0,0068 0,0069 0,0071 0,0073 0,0075 0,0078 0,0080 0,0082

-2,3 0,0084 0,0087 0,0089 0,0091 0,0094 0,0096 0,0099 0,0102 0,0104 0,0107

-2,2 0,0110 0,0113 0,0116 0,0119 0,0122 0,0125 0,0129 0,0132 0,0136 0,0139

-2,1 0,0143 0,0146 0,0150 0,0154 0,0158 0,0162 0,0166 0,0170 0,0174 0,0179

-2,0 0,0183 0,0188 0,0192 0,0197 0,0202 0,0207 0,0212 0,0217 0,0222 0,0228

-1,9 0,0233 0,0239 0,0244 0,0250 0,0256 0,0262 0,0268 0,0274 0,0281 0,0287

-1,8 0,0294 0,0301 0,0307 0,0314 0,0322 0,0329 0,0336 0,0344 0,0351 0,0359

-1,7 0,0367 0,0375 0,0384 0,0392 0,0401 0,0409 0,0418 0,0427 0,0436 0,0446

-1,6 0,0455 0,0465 0,0475 0,0485 0,0495 0,0505 0,0516 0,0526 0,0537 0,0548

-1,5 0,0559 0,0571 0,0582 0,0594 0,0606 0,0618 0,0630 0,0643 0,0655 0,0668

-1,4 0,0681 0,0694 0,0708 0,0721 0,0735 0,0749 0,0764 0,0778 0,0793 0,0808

-1,3 0,0823 0,0838 0,0853 0,0869 0,0885 0,0901 0,0918 0,0934 0,0951 0,0968

-1,2 0,0985 0,1003 0,1020 0,1038 0,1056 0,1075 0,1093 0,1112 0,1131 0,1151

-1,1 0,1170 0,1190 0,1210 0,1230 0,1251 0,1271 0,1292 0,1314 0,1335 0,1357

-1,0 0,1379 0,1401 0,1423 0,1446 0,1469 0,1492 0,1515 0,1539 0,1562 0,1587

-0,9 0,1611 0,1635 0,1660 0,1685 0,1711 0,1736 0,1762 0,1788 0,1814 0,1841

-0,8 0,1867 0,1894 0,1922 0,1949 0,1977 0,2005 0,2033 0,2061 0,2090 0,2119

-0,7 0,2148 0,2177 0,2206 0,2236 0,2266 0,2296 0,2327 0,2358 0,2389 0,2420

-0,6 0,2451 0,2483 0,2514 0,2546 0,2578 0,2611 0,2643 0,2676 0,2709 0,2743

-0,5 0,2776 0,2810 0,2843 0,2877 0,2912 0,2946 0,2981 0,3015 0,3050 0,3085

-0,4 0,3121 0,3156 0,3192 0,3228 0,3264 0,3300 0,3336 0,3372 0,3409 0,3446

-0,3 0,3483 0,3520 0,3557 0,3594 0,3632 0,3669 0,3707 0,3745 0,3783 0,3821

-0,2 0,3859 0,3897 0,3936 0,3974 0,4013 0,4052 0,4090 0,4129 0,4168 0,4207

-0,1 0,4247 0,4286 0,4325 0,4364 0,4404 0,4443 0,4483 0,4522 0,4562 0,4602

0,0 0,4641 0,4681 0,4721 0,4761 0,4801 0,4840 0,4880 0,4920 0,4960 0,5000

Página 41 de 56

Page 42: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,090,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852

0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545

1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817

2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857

2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890

2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916

2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952

2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964

2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974

2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981

2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990

3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993

3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995

3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997

3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

Página 42 de 56

Page 43: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

ORIENTAÇÕES GERAIS PARA OBTENÇÃO DE ÁREAS SOB A CURVA NORMAL

1. Esboce a curva normal padrão e sombreie a área apropriada sob a curva.2. Obtenha a área por meio dos procedimentos a seguir para cada caso mostrado:

a) Para obter a área à esquerda de z, determine a área que corresponde a z na tabela normal padrão.

b) Para obter a área à direita de z, use a tabela normal padrão para determinar a área que corresponde a z. Subtraia então a área de 1.

c) Para obterá área entre dois escores z, determine a área correspondente a cada um deles na tabela normal padrão. Subtraia a área menor da maior.

Página 43 de 56

Page 44: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

EXERCÍCIOS

1 Determinar a área sob a curva normal padrão:

e) à esquerda de z = 1,54

f) à esquerda de z = 1,96

g) à direita de z = -0,95

h) à direita de z = 1,28

i) à esquerda de z = -2,575

j) entre z = -1,96 e z = 1,96

l) entre z = -0,44 e z = 1,18

m) à esquerda de z = -2,97

n) à direita de z = 1,66

2 Uma empresa fabrica rolamentos com diâmetro das esferas distribuídas normalmente com média 3,00” e desvio

padrão 0,02”. Determine a probabilidade de encontrar esferas com:

a) d > 3,01”

b) d < 2,97”

c) d > 3,05”

d) 2,98” < d < 3,04”

3 Um levantamento efetuado em uma rede de supermercados indica que um comprador leva em media 45 minutos

com desvio padrão 12 minutos. Obtenha a probabilidade de um comprador ficar

a) entre 24 e 54 minutos

b) mais que 39 minutos

c) entre 33 e 60 minutos

Página 44 de 56

a) b)

c)d)

z z

z z

1,20 -2,25

1,5-0,5 20 0

0

Page 45: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

4 As velocidades de veículos em uma via controlada por radar tem média de 56 km/h com desvio padrão igual a 4

km/h. Obtenha as velocidades correspondentes aos escores z = 1,96, z = 2,33 e z = 0. Supondo que o radar aplique

multa para velocidades superior a 62 km/h que o volume de trafego seja de 400 veículos por hora, que o valor de cada

multa seja de R$150,00 calcule o valor total das multas por dia.

5 As notas de um concurso público estão normalmente distribuídas com media 75 e o desvio padrão de 6,5. Para ser

classificado o candidato precisa figurar entre os 5% melhores. Qual a menor pontuação possível para aprovação?

6 A distância de frenagem de um determinado veiculo é normalmente distribuída com media 48,2 m e desvio padrão

1,98 m. Determine a distância de frenagem que corresponde as seguintes probabilidades

a) 50%

b) 95%

c) 1%

7 Uma marca de pneus para automóveis tem uma expectativa de duração de 48.000 km e desvio padrão de 4.000 km.

Você deseja dar uma garantia de reposição para pneus que se desgastem rápido demais. Como estabelecer a garantia

se você tiver planos de repor aproximadamente 10% dos pneus vendidos?

8 Três traços de concreto apresentam igual resistência média aos 28 dias (fc28 = 28,2 MPa), embora apresentem

diferentes desvios padrão:

Traço A – 6,3 MPa

Traço B – 4,2 MPa

Traço C – 2,7 MPa

Sabendo que a resistência característica (fck) corresponde a um valor cuja probabilidade de 5 % das amostras

apresentarem resistência inferior, determine fck de cada traço.

9 Dois concretos apresentam igual resistência característica fck = 22 MPa, embora com desvio padrão distinto.

Concreto 1 = 3,4 MPa Concreto 2 = 6,3 MPa

Pede-se determinar qual concreto apresentará maior resistência média aos 28 dias?

Esboce um gráfico para ilustrar essa situação.

Na sua opinião qual dos dois concretos terá maior custo?

Página 45 de 56

Page 46: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

8. CORRELAÇÃO E REGRESSÃO

Nesse capítulo você irá aprender a descrever e a testar a significância da relação entre duas variáveis quando os dados são apresentados como pares ordenados. Graficamente, a relação pode ser descrita desenhando uma reta chamada reta de regressão que se ajusta aos pontos da forma mais próxima possível.

8.1 CORRELAÇÃOUma correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x, y) onde (x) é a variável independente ou variável explanatória e (y) é a variável dependente ou resposta. Um mapa de dispersão pode ser usado para determinar se existe uma correlação linear (uma reta) entre as duas variáveis. Os mapas de dispersão a seguir mostram alguns tipos de correlação.

EXERCÍCIOA evolução do tempo dos vencedores dos 100 m rasos nos Jogos Olímpicos é dada na tabela a seguir. Trace o mapa de dispersão que correlaciona a evolução ao longo dos Jogos Olímpicos do tempo gasto para percorrer os 100 m e determine o tipo de correlação.

Ano Homens(s)

Mulheres(s)

1928 10,80 12,201932 10,30 11,901936 10,30 11,501948 10,30 11,901952 10,40 11,501956 10,50 11,501960 10,20 11,001964 10,00 11,401968 9,95 11,001972 10,14 11,071976 10,06 11,081980 10,25 11,601984 9,99 10,971988 9,92 10,541992 9,96 10,821996 9,84 10,942000 9,87 10,75

Página 46 de 56

Page 47: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Marque no gráfico acima os dados referentes ao tempo das mulheres.

8.2 COEFICIENTE DE CORRELAÇÃOA interpretação da existência de uma correlação usando o mapa de dispersão pode ser subjetiva. Uma maneira mais precisa de se medir o tipo e o grau de uma correlação linear entre duas variáveis é por meio do cálculo do coeficiente de correlação (r). O nome formal de (r) é coeficiente de correlação dos momentos de Pearson. Esse coeficiente é uma medida do grau e da direção de uma relação linear entre duas variáveis e pode ser calculado pela expressão:

onde (n) é o número de pares ordenados.O intervalo de variação do coeficiente de correlação vai de -1 a +1. Se (x) e (y) tiverem forte correlação linear positiva (r) estará próxima de +1. Se (x) e (y) tiverem uma forte correlação linear negativa, (r) estará próximo de -1. Se não existir correlação linear ou ainda se a correlação linear for fraca, (r) estará próximo de zero. Alguns exemplos são dados a seguir. O coeficiente de correlação populacional é representado pela símbolo ().

Página 47 de 56

Jogos Olímpicos - 100 m rasos

9,6

9,8

10,0

10,2

10,4

10,6

10,8

11,0

1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

Ano

Tem

po

(s)

Homens

Page 48: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

CALCULANDO O COEFICIENTE DE CORRELAÇÃO

1. Obtenha a soma dos valores de x x

2. Obtenha a soma dos valores de y y

3. Multiplique cada valor de x por seu valor de y correspondente e determine a soma xy

4. Eleve ao quadrado cada valor de x e obtenha sua soma x2

5. Eleve ao quadrado cada valor de y e obtenha sua soma y2

6. Use essas cinco somas para calcular o coeficiente de correlação

Note que x2 significa elevar ao quadrado cada valor e somar os quadrados enquanto que (x)2 significa somar todos os valores e então elevar ao quadrado a soma.

EXERCÍCIODetermine o coeficiente de correlação para a evolução ao longo dos Jogos do tempo gasto para percorrer os 100 m.

Ano Homensx y x . y x2 y2

1 1928 10,8 20822,4 3717184 116,642 1932 10,3 19899,6 3732624 106,093 1936 10,3 19940,8 3748096 106,094 1948 10,3 20064,4 3794704 106,095 1952 10,4 20300,8 3810304 108,166 1956 10,5 20538 3825936 110,257 1960 10,2 19992 3841600 104,048 1964 10 19640 3857296 1009 1968 9,95 19581,6 3873024 99,0025

10 1972 10,14 19996,08 3888784 102,819611 1976 10,06 19878,56 3904576 101,203612 1980 10,25 20295 3920400 105,062513 1984 9,99 19820,16 3936256 99,800114 1988 9,92 19720,96 3952144 98,406415 1992 9,96 19840,32 3968064 99,201616 1996 9,84 19640,64 3984016 96,825617 2000 9,87 19740 4000000 97,4169 33.432 172,78 339.711,3 65.755.008 1.757,099

Idem para o tempo das mulheres

Página 48 de 56

Page 49: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Ano Mulheresx y x . y x2 y2

1 1928 12,22 1932 11,93 1936 11,54 1948 11,95 1952 11,56 1956 11,57 1960 118 1964 11,49 1968 11

10 1972 11,0711 1976 11,0812 1980 11,613 1984 10,9714 1988 10,5415 1992 10,8216 1996 10,9417 2000 10,75

8.3 TESTANDO A CORRELAÇÃO PARA A POPULAÇÃOConhecendo-se o valor do coeficiente de correlação amostral (r) pode ser necessário determinar se existe evidência suficiente para decidir se o coeficiente de correlação populacional () é representativo para um nível de significância . Note que a partir de dados amostrais você estará pretendendo tomar decisão sobre valores populacionais. Existe sempre a possibilidade que sua inferência esteja errada. O uso de um nível de significância = 0,05 significa que em 5% das vezes você estará dizendo que o coeficiente populacional é significante quando realmente ele não é.Uma maneira de determinar se o coeficiente de correlação populacional () é significante, consiste na utilização dos valores críticos tabelados a seguir. Nessa a primeira coluna representa o número de pares ordenados (n) da amostra e a segunda e a terceira coluna representam valores críticos para um nível de significância = 0,05 e = 0,01 respectivamente.

EXERCÍCIOPara os dados dos tempos dos 100 m rasos nos Jogos Olímpicos, considerando um nível de significância de 1% (tamanho da amostra n = 17) obtemos na tabela 0,606 correspondendo ao valor crítico do coeficiente de correlação populacional. Como o valor calculado é (│r│ = 0,8279) é superior ao valor crítico a correlação é válida para um nível de significância 1%

Tabela – Valores críticos para o coeficiente de correlação de Pearson

Página 49 de 56

Page 50: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

8.4 RETAS DE REGRESSÃOApós ter verificado que a correlação é significante iremos determinar a equação da reta que melhor se ajusta aos valores observados. Essa é denominada reta de regressão e pode ser usada para prever um valor de (y) para um dado valor de (x). Muitas retas podem ser traçadas pelos pontos dos dados, mas a reta de regressão é definida por critérios específicos.No mapa de dispersão apresentado a seguir para cada ponto (d - resíduo) representa a diferença entre o valor observado (y) e o valor definido pela equação da reta (ye). Dentre todas as retas que podem ser traçadas, a reta de regressão é aquela para a qual a soma dos quadrados dos resíduos (d2) é um mínimo.

Uma reta de regressão também chamada de reta de ajuste ótimo é aquela para a qual a soma dos quadrados dos resíduos é um mínimo. Lembre-se que a equação da reta é definida por seus coeficientes angular (a) e coeficiente linear (b)

Página 50 de 56

Page 51: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Esses coeficientes são dados por

onde ( ) são respectivamente a média dos valores de (y) e (x). Os demais elementos já estão determinados no cálculo do coeficiente de correlação.

Observe que a reta de regressão sempre passa pelo ponto médio do conjunto de dados que tem coordenadas .

EXERCÍCIO1) Determine a equação da reta de regressão para a evolução do tempo dos 100 m rasos nos Jogos

Olímpicos.

A equação da reta de regressão será

2) Idem para o tempo das mulheres

Página 51 de 56

Jogos Olímpicos - 100 m rasos

y = -0,0094x + 28,726

R2 = 0,6851

9,6

9,8

10

10,2

10,4

10,6

10,8

11

1920 1930 1940 1950 1960 1970 1980 1990 2000 2010

Ano

Tem

po

(s)

Page 52: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Determine o coeficiente de correlação e a equação da reta de regressão para as seguintes situaçõesa) Gastos com propaganda x vendas

Gastos com propaganda – MR$

(x)

Vendas – MR$

(y)

x . y x2 y2

2,4 2551,6 1842,0 2202,6 2401,4 1801,6 1842,0 1862,2 215

b) Nível de renda x doaçõesPágina 52 de 56

Page 53: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Nível de renda – MR$(x)

% de doações(y)

x . y x2 y2

42 948 1050 859 565 672 3

8.5 COEFICIENTE DE DETERMINAÇÃOExistem três tipos de variação em torno de uma reta de regressão que são o desvio total, o desvio explicado e o desvio inexplicado para cada par ordenado (xi, yi) em um conjunto de dados. A figura a seguir ilustra esses desvios.

Desvio total = yi - (valor observado menos valor médio)Desvio explicado = ye - (valor estimado pela reta de regressão menos valor médio)Desvio inexplicado = yi – ye (valor observado menos valor estimado)

Uma vez calculados esses desvios para cada par de pontos (x i, yi) é possível calcular a variação total, a variação explicada e a variação inexplicada.

Variação total =

Variação explicada =

Variação inexplicada =

Variação total = Variação explicada + Variação inexplicada

Página 53 de 56

Page 54: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

O quadrado do coeficiente de correlação (r) é chamado coeficiente de determinação (r2) e pode ser definido como

Assim, por exemplo, se o coeficiente de correlação é igual a (0,9), então o coeficiente de determinação será 0,9 2 = 0,81. Isso significa que 81% da variação de (y) pode ser explicada pela reta de regressão. Os 19% restantes da variação são inexplicados e podem ser devido a outros fatores ou a erros amostrais.

EXERCÍCIOCalcule o coeficiente de determinação para as quatro situações apresentadas anteriormente.

8.6 ERRO PADRÃO DA ESTIMATIVA

O erro padrão da estimativa (se) é uma medida do desvio padrão dos valores (yi) observados em torno do valor previsto (ye) para um dado valor (xi) e pode ser calculado pela expressão

EXERCÍCIOCalcule o erro padrão da estimativa para as quatro situações apresentadas anteriormente.

Página 54 de 56

y

x

RETA DE REGRESSÃO

ym

xm

xi,ym

Desvio totalDesvio inexplicado

Desvio explicado

xi,yi

xi

yi

xi,yeye

Page 55: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

8.7 INTERVALOS DE PREVISÃO

Uma vez que a equação de regressão é determinada e supõe-se que (x) e (y) tem uma distribuição normal bivariada, é possível definir um intervalo de previsão para um valor verdadeiro de (y). Para construir o intervalo de previsão, use uma distribuição “t” com “n-2” graus de liberdade (veja tabela a seguir).Dada uma equação de regressão linear, um valor específico de (x), um intervalo de previsão (c) para (y) é

onde

A estimativa pontual é (ye) e o erro máximo da estimativa é (E). A probabilidade de que o intervalo contenha (y) é (c).

Tabela – Distribuição “t”

EXERCÍCIODetermine o intervalo de confiança para o ponto médio dos valores de (x) para as quatro situações apresentadas anteriormente.

FUNÇÕES DO EXCELCoeficiente de correlação=PEARSON(B3:B19(intervalo de valores de x) ;C3:C19(intervalo de valores de y))

Página 55 de 56

Page 56: Notas de aula Estatística

ENGENHARIA CIVIL – PUCPR Probabilidade e Estatística I

Coeficiente angular da reta de regressão=INCLINAÇÃO(C3:C19(intervalo de valores de y);B3:B19(intervalo de valores de x))

Coeficiente linear da reta de regressão=INTERCEPÇÃO(C3:C19(intervalo de valores de y);B3:B19(intervalo de valores de x))

Erro padrão da estimativa=EPADYX(C3:C19(intervalo de valores de y);B3:B19(intervalo de valores de x))

Página 56 de 56