324
MÉTODOS QUANTITATIVOS APLICADOS A NEGÓCIOS Paulo Afonso Bracarense Ubiratan Vieira Guimarães Este material é parte integrante do acervo do IESDE BRASIL S.A., mais informações www.iesde.com.br

Métodos Quantitativos Aplicados a Negócios

Embed Size (px)

DESCRIPTION

Métodos Quantitativos Aplicados a Negócios

Citation preview

  • MTODOS QUANTITATIVOS

    APLICADOS A NEGCIOS

    MTODOS QUANTITATIVOS

    APLICADOS A NEGCIOS

    Fundao Biblioteca NacionalISBN 978-85-387-3091-0

    Paulo Afonso BracarenseUbiratan Vieira Guimares

    Mt

    odos

    Qua

    ntita

    tivos

    Apl

    icad

    os a

    Neg

    cio

    s

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Mtodos Quantitativos Aplicados a Negcios

    Paulo Afonso BracarenseUbiratan Vieira Guimares

    IESDE Brasil S.A.Curitiba

    2012

    Edio revisada

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 2008 IESDE Brasil S.A. proibida a reproduo, mesmo parcial, por qualquer processo, sem autorizao por escrito dos autores e do detentor dos direitos autorais.

    Capa: IESDE Brasil S.A.

    Imagem da capa: Shutterstock

    IESDE Brasil S.A.Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200 Batel Curitiba PR 0800 708 88 88 www.iesde.com.br

    Todos os direitos reservados.

    CIP-BRASIL. CATALOGAO-NA-FONTESINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ ________________________________________________________________________________B788m Bracarense, Paulo Afonso, 1957- Mtodos quantitativos aplicados a negcios / Paulo Afonso Bracarense, Ubiratan Vieira Guimares. - 1.ed., rev. - Curitiba, PR : IESDE Brasil, 2012. 320p. : 24 cm Inclui bibliografia ISBN 978-85-387-3091-0 1. Negcios 2. Investimentos 3. Investimentos - Anlises. I. Guimares, Ubiratan Vieira. I. Ttulo.

    12-6746. CDD: 332.6 CDU: 336.76

    17.09.12 02.10.12 039220 ________________________________________________________________________________

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Paulo Afonso BracarenseDoutor em Engenharia de Produo com con-centrao em Inteligncia Artificial pela Univer-sidade Federal de Santa Catarina (UFSC). Mestre em Estatstica e Experimentao Agrcola pela Escola Superior de Agricultura Luiz de Queiroz (ESALQ-USP). Bacharel em Estatstica pela Uni-versidade Federal do Paran (UFPR). Professor da UFPR. Diretor Superintendente da Fundao da Universidade Federal do Paran (Funpar).

    Ubiratan Vieira GuimaresMestre em Administrao com concentrao em Sistemas de Informao para Tomada de Deci-so pela Universidade Federal do Rio Grande do Sul (UFRGS). Especialista em Estatstica Aplicada e Qualidade e Produtividade pelo Instituto Bra-sileiro de Qualidade Nuclear (IBQN). Bacharel em Estatstica pela Universidade Federal do Paran (UFPR). Foi diretor executivo do Ibmec Educacio-nal em Curitiba e Coordenador Acadmico dos Programas Executivos MBA e CBA do Ibmec MG. Atuou na consultoria de grandes empresas e insti-tuies, tais como: Electrolux S/A, Grupo Positivo, Renault, Volvo, Spaipa, Banco Mundial, BID, V&M, entre outras.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • sum

    rio

    sum

    rio

    sumrio

    sum

    rio

    Introduo conceitos e aplicaes 9

    9 | Pblico-alvo

    10 | Linguagem matemtica

    11 | Modelagem matemtica dos fenmenos reais

    12 | Os papis da teoria de probabilidades e da anlise de dados amostrais

    13 | Organizao dos captulos do livro

    Anlise de dados 19

    19 | Problema

    23 | Conceitos fundamentais

    26 | Variveis categorizadas

    29 | Variveis quantitativas

    36 | Medidas estatsticas

    Probabilidades e distribuies de probabilidades 61

    61 | Problema

    63 | Conceitos fundamentais

    67 | Axiomas e regras de probabilidades

    70 | Probabilidades conjunta, marginal, condicional e independncia

    73 | Teorema de Bayes

    75 | Distribuies de probabilidades discretas

    80 | Variveis aleatrias discretas

    Amostragem 95

    95 | Problema

    96 | Conceitos fundamentais

    99 | Tipos de amostragem

    103 | Tabela de nmeros aleatrios

    105 | Principais tcnicas de amostragem

    111 | Tamanho da amostra

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Estimao 129

    129 | Problema

    130 | Conceitos fundamentais

    133 | A distribuio normal

    143 | Distribuio amostral das mdias

    146 | Distribuio amostral das propores

    148 | Estimao por ponto

    151 | Intervalo de confiana

    156 | Testes de hipteses

    156 | Hiptese nula versus hiptese alternativa

    Anlise de regresso e de correlao 173

    173 | Problema

    174 | Conceitos fundamentais

    179 | Construindo a reta de regresso

    188 | Verificao da bondade do modelo

    201 | Predio e intervalos de predio

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • sum

    rio

    sum

    rio

    sumrio

    sum

    rio

    Teoria da deciso 213

    213 | Problema

    214 | Conceitos fundamentais

    216 | Critrios de escolha utilizando distribuio a priori

    221 | Representao atravs de diagrama de deciso

    223 | Estabelecimento de distribuies de probabilidades

    229 | Tomada de decises baseada na utilidade esperada

    230 | Tomada de deciso com probabilidades a posteriori

    Anlise de sries temporais 249

    249 | Problema

    250 | Conceitos fundamentais

    254 | Mtodo dos mnimos quadrados ordinrios

    260 | Modelo de mdias mveis

    273 | Outros mtodos de previso

    Anexos 289

    Referncias 319

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Apresentao Mtodos Q

    uantitativos A

    plicados a Negcios

    Este livro foi escrito com o objetivo de fornecer elementos tericos e tcnicos para profissionais que necessitam tomar decises tendo como material essencial conjuntos de dados que pre-cisam ser analisados.Um conjunto de dados, por si s, no passa de um conjunto de dados. necessrio dominar uma srie de tcnicas para que esses dados possam gerar alguma informao. O patamar superior da anlise de dados a aquisio do conheci-mento. E ela s estar disponvel se ao domnio terico do campo de atuao, experincia pro-fissional e de vida e intuio do tomador de decises forem trabalhadas as tcnicas quanti-tativas necessrias para agregar a esses atribu-tos informaes provenientes de dados correta-mente adquiridos.O livro foi organizado de forma a cobrir toda a base que compe o campo de conhecimento da Estatstica. Comeando por tcnicas de estatsti-ca descritiva e de anlise exploratria de dados, passando pela medio da incerteza atravs da teoria de probabilidades e pela compreenso das possibilidades indutivas da teoria clssica da Estatstica no trato com amostras.Trs tcnicas teis e bastante utilizadas na rea de negcios foram apresentadas em detalhes balanceando-se a complexidade com a explora-o da intuio. O trato conceitual foi priorizado em relao ao trabalho matemtico extensivo. Optamos por trabalhar com toda a conceituao bsica at o quinto captulo, buscando ajudar o leitor a desenvolver sua sensibilidade com re-lao aos conceitos abordados. Tratamos cada tcnica com exemplos especficos e ilustrativos na rea de Negcios.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • A cincia busca compreender os fenmenos reais atravs de modelos, muitas vezes de modelos matemticos muito prprios para estudos realizados em ambiente de incer-teza. A teoria de probabilidades e a teoria estatstica clssica so ferramentas muito teis para ajudar o tomador de decises em sua opo por diferentes aes diante de cenrios postos. Esperamos que o contedo do livro, acom-panhado das aulas, possa ser de grande valia para os leitores. Estamos certos, no entanto, que navegar por essas guas far com que cada um se sinta mais confortvel em viver e trabalhar em um mundo cercado de incer-tezas e que vale mais a pena compreender o mundo dessa forma do que viver seguro, acorrentado e mope na iluso das coisas certas e absolutas.

    Mtodos Q

    uantitativos A

    plicados a Negcios

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Introduo conceitos e aplicaes

    Por que escrever mais um livro de Estatstica? De fato a literatura j forne-ce incontveis livros desse ramo da matemtica. Alguns mais tericos, outros mais prticos. H tentativas inclusive de se escrever livros de estatstica sem matemtica. H outros que se utilizam fartamente de um referencial comple-xo na matemtica para a discusso dos conceitos e das tcnicas estatsticas. A grande preocupao dos autores foi oferecer comunidade estatstica e principalmente no estatstica elementos que as auxiliassem na tarefa da tomada de decises.

    Pblico-alvoOs livros de estatstica so bem diferentes, pois tratam a mesma questo

    com abordagens diversas. O que leva um autor a escolher o tipo de abordagem, a profundidade das discusses e o quanto de ferramental matemtico utilizar depende fundamentalmente de seu pblico-alvo. Esta a chave da questo.

    Muito bem, dessa forma devemos ento localizar nosso livro em razo do nosso pblico-alvo. Este livro foi escrito para profissionais das mais diferen-tes reas do mundo dos negcios: economistas, contadores, engenheiros de produo, administradores ou qualquer outro profissional chamado a tomar decises e que esteja no nvel de gerncia ou pretenda alcan-lo. E mais, es-peramos que o nosso pblico esteja realmente disposto a utilizar as tcnicas oferecidas no livro em seu dia a dia.

    O livro foi composto para um curso esbelto, no sentido de que pretende fornecer os elementos mnimos necessrios para a utilizao de seu contedo em poucas horas. Por isso, a seleo dos assuntos oferecidos, que so somen-te uma amostra do vastssimo campo da Estatstica, foi feita rigorosamente, com as tcnicas mais utilizadas na ao gerencial. Mas h de ficar muito claro que no se trata de um manual de aplicaes simplificado e essencialmente prtico. O grande destaque o rigor conceitual na aplicao das tcnicas que foram apresentadas sempre atravs de aplicaes em problemas corriquei-ros da administrao.

    9Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 10

    Introduo conceitos e aplicaes

    Esse ltimo destaque norteou toda a redao do livro e fundamental para que o tomador de decises consiga empregar as tcnicas expostas no seu trabalho com a segurana necessria para que os resultados obtidos possam efetivar mudanas de conduta ou aprofundamento de condutas j empregadas. Para que a compreenso conceitual seja de fato um facilitador da compreenso das tcnicas, ousamos acreditar que seja possvel aproxi-mar do sentimento do leitor o contedo tcnico da intuio. Por isso, alm das tcnicas, abusamos das analogias e no economizamos nas explicaes.

    Evitamos o uso extensivo da matemtica. Ou, de outra forma, utilizamos a mnima matemtica necessria para a apresentao dos conceitos e para a soluo dos problemas. Sempre que possvel mantivemos o nvel de exi-gncia matemtica em patamares mais rudimentares possvel. Lembrando, no entanto, que o livro dirigido para profissionais que buscam um nvel de especializao superior ao dos cursos de terceiro grau e, portanto, certas resistncias ao uso da matemtica precisaro ser ultrapassadas. Mas preten-demos tornar essa tarefa quase indolor.

    Linguagem matemticaToda cincia tem sua linguagem prpria, assim, a Estatstica tem a sua e a

    Matemtica tambm. Navegaremos por esses mares nem sempre sem turbu-lncias. Duas questes devem ser colocadas a respeito dessas linguagens.

    A primeira o reconhecimento de que o emaranhado de notaes, no-tadamente na Estatstica, muitas vezes conduzem a confuses. Procuramos amenizar um pouco essa dificuldade apresentando uma notao nica para todas as tcnicas, expondo o significado de cada uma delas e mantendo-as sempre mais prximas do que o mais usual, de forma que estudos comple-mentares nas bibliografias sugeridas no se tornem mais um entrave para o aprofundamento do conhecimento dos assuntos tratados.

    A segunda questo de linguagem, e isso agora diz mais respeito mate-mtica, que procuramos evitar a retirada de concluses atravs de concei-tos puramente matemticos. O caminho de usar a prpria matemtica para induzir ou deduzir concluses sim muito frtil para quem tem o domnio dessa linguagem. O que voc enxerga quando olha a expresso a2 = b2 + c2? Se isso quer dizer mais ou menos a mesma coisa do que esta sequncia de smbolos , voc no deve se preocupar muito. Essas letras no so do alfabeto grego nem so runas, so letras do alfabeto cirlico. Um mate-

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Introduo conceitos e aplicaes

    11

    mtico ou uma pessoa habituada com a linguagem matemtica enxergar prontamente na expresso a2 = b2 + c2 um tringulo retngulo. Mas esse nvel de exigncia no ser cobrado neste livro.

    Naturalmente, esse conhecimento pode facilitar em certos momentos a leitura do texto que estamos apresentando, mas o que o diferenciar da maioria dos textos estatsticos possivelmente j encontrados pelo leitor que neste livro no ser necessrio o domnio dessa linguagem. O que seria bastante, no se pode deixar de dizer, mais confortvel para quem escreve. Mas esse desafio foi extremamente estimulante na redao do texto.

    Modelagem matemtica dos fenmenos reaisOs fenmenos que estudaremos esto no contexto do mundo da admi-

    nistrao e dos negcios. No s eles, mas praticamente todos os fenmenos naturais ou no naturais esto eivados de incerteza. Segundo o estatstico alemo Schumacher, quando Deus fez o mundo e desejou colocar nele um ser inteligente ele pensou em duas situaes. A primeira, de fazer o mundo completamente determinstico. Depois de muito refletir, concluiu que neste mundo no haveria espao para o homem porque tudo j estaria pr-deter-minado e a inteligncia no seria de nenhuma utilidade. Pensou ento em um mundo completamente aleatrio. Verificou tambm que no havia porque colocar o homem inteligente neste mundo em que nada pode ser determina-do, em que tudo ocorre devido ao acaso. Concluiu ento por um mundo que tivesse os dois componentes: um determinstico e outro aleatrio. O papel da Estatstica o de ajudar a compreender este mundo, particularmente no comportamento aleatrio dos fenmenos.

    A cincia tem procurado compreender os fenmenos da natureza atravs de modelos que possam ajudar o pesquisador a construir uma certa raciona-lidade para a sua compreenso e muitas vezes para a sua interveno nos fenmenos em foco. Boa parte deles construda sob pilares matemticos, notadamente quando se utilizam de tcnicas estatsticas. Todo modelo cons-trudo dessa forma implica fazer algumas restries ao comportamento do fenmeno. O que se faz ento so simplificaes para que se possa domar a complexidade do mundo real. Isso tem que ficar absolutamente claro. Quanto mais complexo for o fenmeno em estudo, mais complexo ser o instrumen-tal racional para compreend-lo.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 12

    Introduo conceitos e aplicaes

    Esse limite tem que ser compreendido para no correr o risco de pensar que o modelo possa substituir a realidade. E mais, a grande maioria dos com-pndios estatsticos alerta para o fato de que ela, a Cincia Estatstica, um servidor leal quando usada com prudncia e sem arrogncia. Ela compe o espectro das peas de evidncia na soluo de problemas que devem auxi-liar o tomador de decises aliada ao conhecimento terico da matria em estudo, da experincia extraestatstica e mesmo da intuio de quem deseja administrar bem ou praticar a boa cincia. Como pea de evidncia, ela serve mais para dar suporte do que fazer descobertas. Na fbula descrita pelo es-critor escocs Andrew Lang, ele recomenda usar a Estatstica como o bbado usa o poste, mais para apoio do que para iluminao.

    A forma bsica dos modelos construdos para os fenmenos que compor-tam incerteza e so tratados atravs de modelagem matemtica : Y = f(x) + . Nesse modelo, f(x) a componente determinstica e , a componente aleatria. A tarefa do tomador de decises verificar, com base em alguma teoria que envolva o assunto pesquisado, quais podem ser as alternativas para f(x) que expliquem variaes de Y, e fazer suposies sobre o comportamento de que o auxiliem no entendimento das variaes devidas ao acaso.

    Os papis da teoria de probabilidades e da anlise de dados amostrais

    A componente aleatria, , chamada de erro estatstico ou resduo. Nela esto todas as variveis menos importantes que podem explicar as variaes de Y e tambm aquela parte genuinamente devida a oscilaes ocorridas ao mero acaso.

    Quando se fala de incerteza, de acaso, fala-se tradicionalmente de proba-bilidade. Mais recentemente, outras formas de se medir incerteza tm sido propostas, como a lgica fuzzy, por exemplo, que ultrapassa os limites da lgica clssica por admitir outros resultados, que no somente o dicotmi-co sim ou no, base aristotlica de toda a lgica clssica a partir da qual foi construda a teoria de probabilidades. Mas para efeito do estudo das tcni-cas apresentadas neste livro, construiremos toda a metodologia baseando- -nos na probabilidade como medida de incerteza.

    Dessa forma, a probabilidade pode ser definida como uma medida racional de crena. Ela definida como um nmero entre 0 e 1 e busca medir o grau

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Introduo conceitos e aplicaes

    13

    de incerteza associada a um fenmeno que no geral pode ser compreendi-do como alguma espcie de jogo em que fazemos apostas. As decises so ento tomadas com base em quanto estamos dispostos a pagar no caso de perdermos a aposta realizada. Naturalmente, se as consequncias de nossa deciso errada forem muito graves, optaremos por apostar menos ou so-mente apostar com um certo grau mnimo de incerteza.

    As tcnicas estatsticas utilizam-se fartamente de levantamento de dados para a compreenso do fenmeno em estudo. Esses dados podem ser relati-vos a toda uma populao ou a uma parte dela chamada de amostra. Deseja-mos, obviamente, que a amostra represente a populao como um todo. Fa-remos observaes na amostra e a partir delas desejaremos fazer inferncias para a populao. Veremos fartamente como isso pode ser feito, com rigor cientfico, de forma a nos assegurarmos de que podemos compreender um comportamento da populao a partir do comportamento da amostra.

    Organizao dos captulos do livroConvm, no entanto, antes de buscarmos fazer ilaes sobre a popula-

    o com base na amostra, explorar ao mximo as informaes que os dados podem fornecer. Esta tarefa pode ser facilitada com o emprego de tcnicas de estatstica descritiva e de anlise exploratria de dados. Esses assuntos sero tratados no captulo 2 deste livro. Estudaremos as melhores formas de tabular dados, de apresent-los em grficos adequados e de construir medi-das que sintetizem as informaes necessrias para compreenso do fen-meno. Construir essas medidas tem por objetivo verificar o comportamen-to dos dados, que valores podem representar o comportamento geral dos dados e como eles esto distribudos em torno de valores centrais e assim por diante.

    Quando falamos em amostragem, estamos de antemo reconhecendo que um grau de incerteza est associado s medidas realizadas na amos-tra como candidatas a facilitadoras da compreenso do comportamento da populao. Essa incerteza, como j especificado, ser tratada tendo como base a teoria de probabilidades, que ser o tema do captulo 3. Este captulo , entre todos, o que necessitar de maior trabalho matemtico. Entretanto, essa talvez no seja a maior dificuldade do contedo do captulo, mas sim a compreenso dos limites dos clculos que faremos.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 14

    Introduo conceitos e aplicaes

    No lance de uma moeda honesta, a probabilidade de sair cara em um lance pode ser ou um outro valor qualquer dependendo do que estamos medindo. Se atirarmos a moeda cinco vezes, a probabilidade de sair cara exa-tamente no quinto lance sempre ? Depende de como olhamos o proble-ma. Se olharmos somente para o quinto lance como um lance isolado, no h dvidas do valor para a probabilidade de sair cara. Mas se por outro lado estivermos interessados em calcular qual a probabilidade de sair cara no quinto lance, aps quatro coroas, a probabilidade de sair cara no ser mais igual a , com certeza ser um valor muito menor, conforme veremos quando estudarmos o captulo de probabilidades. Esse fato no intuitiva-mente to fcil de ser percebido. E mostrar isso intuitivamente mais difcil do que o simples clculo dessa probabilidade. Aqui, a linguagem matem-tica facilitaria enormemente a compreenso do que est ocorrendo. Vamos tentar compor essas duas formas de encarar o problema.

    Tendo ento a noo da probabilidade, poderemos voltar ao trabalho de destrinchar o comportamento dos dados atravs do estudo da forma de produzi-los. Uma vez que nos deteremos fundamentalmente em retirar de uma populao uma amostra de seus indivduos para quando estivermos estudando-os, compreenderemos o comportamento da populao. Tere-mos que verificar quais so as melhores formas de se retirar esses dados e de que tamanho dever ser essa parte da populao para que tenhamos alguma segurana, medida atravs de probabilidades, em fazer afirmaes sobre a populao.

    Na matria que ser tratada no captulo 4, estudaremos tcnicas simples mas eficientes de buscarmos amostras representativas da populao. No temos dvidas que aps esse estudo o leitor aceitar o fato de que as pes-quisas podem representar bem a opinio de eleitores ou de consumidores quando falarmos de pesquisa de mercado. No momento pode ainda parecer intuitivamente incorreto que uma amostra de tamanho 400 possa represen-tar os eleitores de um municpio, mas que talvez uma amostra de 1 000 no represente bem os eleitores de um bairro da cidade.

    A nossa pretenso de falar da populao com base em elementos da amostra passa pela compreenso de que descreveremos tanto a populao como a amostra atravs de medidas estatsticas e da forma de comportamen-to dos dados que sero descritos atravs de distribuies de probabilidades. Rigorosamente, essas medidas estatsticas sero medidas da prpria distri-buio dos dados.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Introduo conceitos e aplicaes

    15

    Essa parte da estatstica chamada de inferncia estatstica ou de esta-tstica indutiva. Ela ser tratada no captulo 5, sobre estimao, em que trs procedimentos sero estudados. O primeiro deles a chamada estimao por pontos, na qual calculamos um valor na amostra, por exemplo, a mdia de uma varivel, que dever servir como uma estimativa da mdia da po-pulao. O segundo procedimento, chamado de estimao por intervalos ou construo de intervalos de confiana, consiste em criar em torno do valor do estimador pontual um intervalo em que esse valor possa estar contido; associaremos esse intervalo a um certo nvel de confiana, rela-cionado com uma medida de probabilidade. E o terceiro procedimento o de se fazer alguma afirmao sobre o valor de uma medida na popula-o atravs do estabelecimento de uma hiptese e ento realizar um teste sobre essa declarao associado a uma certa probabilidade de estar-se er-rando na deciso. Esse procedimento conhecido como teste de hipteses estatsticas.

    O contedo at esse ponto do livro o mnimo obrigatrio a qualquer livro que pretenda apresentar o principal da teoria que envolve a enormi-dade de procedimentos estatsticos que podem servir de auxlio na tomada de decises. a partir desse ponto que os autores de livros de estatstica devem decidir, de acordo com as necessidades do pblico que querem atin-gir, quais so as tcnicas teis para cumprir o seu objetivo. Optamos por tra-balhar com trs tcnicas que podem ser amplamente utilizadas no auxlio tomada de decises gerenciais para profissionais interessados nos chama-dos negcios.

    No pretendemos com essa opo sugerir que essas tcnicas sejam su-ficientes. Muito pelo contrrio, gostaramos de poder estimular os leitores a buscarem um maior aperfeioamento com a pesquisa na literatura de outras tcnicas tambm teis. Contamos que esse marco introdutrio, disponvel at o captulo 5, fornea instrumentos ao leitor para novas aventuras. No en-tanto, a nossa prtica no trabalho de aplicao de mtodos estatsticos aplica-dos a negcios nos leva a apresentar essas tcnicas neste livro por compreen-dermos que cobrem bem uma possvel lacuna no gerenciamento.

    Elas so apresentadas nos captulos de 6 a 8. No captulo 6 discutiremos Anlise de Regresso e Correlao, no captulo 7 a Teoria de Deciso Estats-tica e no captulo 8 a Anlise de Sries Temporais e Modelos para Previso de Demanda.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 16

    Introduo conceitos e aplicaes

    Outras tcnicas estatsticas so bastante teis dependendo do ramo de atuao de cada leitor. Tcnicas como: Controle Estatstico de Qualidade; Anlise de Confiabilidade e de Sobrevivncia; Anlise de Credit Score; Plane-jamento de Experimentos; Anlise de Dados Categorizados; Anlise de Dados Longitudinais; Nmeros ndices; Matemtica Atuarial; Processos Estocsticos e Teoria de Filas; Anlise Multivariada; Anlise de Varincia; Testes No Para-mtricos; Geoestatstica; Estatstica Espacial; Processos Estocsticos; e mais uma infinidade de tcnicas estatsticas esto disponveis para aplicaes.

    Para cada um desses tpicos h uma enormidade de livros especficos, da mesma forma que h uma enormidade de outros livros para cada um dos captulos que estamos apresentando. A abordagem de cada um desses livros, o grau de complexidade dos conceitos e da matemtica envolvidos que fazem de cada obra uma obra nica.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    ProblemaO departamento de Recursos Humanos da empresa ABC deseja reade-

    quar os salrios de seus funcionrios a partir de uma nova poltica de cargos e salrios. A primeira providncia do coordenador do departamento foi verifi-car o perfil dos funcionrios da empresa.

    Solicitou para um estudo preliminar a relao dos funcionrios em que deveria constar algumas variveis para esse primeiro estudo: ordem de con-tratao, sexo, idade, salrio e setor.

    Um auxiliar administrativo apresentou o seguinte quadro como resultado:

    Nmero de ordem Nome Sexo Idade

    Salrio (R$) Setor

    1 A. L. Ferraz M 49 1.714,00 Oper.

    2 R. Abreu M 48 1.701,00 Oper.

    3 R. S. Reis M 64 1.589,00 Oper.

    4 N. Farias F 37 1.418,00 Oper.

    5 J. L. Jansen F 42 1.000,00 Aux. Adm.

    6 U. S. Machado M 40 3.732,00 Tc.

    7 F. Nogueira F 21 1.330,00 Oper.

    8 M. Pinheiro F 33 1.307,00 Oper.

    9 M. A. da Silva M 39 1.282,00 Oper.

    10 P. A. B. Costa F 42 1.260,00 Oper.

    11 H. F. Minho F 39 975,00 Aux. Adm.

    12 N. M. de Lima M 32 1.256,00 Oper.

    13 C. F. Loureiro M 22 1.185,00 Oper.

    19Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 20

    Anlise de dados

    Nmero de ordem Nome Sexo Idade

    Salrio (R$) Setor

    14 M. E. M. Ferreira M 21 3.535,00 Tc.

    15 J. A. Isaias F 37 2.956,00 Tc.

    16 J. Martins F 24 1.179,00 Oper.

    17 A. P. Ribeiro M 28 966,00 Aux. Adm.

    18 L. C. Batista M 32 3.204,00 Adm.

    19 A. F. dos Santos M 31 881,00 Aux. Adm.

    20 C. A. Brando F 38 3.080,00 Adm.

    21 D. J. Feltrin M 23 2.872,00 Tc.

    22 L. S. Prestes M 22 826,00 Aux. Adm.

    23 J. L. Campos M 46 1.010,00 Oper.

    24 S. I. Magalhes F 34 708,00 Aux. Adm.

    25 P. R. Gonalves M 47 2.960,00 Adm.

    26 M. I. Machado M 42 2.797,00 Tc.

    27 M. Paran F 32 1.001,00 Oper.

    28 U. V. Guimares F 29 2.315,00 Adm.

    29 E. M. Moreira M 41 5.572,00 Ger.

    30 A. P. de Andrade M 30 2.372,00 Tc.

    31 L. R. de Souza F 51 4.829,00 Ger.

    32 R. T. Moraes F 23 1.826,00 Adm.

    33 J. Pilloto M 20 540,00 Oper.

    34 F. C. Lopes F 27 489,00 Oper.

    35 C. A. Meier F 33 479,00 Oper.

    36 H. O. Silveira F 22 1.904,00 Tc.

    37 K. D. Almeida M 41 659,00 Aux. Adm.

    38 M. J. D. Colares F 34 1.827,00 Tc.

    39 R. F. L. Silvrio M 24 472,00 Oper.

    40 M. N. Messias F 20 640,00 Aux. Adm.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    21

    Os dados apresentados foram organizados de forma a oferecer ao coorde-nador do departamento de Recursos Humanos as informaes que revelassem a distribuio dos salrios segundo as variveis: (I) nmero de ordem, no sen-tido que o mais antigo na casa recebeu o nmero 1 e o mais novo o nmero 40, no importando muito o tempo de contratao, uma vez que a empresa foi constituda h pouco tempo, (II) o sexo, (III) a idade, (IV) o salrio e (V) o setor, dividindo os funcionrios segundo as funes: operacional (Oper.), auxiliar administrativo (Aux. Adm.), tcnico (Tc.), administrativo (Adm.) e ge-rncia (Ger.), sendo uma gerncia tcnica e outra administrativa.

    O coordenador analisou a tabela e verificou imediatamente que os funcio-nrios mais antigos eram na sua maioria do setor operacional, exceto dois auxi-liares administrativos. Observou tambm que poucos funcionrios ganhavam menos do que R$1.000,00 e que havia uma pequena predominncia de funcio-nrios do sexo masculino. Viu que o Reis de fato era o funcionrio mais velho, com 64 anos, e que a empresa no tinha nenhum funcionrio com menos de 20 anos. Verificou tambm que ele prprio era o dcimo oitavo contratado como tambm que entre os administradores era o mais antigo e que o seu salrio era o maior comparado com seus pares, R$3.204,00. Concluiu, finalmente, que da forma como os dados foram apresentados estava com dificuldade de tirar maiores informaes sobre a distribuio de cargos e salrios.

    Chamou um dos administradores e pediu que ele organizasse um pouco melhor os dados e que em termos gerais no importava o nome das pessoas. Foi prontamente atendido e recebeu o seguinte novo quadro:

    Sexo Idade Setor Nmero de ordemSalrio

    (R$)Mdia salarial

    M 41 Ger. 29 5.572,00

    F 51 Ger. 31 4.829,00 5.200,50

    M 40 Tc. 6 3.732,00

    M 21 Tc. 14 3.535,00

    F 37 Tc. 15 2.956,00

    M 23 Tc. 21 2.872,00

    M 42 Tc. 26 2.797,00

    M 30 Tc. 30 2.372,00

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 22

    Anlise de dados

    Sexo Idade Setor Nmero de ordemSalrio

    (R$)Mdia salarial

    F 22 Tc. 36 1.904,00

    F 34 Tc. 38 1.827,00 2.749,38

    M 32 Adm. 18 3.204,00

    F 38 Adm. 20 3.080,00

    M 47 Adm. 25 2.960,00

    F 29 Adm. 28 2.315,00

    F 23 Adm. 32 1.826,00 2.677,00

    M 49 Oper. 1 1.714,00

    M 48 Oper. 2 1.701,00

    M 64 Oper. 3 1.589,00

    F 37 Oper. 4 1.418,00

    F 21 Oper. 7 1.330,00

    F 33 Oper. 8 1.307,00

    M 39 Oper. 9 1.282,00

    F 42 Oper. 10 1.260,00

    M 32 Oper. 12 1.256,00

    M 22 Oper. 13 1.185,00

    F 24 Oper. 16 1.179,00

    M 46 Oper. 23 1.010,00

    F 32 Oper. 27 1.001,00

    M 20 Oper. 33 540,00

    F 27 Oper. 34 489,00

    F 33 Oper. 35 479,00

    M 24 Oper. 39 472,00 1.130,12

    F 42 Aux. Adm. 5 1.000,00

    F 39 Aux. Adm. 11 975,00

    M 28 Aux. Adm. 17 966,00

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    23

    Sexo Idade Setor Nmero de ordemSalrio

    (R$)Mdia salarial

    M 31 Aux. Adm. 19 881,00

    M 22 Aux. Adm. 22 826,00

    F 34 Aux. Adm. 24 708,00

    M 41 Aux. Adm. 37 659,00

    F 20 Aux. Adm. 40 640,00 831,88

    Com o novo quadro pde verificar uma srie de novas informaes, tais como mdia salarial e nmero de funcionrios por categoria, e tambm que havia uma certa coerncia dentro de cada categoria com relao ao tempo de servio e salrio, ou seja, funcionrios mais antigos da mesma categoria recebiam salrios maiores. Mas sobre sexo e idade e as suas relaes com as demais informaes ainda havia muita dificuldade em tirar concluses.

    Esse tipo de problema colocado no dia a dia do tomador de decises. Os dados individuais, por mais bem organizados que estejam, trazem poucas informaes. necessrio que sejam sintetizados atravs de tabelas, grficos e medidas que possam resumir a informao de uma forma agregada.

    Conceitos fundamentaisA Estatstica Descritiva, que mais modernamente, com a incorporao de

    novas tcnicas, chamada de Anlise Exploratria de Dados, pode suprir a necessidade de uma primeira organizao dos dados de forma a transfor-m-los verdadeiramente em informao.

    As tcnicas utilizadas na explorao dos dados tiveram uma evoluo muito grande com o advento da computao e particularmente de progra-mas que facilitam essas tarefas. Para o senso comum, a Estatstica resume-se a esse trabalho. Veremos nos captulos seguintes que esse somente um primeiro importante passo na organizao das informaes para aquisio do conhecimento de modo a auxiliar a tomada de decises.

    Fundamentalmente, a anlise de dados compreende trs frentes: orga-nizao de tabelas, construo de grficos e sntese dos dados atravs do clculo de medidas estatsticas.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 24

    Anlise de dados

    Variveis quantitativas e categorizadasAssociadas a cada indivduo, temos medidas e atributos que o definem.

    As medidas so caractersticas de variveis quantitativas e os atributos so caractersticas de variveis categorizadas ou qualitativas.

    As variveis quantitativas podem ser contnuas ou discretas. Elas so cont-nuas quando entre dois quaisquer valores possam estar novos valores. As va-riveis quantitativas contnuas so frutos de medidas que podem ser expres-sas pelos nmeros reais. O salrio dos empregados de uma empresa pode ser considerado uma varivel contnua. As variveis so discretas quando so fruto de contagem e podem ser expressas atravs de nmeros inteiros, como a idade dos funcionrios. Uma outra caracterstica importante das variveis quantitativas que podemos fazer operaes matemticas com seus valores, como soma, subtrao, multiplicao e diviso.

    As variveis categorizadas ou qualitativas so expressas em escalas ordinais, como o caso da ordem em que os funcionrios foram contratados, ou expres-sas em categorias ou escalas nominais, como o sexo do funcionrio ou o setor em que ele trabalha. No se pode, nesse caso, fazer operaes matemticas.

    Valor discrepante ou outlierUm valor discrepante ou outlier um valor que destoa do conjunto prin-

    cipal dos dados.

    Tabelas e quadros estatsticosExiste uma pequena diferena entre quadro estatstico e tabela estatstica.

    A tabela estatstica o resultado de alguma forma de resumo dos dados. As linhas esquerda e direita de uma tabela estatstica nunca devem ser fechadas segundo as normas da ABNT. Elas so utilizadas para apresentao de resultados estatsticos e tambm como ferramenta de desenvolvimento de operaes. Uma tabela bastante importante utilizada em estatstica a distribuio de frequncias.

    J o quadro serve para apresentao de dados, como os do exemplo, ou para apresentao de resultados-resumo, como um quadro de mdias, por exemplo. O quadro pode ter seus limites esquerda e direita fechados por linhas.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    25

    Apresentao grficaOs dados de uma tabela estatstica podem ser apresentados atravs

    de grficos estatsticos, devendo o tipo de grfico ser compatvel com a natureza dos dados. Os principais grficos so: o grfico de colunas ou de barras, o grfico de setores ou pizza, o grfico de bastes, o grfico de linhas e o histograma.

    Existem, na anlise exploratria de dados, algumas apresentaes gr-ficas que auxiliam a compreenso do comportamento dos dados, como o ramo e folhas, o esquema de cinco nmeros e o diagrama de caixas ou Box-plot.

    O detalhamento da utilizao de cada tipo de grfico ser ainda assunto deste captulo.

    Medidas estatsticasA utilizao de medidas estatsticas serve para resumir os dados atravs de

    valores representativos. Existem quatro tipos de medidas utilizadas: medidas de posio, de disperso, de assimetria e as de achatamento ou de curtose.

    As medidas de posio objetivam verificar pontos que representem o con-junto de dados. Elas podem ser medidas de tendncia central, como a mdia, por exemplo, que mostra em torno de que ponto os dados se concentram ou as separatrizes, que informam o valor em que os dados se dividem em quatro, dez ou cem partes.

    As medidas de disperso mostram a intensidade de concentrao dos dados em torno de medidas de tendncia central. As principais medidas de disperso so a varincia, o desvio-padro e o coeficiente de variao.

    As medidas de assimetria so utilizadas para verificar se os dados so sim-tricos em relao a um valor central, e as de curtose para verificar se o grfico de dados concentra-se em valores prximos ao eixo X ou se distanciam dele. Essas ltimas medidas de achatamento so de menor interesse na anlise de dados, e no sero tratadas neste livro.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 26

    Anlise de dados

    Variveis categorizadasAs variveis categorizadas so medidas de atributos, como sexo, grau de

    instruo, setor de trabalho, categoria profissional, preferncia eleitoral etc. Os indivduos esto relacionados a alguma categoria dentro de cada vari-vel, como sexo e categoria dos empregados da empresa ABC.

    Distribuio por sexoA tabela e os grficos abaixo apresentam a distribuio por sexo dos indi-

    vduos da empresa ABC.

    Tabela 1 Sexo dos empregados da empresa ABC

    Sexo Nmero Perc.

    Fem. 19 47,5%

    Masc. 21 52,5%

    Total 40 100,0%

    Um grfico estatstico objetiva dar a impresso visual da representao dos dados. Os grficos adequados para a representao dessa tabela so os de colunas ou de barras e o grfico de setores.

    Grfico de colunas

    Fem. Masc.

    20

    15

    10

    5

    0Sexo

    Distribuio por sexo

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    27

    Grfico de barras

    Fem.

    Masc.

    20151050

    Sexo

    Distribuio por sexo

    Nmero

    Grfico de setores

    Distribuio por sexo

    48%Fem.

    Masc.52%

    O grfico de setores til quando queremos observar o valor relativo da participao de cada categoria no total.

    Distribuio por categoria profissional

    A tabela e os grficos apresentam a distribuio dos indivduos por cate-goria profissional na empresa:

    Tabela 2 Categoria dos empregados da empresa ABC

    Categoria Nmero Perc.

    Gerncia 2 5,0%

    Adm. 5 12,5%

    Tc. 8 20,0%

    Aux. Adm. 8 20,0%

    Oper. 17 42,5%

    Total 40 100,0%Este material parte integrante do acervo do IESDE BRASIL S.A.,

    mais informaes www.iesde.com.br

  • 28

    Anlise de dados

    Grfico de colunas

    8

    6

    4

    2

    0Gerncia

    Categoria dos empregados da Empresa ABC

    14

    12

    10

    16

    18

    Adm. Tc. Aux. Adm. Oper.

    Nm

    eros

    Grfico de setores

    Categoria dos empregados da Empresa ABC

    20%

    Gerncia

    Adm.42%Tc.

    Aux. Adm.Oper.

    5%

    13%

    20%

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    29

    Variveis quantitativasAs variveis quantitativas, sejam elas discretas ou contnuas, so apre-

    sentadas atravs da chamada distribuio de frequncias. Nos dois casos po-demos construir distribuies de frequncias, que, como o prprio nome indica, informam, atravs de tabelas, quais so os valores da varivel e qual a frequncia de ocorrncia de dados para cada um desses valores.

    No caso de varivel contnua, ou mesmo de varivel discreta com um grande nmero de possibilidades, comum a construo de classes em que mais de um valor contemplado.

    Distribuio de frequnciasVamos estudar inicialmente o caso de uma varivel discreta atravs da

    verificao da distribuio de frequncias das idades dos funcionrios. Pode ser de interesse saber qual a distribuio de idade dos funcionrios com menos de trinta anos. A tabela da distribuio de frequncias corresponden-te a esses dados ser:

    Distribuio de frequncias dos funcionrios com menos de 30 anos

    Idade Freq.

    20 2

    21 2

    22 3

    23 2

    24 2

    25 0

    26 0

    27 0

    28 1

    29 1

    Total 13

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 30

    Anlise de dados

    O grfico correspondente distribuio de frequncias dessas idades o grfico de bastes:

    2

    1,5

    1

    0,5

    0

    3,5

    3

    2,5

    1 2 3 4 5 6 7 8 9 10

    Diagrama ramo e folhasUma outra forma de representao grfica utilizando as prprias idades

    o chamado diagrama ramo e folhas, em que o ramo representa os algarismos relativos s dezenas e as folhas os algarismos relativos unidade.

    Ramo e folhas das idades dos 40 funcionrios:

    2 001122233447893 012223344778994 01122267895 16 4

    Observe o aspecto da informao grfica do diagrama ramo e folhas em analogia ao histograma apresentado na sequncia. A vantagem de sua uti-lizao que ele mostra o desenho da distribuio sem perder a informao detalhada.

    Poderamos, eventualmente, considerar a idade como uma varivel ale-atria contnua cuja representao est aproximada para os valores inteiros das idades. A rigor, a varivel idade mesmo contnua, porque podera-mos medir o tempo de vida em anos, dias e mesmo segundos. Nesse caso, poderamos construir classes entre certas idades de tal forma que elas repre-sentassem um contnuo.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    31

    HistogramaA representao grfica da tabela da distribuio de frequncias, quando

    organizada em classes, recebe o nome de histograma. um grfico de colu-nas adjacentes representando um contnuo.

    Distribuio de frequncia das idades

    Idade Freq. Perc.

    20 a 29 14 35,0%

    30 a 39 14 35,0%

    40 a 49 10 25,0%

    50 a 59 1 2,5%

    60 ou + 1 2,5%

    Total 40 100,0%

    Histograma

    Idade

    Distribuio de frequncia das idades

    20 a 29 anos

    8

    6

    4

    2

    0

    14

    12

    10

    16

    Freq

    .

    30 a 39 anos

    40 a 49 anos

    50 a 59 anos

    60 anos ou mais

    1

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 32

    Anlise de dados

    Distribuio dos salrios

    Salrio (R$) Freq. Freq. rel.

    At 1.000,00 11 0,27

    De 1.000,00 a 1.999,00 17 0,43

    De 2.000,00 a 2.999,00 6 0,15

    De 3.000,00 a 3.999,00 4 0,10

    Acima de 4.000,00 2 0,05

    Total 40 1,00

    Histograma

    Distribuio salarial

    At 100

    8

    6

    4

    2

    0

    14

    12

    10

    16

    Freq

    .

    De 1.000 a 1.999

    De 2.000 a 2.999

    De 3.000 a 3.999

    Acima de 4.000

    Salrios (R$)1

    18

    Elementos de uma distribuio de frequnciasA distribuio de frequncias, como apresentada, til no s para apre-

    sentao de dados, mas para anlises um pouco mais aprofundadas. Vamos reapresentar a distribuio de frequncias dos salrios de uma maneira mais matematicamente formal.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    33

    Salrio (R$) Freq. Freq. rel.

    X < 1.000,00 11 0,27

    1.000,00 X < 2.000,00 17 0,43

    2.000,00 X < 3.000,00 6 0,15

    3.000,00 X < 4.000,00 4 0,10

    X 4.000,00 2 0,05

    Total 40 1,00

    Observe agora que a distribuio apresentada como um contnuo. No h descontinuidade entre R$1.999,00 e R$2.000,00, podemos, assim, ter a representao de qualquer valor como R$1.999,85, por exemplo.

    Definimos cinco classes. O nmero de classes de uma distribuio de fre-quncias no deve ser muito grande. Em torno de cinco a oito classes um nmero bastante razovel e elas devem ter igual amplitude. No nosso caso, como temos poucos valores acima de R$4.000,00 agregaremos todos esses valores na ltima classe. Cada uma delas tem um limite inferior de classe e um limite superior. A diferena entre o limite superior e o limite inferior chama-mos de amplitude do intervalo de classe.

    Podemos ainda definir o ponto mdio de cada classe. Esse valor ser til para a determinao das medidas estatsticas quando no tivermos os dados brutos. O ponto mdio representar todos os valores da classe. Entre R$1.000,00 e R$2.000,00 temos 17 valores. Todos eles sero considerados como R$1.500,00. Perdemos um pouco em informao, mas ganhamos em poder de sntese.

    A frequncia relativa ser uma aproximao de probabilidades. A proba-bilidade de sortearmos um dos 40 funcionrios e que esse sorteado per-ceba um salrio entre R$3.000,00 e R$4.000,00 ser de 4/40 ou de 0,10. Formalmente, temos que P(3.000 X < 4.000) = 0,10. Podemos dizer, sem perder muito o rigor, que essa probabilidade de 10%. A probabilidade de sortearmos um funcionrio que ganhe menos do que R$2.000,00 pode ser definida como P(X < 2.000) = 28/40 = 0,70. Tambm P(X 2.000) = 12/40 = 0,30. Observe que P(X < 2.000) + P(X 2.000) = 1, sempre que isso ocorre; dizemos que essas probabilidades so complementares.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 34

    Anlise de dados

    Se considerarmos a amplitude do intervalo de classe como a unidade, a probabilidade pode ser calculada como a rea de cada retngulo, que ter como base o valor 1 e como altura a frequncia relativa. Esse clculo de pro-babilidades atravs de reas ser fundamental quando tratarmos da infern-cia estatstica.

    Outro elemento importante em uma distribuio de frequncias a cha-mada frequncia acumulada. At R$2.000,00, temos 28 elementos, como acabamos de ver. At R$3.000,00, temos 34 elementos e assim por diante. Abaixo apresentamos a tabela completa da distribuio de frequncias:

    Salrio (R$) Freq. Freq. rel. Ponto mdio Freq. acumulada

    X < 1.000,00 11 0,27 500 11

    1.000,00 X < 2.000,00 17 0,43 1.500 28

    2.000,00 X < 3.000,00 6 0,15 2.500 34

    3.000,00 X < 4.000,00 4 0,10 3.500 38

    X 4.000,00 2 0,05 4.500 40

    Total 40 1,00

    Uma outra aproximao que podemos fazer suavizar a apresentao do histograma, construindo um novo grfico que una os pontos mdios das classes. Esse novo grfico chamado de polgono de frequncias e estar pos-sivelmente mais prximo dos dados reais. Veja que com esse polgono de frequncias podemos determinar atravs do clculo de reas as probabili-dades de qualquer intervalo, como, por exemplo, P(1.022,34 X < 3.087,53).

    O polgono de frequncias apresentado na figura a seguir. Observe que a rea abaixo do polgono tambm igual unidade e toda rea que re-tirada do histograma recolocada. Podemos verificar isso atravs de seme-lhana de tringulos:

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    35

    Distribuio salarial

    At 100

    8

    6

    4

    2

    0

    14

    12

    10

    16

    Freq

    .

    De 1.000 a 1.999

    De 2.000 a 2.999

    De 3.000 a 3.999

    Acima de 4.000

    Salrios (R$)

    18

    Srie temporalMuitas variveis so medidas a intervalos de tempo. O grfico de linhas

    a maneira mais adequada de apresentar a evoluo de uma varivel no tempo. O eixo X sempre ser correspondente a uma escala de tempo.

    Quando no h um nmero demasiadamente grande de pontos, a liga-o entre os pontos por segmentos de retas ajuda a visualizar o padro de variao ao longo do tempo.

    Suponha que no exemplo da empresa ABC os dados tivessem sido apre-sentados pelo tempo de casa de cada funcionrio. Uma possvel organiza-o dos dados seria verificar quantos funcionrios a empresa tinha em cada um de seus quatro anos de existncia, conforme a tabela abaixo:

    Nmero de funcionrios por ano

    Anos Funcionrios

    Ano 1 15

    Ano 2 20

    Ano 3 32

    Ano 4 40

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 36

    Anlise de dados

    Grfico de linhas

    Nmero de empregados por ano

    20

    15

    10

    5

    0

    35

    30

    25

    40

    Ano 1

    45

    Ano 2 Ano 3 Ano 4.

    Medidas estatsticasO objetivo de sintetizao das informaes tem sido realizado at aqui atra-

    vs de apresentao tabular e grfica dos dados originais ou brutos. A forma de completar essa tarefa se d atravs do clculo das medidas estatsticas.

    Trataremos de trs tipos de medidas: (I) as de posio, (II) as de disperso e (III) as de assimetria.

    Medidas de posioTrabalharemos aqui com dois tipos de medidas, as de tendncia central e

    as separatrizes.

    As medidas de tendncia central resumem os dados no centro da distri-buio. So medidas de tendncia central a mdia aritmtica, a mediana e a moda.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    37

    A mdia aritmtica

    A mdia aritmtica ou simplesmente mdia uma das medidas mais im-portantes da Estatstica. Alm de resumir os dados, ela servir enormemente para os propsitos de estimao de caractersticas da amostra para a popu-lao, pois possui as melhores propriedades de um estimador.

    Ela a soma dos dados dividida pelo nmero de observaes, e sua ex-presso matemtica :

    1 2

    i=1

    1 + + ... + = =

    nn

    i

    x x xx x

    n n

    Quando no houver conflito com outras expresses, apresentaremos

    =1

    n

    ii

    x simplesmente como X.

    A mdia aritmtica representa o centro de gravidade dos dados. Alguns cuida-dos, no entanto, devem ser tomados quando desejamos resumir os dados pelo valor de sua mdia. Ela muito sensvel a valores extremos. Um nico valor muito grande ou muito pequeno pode mudar substancialmente o valor da mdia, po-dendo ela perder sua representatividade. Esses valores extremos so chamados de valores discrepantes ou outliers e quando eles aparecem em um conjunto de dados devem receber um tratamento muito especial.

    No nosso exemplo temos como valor da mdia das idades dos emprega-dos da empresa ABC o valor 34 anos e a mdia dos salrios de R$1.791,20. Se considerarmos a idade de 64 anos como um outlier a nova mdia ser de 33,2 anos, e se considerarmos os salrios R$4.829,00 e R$5.572,00 como valores muito acima dos demais, teremos uma mdia salarial de R$1.611,76, quase R$200,00 de diferena com relao primeira mdia.

    No primeiro caso a diferena parece no ter sido de grande significncia, mas para a mdia salarial essa diferena pode ser considerada importante, mesmo porque ser um elemento importante na anlise de cargos e salrios. Retirar o salrio dos dois gerentes no clculo da mdia pode ser til para a construo da nova poltica de cargos e salrios.

    Essa sensibilidade da mdia a valores extremos pode ser bem compreen-dida com a seguinte ilustrao. Se coloco os ps prximos a uma rea gelada e a cabea prxima a uma rea quente, a temperatura mdia do corpo ser agradvel.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 38

    Anlise de dados

    A mdia ponderada

    Se tivermos o seguinte conjunto de dados: (2, 2, 2, 2, 2, 3, 3, 4, 4, 4) e que-remos calcular a sua mdia, a soma dos dados pode ser realizada da seguinte forma: (2 . 5) + (3 . 2) + (4 . 3) = 10 + 6 +12 = 28. Isso porque a frequncia do 2 5, a do 3 2 e a do 4 3. Observe que a soma das frequncias 10 (5 + 2 + 3), igual ao nmero de observaes. Podemos expressar esse fato por:

    = Xf

    Xf

    Em que f a frequncia de cada X. Essa expresso representa a chamada mdia aritmtica ponderada ou simplesmente a mdia ponderada. Os ponde-radores so as frequncias.

    Esse clculo muito til quando os dados so apresentados em uma dis-tribuio de frequncias em que X ser o ponto mdio de cada classe e a frequncia ser o ponderador. Se observarmos que a frequncia relativa

    igual frequncia dividida pelo nmero de observaes, isto f freqfrel

    = . ,

    podemos representar a mdia como:

    = . relX X fNo clculo da mdia ponderada das idades e dos salrios, encontramos

    os seguintes valores para as mdias, com o auxlio das tabelas a seguir. Idade mdia 34,75 anos e salrio mdio R$1.735,00.

    Idade Ponto mdio (X) frel X frel

    20 --- 30 24,5 0,35 8,575

    30|--- 40 34,5 0,35 12,075

    40|--- 50 44,5 0,25 11,125

    50|--- 60 54,5 0,025 1,3625

    60|---| 70 64,5 0,025 1,6125

    34,75

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    39

    Salrio (R$) Ponto Mdio (X) frel X frel

    X < 1.000,00 500 0,28 140

    1.000,00 X < 2.000,00 1.500 0,43 645

    2.000,00 X < 3.000,00 2.500 0,15 375

    3.000,00 X < 4.000,00 3.500 0,1 350

    X 4.000,00 4.500 0,05 225

    1.735

    Os valores encontrados para os dados brutos foram idade mdia de 34 anos e salrio mdio de R$1.791,20. Os valores obtidos a partir da distribui-o de frequncias sofreram pequenas alteraes, principalmente o valor do salrio mdio, em razo de considerarmos o valor dos salrios dos gerentes como R$4.500,00 na distribuio de frequncias, quando de fato eles tinham valores bem superiores ao considerado.

    Essas distores costumam desaparecer quando retiramos os outliers do clculo ou quando o nmero de observaes for grande.

    A mediana

    A mediana o valor que divide o rol em duas partes iguais. O rol de-finido como a sequncia ordenada de dados. Por exemplo, para o seguinte conjunto de dados (2, 3, 7, 7, 9) a mediana o nmero 7 que divide o rol em duas partes iguais.

    Quando o nmero de dados muito grande convm definir a posio da mediana antes de sua determinao. A posio da mediana ser definida por PMed = (n + 1)/2. No exemplo acima, a posio da mediana ser PMed = (5 + 1)/2 = 6/2 =3, portanto, a mediana ser o terceiro elemento do rol. O valor da media-na ser o do elemento que ocupa a terceira posio, nesse caso Med = 7.

    No caso de n ser par, o procedimento semelhante, define-se a posio da mediana e depois calcula-se a mdia aritmtica dos dois nmeros imedia-tamente inferior e superior do valor da posio da mediana. No exemplo da empresa ABC, em que n = 40, teremos PMed = (40 +1)/2 = 41/2 = 20,5. A mediana ser ento a mdia entre os valores que ocupam a vigsima e a vigsima pri-meira posies da varivel em considerao.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 40

    Anlise de dados

    No nosso exemplo a idade mediana ser Med = 33, porque X20 = X21 = 33. O salrio mediano ser Med = R$1.318,50, porque X20 = 1.307,00 e X21 = 1.330,00.

    A mediana para dados agrupados

    Uma forma aproximada de determinao da mediana para dados agru-pados consiste em localizar inicialmente a classe que contm a mediana, com o auxlio da distribuio de frequncias acumulada. Em seguida, tomar o ponto mdio da classe mediana como um valor aproximado do verdadeiro valor da mediana.

    Observe na tabela a seguir que o vigsimo e o vigsimo primeiro va-lores esto na segunda classe que contm do dcimo segundo ao vigsi-mo oitavo elementos. Podemos, por simplicidade, determinar o valor da mediana como aproximadamente R$1.500,00, o valor do ponto mdio da classe mediana.

    Essa aproximao para esse caso foi bastante razovel, como podemos observar pela comparao do valor obtido nesse clculo e o valor real deter-minado pelos dados do rol. Quando a posio da mediana estiver muito pr-xima de alguma dos limites da classe, uma interpolao deve ser realizada.

    Salrio (R$) Freq. Ponto mdio Freq. acumulada

    X < 1.000,00 11 500 11

    1.000,00 X < 2.000,00 17 1.500 28

    2.000,00 X < 3.000,00 6 2.500 34

    3.000,00 X < 4.000,00 4 3.500 38

    X 4.000,00 2 4.500 40

    Total 40

    A moda

    A moda o valor que ocorre com maior frequncia. Para o conjunto de dados (2, 3, 3, 3, 4), a moda ser o valor 3. Quando um conjunto tem uma s moda, ele chamado de unimodal. Se tiver duas modas, de bimodal, e poli-modal se tiver trs modas, ou mais. Se o conjunto no tiver nenhuma moda ser chamado de amodal.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    41

    Separatrizes

    As separatrizes so medidas que dividem um rol em duas partes pro-

    porcionais a certos valores. A medida que separa os dados em duas partes

    iguais, ou em 50% e 50% a mediana, como vimos a pouco.

    Uma srie de trs medidas pode separar o rol em quatro partes iguais.

    Elas so chamadas de quartis. O primeiro quartil (Q1) separa o rol em 25%

    e 75%, o segundo quartil (Q2) a prpria mediana e o terceiro quartil (Q3)

    divide o rol em 75% e 25%.

    Da mesma forma que a mediana, para os quartis devemos inicialmente

    calcular a sua posio para depois determinar o seu valor. A posio do quar-

    til de ordem i, com i = 1..., 3 dada por ( +1)=4Qi

    i nP .

    No nosso exemplo, se desejamos verificar o valor dos quartis para os sa-

    lrios, teremos PQ1 = (40 + 1)/4 = 10,25 e PQ13 = 3(40 +1 )/4 = 30,75, lembran-

    do que o segundo quartil a prpria mediana. Ento, verificando no rol de

    dados, teremos Q1 = R$987,50 e Q3 = R$2.584,50, uma vez que o dcimo sal-

    rio de R$975,00 e o dcimo primeiro de R$1.000,00 e que o trigsimo de

    R$2.372,00 e o trigsimo primeiro de R$2.797,00. Esses so valores aproxima-

    dos, mas podemos verificar que so aproximaes bastante razoveis.

    Podemos tambem definir um conjunto de nove medidas que separam

    o rol em 10 partes, chamadas de decis, e um conjunto de 99 medidas que

    separam o rol em 100 partes, chamadas de percentis. Bastando, para isso,

    determinar as posies de cada decil pela expresso i.(n + 1)/10 e de cada

    percentil por i.(n + 1)/100. fcil verificar que o vigsimo quinto percentil,

    por exemplo, o primeiro quartil.

    Com base nas separatrizes, podemos construir duas representaes que

    fazem parte tambm da chamada anlise exploratria de dados, que so: o

    esquema de cinco nmeros e o diagrama de caixa ou Box-plot.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 42

    Anlise de dados

    Esquema de cinco nmeros

    O esquema de cinco nmeros consiste em apresentar os valores extre-mos, os quartis e a mediana, conforme desenho a seguir:

    Q1 Med Q3

    Xmn Xmx

    Diagrama de caixa ou Box-plot

    O Box-plot, como corriqueiramente conhecido, constitui-se de uma caixa ou um retngulo cujo valor esquerda na caixa o primeiro quartil, e o valor direita na caixa o terceiro quartil. Um trao no centro da caixa representa a mediana e os pontos extremos so mostrados fora da caixa.

    +---+---+---+---+---+---+---+---+---+---+---+---+ 0 1 2 3 4 5 6 7 8 9 10 11 12

    No exemplo acima, o primeiro quartil (Q1) 7, a mediana 8,5 e o terceiro quartil (Q3) 9. Essas trs medidas so utilizadas para a construo da caixa.

    A diferena entre o terceiro e o primeiro quartis chamada de amplitude in-terquartlica (Aiq). Qualquer valor abaixo de Q1 1,5 Aiq e acima de Q3 + 1,5 Aiq considerado como outlier. No exemplo em foco Aiq = 9 7 = 2, ento valores menores do que 7 2(1,5) = 4 e maiores que 7 + 2(1,5) = 10 so outliers.

    O valor 5 no diagrama o menor valor dos dados que no outlier, e o valor 10 o maior valor dos dados que tambm no outlier. Marcamos esses dois pontos e os unimos caixa por um trao.

    Podemos tambm definir outlier extremo como valores abaixo de Q1 3 Aiq e acima de Q3 + 3 Aiq . O valor 3,5 um outlier, por ser menor do que 4 e o valor 0,5 um outlier extremo por ser menor do que 7 3(2) = 1. No temos valores de outlier direita. Marcamos ento o outlier com um asterisco (*) e o outlier extremo com uma circunferncia ().

    Esse diagrama indica que temos um conjunto de dados com uma certa assimetria negativa.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    43

    Medidas de dispersoEssas medidas so teis para que possamos verificar o quanto os dados

    se dispersam, ou, mais comumente, o quanto eles se dispersam em torno da mdia. So medidas de variabilidade. Podemos dizer que dados com grande variabilidade representam um conjunto heterogneo.

    As trs principais medidas de variabilidade so (I) a varincia, (II) o desvio-padro e (III) o coeficiente de variao.

    A varincia

    A varincia mede a variabilidade mdia dos desvios dos valores em torno da mdia ao quadrado. Pode ser representada por VAR(X) ou 2. O quadrado utilizado porque a mdia tem sempre a propriedade que a soma dos desvios em torno de si igual a zero, ou seja, (X ) = 0. Dessa forma, a varincia pode ser definida como:

    2 =(X )2

    N

    Quando tratamos de amostra em vez de populao, N substitudo por (n 1), cuja justificativa ser apresentada no captulo referente Estimao, quando tratarmos de distribuies amostrais. Nesse caso substitumos 2 por S2. Ento, para o caso de amostra, teremos:

    S2 =(X X)2

    n 1

    Uma forma alternativa de determinar o valor da varincia, derivada da expresso acima, dada por:

    S2 = X2 nX2

    n 1

    ou

    S2 =X2

    n 1

    (X)2n

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 44

    Anlise de dados

    A varincia para dados agrupados pode ser determinada pela expresso:

    S2 = (X X)2 . f

    n 1

    Em que f a frequncia de cada classe, X o ponto mdio de cada classe e X a mdia aritmtica dos dados. Ou de forma alternativa por:

    S2 =X2 . f

    n 1

    (X . f )2n

    O desvio-padro

    Como a unidade da varincia sempre ao quadrado, a forma de represen-tar uma medida de disperso na mesma unidade dos dados calculando a raiz quadrada da varincia. Essa medida chamada de desvio-padro e , como veremos, uma das medidas mais importantes da Estatstica.

    O coeficiente de variao

    O desvio-padro tem vrias utilidades em Estatstica. Uma delas com-parar a variabilidade entre dois conjuntos que tm a mesma mdia. Como o desvio-padro no tem um significado fsico mais bem definido, o seu valor ser grande ou pequeno dependendo da dimensionalidade dos dados.

    Um desvio-padro pode ser irrisrio ou imenso dependendo da dimen-so dos dados que estamos tratando. Existe, no entanto, uma possibilidade de comparao da variabilidade entre dois conjuntos padronizando o valor do desvio-padro pelo valor da mdia do conjunto de dados.

    Ou seja, se igualarmos a mdia a 100 e fizermos uma regra de trs simples, obteremos:

    X 100

    S CV

    Ento,

    CV = . 100%SX

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    45

    CV conhecido como o coeficiente de variao dos dados. Seu valor

    dado em percentagem, o que possibilita uma informao mais intuitiva da

    variabilidade, e a forma de comparar-se a heterogeneidade entre dois con-

    juntos com mdias diferentes.

    Observe que os conjuntos A = {1, 2, 3}, B = {11, 12, 13} e C = {111, 112, 113} tm

    o mesmo desvio-padro. Nos trs casos o seu valor igual a 1. No entanto, os

    valores dos coeficientes de variao so: CVA = 50%, CVB = 8,3% e CVC = 0,9%.

    Verifique que esses resultados esto mesmo de acordo com a intuio.

    Se cada medida dessas for uma medida de distncia aferida por algum apa-

    relho, muito menor o erro entre as medidas do conjunto C do que do

    conjunto A.

    Medidas de assimetria

    Existem vrias medidas para verificar se os dados so simtricos em

    torno de um valor central (a mdia) de um conjunto. A mais usual a apre-

    sentada abaixo:

    A = 3 (mdia mediana)S

    Se A < 0, dizemos que os dados tm assimetria negativa, caso contrrio as-

    simetria positiva. Se A = 0, o conjunto de dados simtrico. O aspecto grfico

    de dados simtricos e assimtricos dado abaixo:

    X = Md = MoMo Md X X Md Mo

    assimetria positiva assimetria negativasimtrico

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 46

    Anlise de dados

    Atividades de aplicao1. Uma pesquisa realizada com fornecedores de uma determinada inds-

    tria tinha por objetivo atualizar alguns dados importantes para o contro-le financeiro e administrativo. As seguintes variveis foram observadas:

    a) Nome da empresa

    b) Idade da empresa

    c) Faturamento anual

    d) Nmero de funcionrios

    e) Localizao (UF)

    f) rea construda

    Indique, para as variveis acima, qual o tipo de cada uma delas.

    2. Indique a letra adequada coluna de acordo com as afirmativas abaixo:

    a) Processo utilizado para selecionar elementos numa pesquisa ou estudo.

    b) Uma das formas de apresentao de dados.

    c) Medida observada a partir de uma caracterstica da amostra.

    d) Caracterstica observada em estudos ou pesquisas.

    e) Medida observada a partir de uma caracterstica da populao.

    Distribuio de frequncias. )(

    Estatstica. )(

    Amostragem. )(

    Parmetro. )(

    Varivel. )(

    3. A diretoria de uma empresa, preocupada com a participao de seus membros nas reunies ordinrias, fez um levantamento do nmero de faltas no ltimo semestre. Os dados obtidos para os 48 membros participantes esto apresentados a seguir:

    2 0 0 4 3 0 0 1 0 0 1 1

    2 1 1 1 1 1 1 0 0 0 3 0

    0 0 2 0 0 1 1 2 0 2 0 0

    0 0 0 0 0 0 0 0 0 0 1 0

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    47

    a) Especifique o tipo de varivel estudada, classificando-a.

    b) Construa um diagrama de bastes.

    c) Construa uma tabela de frequncias.

    d) Qual a proporo de membros que faltou no mximo a duas reunies?

    e) Determine as frequncias relativas.

    4. A distribuio de frequncias abaixo apresenta os salrios dos 120 fun-cionrios da empresa A .

    Salrios (em S. M.) fi (n.o de funcionrios)

    0 ---- 5 52

    5 |--- 10 38

    10|--- 15 17

    15|--- 20 8

    20|---| 50 5

    Total 120

    Determine:

    a) A amplitude observada entre a 2.a e a 4.a classe.

    b) O salrio mdio da 4.a classe de frequncias.

    c) A frequncia acumulada da 3.a classe de frequncias.

    d) Quantos funcionrios que recebe entre 5 e 15 salrios mnimos?

    e) Quantos funcionrios que recebe pelo menos 10 salrios mnimos?

    5. Pesquisando-se o preo mdio de fornos micro-ondas de diversas marcas em 28 lojas e pontos de venda em Curitiba, observou-se a se-guinte distribuio:

    Preo (R$) 192,00 220,00 240,00 255,00 262,00 280,00

    Lojas 1 7 11 6 2 1

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 48

    Anlise de dados

    a) Calcule o preo mdio do produto.

    b) Calcule o preo mediano.

    6. Os dados abaixo apresentam as vendas semanais em classes de sal-rios mnimos de vendedores de gneros alimentcios:

    Vendas semanais n. de vendedores

    20 30 2

    30 40 10

    40 50 18

    50 60 50

    60 70 70

    70 80 30

    80 90 18

    90 100 2

    Total 200

    a) Determine o nmero mdio de vendas semanais.

    b) Determine o desvio-padro e o coeficiente de variao das vendas semanais.

    7. Trinta embalagens plsticas de mel foram pesadas com preciso de decigramas. Os pesos, aps convenientemente agrupados, fornece-ram a seguinte distribuio de frequncias (em gramas):

    Xi 31,5 32,5 33,5 34,5 35,5 36,5

    fi 1 5 11 8 3 2

    Determine:

    a) A mdia da distribuio dos pesos das embalagens.

    b) A mediana dos pesos.

    c) A moda dos pesos.

    d) A varincia dos dados.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    49

    8. A tabela abaixo apresenta as taxas de juros do rotativo, cobradas pelos cartes de crdito, em determinado ms.

    American Express 10,95 30 Horas Visa Gold 11,90 Federal Card Nac. 9,80

    Dis

    pon

    vel e

    m: F

    olha

    de

    So

    Paul

    o/Ca

    dern

    o D

    inhe

    iro.

    Credicard Nac. 9,20 30 Horas Visa Int. 11,90 Federal Card Int. 9,80

    Credicard Intern. 9,04 Ourocard Intern. 8,50 Federal Card Gold 9,50

    Diners 10,70 BFB Gold 9,90 HSBC Open Card 10,50

    Bradesco Nac. 10,32 BFB Intern. 9,90 HSBC Gold 5,90

    Bradesco Intern. 10,22 Sudameris Classic 10,20

    Bradesco Gold 9,53 Sudameris Gold 10,20

    a) Qual a taxa mdia cobrada no mercado?

    b) Qual a taxa mediana?

    c) Qual o valor do desvio-padro das taxas? O comportamento das taxas homogneo?

    d) Existe algum carto que possa ser considerado um outlier, supon-do uma variao de 2 desvios da mdia?

    9. A idade mdia dos candidatos a um determinado curso de aperfeio-amento sempre foi baixa, na ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma cam-panha de divulgao. Para verificar se a campanha foi ou no eficiente, fez-se um levantamento da idade dos candidatos ltima promoo, e os resultados esto apresentados na tabela abaixo:

    Idade Nmero de candidatos

    18 20 18

    20 22 12

    22 26 10

    26 30 8

    30 36 2

    Baseando-se nesses resultados, voc diria que a campanha produziu algum efeito (isto , a idade mdia aumentou)?

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 50

    Anlise de dados

    10. Os salrios dos empregados da empresa A so 20% maiores que os da empresa B, para todos os empregados comparados individualmente. Com base nessa informao, podemos afirmar que:

    a) O desvio-padro dos empregados o mesmo para ambas as empresas.

    b) O desvio-padro dos salrios dos empregados da empresa A 20% maior do que o dos salrios da empresa B.

    c) O desvio-padro dos salrios dos empregados da empresa A igual ao desvio-padro dos salrios dos empregados da empresa B, multiplicado pelo quadrado de 1,20 .

    d) No h elementos para se comparar o desvio-padro dos salrios dessas empresas.

    Gabarito1.

    a) Qualitativa nominal.

    b) Quantitativa contnua.

    c) Quantitativa contnua.

    d) Quantitativa discreta.

    e) Qualitativa nominal.

    f) Quantitativa contnua.

    2. b, c, a, e, d.

    3.

    a) Varivel quantitativa discreta, pois o nmero de faltas dado por um valor inteiro.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    51

    b)

    5

    10

    15

    20

    25

    30

    Mem

    bros

    Diagrama de Bastes

    Faltas

    00 1 2 3 4

    c)

    Distribuio de frequncias

    Nmero de faltas Nmero de membros (f)

    0 28

    1 12

    2 5

    3 2

    4 1

    Total 48

    d) No mximo duas reunies o mesmo que duas ou menos reunies, logo ser a soma das frequncias de 0 + 1 + 2 dividido pelo total de casos.

    Proporo de no mximo 2 reunies = 28 + 12 + 548

    = 0,9375 ou 93,75%

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 52

    Anlise de dados

    e)

    Distribuio das frequncias relativas

    Nmero de faltas Frequncia relativa (fr)

    0 0,583

    1 0,250

    2 0,104

    3 0,042

    4 0,021

    Total 1

    4.

    a) A amplitude entre a 2. e a 4. classes varia entre 5 (limite inferior da 2. classe) e 20 (limite superior da 4. classe), logo a Amplitude = 20 5 = 15.

    b) O salrio mdio da 4. classe dado pela mdia entre 15 e 20, por-tanto, o valor 17,5.

    c) A frequncia acumulada da 3. classe ser: 52 + 38 +1 7 = 107.

    d) O nmero de funcionrios que recebem entre 5 e 15 salrios mni-mos ser dado pela soma dos que ganham entre 5 e 10 mais os que recebem entre 10 e 15 s.m., portanto, 38 + 17 = 55 funcionrios.

    e) Pelo menos 10 s.m. o mesmo que no mnimo 10 s.m. Sendo as-sim, ser a soma das frequncias das classes a partir de 10 s.m. O resultado ser 17 + 8 + 5 = 30. Outra forma de clculo seria subtrair do total os que ganham menos de 10 s.m., ou seja, 120 90 = 30.

    5.

    a) Este um caso de mdia ponderada, sendo assim a frmula para a resoluo :

    =

    XfX

    f = + + + + +(192).1 (220).7 (240).11 (255).6 (262).2 (280).1

    28

    = 6.70628

    239,50=X .

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    53

    b) Para obter o preo mediano do produto, necessrio verificar a posio da mediana, ou seja:

    ( 1)2+=Med

    nP , logo a

    (28 1)14,5

    2+= =MedP , ento a mediana ser

    a mdia entre os valores ordenados correspondentes s posi-es 14 e 15.

    Verificando na distribuio, temos os valores; XPos14 = 240,00 e XPos15 = 240,00. Portanto, como a mdia entre os valores ser de 240,00, a mediana ser 240,00.

    6.

    a) Calcula-se o ponto mdio das classes e obtm-se o resultado da mdia por meio da expresso:

    12 48062, 4

    200= = =

    XfX

    f

    Vendas (X) Freq (f) X.f

    25 2 50

    35 10 350

    45 18 810

    55 50 2 750

    65 70 4 550

    75 30 2 250

    85 18 1 530

    95 2 190

    TOTAL 200 12 480

    Ou, de outra forma, utilizando a frequncia relativa:

    = = + + + = 25.(0,01) 35.(0,05) ... 95.(0,01) 62, 4X XrelX .f

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 54

    Anlise de dados

    Vendas (X) Freq (f) X.f F relativa X. Freq rel

    25 2 50 0,01 0,25

    35 10 350 0,05 1,75

    45 18 810 0,09 4,05

    55 50 2 750 0,25 13,75

    65 70 4 550 0,35 22,75

    75 30 2 250 0,15 11,25

    85 18 1 530 0,09 7,65

    95 2 190 0,01 0,95

    TOTAL 200 12 480 1 62,4

    b) Como o desvio-padro a raiz quadrada da varincia, ento pode-mos calcular a varincia atravs da expresso:

    S2 =

    n 1

    x2 . f (x . f )2

    n, em que precisamos obter os valores

    de x2 . f

    X2 X2.f

    625 1 250

    1 225 12 250

    2 025 36 450

    3 025 151 250

    4 225 295 750

    5 625 168 750

    7 225 130 050

    9 025 18 050

    813 800

    Logo, temos que a varincia ser:

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    55

    S2 =

    199

    813 800 (12 480)2

    200 = 176,12 e dessa forma o resultado do

    desvio-padro ser obtido por meio de:

    176,12 13,27= =S

    O coeficiente de variao ser determinado por:

    .100%= SCV

    X, onde

    13,27.100% 21,3%

    62, 4= =CV

    7.

    a) X = xf30f

    = (31,5).1 + (32,5) 5 + (33,5).11 + (34,5).8 + (35,5).3 + (36,5).2 =

    30

    1018= X = 33,93.

    b) ( 1) (30 1)2 2+ += =Med

    nP = 15,5, logo, a mediana ser a mdia entre os

    valores de X na posio 15 e na posio 16. O resultado da mediana

    ser dado por += =33,5 33,5Md 33,52

    .

    c) A moda representada pelo valor de maior frequncia, e nesse caso a Mo = 33,5.

    d) A varincia ser expressa por: S2 =n 1

    X2 . f (X . f )2

    n , em que

    obtemos os valores dos somatrios na tabela:

    Xi i Xi.fi X2 X2.fi

    31,5 1 31,5 992,25 992,25

    32,5 5 162,5 1 056,25 5 281,25

    33,5 11 368,5 1 122,25 12 344,75

    34,5 8 276,0 1 190,25 9 522,00

    35,5 3 106,5 1 260,25 3 780,75

    36,5 2 73,0 1 332,25 2 664,50

    1 018,00 34 585,50

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 56

    Anlise de dados

    Logo:

    S2 =29

    34 585,5 (1 018)2

    30 = 1,43

    8.

    a) x =1

    n

    n

    i = 1xi , em que

    x =

    1

    19(10,95 + 9,20 + 9,04 + ... + 10,50 + 5,90) =

    187,96

    19= 9,89.

    b) Aps a ordenao dos valores, encontramos a posio da mediana

    dada por ( 1) (19 1)2 2+ += =Med

    nP = 10, em que o valor de X na posio

    10 corresponde a uma mediana igual a 9,9.

    c) O desvio-padro ser obtido pela raiz quadrada da varincia, logo, a varincia :

    S2 =

    n 1

    X2 (X)2

    n e obtendo os somatrios atravs da

    tabela a seguir:

    Taxas (X) X2

    10,95 119,9025

    9,2 84,64

    9,04 81,7216

    10,7 114,49

    10,32 106,5024

    10,22 104,4484

    9,53 90,8209

    11,9 141,61

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Anlise de dados

    57

    Taxas (X) X2

    11,9 141,61

    8,5 72,25

    9,9 98,01

    9,9 98,01

    10,2 104,04

    10,2 104,04

    9,8 96,04

    9,8 96,04

    9,5 90,25

    10,5 110,25

    5,9 34,81

    187,96 1 889,486

    Temos: S2 =18

    1 889,49 (187,96)2

    19 = 1,67, logo o desvio-padro

    ser dado pela 1,67 1,29= .

    Para verificarmos se o grupo de dados homogneo, calcula-mos o coeficiente de variao (CV). Normalmente, grupos com disperso relativa at 30% so considerados homogneos. O

    clculo do coeficiente de variao dado por: .100%= SCVX

    1,29 .100% 13,07%9,89

    = =CV

    Logo, as taxas cobradas no mercado so homogneas.

    d) Ser considerado um carto outlier aquele em que a taxa cobrada do rotativo exceda os limites de X 2S, ou seja, 9,89 2.(1,29). Sendo assim, os limites estaro entre 7,31 e 12,47. Dessa forma, o nico valor fora desse intervalo corresponde a 5,90 do carto HSBC Gold.

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 58

    Anlise de dados

    9. Utiliza-se o ponto mdio das classes como valor de X na classe (obser-ve que as classes tm amplitudes diferentes) e atravs da expresso

    X =Xff

    obtm-se a mdia das idades. Ento,

    X =

    19.(18) + 21.(12) + 24.(10) + 28.(8) + 33.(2)

    50= 22,48

    Logo, a campanha no surtiu efeito, pois a idade mdia permanece em torno de 22 anos.

    10. B

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Probabilidades e distribuies de probabilidades

    ProblemaA Companhia de Seguros ABC deseja acionar uma empresa de nibus

    para indenizar a viva de um cliente, que foi morto em um acidente com um dos nibus da empresa. Deseja, para isso, construir peas de evidncias que demonstrem impercia do motorista e, portanto, culpabilidade da empresa. Entre as peas de evidncias, a Companhia ABC pretende demonstrar que a chance de quatro testemunhas que depuseram a favor do motorista mora-rem em casas do mesmo quarteiro dele e estarem no nibus no evento do acidente muito pequena.

    O acidente ocorreu no meio da tarde de um dia de semana. Um casal de pessoas idosas desceu do nibus em um determinado ponto do itinerrio e o homem foi atropelado pelo prprio nibus. A viva garantiu que o nibus arrancou antes que o seu esposo tivesse alcanado a calada.

    O motorista alegou que esse fato no ocorreu e apresentou em sua defesa o depoimento de quatro testemunhas que teriam acompanhado o acidente por estarem no nibus naquele momento.

    O advogado da companhia de seguros tinha ouvido falar que as empre-sas de transporte coletivo s contratavam motoristas se os mesmos apresen-tassem juntamente com os documentos pessoais uma relao de pessoas que deporiam a seu favor em caso de acidentes, uma vez que as empresas estavam tendo um prejuzo muito grande com causas judiciais.

    Diante das circunstncias, o advogado levantou o endereo das testemu-nhas e do motorista e constatou que todos moravam em um mesmo quar-teiro do bairro para o qual o nibus se dirigia.

    Como ento determinar a probabilidade de as testemunhas de fato no serem forjadas? O advogado procurou um consultor estatstico e solicitou a ele que determinasse essa probabilidade, mesmo que fosse de forma aproximada.

    61Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 62

    Probabilidades e distribuies de probabilidades

    Depois de alguma reflexo, o estatstico pensou que poderia aproximar essa situao atravs de um procedimento clssico em Estatstica: o de tirar bolas coloridas de uma caixa. O experimento aleatrio consiste em misturar em uma caixa bolas de duas cores. Por exemplo, colocar seis bolas azuis em uma caixa com 20 bolas brancas, misturar bem e retirar dessa caixa, sem olhar, uma amostra de quatro bolas. Calcular ento a probabilidade que duas dessas quatro bolas sejam azuis.

    Essa probabilidade pode ser calculada da seguinte forma: de quantas ma-neiras pode-se retirar quatro bolas sem reposio de um total de 26? Esse nmero igual a C26,4. Dentre todas essas combinaes, de quantas manei-ras pode-se retirar duas bolas brancas das 20 contidas na caixa? Da mesma forma, C20,2. E as outras duas azuis de seis? C6,2. Ento, a probabilidade de se retirar duas bolas azuis na situao exposta dada por:

    P (X = 2) =C6,2C20,2

    C26,4

    O clculo dessa probabilidade resulta em P(X = 2) = 190 . 15

    14 950 = 0,1906,

    ento a probabilidade de se retirar duas bolas azuis em uma amostra sem reposio de uma caixa com 26 bolas, sendo 20 brancas e 6 azuis, de 0,19 ou 19%.

    Se o bairro em que mora o motorista e suas testemunhas for a caixa que contm um nmero N de moradores, o nmero de habitantes do quarteiro for N1, correspondentes ao nmero de bolas azuis na caixa e a lotao do nibus for a amostra n, qual a probabilidade que dessa amostra n, n1 sejam de moradores do quarteiro?

    A expresso geral para o clculo dessa probabilidade :

    P (X = n1) =CN1,n1C(N N1), (n n1)

    CN,n

    Resta, ento, verificar os valores de N, N1, n e n1. Depois de um trabalho intenso de levantamento de dados, o estatstico chegou s seguintes informa-es. O bairro composto por 112 quarteires, os quarteires tm em mdia 20 casas e cada casa uma mdia de quatro moradores, portanto, o nmero de habitantes do bairro era de N = 8 960. No quarteiro em que moravam o mo-torista e suas testemunhas havia 20 casas com tambm quatro moradores em cada casa, um total de N1 = 80 moradores no quarteiro. A lotao do nibus

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • Probabilidades e distribuies de probabilidades

    63

    de 30 lugares sentados, ou seja, n = 30, e queremos calcular a probabilidade de que cinco moradores do mesmo quarteiro (o motorista e as quatro teste-munhas) estivessem juntos no nibus, isto , P(X = n1) = P(X = 5).

    O clculo dessa probabilidade ento:

    P (X = 5) =C80,5C8880,35

    C8960,40= 0,00002

    Ou seja, uma chance em 50 000. De fato, muito pequena.

    Na avaliao feita, todos os benefcios de aproximao foram feitos a favor do motorista. O nibus tinha lotao completa, quando se pode verificar que nesse horrio da tarde ela nunca est completa. O nmero de pessoas que o nibus servia era maior do que somente o seu bairro terminal. O nmero de pessoas por residncia em bairros da periferia normalmente maior do que a mdia de um casal com dois filhos. Todos esses fatores foram colocados a favor do motorista. E ademais, h que se supor que todos os quatro passa-geiros estivessem prestando ateno ao acidente.

    Esse um problema tpico de modelagem com probabilidades. H muitos outros tipos de exemplo. Mas, talvez mais importante do que a aplicao direta de probabilidades na soluo de problemas seja a sua grande utilidade como instrumento para se trabalhar com inferncia estatstica e com as tcnicas de tomada de decises aplicadas nos ltimos trs captulos do livro.

    Conceitos fundamentaisA teoria de probabilidades foi desenvolvida para solucionar jogos de azar

    durante o sculo XVII, mas somente no incio do sculo XX, graas ao mate-mtico russo A. Komolgorov, que formulou toda a teoria a partir de axiomas bsicos, a teoria de probabilidades ganhou status prprio como um ramo autnomo da matemtica. Existem vrias propostas de como medir a incer-teza. Entre elas, a mais desenvolvida a da teoria de probabilidades. Mesmo assim, h diferentes escolas que propem diferentes meios de acessar valores de probabilidades. H, portanto, alguma controvrsia sobre os fundamentos da teoria. Discutiremos trs enfoques conceituais diferentes, mas que, inde-pendentemente das diferentes definies, usam as mesmas regras matem-ticas como medidas objetivas de incerteza. Os trs enfoques so o da proba-bilidade clssica, o da frequncia relativa de ocorrncias e o da probabilidade

    Este material parte integrante do acervo do IESDE BRASIL S.A., mais informaes www.iesde.com.br

  • 64

    Probabilidades e distribuies de probabilidades

    subjetiva, que apesar do nome trata a probabilidade como uma medida ob-jetiva, embora a forma de sua determinao seja subjetiva. Aqui a palavra objetiva significa uma medida exata que se submete ao corpo axiomtico da teoria de Komolgorov.

    Esses trs enfoques foram apresentados porque sero usados indistinta-mente na soluo dos problemas colocados no livro. As diferenas possveis decorrentes da diferena de enfoques sero discutidas toda vez que pude-rem causar algum tipo de dvida ou desconforto.

    Iniciaremos com a apresentao de uma srie de definies bsicas que ajudaro na construo de toda a teoria de probabilidades necessria para a soluo dos problemas apresentados nos demais captulos.

    Experimento aleatrioExperimento aleatrio um experimento no qual sabe-se que resultados

    podem ocorrer, mas no se sabe de antemo que resultado ocorrer. Pode-se, no entanto, determinar a probabilidade associada a cada resultado. Por exem-plo, no lance de um dado honesto sabe-se que os resultados possveis so 1, 2, 3, 4, 5 ou 6 na face superior, cada resultado com probabilidade 1/6.

    Como determinar a probabilidade de sair um nmero par? Pela teoria clssica de probabilidades verificamos que h seis resultados possveis. A pro-babilidade de sair um nmero par determinada pela razo entre o nmero de casos favorveis e o nmero de casos possveis, ou seja, 3 casos favorveis sobre 6 casos possveis, ento essa probabilidade de 3/6 ou .

    Do ponto de vista frequentista, essa probabilidade pode ser calculada com o lance de um dado 1 000 vezes, verificando-se quantas vezes saiu um nmero par e dividindo-se esse valor por 1 000.

    Tambm se pode determinar intuitivamente, atravs de probabilidade subjetiva, que o resultado sair um nmero par no lance de um dado equi-valente a sair cara no lance de uma moeda, e que, portanto, pela experincia do tomador de decises,