55
Universidade Federal de Mato Grosso Notas de Aula - Disciplina: Estatística I Prof. Neuber/Eveliny - 2015 - Curso: Estatística Sumário 1 Introdução 3 1.1 Fases do Trabalho Estatístico ......................................... 3 1.2 Ramificações da Estatística .......................................... 4 2 Estatística Descritiva 4 2.1 Classificação de variáveis ........................................... 4 2.1.1 Exercícios ............................................... 5 2.2 Tipos de séries estatísticas .......................................... 6 2.2.1 Exercícios ............................................... 7 2.3 Análise de Variáveis Qualitativas ....................................... 8 2.3.1 Distribuição de Frequências ..................................... 8 2.3.2 Representação Gráfica ........................................ 9 2.3.3 Exercícios ............................................... 12 2.4 Análise de Variáveis Quantitativas ...................................... 13 2.4.1 Distribuição de Frequências - Variável Quantitativa Discreta..................... 14 2.4.2 Representação Gráfica - Variável Quantitativa Discreta ....................... 15 2.4.3 Distribuição de Frequências - Variável Quantitativa Contínua. ................... 16 2.4.4 Representação Gráfica - Variável Contínua ............................. 18 2.4.5 Exercícios ............................................... 21 3 Somatório 21 4 Medidas de Posição ou Tendência Central 22 4.1 Média ..................................................... 22 4.1.1 Propriedades da média ........................................ 24 4.1.2 Exercícios: .............................................. 25 4.2 Mediana (Md) ................................................. 26 4.3 Moda (Mo) .................................................. 28 4.4 Comparação entre Média, Mediana e Moda ................................. 29 4.5 Simetria .................................................... 30 4.6 Exercícios ................................................... 30 5 Separatrizes 30 5.1 Quartis ..................................................... 31 5.2 Decis e Percentis ............................................... 32 5.3 Exercícios ................................................... 32 6 Medidas de Dispersão 33 6.1 Amplitude Total ............................................... 33 6.2 Distância Interquartílica ou Amplitude Interquartílica ............................ 33 6.3 Variância ................................................... 33 6.4 Coeficiente de Variação ............................................ 35 6.5 Exercícios ................................................... 36 7 Assimetria e Curtose 38 7.1 Assimetria ................................................... 38 7.2 Curtose .................................................... 40 8 Box Plot ou Desenho Esquemático 41 9 Tabelas Bidimensionais e Medidas de Associação 43 9.1 Medidas de Associação ............................................ 44 9.2 Exercícios ................................................... 45 1

Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Embed Size (px)

Citation preview

Page 1: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Sumário1 Introdução 3

1.1 Fases do Trabalho Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Ramificações da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Estatística Descritiva 42.1 Classificação de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Tipos de séries estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.1 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Análise de Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3.1 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3.2 Representação Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Análise de Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4.1 Distribuição de Frequências - Variável Quantitativa Discreta. . . . . . . . . . . . . . . . . . . . . 142.4.2 Representação Gráfica - Variável Quantitativa Discreta . . . . . . . . . . . . . . . . . . . . . . . 152.4.3 Distribuição de Frequências - Variável Quantitativa Contínua. . . . . . . . . . . . . . . . . . . . 162.4.4 Representação Gráfica - Variável Contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Somatório 21

4 Medidas de Posição ou Tendência Central 224.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.1.1 Propriedades da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.1.2 Exercícios: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2 Mediana (Md) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.3 Moda (Mo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.4 Comparação entre Média, Mediana e Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.5 Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5 Separatrizes 305.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6 Medidas de Dispersão 336.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336.2 Distância Interquartílica ou Amplitude Interquartílica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336.4 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

7 Assimetria e Curtose 387.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

8 Box Plot ou Desenho Esquemático 41

9 Tabelas Bidimensionais e Medidas de Associação 439.1 Medidas de Associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1

Page 2: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

10 Correlação e Regressão Linear Simples 4710.1 Análise de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

10.1.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4710.1.2 Coeficiente de Correlação Linear de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

10.2 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5110.2.1 Coeficiente de Determinação - R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

10.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2

Page 3: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

1 IntroduçãoA Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do conhecimento humano. Entre-

tanto, um equívoco comum que deparamos nos dias atuais é que, em função da facilidade que o advento dos computadoresnos proporciona, permitindo desenvolver cálculos avançados e aplicações de processos sofisticados com razoável eficiên-cia e rapidez, muitos pesquisadores consideram-se aptos a fazerem análises e inferências estatísticas sem um conhecimentomais aprofundado dos conceitos e teorias. Tal prática, em geral, culmina em interpretações equivocadas e muitas vezeserrôneas.

No desenvolvimento científico e em nosso próprio dia-a-dia, estamos sempre fazendo observações de fenômenos,gerando dados. Quando as pessoas ouvem a palavra “estatística”, imaginam logo taxas de acidente, índices de mortali-dade, litros por quilômetro etc. Os agrônomos estão frequentemente analisando o efeito de agrotóxicos na agricultura,os engenheiros analisam dados de propriedades de materiais e todos nós, ao lermos jornais e revistas, estamos vendoresultados estatísticos provenientes do censo demográfico, de pesquisas eleitorais etc.

Entende-se a Estatística como um conjunto de técnicas que permite, de forma sistemática, organizar, descre-ver, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.Denomina-se por dados um (ou mais) conjunto de valores, numéricos ou não.

As variáveis são o foco principal da pesquisa em ciências. Uma variável é simplesmente algo que pode variar,isto é, pode assumir valores ou categorias diferentes. Alguns exemplos de variáveis são gênero (sexo), velocidade dedigitação, número de sintomas registrados de uma doença, nível de ansiedade, número de gols em uma partida de futebol,cores favoritas etc. Estes são exemplos de itens que se pode medir e registrar e que variam de uma situação ou pessoa paraoutra.

As análises estatísticas dependem da forma como os dados são coletados e o planejamento estatístico da pesquisaindica o esquema sob o qual os dados serão obtidos. Portanto, o planejamento da pesquisa e a análise estatística dosdados estão intimamente ligados. Dessa forma, o pesquisador deve possuir um razoável conhecimento de estatística paradesenvolver suas pesquisas ou, então, consultar um estatístico para auxiliá-lo. Esta consulta deve ser feita antes do inícioda pesquisa, ainda durante a fase de elaboração do projeto. 1

1.1 Fases do Trabalho EstatísticoO Trabalho Estatístico pode ser descrito pelas etapas a seguir:

• Definição do problema - Consiste na:

– formulação correta do problema;

– examinar outros levantamentos realizados no mesmo campo (revisão da literatura);

– saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipó-teses, etc.)

• Planejamento -Determinar o procedimento necessário para resolver o problema:

– Como levantar informações;

– Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial).

– Cronograma, Custos, etc.

• Coleta de dados - Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer;

– A coleta pode ser: Direta - diretamente da fonte ou Indireta - feita através de outras fontes.

– Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários).

• Apuração dos dados - Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho decoordenação e de tabulação.

• Apresentação dos dados - É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. Estaapresentação pode ser:

– Tabular (apresentação numérica)

– Gráfica (apresentação geométrica)

• Análise e interpretação dos dados - É a fase mais importante e também a mais delicada. Tirar conclusões queauxiliam o pesquisador a resolver seu problema.

1ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

3

Page 4: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

1.2 Ramificações da Estatística1. Estatística Descritiva

Compreende a organização, o resumo e, em geral, a simplificação de informações que podem ser muito complexas.A finalidade é tornar as coisas mais fáceis de entender, de relatar e de discutir. A média industrial Dow-Jones, ataxa de desemprego, o custo de vida, o índice pluviométrico, tudo isto se enquadra nessa categoria. A estatísticadescritiva vai resumir as informações através do uso de certas medidas-síntese, que tornem possível a interpretaçãode resultados. No sentido mais amplo, suas funções são:

• coleta de dados;

• organização e classificação destes dados;

• apresentação através de gráficos e tabelas;

• cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos.

2. ProbabilidadeÉ útil para analisar situações que envolvem o acaso. Exemplo de situações que enquadram-se na categoria do acaso:Jogos de dados e de cartas ou Lançamento de uma moeda para o ar. A maioria dos jogos esportivos é influenciadapelo acaso até certo ponto.

3. InferênciaDiz respeito a análise e interpretação de dados amostrais. Ou seja, com base numa amostra faz-se inferência paratoda população. Um exemplo do uso da inferência no nosso dia-a-dia é que não precisamos beber toda a sopa parasaber se está ou não salgada. A idéia básica da amostragem é efetuar determinada mensuração sobre uma parcelapequena, mas típica, de determinada “população” e utilizar essa informação para fazer inferência sobre a populaçãotoda.

Firmas comerciais e entidades governamentais recorrem a amostragem por várias razões. O custo é usualmente umfator relevante. Codificar dados e analisar resultados custa dinheiro e, em geral, quanto maior o número de dadoscodificados, maior o custo. A amostragem reduz a quantidade de dados a codificar e analisar, diminuindo assim oscustos. 2

Em estatística utilizaremos extensivamente os termos população e amostra. Assim, definiremos esses termos nocontexto da estatística:

• População (N): conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Congregatodas as observações que sejam relevantes para o estudo de uma ou mais características dos indivíduos. Podem sertanto seres animados ou inanimados;

• Amostra (n): um subconjunto de elementos extraídos de uma população;

• Censo: é uma coleção de dados relativos a todos os elementos de uma população;

• Estatística: é a medida numérica que descreve uma característica da amostra;

• Parâmetro: é a medida numérica que descreve uma característica da população;

2 Estatística DescritivaOs métodos estatísticos envolvem a análise e a interpretação de números, tais como renda anual, vendas men-

sais, escores de testes, no de peças defeituosas etc. Tais números são designados por dados. Para interpretar os dadoscorretamente, em geral é preciso primeiro organizar e sumarizar os números. 3

2.1 Classificação de variáveisOs dados estatísticos se obtêm mediante um processo que envolve a observação ou outra mensuração de itens tais

como renda anual numa comunidade, escores de testes, quantidade de café por xícara servida por uma máquina automáticaetc. Tais itens chamam-se variáveis, porque originam valores que tendem a exibir certo grau de variabilidade quando sefazem mensurações sucessivas.

2TRIOLA, Mário. Introdução à Estatística. 7aed. Editora LTC. 19993BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.

4

Page 5: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de interesse, pois aadequação da técnica está diretamente relacionada ao tipo de variável em questão.

De acordo com a estrutura numérica as variáveis podem ser classificadas em:

• Qualitativas - se os resultados das observações serão expressos por meio de categorias, que se distinguem poralguma característica não-numérica. Ex: Sexo, Nível de escolaridade, Cor da pele, Estado civil, Tipo sanguíneo.

• Quantitativas - se os resultados das observações serão expressos sempre por meio de números, que representamcontagens ou medidas. Ex: Idade, Altura, Peso, Número de nascidos vivos.

As variáveis qualitativas podem ser classificadas, por sua vez, em:

1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dados não podemser dispostos segundo um esquema ordenado. Ex: Estado civil (casado, solteiro, viúvo etc.).

2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os valores dos dadosnão podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade (fundamental, médio, superior etc.).

Em relação às variáveis quantitativas, estas podem ser classificadas em:

1. Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: Número de alunospresentes às aulas de determinado professor; número de mortos em um surto de determinada doença. Geralmente,seus valores são resultados de um processo de contagem, razão pela qual seus valores são expressos através denúmeros inteiros não-negativos.

2. Contínua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais. Ex: Estaturae peso dos alunos do curso de estatística; temperatura máxima diária de Cuiabá. Pode-se dizer que a variávelcontínua resulta normalmente de mensurações.

2.1.1 Exercícios

1. O que você entende por Estatística?

2. Quais as ramificações da Estatística? Defina e explique as funções de cada uma.

3. Por que motivo devemos saber como classificar as variáveis a serem estudadas?

4. De acordo com a estrutura numérica como podem ser classificadas as variáveis? Explique cada uma.

5. Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quantitativa(discreta ou contínua). Classifique as variáveis nos exemplos que se seguem:a) população: moradores de certa cidadevariável: cor dos olhos (pretos, castanhos, azuis, verdes)b) população: casais residentes em certa cidadevariável 1: número de filhosvariável 2: classe econômicac) população: candidatos ao vestibularvariável 1: renda familiarvariável 2: sexo (masculino, feminino)variável 3: número de pessoas na famíliad) população: sabonetes de certa marcavariável: peso líquidoe) população: aparelhos produzidos por uma linha de montagemvariável: número de defeitos por unidadef) No de inscrições no seguro social;g) No de passageiros no ônibus da linha Rio - SP;h) Escolaridade;i) Peso médio dos recém - nascidos;j) Cada cigarro Camel tem 16,13 mg de alcatrão;

5

Page 6: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

2.2 Tipos de séries estatísticasSérie estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno, segundo suas caracte-

rísticas qualitativas ou quantitativas. As séries estatísticas serão classificadas de acordo com a variação de três elementos:tempo, local e o fenômeno. 4 São elas:

• Série Histórica - É aquela em que o elemento que serve como base de classificação é a fração do tempo, como odia, o mês, o ano, o século, etc. Ex: Valores do PIB no Brasil no período de 1982 a 1986. cidade de Salvador-Ba.

– Elemento variável: Época

– Elementos Fixos: Local e Fenômeno

Tabela 1: Valores do PIB no Brasil no período de 1982 a 1986.Anos PIB1982 779,941983 760,201984 803,531985 869,901986 941,26

Fonte: Morettin; Bussab-Estatística Básica.

• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator geográfico). Ex: Casos dedengue nos municípios de Sinop, Rondonópolis e Cuiabá no ano de 2002.

– Elemento variável: Local

– Elementos Fixos: Época e Fenômeno

Tabela 2: Casos de dengue nos municípios de Sinop, Rondonópolis e Cuiabá no ano de 2002.Municípios No de casos

Cuiabá 32Rondonópolis 15

Sinop 9Fonte: Dados fictícios.

• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fenômeno (ou espécie), perma-necendo fixos a época e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classificados segundo otipo sanguíneo.

– Elemento variável: Fenômeno

– Elementos Fixos: Local e Época

Tabela 3: Classificação de alunos de uma Faculdade, em determinado ano, segundo o tipo sanguíneo.Tipo Sanguíneo Número de alunos

A 96B 149

AB 132O 92

Fonte: Dados fictícios.

• Série Mista - refere-se às séries que são combinações de outros tipos de séries já estudadas.

Alguns exemplos de séries mistas serão apresentadas a seguir:

1. Série Geográfica - Temporal:

4CRESPO, A.A.; Estatística Fácil. Editora: Saraiva.

6

Page 7: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 4: Taxa de atividade feminina urbana (em percentual) em três regiões do Brasil. 1981/90.Região Ano

1981 1984 1986 1990Norte 28,9 30,3 34,0 37,1

Nordeste 30,2 32,6 34,3 37,8Sudeste 34,9 37,2 40,1 40,7

Fonte: Anuário Estatístico do Brasil - 1990

2. Série Geográfica - Específica:

Tabela 5: Consumo em kg, de alguns tipos de alimentos “per capita” anual em algumas regiões metropolitanas do Brasil- 1988.

Cidades AlimentoHortaliças Carne Pescado

Belo Horizonte 44,5 21,6 1,3Rio Janeiro 54,3 24,7 4,9São Paulo 46,7 26,1 2,9

Fonte: Anuário Estatístico do Brasil - 1988

3. Há também outros tipos de séries, como por exemplo a série temporal - específica e uma combinação das três sériesanteriormente citadas (histórico - geográfica - específica).

2.2.1 Exercícios

1. A séria Estatística é chamada de Histórica ou Temporal quando:a) O elemento variável é o tempo. b) O elemento variável é o local. c) Não tem elemento variável.

2. Abaixo encontramos algumas tabelas. Calcule a porcentagem, faça um breve comentário sobre os resultados e digaque tipo de série estatística cada tabela pertence:

Tabela 6: Matriculas no ensino superior segundo áreas de ensino - Brasil - 1975.Áreas de ensino Matriculas %

Ciências Biológicas 32.109Ciências Exatas e Tecnologicas 65.949

Ciências Agrárias 2.419Ciências Humanas 148.842

Letras 9.883Artes 7.464

Duas ou mais áreas 16.323Total

Fonte: Serviço de estatística da educação e da cultura.

Tabela 7: Áreas dos oceanos (em milhões de km2).Oceano Área %

Antártico 33,8Ártico 23,2

Atlântico 199,4Índico 137,2

Pacífico 342,7Total

Fonte: Dados fictícios.

7

Page 8: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 8: Faturamento da companhia Beta 1990 - 1997.Ano Vendas (em US$ 1.000,00) %1990 2.1811991 3.9481992 5.6421993 7.5501994 10.0091995 11.7281996 18.8731997 29.076Total

Fonte: Departamento de Marketing da Companhia.

2.3 Análise de Variáveis QualitativasQuando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável,

analisando a ocorrência de suas possíveis realizações. Nesta seção veremos uma maneira de dispor um conjunto derealizações, para se ter uma idéia global sobre elas, ou seja, de sua distribuição. Para dados qualitativos a enumeração etabulação é a forma mais simples de representá-los.

2.3.1 Distribuição de Frequências

Uma distribuição de frequência é a forma de representação tabular de dados que mostra a frequência (ou o número)de observações em cada uma das diversas classes não sobrepostas.

Alguns aspectos importantes devem ser levados em consideração na construção de uma tabela: 5

1. Toda tabela deve ter um título completo, contendo quatro questões: o que está sendo estudado?, como e onde foifeito o estudo? em que período (época) este estudo foi realizado? O título deve ser colocado na parte superior databela.

2. Se a fonte de dados não é do próprio autor, ela deve ser indicada abaixo da tabela.

3. As notas e chamadas são utilizadas para fazer esclarecimentos de ordem geral e específica, respectivamente. Ambassão numeradas (ou símbolos como o asterisco) e colocadas abaixo da tabela.

4. De preferência, usar o mesmo número de casas decimais para os algarismos.

5. As tabelas não devem ser fechadas lateralmente, mas linhas horizontais devem ser colocadas no início e no final.

A seguir será discutido um exemplo, no qual se destaca a forma de representação dos dados qualitativos maiscomuns.

Exemplo: Em uma determinada pesquisa, tem-se interesse em verificar a opinião de estudantes à respeito das salasde cinema da cidade. Uma amostra de 50 estudantes apresentou os seguintes resultados:

Tabela 9: Dados de uma amostra de 50 estudantes.Regular a boa Muito BoaRegular a boa Regular a boaRegular a boa Muito Boa

Muito boa Regular a boa...

...Regular a boa Muito BoaRegular a boa Muito BoaRegular a boa Muito Boa

Fonte: Daniel Furtado - Estatística Básica.

Para desenvolver a distribuição de frequência para estes dados, contamos o número de vezes que cada respostaaparece no conjunto de dados. A resposta “Regular a boa” aparece 32 vezes e a “Muito boa” aparece 18 vezes.

5ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

8

Page 9: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 10: Distribuição de frequências da Opinião dos alunos a respeito das salas de cinema na cidade.Opinião Regular a boa Muito boa

frequência(fi) 32 18frequência relativa (fri) 0,64 0,36

frequência percentual(fri(%)) 64 36Fonte: Tabela 9 - Notas de Aula.

Uma distribuição de frequências mostra o número (frequência) de observações em cada uma das classes não so-brepostas. No entanto, é comum termos interesse na proporção (fri), ou porcentagem (fri(%)), das observações em cadaclasse que serve para fazermos comparações entre diferentes categorias independente do tamanho amostrado em cadauma delas. Para a Tabela 10 temos:

fi : frequência absoluta ou simples da categoria i;

fri : frequência relativa de uma classe: é a proporção das observações que pertencem à classe,fri = fi/n, onde n é o tamanho da amostra;

fri(%) : frequência percentual de uma classe é a frequência relativa multiplicada por 100.

Segundo Barbetta et al. (2004), as frequências relativas em percentual são úteis ao se comparar tabelas ou pesquisasdiferentes. Por exemplo, quando amostras (ou populações) têm números de elementos diferentes, a comparação por meiodas frequências absolutas pode resultar em afirmações errôneas enquanto que pelas freqüências relativas em percentualnão, pois os percentuais totais são os mesmos.

2.3.2 Representação Gráfica

Nesta seção serão apresentados os gráficos mais utilizados para a representação das variáveis qualitativas.Um gráfico de barras é um dispositivo gráfico para retratar os dados qualitativos que foram sintetizados em uma

distribuição de frequência, em uma distribuição de frequência relativa ou em uma distribuição de frequência percentual.Um gráfico de barras têm por finalidade comparar grandezas, por meio de retângulos de igual largura, dispostos horizon-talmente e com alturas proporcionais às grandezas. Devemos deixar uma distância entre os retângulos. Para as variáveisqualitativas ordinais, devemos respeitar a ordem das categorias, como mostrado na figura a seguir.

Figura 1: Opinião de estudantes à respeito das salas de cinema da cidade.

Fonte: Tabela 10 - Notas de Aula.

Para efetuar uma análise comparativa de várias distribuições, podemos construir um gráfico de barras múltiplo. Afigura a seguir é um exemplo de gráfico de barras múltiplo.

9

Page 10: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 2: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões preferenciais.

Fonte: Andrade, D; Ogliari, P. Estatística para Ciências Agrárias e Biológicas.

Quando os retângulos são colocados na posição vertical, temos os gráficos de colunas. A finalidade desse tipo degráfico é a mesma dos gráficos de barras, isto é servem para comparar grandezas.

Figura 3: Opinião de estudantes à respeito das salas de cinema da cidade.

Fonte: Tabela 10 - Notas de Aula.

Gráfico de colunas tridimencional:

10

Page 11: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 4: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões preferenciais.

Fonte: Andrade, D; Ogliari, P. Estatística para Ciências Agrárias e Biológicas.

O gráfico de pizza (ou setores) é um dispositivo gráfico comumente usado para apresentar as distribuições defrequência relativa e de frequência percentual para dados qualitativos.

Figura 5: Opinião de estudantes à respeito das salas de cinema da cidade.

Fonte: Tabela 10 - Notas de Aula.

Para desenhar um gráfico de pizza primeiro desenha-se um círculo e então usam-se as frequências relativas parasubdividir o círculo em setores ou partes, que correspondem à frequência relativa para cada classe. Por exemplo, como ocírculo tem 360 graus e a categoria “Regular a boa” tem uma frequência relativa de 0,64, o setor do gráfico rotulado de“Regular a boa” consiste em 0, 64× 360 = 230, 4 graus.

Gráfico de linhas : Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão,conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no eixo vertical (y) amensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem crescente. Este tipo de gráficopermite representar séries longas, o que auxilia detectar suas flutuações tanto quanto analisar tendências. Também podemser representadas várias séries em um mesmo gráfico.

11

Page 12: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 6: Número de matriculas no curso de engenharia civil da UEM no período de 1999 a 2005.

Fonte: Guedes, T.A; Acorsi, C.R.L; Martins, A.B; Janeiro, V. Projeto de Ensino - UEM.

2.3.3 Exercícios

1. Construa uma tabela para descrever o seguinte gráfico:

Figura 7: Composição do rebanho bovino da fazenda capim branco, Araguari - MG - Brasil, 2005.

Fonte: Daniel Furtado - Estatística Básica.

2. A equipe de nadadores de Cuiabá apresentou-se no Campeonato Brasileiro de Natação de 1987 com 20 nadadoresdo estilo borboleta, 30 de costa, 60 estilo craw e 50 estilo peito. Descreva esses dados em uma tabela. Que tipos degráficos podem melhor representar esses dados. Trace 2 gráficos entre todos possíveis.

3. A seguir estão tipos de rochas:

12

Page 13: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

SIENITO MONZONITO DIORITO Q-DIORITOGABRO NORITO MONZONITO SIENITO

Q-DIORITO GABRO DIORITO NORITOSIENITO Q-DIORITO MONZONITO DIORITODIORITO SIENITO SIENITO GABROGABRO DIORITO MONZONITO DIORITOSIENITO DIORITO Q-DIORITO NORITOGABRO MONZONITO DIORITO DIORITO

DIORITO NORITO DIORITO GABRONORITO Q-DIORITO MONZONITO SIENITO

Fonte: Landim, P.M.P; Análise Estatística de Dados Geológicos. Ed.Unesp.

a) Qual a classificação desses dados? (Qualitativo [O/N] ou Quantitativo [D/C])

b) Resuma esses dados através de uma distribuição de freqüência;

c) Construa um gráfico de setores e um de barras para os dados;

d) Qual tipo de rocha aparece com maior freqüência?

4. Para adequar os produtos às preferências dos clientes, uma empresa fez uma pesquisa sobre os provedores e aqualidade dos serviços prestados utilizando uma amostra de 20 clientes, obtendo as seguintes variáveis:

Tabela 11: Variáveis observadas de 20 clientes de um provedor.Amostra Sexo Qualidade Amostra Sexo Qualidade

1 feminino Boa 11 feminino Ruim2 feminino Boa 12 feminino Ruim3 feminino Boa 13 masculino Boa4 feminino Boa 14 masculino Boa5 feminino Boa 15 masculino Ótimo6 feminino Ótimo 16 masculino Regular7 feminino Ótimo 17 masculino Regular8 feminino Regular 18 masculino Ruim9 feminino Regular 19 masculino Ruim10 feminino Ruim 20 masculino Ruim

Fonte: Notas de Aula - Profo Anderson Souza - UFMT.

a) Classifique as variáveis descritas na tabela;

b) Faça a representação tabular e gráfica adequada para cada variável. Interprete os resultados.

2.4 Análise de Variáveis QuantitativasAssim como nas variáveis qualitativas, a análise das variáveis quantitativas dar-se-á por meio de tabelas e gráficos,

porém, como se trata de variáveis numéricas também é possível estudar o comportamento destas variáveis através dealgumas medidas de resumo (média, mediana etc) que serão apresentadas neste curso na próxima seção.

A análise tabular também é feita com o uso das distribuições de frequências que constituem-se num caso particulardas séries estatísticas, nas quais todos os elementos são fixos. Na distribuição de frequências os dados referentes aofenômeno são apresentados através de gradações, onde é feita a correspondência entre categorias ou valores possíveis eas frequências respectivas. Alguns conceitos importantes serão apresentados através de um exemplo:

Um novo medicamento para cicatrização está sendo testado e um experimento é feito para estudar o tempo (em diascompletos) de completo fechamento em cortes provenientes de uma cirurgia. Uma amostra em trinta cobaias forneceu osvalores:

1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.No exemplo:

13

Page 14: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

17 16 18 17 15 15 16 14 14 16 16 14 17 16 1817 15 14 17 16 17 15 17 18 16 14 18 15 15 18

Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.

Variável de estudo: Tempo (em dias completos) de completo fechamento em cortes provenientes de umacirurgia;

Classificação: A variável “Tempo” sozinha é classificada como contínua, pois pode assumir qualquer valorem um intervalo. Como no exemplo só interessa ao pesquisador coletar dias completos, a variável deixa deser contínua e passa a ser discreta.

Dados Brutos:17 - 16 - 18 - 17 - 15 - 15 - 16 - 14 - 14 - 16 - 16 - 14 - 17 - 16 - 18 - 17 - 15 - 14 - 17 - 16 - 17 - 15 - 17 - 18 -16 - 14 - 18 - 15 - 15 - 18Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, pouca informa-ção se consegue obter inspecionando-se os dados anotados. Mesmo uma informação tão simples como a desaber os valores mínimos e máximo requer um certo exame dos dados coletados.

2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.Ex: Utilizando os mesmos dados anteriores:14 - 14 - 14 - 14 - 14 - 15 - 15 - 15 - 15 - 15 - 15 - 16 - 16 - 16 - 16 - 16 - 16 - 16 - 17 - 17 - 17 - 17 - 17 - 17 - 17 -18 - 18 - 18 - 18 - 18

Apresenta vantagens concretas em relação aos dados brutos. Ele torna possível visualizar, de forma bem ampla, asvariações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas, a análise com este tipo dedisposição começa a se complicar quando o número de observações tende a crescer.

3. Amplitude total (H) - É a diferença entre o maior e o menor valor observado da variável em estudo.Ex: Utilizando os mesmos dados anteriores:H = 18 - 14 = 4.Interpretação: No exemplo, H = 4, representa a diferença entre o tempo de cicatrização mais lento e o mais rápido,ou seja, 4 dias. OBS: A amplitude total também é usada como uma medida de variabilidade dos dados, quantomaior a amplitude maior a variabilidade do conjunto.

4. Frequência absoluta simples (fi) - Já apresentada anteriormente, conta o número de vezes que o elemento aparecena amostra ou o número de elementos pertencentes a uma classe (ou categoria).

5. Frequência Acumulada (Fi) - Índica o número de itens de dados observados até aquele dado valor (ou classe). Afrequência acumulada auxiliará no cálculo da mediana e de separatrizes, medidas de posição (ou tendência central)que serão apresentadas na próxima seção.

Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de frequência. Uma tabela comdistribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suas respectivas frequências, onde afrequência de determinado valor será dado pelo número de observações ou repetições de um valor ou de uma modalidade.As tabelas de frequências podem representar tanto valores individuais como valores agrupados em classes.

2.4.1 Distribuição de Frequências - Variável Quantitativa Discreta.

É uma tabela onde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizada geral-mente para representar uma variável discreta, com pouca variedade de valores.

Exemplo: Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de frequências refe-rente aos tempos de cicatrização (em dias completos) de 30 cobaias.

Tabela 12: Distribuição de frequências referente aos tempos de cicatrização (em dias completos) de 30 cobaias.Tempos(Xi) 14 15 16 17 18 Total(n)

fi 5 6 7 7 5 30

Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.

14

Page 15: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

A soma das frequências absolutas simples (fi) é sempre igual ao número total de valores observados, ou seja, n =∑ki=1 fi, onde k é o número de valores distintos observados. No exemplo acima temos 5 valores diferentes observados,

consequentemente 5 f ′is.OBS: Este tipo de tabela não é aconselhável quando se trabalha com variáveis que apresentam uma grande quan-

tidade de valores distintos (mesmo sendo dados discretos), uma vez que a tabela poderá ficar muito extensa, dificultando,além de sua elaboração, as análises e conclusões dos dados pesquisados.

2.4.2 Representação Gráfica - Variável Quantitativa Discreta

Para a representação da variável discreta são utilizados os gráficos de colunas ou barras e o de setores.

Figura 8: Gráfico de colunas referente aos tempos de cicatrização (em dias completos) de 30 cobaias.

Fonte: Dados da Tabela 12.

Outras formas:

Figura 9: Gráfico de barras referente aos tempos de cicatrização (em dias completos) de 30 cobaias.

Fonte: Dados da Tabela 12.

15

Page 16: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 10: Gráfico de setores referente aos tempos de cicatrização (em dias completos) de 30 cobaias.

Fonte: Dados da Tabela 12.

2.4.3 Distribuição de Frequências - Variável Quantitativa Contínua.

Quando a variável é contínua, como por exemplo: peso, altura, salário, renda etc. é natural que em uma amostraretirada apareça uma grande diversidade de valores. Devido a esta possibilidade, não é recomendado utilizarmos umatabela de distribuição de frequências simples onde apareça diversos valores com frequências muito pequenas e que nãoestá de fato desempenhando a sua verdadeira função que é resumir as informações. Em vez de resumir, uma tabela dedistribuição de frequências simples para uma variável contínua com resultados bem diversos será uma tabela extensa edifícil de interpretar.

Com o objetivo de resumir os dados originais em uma distribuição de frequências, utilizam-se os dados agrupadosou em classes e não mais individual. As classes podem ser definidas como sendo os subintervalos da Amplitude Total deuma variável (grupo de valores). Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar osvalores observados em classes.

Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for muito grande,recomenda-se o agrupamento dos dados em classes. Da mesma forma, se a variável for contínua mas os resultadosobservados se repetem muito, não apresentando uma grande diversidade, também é possível utilizarmos a tabela dedistribuição de frequências simples não agrupados em classes.

A seguir serão apresentadas as diversas situações citadas anteriormente.

(A) Variável Contínua com grande diversidade de valores:Exemplo: Foram feitas medidas em operários da construção civil a respeito da taxa de hemoglobina no sangue (emgramas/ cm3):

16,3 15,2 12,3 13,7 14,1 11,1 12,2 11,7 12,5 13,9 12,3 14,4 13,6 12,7 12,613,5 12,7 12,3 13,5 15,4 11,3 11,7 12,6 13,4 15,2 13,2 13,0 16,9 15,8 14,7

Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.

(B) Variável Contínua com pouca diversidade de valores:Exemplo: Uma turma da 6a série de determinada escola obteve as seguintes notas na disciplina de português:

7,2 6 8,1 7 5 5 6 4 4,9 6 6 4 7,6 6 87 5 4 7 6,9 7 5 7 8 6,9 4 8 5 5 8

Fonte: Dados fictícios.

(C) Variável Discreta com grande diversidade de valores:Exemplo: Quantidade de livros que os professores do departamento de Estatística possuem.

16

Page 17: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 -30 - 32 - 25 -26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31

Fonte: Dados fictícios.

Para as 3 situações citadas em (A), (B) e (C), serão apresentadas as tabulações.

(A) Devido a grande diversidade de valores nas taxas de hemoglobina no sangue medidas em operários da construçãocivil a melhor forma de tabular os dados é agrupando-os em classes. Para construção de tabelas de frequências paradados agrupados em classes os 4 conceitos listados a seguir, complementam os 5 primeiros já apresentados:

1. Definição do número de classes (k) - É importante que a distribuição conte com um número adequado declasses. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderáser extraida desta tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com frequêncianula ou muito pequena, apresentando uma distribuição irregular e prejudicial a interpretação do fenômeno.Para determinar o número de classes há diversos métodos. Milone (2004, p.36) apresenta os seguintes critériospara a determinação do número de intervalos, denotado por k:1. Raiz quadrada: k =

√n;

2. Regra de Sturges: k = 1 + 3, 3 log n;3. Regra de Milone: k = −1 + 2× lnn.Neste curso será adotado o método a seguir:

k = 5, para 20 ≤ n ≤ 25 e k =√n, para n > 25.

Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos critérios deveser o número inteiro mais próximo ao obtido. Milone (2004) acrescenta ainda que, adotando o princípiode que os agrupamentos devem ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para25 ≤ n ≤ 400, o do log para 16 ≤ n ≤ 572, 237 e o do ln para 20 ≤ n ≤ 36, 315.

Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em mente é quea escolha dependerá sobretudo da natureza dos dados e da unidade de medida em que eles se encontram, enão somente de regras muitas vezes arbitrárias e pouco flexíveis. Para facilitar a análise é conveniente que semantenham os intervalos de classe sempre constantes. A experiência do pesquisador também conta muitona definição das classes.No exemplo: k =

√30 ∼= 5, 48 = 5 classes;

2. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao comprimentodesta classe. Numericamente, sua amplitude pode ser definida como a diferença existente entre os limitessuperior (ou inferior) de duas classes consecutivas (h = ls − li).

h =H

k

Ex: Utilizando os mesmos dados anteriores: h = 16,9−11,15 = 5, 8/5 = 1, 16

3. Limites de Classe - Os limites de classe são seus valores extremos. O símbolo ` indica a inclusão dolimite inferior do intervalo naquela classe e símbolo a indica a inclusão do limite superior do intervalo na-quela classe. Neste curso adotaremos o símbolo ` na construção das classes, pois ele é o mais usual. Para aconstrução das classes temos:li1: Limite inferior da 1a classe; Usualmente é o menor valor da amostra. No exemplo: 11,1.ls1: Limite superior da 1a classe; ls1 = li1 + h. No exemplo: 11,1 + 1,16 = 12,26.li2: Limite inferior da 2a classe; li2 = ls1. No exemplo: 12,26.ls2: Limite superior da 2a classe; ls2 = li2 + h. No exemplo: 12,26 + 1,16 = 13,42.Para a n-ésima classe:lin: Limite inferior da na classe; lin = ls(n−1). Ou seja, será igual ao limite superior da classe imediatamenteanterior.lsn: Limite superior da na classe; lsn = lin + h.

4. Pontos Médios ou Centrais da Classe (Pmi) - É a média aritmética simples entre o limite superior e o inferiorde uma mesma classe.Ex: Utilizando os mesmos dados anteriores: Pm1 = (11,1 + 12,26)/2 = 11,68.Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe precedente aamplitude do intervalo de classe. No exemplo anterior: Pm2 = h+ Pm1 = 1, 16 + 11, 68 = 12, 84, e assimsucessivamente.

17

Page 18: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 13: Distribuição de frequências referente as Taxas de hemoglobina no sangue (em gramas/ cm3) de 30 operáriosda construção civil.

Tx Hemoglobina Pmi fi fri fri(%) Fi

11,10 ` 12,26 11,68 5 0,1667 16,67 512,26 ` 13,42 12,84 11 0,3667 36,67 1613,42 ` 14,58 14,00 7 0,2333 23,33 2314,58 ` 15,74 15,16 4 0,1333 13,33 2715,74 ` 16,90 16,32 3 0,1000 10,00 30

Total - 30 1 100 -Fonte: Lima, A.C.P; Magalhães, M.N. Noções de Probabilidade e Estatística. Editora Edusp. 2004.

Para o Exemplo (A):

Na Tabela 26 temos que na 1a classe serão contados na amostra elementos a partir do 11,10 até o 12,25, na 2a classeserão contados os elementos a partir do 12,26 até o 13,41 e assim por diante.

2.4.4 Representação Gráfica - Variável Contínua

A representação gráfica das distribuições de frequências para dados em classes é feita através do histograma e/oupolígono de frequências.

1. Histograma - É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área de cadaretângulo seja proporcional à frequência da classe que ele representa.

2. Polígonos de Frequência - Unindo por linhas retas os pontos médios das bases superiores dos retângulos dohistograma, obtém-se outra representação dos dados, denominada polígono de frequência

Figura 11: Histograma referente as taxas de hemoglobina no sangue de 30 operários da construção civil.Fonte: Dados da Tabela 13.

18

Page 19: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 12: Polígono de frequências referente as taxas de hemoglobina no sangue de 30 operários da construção civil.Fonte: Dados da Tabela 13.

3. Apresentação Ramo-e-Folha - Apresenta a forma e ordem dos dados. Pode ser utilizado na organização dosdados antes de dispor na tabela.

Exemplo: Um dos principais indicadores da poluição do ar nas grandes cidades é a concentração de ozônio naatmosfera. O nível de concentração de ozônio na atmosfera foi medido em São Paulo durante o inverno de 1998, eos resultados são apresentados a seguir:

Tabela 14: Concentração de ozonio na atmosfera em São Paulo, inverno de 1998.6,6 4,4 5,7 4,5 3,7 3,5 1,4 6,6 6,0 4,2 4,4 5,3 5,69,4 7,6 6,2 3,3 5,9 6,8 2,5 5,4 4,4 5,4 4,7 3,5 4,03,8 4,7 3,1 6,8 9,4 2,4 3,0 5,6 4,7 6,5 3,0 4,1 3,43,4 5,8 7,6 1,4 3,7 6,8 1,7 5,3 4,7 7,4 6,0 6,7 10,92,0 3,7 5,7 5,8 3,1 5,5 1,1 5,1 5,6 5,5 1,4 3,9 6,65,8 1,6 2,5 8,1 6,6 6,2 7,5 6,2 6,0 5,8 2,8 6,1 4,1

A apresentação ramo-e-folha é apresentada a seguir:

1 1 4 4 4 6 72 0 4 5 5 83 0 0 1 1 3 4 4 5 5 7 7 7 8 94 0 1 1 2 4 4 4 5 7 7 7 75 1 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 96 0 0 0 1 2 2 2 5 6 6 6 6 7 8 8 87 4 5 6 68 19 4 4

10 9

Exercício: A partir do ramo e folha acima, disponha os dados em uma tabela de frequências.

(B) Agora iremos analisar a situação (B) descrita anteriormente onde a variável de estudo era Notas dos alunos da 6a

série na disciplina de português. Apesar dos valores apresentados serem inteiros, a variável “Nota” pode assumirqualquer valor em um intervalo, por exemplo: 6,5. Como no exercício não foi especificado que o professor adotariaapenas números inteiros, esta variável é classificada como contínua.

PASSO 1 - Calcular a amplitude total (H): H = 8 - 4 = 4; (amplitude pequena)

PASSO 2 - Dispor os dados em uma tabela de distribuição de frequências simples;

PASSO 3 - Representação Gráfica:

(C) Agora iremos analisar a situação (C) descrita anteriormente, variável discreta com grande variedade de valores. Avariável de estudo é Idade (em anos completos) dos alunos da UFMT - 2010, como no exemplo já foi especificado

19

Page 20: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 15: Distribuição de frequências referente as notas dos alunos da 6a série na disciplina de português.Notas(Xi) 4 5 6 7 8 Total(n)

fi 5 6 7 7 5 30fri(%) 16,67 20,00 23,33 23,33 16,67 100

Fonte: Dados fictícios.

Figura 13: Gráfico de setores referente as notas dos alunos da 6a série na disciplina de português.

Fonte: Dados da Tabela 15.

que as idades observadas seriam em anos completos, esta variável só assume valores inteiros, por isso é classificadacomo discreta.

PASSO 1 - Rol das observações:Ex: Utilizando os mesmos dados anteriores:21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 - 33 - 34 -34 - 34 - 35 - 35 - 36

PASSO 2 - Cálculo da amplitude total (H): H = 36 - 21 = 15 anos; (amplitude alta)

PASSO 3 - Dispor os dados em uma distribuição de frequências. Apenas por questão de uma melhor visualização,primeiramente será apresentado a distribuição de frequências simples e posteriormente distribuição em classes.

Tabela 16: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade(Xi) 21 22 23 24 25 26 28 30 31 32 33 34 35 36 TOTAL(n)

fi 3 2 2 1 4 3 1 1 3 1 3 3 2 1 30Fonte: Dados hipotéticos.

Observando a Tabela 16, podemos perceber a grande diversidade de valores e a extensão da tabela. Por conta destatabela não resumir tanto as informações iremos colocar estes dados em classes.

Tabela 17: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade Pmi fi fri fri(%) Fi

21 ` 24 22,5 7 0,23 23 724 ` 27 25,5 8 0,27 27 1527 ` 30 28,5 1 0,03 3 1630 ` 33 31,5 5 0,17 17 2133 ` 36 34,5 9 0,30 30 30TOTAL - 30 1 100 -

Fonte: Dados hipotéticos.

Na Tabela 17 temos que na 1a classe serão contados na amostra elementos a partir do 21 até o 23,99, na 2a classeserão contados os elementos a partir do 24 até o 26,99 e assim por diante.

20

Page 21: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

2.4.5 Exercícios

1. Em um estudo sobre o potencial de germinação de sementes de algodão dividiu-se uma área em 48 parcelas com amesma área, tipo de solo, iluminação, etc. Em cada uma destas parcelas foram plantadas 4 sementes e verificou-seo número de sementes que germinaram. Os dados obtidos são apresentados a seguir:

2 0 0 4 3 0 0 1 0 0 1 1 0 0 0 12 1 1 1 1 1 1 0 0 0 3 0 0 0 0 00 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0

a) Especifique a variável estudada, classificando-a. Justifique a sua resposta.b) Represente tabularmente e graficamente os dados acima.c) Qual a proporção de parcelas em que germinaram no máximo 2 sementes?

2. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados municípios doEstado:

Tabela 18: Milímetros de Chuva

144 152 159 160 160 151 157 146 154 145141 150 142 146 142 141 141 150 143 158

Para os conjuntos de dados da Tabela acima:a) Construir a tabela de freqüências constituída pelas freqüências absolutas simples, as freqüências relativas, asfreqüências acumuladas e os Pontos médios de classes;b) Construir um histograma e um polígono de freqüências;

3 SomatórioNas próximas seções serão vistos alguns coeficientes estatísticos que fazem uso do somatório. Um somatório é um

operador matemático que nos permite representar facilmente somas muito grandes ou até infinitas. É representado com aletra grega sigma Σ, e é definido por:

n∑i=1

xi

em que corresponde a soma dos termos "xi, em que o índice i varia de 1 a n.Regras de somatório:

• Somatório de uma constanteSe k é uma constante, então

n∑i=1

k = k + k + k + ...+ k = nk

• Somatório do produto de uma constante por uma variávelSe k é uma constante e xi uma variável

n∑i=1

kxi = kx1 + kx2 + kx3 + ...+ kxn = k(x1 + x2 + x3 + ...+ xn) = k

n∑i=1

xi

• Somatório de uma soma algébricaO somatório de uma soma de variáveis é igual à soma dos somatórios de cada variável

n∑i=1

(xi + yi) =

n∑i=1

xi +

n∑i=1

yi

Se a e b são constantes e xi uma variável

n∑i=1

(a+ bxi) =

n∑i=1

a+

n∑i=1

bxi = na+ b

n∑i=1

xi

21

Page 22: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Observações:

n∑i=1

xiyi 6=n∑

i=1

xi

n∑i=1

yi

n∑i=1

x2i 6=

(n∑

i=1

xi

)2

Exemplos:Seja X = {4, 7, 9, 12, 3}, obter:

5∑i=1

xi = 35,4∑

i=1

2xi = 64,5∑

i=2

3xi = 93

Sabendo que3∑

i=1

xi = 6,3∑

i=1

x2i = 14, determinar

a)3∑

i=1

(xi + 1) =

3∑i=1

xi +

3∑i=1

1 = 6 + 3 = 9

b)3∑

i=1

(xi − 1)2

=3∑

i=1

(x2i − 2xi + 1

)=

3∑i=1

x2i − 2

3∑i=1

xi +3∑

i=1

1 = 14− 12 + 3 = 5.

4 Medidas de Posição ou Tendência CentralFoi visto até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências. Agora,

vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados relativos à observação de deter-minado fenômeno de forma resumida.

As medidas de tendência central ou posição são assim denominadas por indicarem um ponto em torno do qual seconcentram os dados. Este ponto tende a ser o centro da distribuição dos dados. Vale a pena chamar a atenção que, parao cálculo dessas medidas, é necessário que a variável seja quantitativa. 6

As principais medidas de tendência central são: Média, Mediana e Moda.

4.1 MédiaÉ a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribuição de

frequência (centro de massa de um conjunto dados).Notação:

X é chamada média amostral eµ é a média populacional.Observações:

• A média é afetada por valores extremos;

• A média é bastante utilizada em distribuições simétricas;

• Não utilizável em variáveis categóricas;

• A média pode ser utlizada para variáveis discretas, inclusive com decimais.

(a) Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequência total (o número total de observações). Genericamente, podemos escrever:

X =

n∑i=1

xin

onde n é o tamanho da amostra observada e xi é o valor genérico da observação.

Exemplo: Em uma pesquisa foram coletados os pesos de recém-nascidos (em kg): 2,7; 3,9; 4,1; 4,3; 5,4;

6BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.

22

Page 23: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

A média aritmética será dada por:

X =2, 7 + 3, 9 + 4, 1 + 4, 3 + 5, 4

5= 4, 08

Interpretação: O peso médio dos recém-nascidos observados é de 4,08 quilos.

(b) Média para dados em distribuição de frequências:

Exemplo:

Tabela 19: Idade de pacientes renais (em anos).Idade (xi) 26 28 30 32 37 Total

fi 3 10 12 5 19 49Fonte: Dados fictícios.

A média aritmética será dada por:

X =

∑ki=1 xifin

n =∑k

i=1 fi e k é o número de valores distintos da tabela;

X =

∑5i=1 xifin

X =x1 × f1 + x2 × f2 + x3 × f3 + x4 × f4 + x5 × f5

f1 + f2 + f3 + f4 + f5

X =26× 3 + 28× 10 + 30× 12 + 32× 5 + 37× 19

49

X ∼= 32, 26

Interpretação: A idade média dos pacientes renais observados foi de aproximadamente 32,26 anos.

(c) Média para dados agrupados em classes:

X =

∑ki=1 Pmifi

n

Exemplo:

Tabela 20: Pesos dos alunos do curso de estatística da UFMT, no ano de 2010.Pesos(kg) Frequência (fi) Pmi

59 ` 63 3 6163 ` 67 5 6567 ` 71 9 6971 ` 75 12 7375 ` 79 11 77TOTAL 40 -

Fonte: Dados fictícios.

onde Pmi é o ponto médio da classe “i”; Pmi = li+ls2 ,

li+ ls = limite inferior da classe + limite superior da classe.

• Quando os dados estiverem agrupados em classes a média será calculada da mesma forma apresentada anterior-mente, a única alteração será no xi que para dados agrupados em classes será substituído por Pmi, ou seja, pontomédio da classe “i”.

23

Page 24: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

A média será dada por:

X =

∑ki=1 Pmifi

n

X =61× 3 + 65× 5 + 69× 9 + 73× 12 + 77× 11

3 + 5 + 9 + 12 + 11

X ∼= 71, 3

Interpretação: O peso médio dos alunos do curso de estatística 2010 da UFMT, foi de 71,3 Kg.

OBS: Perde-se um pouco de precisão na média quando estamos trabalhando com dados agrupados em classes.

(d) Média aritmética ponderada:Às vezes, associam-se os números X1, X2, · · · , Xk a certos fatores de ponderação ou pesos w1, w2, · · · , wk, que depen-dem do significado ou importância atribuída aos números. 7 Nesse caso,

X =w1X1 + w2X2 + · · ·+ wkXk

w1 + w2 + · · ·+ wk=

∑i wiXi∑i wi

tem a denominação de média aritmética ponderada.Exemplo: Se o exame final, em um curso, tem peso 3 e as provas correntes peso 1, e um estudante tem grau 85 naqueleexame e 70 e 90 nas provas, seu grau médio é:

X =(1)(70) + (1)(90) + (3)(85)

1 + 1 + 3=

415

5= 83.

4.1.1 Propriedades da média

Dentre as principais propriedades da média podemos destacar as seguintes:

a) multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada poressa constante;Seja X = {x1, x2, x3, · · · , xn} uma amostra aleatória de tamanho n, c uma constante e X a média da amostra.Se multiplicarmos ou dividirmos todos os valores de uma variável X pela constante c, o valor de X MÉDIA ficamultiplicada ou dividida pela constante.

X∗ =

n∑i=1

cxi

n

= c

n∑i=1

xi

n= cX

b) somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescidaou diminuída dessa constante.Seja X = {x1, x2, x3, · · · , xn} uma amostra aleatória de tamanho n, c uma constante e X a média da amostra.Se somarmos ou subtrairmos todos os valores de uma variável X pela constante c, o valor de X MÉDIA fica

7SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.

24

Page 25: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

multiplicada ou dividida pela constante.

X∗ =

n∑i=1

(xi + c)

n

=

n∑i=1

xi +

n∑i=1

c

n

=

n∑i=1

xi

n+

n∑i=1

c

n

= X +nc

n= X + c

4.1.2 Exercícios:

1. Sejam dados referentes a um levantamento onde observou-se o número de peças defeituosas em 25 máquinas deuma empresa.

Tabela 21: Número de peças defeituosas em 25 máquinas de uma empresa3 5 7 1 36 5 5 5 38 5 2 6 24 4 4 3 56 2 2 4 5

Fonte: Dados fictícios.

a) Calcule a média para os dados brutos. Interprete o resultado;

b) Disponha os dados em uma tabela de frequências e calcule a média. Houve diferença nos resultados? Justifi-que.

c) Faça uma representação gráfica adequada para os dados. Analisando o gráfico qual o número de peças defei-tuosas que foi predominante?

2. Utilizando os dados da Tabela a seguir responda:

Tabela 22: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num sistema compartilhado (30observações).

6,94 7,27 7,46 7,97 8,03 8,378,56 8,66 8,88 8,95 9,30 9,339,55 9,76 9,80 9,82 9,98 9,99

10,14 10,19 10,42 10,44 10,66 10,8810,88 11,16 11,80 11,88 12,25 12,34

Fonte: Dados fictícios.

a) Calcule a média para os dados brutos. Interprete o resultado;

b) Disponha os dados em uma tabela de frequências e calcule a média;

c) Faça uma representação gráfica adequada para os dados. Interprete.

25

Page 26: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

4.2 Mediana (Md)É definida como o valor que divide uma série ordenada de tal forma que pelo menos a metade dos itens sejam

iguais ou maiores do que ela, e que a outra metade dos itens sejam menores do que ela. Colocados em ordem crescente, amediana é o elemento que ocupa a posição central.

Como a mediana divide os dados ordenados ao meio, ela não é sensível a valores discrepantes. A depender decomo estejam os dados, deve-se diferenciar a forma como encontra-se a mediana.

Observações:

• Não é utilizável em variáveis categóricas;

• Pouco afetada por valores discrepantes;

• Bastante utilizada para distribuições assimétricas.

1. Determinação da Mediana para Dados Brutos:Seja x(1), x(2), · · · , x(n) o rol das observações em ordem crescente. A mediana dessas observações será dada por:8

(a) n ímpar: Md = X( n+12 );

(b) n par: Md =X(n

2)+X(n

2+1)

2 ;

Exemplos:

(a) n ímpar:X = {1, 3, 6, 7, 9}. Md = X( 5+12 ) = X(3), logo a mediana será dada pelo 3o elemento, Md = 6.

Interpretação da Mediana: Metade das observações vão até 6 e a outra metade é maior (ou igual) que 6.

(b) n par:X = {1, 3, 6, 7, 9, 12}. Md =X

( 62)+X

( 62+1)

2 , logo a mediana será dada pela média entre o 3o elementoe o 4o elemento, Md =

X(3)+X(4)

2 = 6+72 = 6, 5. Interpretação da Mediana: Metade das observações vão

até 6,5 e a outra metade é maior (ou igual) que 6,5.

2. Determinação da Mediana para Dados em Distribuição de Frequências Simples:Da mesma forma como foi calculado anteriormente, encontra-se mediana usando as expressões (a) ou (b), para nímpar ou par. Em seguida, acrescenta-se à tabela de frequência uma coluna com as frequências acumuladas (Fi).Com o uso destas frequências (Fi) encontra-se a posição da mediana e em seguida o elemento mediano.

Exemplo:

Tabela 23: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade(xi) 21 22 23 24 25 26 28 30 31 32 33 34 35 36 Total

fi 3 2 2 1 4 3 1 1 3 1 3 3 2 1 30Fi 3 5 7 8 12 15 16 17 20 21 24 27 29 30 -

Fonte: Dados fictícios.

Solução:

Como n = 30 (par), o elemento mediano será dada por: Xmd =X

( 302

)+X

( 302

+1)

2 ;

Assim, a mediana será dada pela média aritmética entre o 15o e o 16o elemento, Md =X(15)+X(16)

2 ;

Se olharmos as frequências acumuladas (Fi) na Tabela 23 veremos que o 15o elemento se encontra na 6a

coluna e o 16o elemento na 7a coluna e as idades correspondentes a cada coluna são:

Md = (26 + 28)/2 = 27;

Interpretação: 50% dos alunos do curso de estatística de 2010 tem idade igual ou superior a 27 anos;

8BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.

26

Page 27: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

3. Determinação da Mediana de Dados Agrupados em Classes.Para dados agrupados, a mediana, pode ser obtida por interpolação. Primeiramente encontramos a classe mediana,onde n/2 nos fornece a posição do elemento mediano, não se fazendo distinção entre número par ou ímpar deobservações. Uma vez determinada a classe mediana, a mediana será calculada através da seguinte expressão:

Md = l + h

( n2 − Fant

fmd

)onde,l = limite inferior da classe mediana;h = amplitude do intervalo da classe mediana;n2 = posição do elemento mediano;Fant = frequência acumulada até a classe anterior à classe mediana;fmd = frequência absoluta simples da classe mediana.

Exemplo 1:

Tabela 24: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade Pmi fi fri fri(%) Fi

21 ` 24 22,5 7 0,23 23 724 ` 27 25,5 8 0,27 27 1527 ` 30 28,5 1 0,03 3 1630 ` 33 31,5 5 0,17 17 2133 ` 36 34,5 9 0,30 30 30TOTAL - 30 1 100 -

Fonte: Dados hipotéticos.

A mediana será dada por:

Md = 24 + 3

(15− 7

8

)= 27.

Interpretação: 50% dos alunos do curso de estatística de 2010 tinham idade superior a 27 anos.

Exemplo 2:Encontre a mediana utilizando os dados da tabela a seguir:

Pesos(kg) Frequência59 ` 63 363 ` 67 567 ` 71 971 ` 75 1275 ` 79 11TOTAL 40

Solução 1: Somando-se as três primeiras frequências têm-se 3 + 5 + 9 = 17. Logo, para obtermos o 20o peso (n/2)desejado, são necessários mais 3 dos 12 casos existentes na 4a classe. Como o 4o intervalo de classe é dado por 71 ` 75,a mediana situa-se a 3/12 da distância entre 71 e 75 e é:

Md = 71 +3

12(75− 71) = 72.

Solução 2: Utilizando o histograma também podemos encontrar a mediana:Em cada coluna do histograma temos as frequências das respectivas classes, mais uma vez, somando-se as três

primeiras frequências têm-se 3 + 5 + 9 = 17. Logo, para obtermos o 20o peso (n/2) desejado, são necessários mais 3 dos12 casos existentes na 4a classe. Assim a mediana será dada por:

Md− 71

3=

75− 71

12

Md− 71 =3(75− 71)

12Md = 1 + 71 = 72.

27

Page 28: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

4.3 Moda (Mo)A moda é outra medida de tendência central, sendo, no entanto a menos usada. Sua vantagem é que pode ser usada

para variáveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente da distribuição.Observações:

• Um conjunto de dados pode apresentar mais de uma moda;

• A moda pode ser calculada para variáveis qualitativas e quantitativas;

• Um conjunto de dados sem moda é chamado Amodal.

1. Determinação da Moda de Valores Não-Tabulados.Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais frequente desseconjunto. Embora seu significado seja o mais simples possível, nem sempre a moda existe (distribuição amodal) enem sempre é única. Se apresentar apenas uma moda diremos que é unimodal; se possuir duas modas diremos queé bimodal; se tiver várias modas (mais que duas) diremos que é multimodal. Exemplos:X = {1, 2, 4, 7, 9}: conjunto Amodal;X = {1, 2, 2, 4, 7, 9}: conjunto Unimodal, moda = 2;X = {1, 2, 2, 4, 4, 7, 9}: conjunto Bimodal; moda = 2 e 4;

2. Determinação da Moda para Valores Tabulados.No caso de dados tabelados não agrupados em classe, a determinação da moda é imediata, bastando para isso,consultar a tabela, localizando o valor que apresenta a maior frequência. Analisando a Tabela 23, observa-se que aidade que possui o maior fi é a idade 25, com fi = 4. Ou seja, a idade mais frequente entre os estudantes do cursode estatística de 2010 é 25 anos ou a idade mais observada entre os estudantes foi 25 anos.

Para variáveis qualitativas, a moda será a categoria que mais apareceu.

Tabela 25: Distribuição de frequências da Opinião dos alunos a respeito das salas de cinema na cidade.Opinião Regular a boa Muito boa

frequência(fi) 32 18Fonte: Estatística Básica - Daniel Furtado.

Observando os resultados da Tabela 25, conclui-se que a categoria que foi observada com maior frequência foi a Regulara boa, logo essa será a moda. Interpretação: A maioria dos estudantes considera que as salas de cinema da cidade estáclassificada como “Regular a boa”.

Para dados agrupados a moda se localiza na classe de maior freqüência (classe modal) e é obtida por meio daexpressão (Moda de Czuber): 9

Mo = l +

(∆1

∆1 + ∆2

)h

• l é o limite inferior da classe modal;9SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.

28

Page 29: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

• h é a amplitude da classe modal;

• ∆1 é a diferença da freqüência da classe modal e a freqüência da classe imediatamente anterior;

• ∆2 é a diferença da freqüência da classe modal e a freqüência da classe imediatamente posterior.

Exemplo: Utilizando a Tabela 26 temos:

Tabela 26: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade Pmi fi fri fri(%) Fi

21 ` 24 22,5 7 0,23 23 724 ` 27 25,5 8 0,27 27 1527 ` 30 28,5 1 0,03 3 1630 ` 33 31,5 5 0,17 17 2133 ` 36 34,5 9 0,30 30 30TOTAL - 30 1 100 -

Fonte: Dados hipotéticos.

Mo = 33 + 3

(9− 5

(9− 5) + (9− 0)

)Mo ∼= 33 + 0, 92 ∼= 34.

Interpretação: A idade mais frequente entre os alunos do curso de estatística 2010 é 34 anos.

4.4 Comparação entre Média, Mediana e Moda• Média

– Definição: Soma de todos os valores dividido pelo total de elementos do conjunto.

– Vantagens: Centro de massa da distribuição; Possui propriedades matemáticas atraentes.

– Limitações: É influenciada por valores extremos.

– Quando usar:

1. Deseja-se obter a medida de posição que possui a maior estabilidade;2. Houver necessidade de um tratamento algébrico posterior.

• Mediana

– Definição: Valor que divide o conjunto em duas partes iguais.

– Vantagens: Menos sensível a valores extremos que a média.

– Limitações: Difícil de determinar para grande quantidade de dados.

– Quando usar:

1. Deseja-se obter o ponto que divide o conjunto em partes iguais;2. Há valores extremos que afetam de maneira acentuada a média;

• Moda

– Definição: Valor mais freqüente.

– Vantagens: Valor “típico”; Maior quantidade de valores concentrados neste ponto.

– Limitações: Pode não haver moda para certos conjuntos de dados.

– Quando usar:

1. Deseja-se obter uma medida rápida e aproximada da posição;2. A medida de posição deve ser o valor mais típico da distribuição.

29

Page 30: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

4.5 SimetriaA determinação das medidas de posição permite discutir sobre a simetria da distribuição dos dados.

• Distribuição simétrica - X = Md = Mo

• Distribuição assimétrica - ocorrem diferenças entre os valores da média, mediana e moda. A assimetria pode ser:

– à direita - X > Md > Mo

– à esquerda - X < Md < Mo

4.6 Exercícios1. Para os exercícios (1) e (2) da seção 2.1.2, páginas 6 e 7, calcule:

a) As medidas de posição para os dados brutos, interprete os resultados obtidos;

b) As medidas de posição para os dados tabulados. Houve diferença nos resultados? Justifique.

c) Verifique se as distribuições dos dados são simétricas ou assimétricas (à direita ou à esquerda).

2. Em um estudo sobre o potencial de germinação de sementes de algodão dividiu-se uma área em 48 parcelas com amesma área, tipo de solo, iluminação, etc. Em cada uma destas parcelas foram plantadas 4 sementes e verificou-seo número de sementes que germinaram. Os dados obtidos são apresentados a seguir:

2 0 0 4 3 0 0 1 0 0 1 1 0 0 0 12 1 1 1 1 1 1 0 0 0 3 0 0 0 0 00 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0

Para o conjunto de dados da acima calcule:

a) As medidas de posição para os dados brutos, interprete os resultados obtidos;

b) As medidas de posição para os dados tabulados. Houve diferença nos resultados? Justifique.

c) Verifique se as distribuições dos dados são simétricas ou assimétricas (à direita ou à esquerda).

3. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados municípios doEstado:

144 152 159 160 160 151 157 146 154 145141 150 142 146 142 141 141 150 143 158

Para o conjunto de dados acima calcule:

a) As medidas de posição para os dados brutos, interprete os resultados obtidos;

b) As medidas de posição para os dados tabulados. Houve diferença nos resultados? Justifique.

c) Verifique se as distribuições dos dados são simétricas ou assimétricas (à direita ou à esquerda).

5 SeparatrizesSão as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a mediana divide

a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar outras medidasque dividem a distribuição em partes iguais, são as chamadas separatrizes. São elas: 10

Quartis - Dividem a amostra em 4 partes iguais;

Decis - Dividem a amostra em 10 partes iguais;

Percentis - Dividem a amostra em 100 partes iguais;

30

Page 31: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

5.1 QuartisOs quartis dividem um conjunto de dados em quatro partes iguais. Assim:Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor;Q2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana;Q3: 3o quartil. Deixa 75% dos elementos antes do seu valor. (Consequentemente, 25% dos elementos acima do

seu valor.)Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão:

EQi =i

4(n+ 1), i = 1, 2, 3;

onde: i = No do quartil a ser calculado; n = No de observações;

↪→ Olhar exemplo dado em sala de aula

Tabela 27: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade Pmi fi fri fri(%) Fi

21 ` 24 22,5 7 0,23 23 724 ` 27 25,5 8 0,27 27 1527 ` 30 28,5 1 0,03 3 1630 ` 33 31,5 5 0,17 17 2133 ` 36 34,5 9 0,30 30 30TOTAL - 30 1 100 -

Fonte: Dados hipotéticos.

Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculo damediana:

Qi = l + h

(EQi − Fant

fqi

)onde,l = limite inferior da classe que contem o quartil desejado;h = amplitude do intervalo de classe;EQi = elemento quartílico;Fant = frequência acumulada da classe anterior à classe quartílica;fqi = frequência absoluta simples da classe quartílica.

No exemplo das idades EQ1 = 1×304 = 7, 5o, como os dados estão em classes, olha-se o Fi mais próximo de

EQi, analisando a Tabela acima, temos que a 2a classe será a classe quartílica pois na 1a classe observamos até 7elementos e o que passar disso cai na classe seguinte, logo:

Q1 = 24 + 3

(7, 5− 7

8

)∼= 24, 2.

10BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.

31

Page 32: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Interpretação: 25% dos estudantes tem até 24,2 anos. O Q1 encontrado aqui é diferente do quartil calculado para osdados originais não tabulados, essa diferença se justifica pois nos dados em classes perdemos um pouco na precisão.

5.2 Decis e PercentisGenericamente, para determinar a ordem ou posição do Decil a ser calculado, usaremos a seguinte expressão:

EDi =i

10(n+ 1), i = 1, 2, 3, · · · , 9;

Do mesmo modo, para determinar a ordem ou posição do Percentil a ser calculado, usaremos a seguinte expressão:

EPi =i

100(n+ 1), i = 1, 2, 3, · · · , 99;

onde: i = No do decil ou percentil a ser calculado; n = No de obs;

A forma de calcular os decis ou percentis é idêntica a dos quartis, o que muda é a forma de encontrar o elemento,que ao invés de ser dividida por 4 fica dividida por 10 ou 100.

Para dados agrupados em classes, encontraremos os Decis ou os Percentis de maneira semelhante à usada para ocálculo dos quartis:

Decis : Di = l + h

(EDi − Fant

fdi

)

Percentis : Pi = l + h

(EPi − Fant

fpi

)No exemplo das idades EP90 = 90×30

100 = 27o, como os dados estão em classes, olha-se o Fi mais próximo de EPi,analisando a Tabela 8, temos que a última classe será a classe do 90o percentil, logo:

P90 = 33 + 3

(27− 21

9

)= 35.

Interpretação: 90% dos estudantes tem até 35 anos. O P90 encontrado aqui será diferente do Percentil achadousando os dados brutos, essa diferença se justifica pois nos dados em classes perdemos um pouco na precisão.

5.3 Exercícios1. Para os exercícios (1) e (2) da seção 2.1.2, páginas 6 e 7, calcule Q1, Q3 e P95. Interprete os resultados.

2. Para os dados da Tabela 8 calcule Q3 e D8. Interprete os resultados.

3. Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 36 adolescentes:

910 1280 1220 1120 1040 1070 980 1310 1240 1140 1110 10201190 1090 1010 1380 1270 1280 1210 1110 1040 1460 1420 1270960 1300 1240 1130 1070 1080 1000 1360 1260 1180 1200 1100

Para o conjunto de dados acima responda:a) Construa a tabela de freqüências constituída pelas freqüências absolutas simples, as freqüências relativas, asfreqüências acumuladas e os Pontos médios de classes;b) Construir um histograma e um polígono de freqüências;c) Calcule a média, a moda e a mediana para os dados brutos e a seguir para os dados agrupados, compare osresultados e comente. Interprete cada medida obtida;d) Calcule Q1, Q3, P68 e D8. Interprete os resultados.

32

Page 33: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

6 Medidas de DispersãoUma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são suficientes para

caracterizar totalmente uma sequência numérica. Se observarmos as sequências:X : 10, 1, 18, 20, 35, 3, 7, 15, 11, 10.Y : 12, 13, 13, 14, 12, 14, 12, 14, 13, 13.Z : 13, 13, 13, 13, 13, 13, 13, 13, 13, 13.concluiremos que todas possuem a mesma média 13. No entanto são sequências completamente distintas do ponto devista de variabilidade dos dados. Na sequência Z não há variabilidade dos dados. Na sequência Y , a média 13 representabem a série, mas existem elementos da série levemente diferenciados da média 13. Na sequência X os elementos estãobem diferenciados da média 13. As medidas de dispersão serão usadas para avaliar a representatividade da média. 11

6.1 Amplitude TotalA amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado. A medida de

dispersão não leva em consideração os valores intermediários perdendo a informação de como os dados estão distribuídose/ou concentrados.

H = Xmax −Xmin

Exemplo: Utilizando os dados da Tabela 8, a amplitude total da idade dos alunos do curso de Estatística 2010 é:

H = 36− 21 = 15 anos,

isto é, as idades dos alunos diferem em torno de 15 anos.

6.2 Distância Interquartílica ou Amplitude InterquartílicaA amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é mais estável que a

amplitude total por não considerar os valores mais extremos. Esta medida abrange 50% dos dados e é útil para detectarvalores discrepantes.

dq = Q3 −Q1

Exemplo: Utilizando os dados da Tabela 8, a amplitude interquartílica da idade dos alunos do curso de Estatística daUFMT é:

dq = 33, 5− 24, 2 = 9, 3 anos

A amplitude entre o terceiro e primeiro quartil, que envolve 50% (centrais) dos alunos, é de 9,3 anos.

6.3 VariânciaÉ a medida de dispersão mais usada e mais importante. Mede a concentração dos dados em torno da média. É dado

pela soma dos quadrados dos desvios dividido pelo número total de observações. A notação S2 é usada para representara variância amostral.

1. Variância amostral (S2) para dados não tabulados

S2 =

n∑i=1

(Xi − X

)2n− 1

, (1)

desenvolvendo o quadrado do parentêses obtem-se:

S2 =1

n− 1

{n∑

i=1

X2i − nX2

}. (2)

Na Tabela 14 di é chamadado de desvio, a soma do desvio é nula. A soma dos desvios ao quadrado dividido porn− 1 resulta na variância e a raíz quadrada da variância é o desvio-padrão.

Logo, S =√

1007, 4/6 ∼= 13 e S2 = 167, 9.

11BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.

33

Page 34: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

2. Desvio-Padrão (S): É a raíz quadrada da variância. Deixa a medida de variabilidade na mesma unidade de medidados dados, diferente da variância. Exemplo: Se calculamos a variância das alturas de um conjunto de 10 crianças,essa variância terá como unidade de medida cm2 e o desvio padrão cm, mesma unidade de medida das observaçõescoletadas.

3. Variância de dados tabulados em distribuição de frequências: Quando os valores vierem dispostos em uma tabelade frequências, o cálculo da variância se fará através da seguinte fórmula:

S2 =

k∑i=1

(Xi − X

)2fi

n− 1(3)

Se os dados forem agrupados em classe Xi é substituído por Pmi.

S2 =

k∑i=1

(Pmi − X

)2fi

n− 1(4)

ou desenvolvendo o quadrado do parênteses obtém-se:

S2 =1

n− 1

{n∑

i=1

X2i fi − nX2

}. (5)

Se os dados forem agrupados em classe Xi é substituído por Pmi.

S2 =1

n− 1

{n∑

i=1

Pm2i fi − nX2

}. (6)

Exemplo: Os dados a seguir referem-se as vendas de determinada empresa e produtividade de seus vendedores.

Tabela 28: Distribuição de frequências referente às vendas de determinada empresa e produtividade de seus vendedores.Vendas(x 1000 - R$)(xi) No de vendedores(fi) xifi x2

i fi70 1 70 702 × 1120 12 1440 1202 × 12170 27 4590 1702 × 27220 31 6820 2202 × 31270 10 2700 2702 × 10

Total 81 15620 3187400Fonte: Dados hipotéticos.

A média para os dados apresentados na tabela acima será dada por:

X =

∑xifin

=15620

81∼= 192, 84.

Logo as vendas médias dessa empresa foi de ∼= 192, 84 (x 1000 - R$).A variância será dada por:

S2 ∼=1

81− 1×{

3187400− 81(192, 84)2} ∼= 2.190, 39

O desvio padrão será dada por:S =

√2.190, 39 ∼= 46, 8

Apresentando uma variabilidade razoavelmente alta.Para dados agrupados em classes usaremos o exemplo das idades citado anteriormente.

A média para os dados apresentados na tabela acima será dada por:

X =

∑Pmifin

=858

30∼= 28, 6.

A idade média dos alunos é de 28,6 anos.

34

Page 35: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 29: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.Idade Pmi fi Pmifi Pm2

i fi21 ` 24 22,5 7 157,5 22, 52 × 724 ` 27 25,5 8 204 25, 52 × 827 ` 30 28,5 1 28,5 28, 52 × 130 ` 33 31,5 5 157,5 31, 52 × 533 ` 36 34,5 9 310,5 34, 52 × 9TOTAL - 30 858 25231,5

Fonte: Dados hipotéticos.

A variância será dada por:

S2 ∼=1

30− 1×{

25231, 5− 30(28, 6)2} ∼= 23, 1

O desvio padrão será dada por:S =

√23, 1 ∼= 4, 8

Apresentando uma variabilidade moderada.Interpretação do desvio-padrão (análoga à da variância):

• Devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim:

• Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e consequentemente os dadosserão homogêneos.

• Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e consequentemente os dadosserão heterogêneos.

• A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medida utilizada é igual aoquadrado da unidade de medida dos dados. No entanto, por conta da maior facilidade do trato algébrico com funçõesquadráticas, a variância será a medida de dispersão mais utilizada quando tratarmos da inferência estatística.

6.4 Coeficiente de VariaçãoTrata-se de uma medida relativa de dispersão, útil para comparação em termos relativos do grau de concentração

em torno da média de séries distintas.É dada por:

CV =S

X× 100% (7)

Como o CV é uma medida que exprime a variabilidade relativa à média, é usualmente expresso em porcentagem.Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos:

X sEstaturas 175 cm 5,0 cm

Pesos 68 kg 2,0 kgFonte: Dados hipotéticos.

Temos:CVE =

5

175× 100 = 2, 85%

CVP =2

68× 100 = 2, 94%

Logo, nesse grupo de indivíduos, os pesos apresentam maior grau de dispersão que as estaturas.O Coeficiente de variação pode ser usado em um conjunto de dados para determinar a homogeneidade dos mesmos.

O grau de homogeneidade geralmente é determinado pelo próprio pesquisador e depende de que tipo de estudo está sendofeito. Nesse curso usaremos um grau de até 20% para os dados serem considerados homogêneos.

35

Page 36: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 30: Informações sobre sexo, idade (anos), altura (metro e centímetro), peso (kg), estado civil, número de irmãos,transporte, procedência, relação do trabalho com o curso de Estatística e meio de informação dos alunos da disciplinaInferência Estatística do curso de Estatística da UEM - 21/03/2005.

No Sexo Id Altura Peso Est.Civil Noir. Transp. Procedência Trabalho Inform1 F 20 1,60 58 Solteiro 1 Próprio Maringá Não Rel. TV2 F 26 1,65 59 Solteiro 2 Coletivo Fora do Pr Não trab. Revista3 F 18 1,64 55 Solteiro 2 Próprio Maringá Não trab. TV4 F 25 1,73 60 Solteiro 2 Coletivo Outro no Pr Não Rel. TV5 M 35 1,76 83 Casado 6 Coletivo Outro no Pr Não Rel. TV6 F 20 1,62 58 Solteiro 2 Coletivo Outro no Pr Não Rel. Rádio7 F 29 1,72 70 Solteiro 3 Coletivo Maringá Não trab. TV8 M 23 1,71 62 Separado 2 Próprio Outro no Pr Não Rel. Internet9 F 20 1,63 63 Solteiro 2 Próprio Maringá Não trab. TV

10 M 20 1,79 75 Solteiro 2 Próprio Fora do Pr Não trab. Internet11 M 20 1,82 66 Solteiro 1 Próprio Fora do Pr Não trab. TV12 F 30 1,68 46 Solteiro 3 Próprio Outro no Pr Parc.Rel. TV13 F 18 1,69 64 Solteiro 1 Próprio Maringá Parc.Rel. TV14 M 37 1,82 80 Casado 2 Próprio Maringá Não Rel. TV15 M 25 1,83 62 Solteiro 1 Próprio Outro no Pr Não Rel. TV16 F 20 1,63 68 Solteiro 2 Coletivo Maringá Não trab. TV17 M 21 1,71 80 Solteiro 2 Coletivo Maringá Não Rel. Internet18 M 25 1,80 82 Casado 1 Próprio Outro no Pr Não Rel. Internet19 F 24 1,62 55 Solteiro 2 Próprio Maringá Não trab. Jornal20 M 19 1,74 58 Solteiro 2 Próprio Maringá Com.Rel. TV21 F 21 1,55 65 Solteiro 1 Próprio Maringá Não trab. TV22 M 22 1,73 62 Solteiro 0 Próprio Maringá Não trab. Jornal

6.5 Exercícios1. Com base na Tabela (30) responda:

a) Classifique as variáveis descritas na tabela;

b) Faça um resumo estatístico para as variáveis qualitativas (Representação tabular e gráfica adequada);

c) Faça um resumo estatístico para as variáveis quantitativas: No de irmãos e Peso (Representação tabular egráfica adequada);

d) Calcule as medidas de Posição e Dispersão para as variáveis quantitativas: No de irmãos e Peso; Interprete osresultados; (Usar dados originais);

e) Calcule Q1, Q3 e P95 para as variáveis quantitativas: No de irmãos e Peso (Usar dados originais).

2. Calcule para cada uma das distribuições abaixo as seguintes medidas:

a) de tendência central: média aritmética, mediana e moda. (Interprete os resultados)

b) de dispersão: amplitude total, desvio-padrão e variância. (Interprete os resultados)

i) Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4;

ii) Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61;

Tabela 31: Idade de pacientes renais (em anos).Idade 26 28 30 32 37 Totalfi 3 10 12 5 19 49

Tabela 32: Número de atendimentos em serviço médico por funcionários de uma empresa.No de Atendimentos 0 1 2 3 4 Total

fi 24 21 3 51 1 100

36

Page 37: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 33: Altura de 140 alunos (em cm).Estaturas 145`150 150`155 155`160 160`165 165`170 170`175 175`180 180`185

No de alunos 2 10 27 38 27 21 8 7

c) Calcule o primeiro quartil, o quadragésimo centil e o nono decil para o conjunto de dados referente à Alturados 140 alunos. (Interprete os resultados)

3. Os dados para este exemplo provêm de uma jazida de carvão, localizada em Sapopema-PR, na qual foram obtidosvalores para as variáveis espessura da camada de carvão, teor de cinzas, teor de enxofre e rendimento para aobtenção de um produto lavrado com 20% de cinzas. Como descrito por Cava (1985) e Landim et al. (1988), essedepósito situa-se a cerca de 20km a noroeste da Figueira, no nordeste do Estado do Paraná, em sedimentos da partesuperior do Membro Triunfo da Formação Rio Bonito.

Espessura Cinzas Enxofre Rendimento a 20%0,8 38,6 15,2 0,810,72 22,6 6,1 0,830,69 39 7,9 0,670,8 37,1 10,1 0,990,73 40,8 4,9 0,811,19 34,1 7,21 1,320,94 25 5,79 1,320,96 29,3 7,92 1,121,05 33 7,03 1,191,32 29,7 7,32 1,371,02 33,7 8,1 0,911,2 2 6,13 7,4 1,641,1 25,41 8,6 1,491,18 22,8 6 1,41,3 19,1 8,1 2,131,55 35,1 7,93 1,751,57 16,9 6,31 1,91,3 20,5 6,27 1,891,18 39,1 5,74 1,321,4 38,6 8,68 1,431,3 27,5 7,75 1,551,5 25,4 6,87 2,031,4 24,3 6,9 1,591,85 57,4 5,6 1,151,2 22 7,46 1,771,23 27 5,99 1,571,3 32,1 8,07 1,461,62 36,8 5,24 1,772,09 19,5 5,34 1,211,6 47,8 5,93 1,441,4 43,1 5,6 1,181,41 36,6 8,17 1,481,38 39,6 5,12 1,31,04 31,1 6,39 1,281,31 64,8 5,71 1,091,28 43,24 5,4 1,330,55 27,2 9,01 0,82

Análise estatística de dados geológicos. Autor: LANDIM, PAULO MILTON BARBOSA.

a) Resuma os dados da variável Teor de Cinzas em uma tabela de distribuição de freqüências;b) Para a Tabela construida em (a), faça a representação gráfica adequada;c) Calcule as medidas de tendência central e dispersão para a variável: Teor de Cinzas (Use os dados tabulados);

37

Page 38: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

7 Assimetria e Curtose

7.1 AssimetriaAs medidas de assimetria procuram caracterizar como e quanto a distribuição de frequências se afastam da condi-

ção de simetria. A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuiçãode freqüências e/ou um histograma, está-se buscando, também, identificar visualmente, a forma da distribuição dos dadosque é ou não confirmada pelo coeficiente de assimetria de Pearson (A) definido como: 12

A =x−mo

sx. (8)

Quando |A| < 0, 15, podemos considerar a distribuição como praticamente simétrica. Por outro lado, costuma-se consi-derar a assimetria como moderada se 0, 15 < |A| < 1, e forte se |A| > 1.

O momento de terceira ordem também pode ser usado como medida de assimetria de uma distribuição. Entretantoé mais conveniente a utilização de uma medida adimencional o que leva a definição do coeficiente de assimetria:

a3 =m3

s3. (9)

Onde: a3 = 0 indica que a distribuição é praticamente simétrica, a3 > 0 indica que a distribuição é assimétrica po-sitiva e a3 < 0 indica que a distribuição assimétrica negativa. Esse coeficiente indica o sentido da assimetria e, sendoadimencional, pode ser usado para comparar diversos casos.

Uma distribuição é classificada como:

• Simétrica: se média = mediana = moda.

Figura 14: Representação gráfica de uma distribuição simétrica.

• Assimétrica Negativa: se média ≤ mediana ≤ moda. O lado mais longo do polígono de freqüência (cauda dadistribuição) está à esquerda do centro.

• Assimétrica Positiva: se moda ≤ mediana ≤ média. O lado mais longo do polígono de freqüência está à direita docentro.

12NETO, P.L.O.Costa. Estatística, 2a Edição, Editora Edgard Blücher Ltda. 2002.

38

Page 39: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 15: Representação gráfica de uma distribuição Assimétrica Negativa.

Figura 16: Representação gráfica de uma distribuição Assimétrica Positiva.

39

Page 40: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Resumo dos coeficientes de assimetria:

Indicador da forma da distribuição dos dados;É classificada como: Assimétrica (positiva ou negativa - à direita ou à esquerda) ou Simétrica.Coeficiente de Assimetria de Pearson: A = x−mo

sx; onde: x = média, mo = moda e sx = desvio padrão. Se |A| < 0, 15,

podemos considerar a distribuição praticamente simétrica. Se 0, 15 < |A| < 1, costuma-se considerar como assimetriamoderada e forte se |A| > 1. A desvantagem do uso do coeficiente de assimetria de pearson é que ele não é recomendadoem distribuições amodais ou bimodais em diante pois dificulta a interpretação.

7.2 CurtoseA medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta distribuição. É

definido como: 13

k =Q3 −Q1

2(P90 − P10). (10)

A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização da dispersão em umadistribuição. Esta medida quantifica a concentração ou dispersão dos valores de um conjunto de dados em relação àsmedidas de tendência central em uma distribuição de freqüências.

Uma distribuição é classificada quanto ao grau de achatamento como:

Figura 17: Classificações de uma distribuição quanto ao grau de achatamento.

• Leptocúrtica: quando a distribuição apresenta uma curva de freqüência bastante fechada, com os dados fortementeconcentrados em torno de seu centro, K < 0,263.

• Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, K= 0,263

• Platicúrtica: quando a distribuição apresenta uma curva de freqüência mais aberta, com os dados fracamente con-centrados em torno de seu centro, K > 0,263.

A caracterização do achatamento de uma distribuição só tem sentido, em termos práticos, se a distribuição foraproximadamente simétrica. Entre as possíveis medidas de achatamento, também temos o coeficiente de curtose, obtidopelo quociente do momento centrado de quarta ordem pelo quadrado da variância, ou seja,

a4 =m4

s4=m4

m22

. (11)

Este coeficiente é adimencional, sendo menor que três para as distribuições platicúrticas, igual a três para uma distribuiçãomesocúrtica e maior que três para as distribuições leptocúrticas.

Resumo: Por curtose entende-se o aplainamento (afilamento ou achatamento) da curva característica do conjuntoou distribuição. O que a justifica é a possibilidade de haver conjuntos e distribuições com idênticas medidas de posição,de dispersão e assimetria.A curtose mede a divergência entre a curva considerada e a convencionada como normalmente achatada (também sediz que ela mede a concentração dos dados em torno do seu centro). À curva normalmente achatada dá-se o nome demesocúrtica; à mais achatada que ela, platicúrtica; à menos achatada (ou mais afilada), leptocúrtica.

13SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.

40

Page 41: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

8 Box Plot ou Desenho Esquemático• O gráfico Box Plot (ou desenho esquemático) é uma análise gráfica que utiliza cinco medidas estatísticas: valor

mínimo, valor máximo, mediana, primeiro e terceiro quartil da variável quantitativa.

• Este conjunto de medidas oferece a idéia da posição, dispersão, assimetria, caudas e dados discrepantes.

• A posição central é dada pela mediana e a dispersão pelo desvio interquartílico dq = Q3−Q2. As posições relativasde Q1 , Q2 e Q3 dão uma noção da assimetria da distribuição.

• Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores atípicos. Segundo Triola(2004), um outlier ou ponto discrepante é um valor que se localiza distante de quase todos os outros pontos dadistribuição. A distância a partir da qual considera-se um valor como discrepante é aquela que supera 1, 5dq.De maneira geral, são considerados outliers todos os valores inferiores Li = Q1 − 1, 5dq ou os superiores aLs = Q3 + 1, 5dq. 14

Resumo do Box-Plot: Dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes. A posiçãocentral é dada pela mediana e a dispersão pelo desvio interquartílico (dq). As posições relativas de Q1, Q2, Q3 dão umanoção da assimetria da distribuição. Quando tiver em dúvidas em classificar um conjunto de dados como simétrico ou não,pode tentar comparar o formato do box plot com os resultados dos coeficientes de assimetria e também com o formato dopolígono de frequências (ou com histograma).

Exemplo: A construção do gráfico Box Plot pode ser exemplificada utilizando os dados a seguir:1) Ordenar os dados em seqüência crescente:

18 18 19 20 20 20 20 20 20 21 2122 23 24 25 25 25 26 29 30 35 37

Determinar as cinco medidas:

1. Mediana:Como n é par, Md =

Xn2

+Xn2

+1

2 = X11+X12

2 = 21+222 = 21, 5;

2. Primeiro Quartil:Q1 = X 1(n+1)

4= X 23

4= X5,75 = X5 + 0, 75(X6 −X5) = 20;

3. Terceiro Quartil:Q3 = X 3(n+1)

4= X 69

4= X17,25 = X17 + 0, 25(X18 −X17) = 25, 25;

4. Desvio interquartílico:dq = Q3 −Q1 = 25, 25− 20 = 5, 25;

5. Limite inferior:Li = Q1 − 1, 5dqLi = 20− 1, 5× 5, 25 = 12, 125;

6. Limite superior:Ls = Q3 + 1, 5dqLs = 25, 25 + 1, 5× 5, 25 = 33, 125;

Construir uma escala com valores (mesma amplitude) que incluam os valores máximo e mínimo dos dados. Construiruma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da mediana.

As figuras a seguir mostrarão passo a passo como fazer o box-plot:

Identificar os pontos discrepantesNo conjunto de dados não existe aluno com idade inferior a 12,5, ou seja, não há aluno com idade considerada

discrepante inferiormente, logo o limite inferior do gráfico será o menor valor da amostra (Xmin). Entretanto, existemdois indivíduos cujas idades são superiores a 33,125, pontos estes considerados discrepantes neste conjunto de dados: asidades 35 e 37. Estes pontos são identificados no diagrama de caixas por meio de um pontinho e o limite superio dográfico será o Ls calculado.

14LIMA, A.C.Pedroso; MAGALHÃES, M.Nascimento. Noções de Probabilidade e Estatística. Editora Edusp. 2004.

41

Page 42: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 18: Idade dos alunos do curso de estatística da UEM.

42

Page 43: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Note-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos quais, 25% estão entre alinha da mediana e a linha do primeiro quartil e os outros 25% estão entre a linha da mediana e a linha do terceiro quartil.Cada linha da cauda mais os valores discrepantes contêm os 25% restantes da distribuição. A Figura 18 mostra que adistribuição das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para os valores maiores.

9 Tabelas Bidimensionais e Medidas de Associação

É muito frequente o interesse em verificar se duas variáveis qualitativas apresentam-se associadas, isto é, se oconhecimento de uma variável ajuda a entender uma outra variável. Por exemplo, sabendo-se que determinado tipo dedoença está associado com o hábito de fumar, o governo pode promover campanha para alertar a população. 15

Exemplo:A Tabela 34 mostra três distribuições de frequências, uma para cada região preferencial (região indicada para o

cultivo de milho). Dizemos que esta tabela é bidimencional, pois apresenta a distribuição de duas variáveis: resistência àferrugem e região preferencial.

Tabela 34: Distribuição de frequências da resistência à ferrugem de híbridos de milho, segundo as regiões preferenciais.Resistencia Região Preferencialà ferrugem Chapecó Campos Novos Içara Total

r 10 3 12 25mr 6 12 2 20ms 9 3 3 15s 7 1 2 10

Total 32 19 19 70Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

Legenda: r - resistente; s - susceptível; ms - moderadamente susceptível; mr - moderadamente resistente.Como os totais das linhas e das colunas (totais marginais) da Tabela 34 são diferentes, isto dificulta a comparação.

Trabalhando com a proporção (frequência relativa) ou com a frequência relativa percentual tornamos os resultados com-paráveis. Nesse exemplo, os totais de híbridos por região foram estabelecidos pelo pesquisador, portanto devemos obteras porcentagens por região, conforme apresentado na Tabela 35.

Tabela 35: Distribuição das porcentagens da resistência à ferrugem de híbridos de milho, segundo as regiões preferenci-ais.

Resistencia Região Preferencialà ferrugem Chapecó Campos Novos Içara

r 31,2 15,8 63,2mr 18,8 63,2 10,5ms 28,1 15,8 15,8s 21,9 5,2 10,5

Total 100 100 100Fonte: Tabela 34.

Algumas observações com respeito a Tabela 35:

• Em Campos Novos a porcentagem de híbridos moderadamente resistentes é bem superior as outras duas regiões;

• Içara apresenta maior porcentagem de híbridos resistentes à ferrugem (63,2%), bem superior as outras duas regiões;

• Percebe-se que em Chapecó a distribuição é mais homogênea nas categorias de resistência.

Representação Gráfica da Tabela 35:

15ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

43

Page 44: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Figura 19: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiõesFonte: Tabela 35.

Exercício ResolvidoUm estudo sobre o tempo de vida de duas amostras de Biomphalaria straminea (Amostra A: 45 indivíduos agru-

pados numa bacia e Amostra I: 49 indivíduos isolados em copos de vidro), produziu os resultados da Tabela 36 :

Tabela 36: Número de indivíduos classificados segundo o tempo de vida, em dias, para duas condições de agrupamento.Tempo de vida Condições de Agrupamento Total

(em dias) Agrupados Isolados58 a 179 3 6 9

180 a 300 6 19 25301 a 422 36 24 60

Total 45 49 94Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

a) Dos indivíduos submetidos à condição de Agrupados, qual a porcentagem de indivíduos com tempo de vida entre301 e 422?

b) Dos indivíduos submetidos à condição de Isolados, qual a porcentagem de indivíduos com tempo de vida de nomáximo 300 dias?

c) Você concluiria que o tempo de vida está relacionado com a condição de agrupamento? Justifique.

Respostas:

a) De um total de 45 indivíduos submetidos à condição de Agrupados, a porcentagem dos que apresentaram tempo devida entre 301 e 422 é: 36/45 = 0,80 ou 0,80 × 100 = 80%.

b) Do total de 49 indivíduos submetidos à condição de Isolados, 25 (= 6 + 19) indivíduos sobreviveram no máximo300 dias. Este valor corresponde a (25/49)×100 = 51,02%.

c) Sim, pois pode-se verificar que enquanto 80% dos indivíduos submetidos à condição de Agrupados sobreviveramentre 301 e 422 dias, somente 48,98% (= 24/49)×100 sobreviveram entre 301 e 422 dias na condição de Isolados.

9.1 Medidas de AssociaçãoAté agora, vimos como as tabelas bidimencionais (ou tabelas de contigência) podem ser utilizadas para verificar

uma possível associação entre duas variáveis. Agora iremos aprender como medir a grandeza dessa associação através demedidas estatísticas que indiquem se existe ou não relação entre duas variáveis qualitativas e qual a sua magnitude, isto é,a grandeza da associação. No caso de estarmos trabalhando com variáveis quantitativas, elas podem ser categorizadas etransformadas em variáveis qualitativas. Por exemplo, na variável “Rendimento Médio de híbridos de milho para a região

44

Page 45: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

de Chapecó”, podemos dividir a amostra em três categorias: menor do que 1500kg/ha (rendimento baixo), maior ou iguala 1500 e menor ou igual a 3000 (rendimento normal) e maior do que 3000 (rendimento alto). 16

Coeficiente de Contigência de PearsonExistem várias medidas de associação e seu uso depende do tipo e finalidade do estudo. Neste curso usaremos

uma medida de associação comumente utilizada, que é o Coeficiente de contingência de Pearson. Podemos através dessecoeficiente, por exemplo, verificar a grandeza da associação entre condições de agrupamento (isolados ou agrupados) etempo de vida dos caramujos.

Karl Pearson propôs o chamado coeficiente de contigência, representado pela letra C, definido por:

C =

√χ2

χ2 + n, (12)

onde n é o número total de observações e χ2 é uma estatística dada por:

χ2 =

s∑i=1

r∑j=1

(foij − feij)2

feij, (13)

onde foij e feij são as frequências observadas e esperadas da i-ésima linha e j-ésima coluna, respectivamente; s e rsão o número de linhas e o número de colunas da tabela. No exemplo a seguir será mostrado como obter as frequênciasesperadas feij .

Este coeficiente nem sempre está entre zero e um, um fator de correção foi proposto para facilitar a interpretação:

C∗ =C√

t(t− 1), (14)

onde t é o mínimo entre o número de colunas e de linhas da tabela.Exemplo: A Tabela 37 refere-se ao número de pássaros de uma particular espécie, classificados de acordo com o

local da floresta onde se alimentam, para duas estações do ano. Um pesquisador levantou a hipótese (no início do trabalho),

Tabela 37: Distribuição conjunta das variáveis local da floresta e estação do ano.Estação Local da Floresta Totaldo ano Árvores Arbustos Chão

Primavera 30(50,8%) 20(33,9%) 9(15,3%) 59(100%)Outono 13(21,3%) 22(36,1%) 26(42,6%) 61(100%)Total 43(35,8%) 42(35,0%) 35(29,2%) 120(100%)

Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

de que os pássaros alimentam-se nestes três locais da floresta nas mesmas proporções na primavera e no outono. Em outraspalavras, o pesquisador formulou a hipótese de que não existe associação entre as duas variáveis.

a) Você concordaria com a hipótese formulada pelo pesquisador? Justifique utilizando porcentagens e o Coeficientede Contigência de Pearson.

b) Faça um gráfico de barras múltiplo para representar os dados da Tabela 37.

Obs: Este exercício será feito em sala de aula.

9.2 Exercícios1. Na Tabela 38 estão apresentados resultados de um experimento no qual um pesquisador está procurando verificar seexiste associação entre hábito de crescimento (3 = indeterminado trepador e 4 = indeterminado prostado) e porte (Tr =trepador, EB = ereto na base e Pr = prostado) na cultura de feijão de vagem.

a) Construa a tabela da distribuição de frequência conjunta para as variáveis hábito de crescimento e porte;

b) Faça um gráfico de coluna múltipla para a distribuição de frequência conjunta do item (a);

c) Para os dados da Tabela 38 podemos considerar que o hábito está associado com o porte? Se houver associação,qual a grandeza da mesma?

45

Page 46: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 38: Hábito de crescimento (H) e porte (P) para 50 materiais de feijão de vagem.H P H P H P H P H P4 Tr 4 Tr 4 Tr 4 Pr 4 Tr4 EB 4 Tr 4 Tr 4 Tr 3 Pr3 Pr 3 Pr 3 Tr 4 Pr 3 Pr4 Tr 3 Pr 4 Tr 3 Pr 3 Pr4 Tr 3 Pr 4 Tr 4 Tr 4 Tr4 Tr 3 EB 4 Tr 3 Pr 4 Tr3 Pr 4 EB 4 Tr 4 Pr 4 Tr3 EB 4 EB 4 Tr 3 Pr 4 Tr4 Tr 4 Tr 3 Pr 4 Tr 3 Pr4 Tr 4 Tr 4 Tr 4 Tr 4 Tr

Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

Tabela 39: Distribuição de frequências conjunta de plantas segregando para dois caracteres numa progênie da espécie“X”.

Ciclo Virescência TotalNormal Virescente

Tardio 3470 910 4380Precoce 1030 290 1320

Total 4500 1200 5700Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

2. Os dados da Tabela 39 têm por objetivo verificar se os caracteres ciclo (Tardio e Precoce) e Virescência (Normal eVirescente), de uma progênie da espécie “X”, segregam de forma independentemente.

a) Construa a tabela da distribuição de frequência relativa percentual conjunta para as variáveis Ciclo e Virescência everifique se os dois pares de genes são herdados independentemente ou existe associação;

b) Faça um gráfico de coluna múltipla para a distribuição de frequência conjunta do item (a);

3. Um economista agrícola está estudando fatores que afetam a adoção de uma nova variedade de arroz altamente produ-tiva. Os resultados estão na Tabela 40.

Tabela 40: Distribuição de frequências conjunta referente a fatores que podem afetar a adoção de uma nova variedade dearroz.

Posse Adoção TotalAdota Não Adota

Proprietário 102 26 128Vários arrendatários 42 10 52Único arrendatário 5 2 7

Total 149 38 187Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

a) A adoção é afetada pela situação de posse de terra?

b) Faça um gráfico de coluna (ou barra) múltipla mostrando o comportamento da adoção, segundo a situação de possede terra. Interprete os resultados.

4. Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de duas cultivares de cebola: BolaPrecoce - EMPASC 352 e Norte 14. Foram utilizadas para o teste de germinação quatro repetições de 100 sementes,totalizando 400 sementes para cada cultivar. A variável em estudo é o número de sementes que germinaram. Os resultadosestão na tabela 41.

a) Faça um gráfico mostrando o comportamento das cultivares com relação à germinação das sementes. Interprete osresultados.

16ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

46

Page 47: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 41: Distribuição de frequências conjunta da Germinação de sementes de duas cultivares de cebola.Cultivares Germinação Total

Germinaram Não germinaramBola Precoce 392 8 400

Norte 14 381 19 400Total 773 27 800

Fonte: ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

b) Verifique se existe associação entre entre as cultivares e a germinação de sementes. Justifique utilizando porcenta-gens e o Coeficiente de Contigência de Pearson.

5. Determinado posto de qualidade de um laticínio retira uma amostra dos pesos dos litros de leite produzidos em um dia,classificando-os de acordo com seu tipo (B, C, UHT), e condições de peso (dentro ou fora das especificações). A Tabela43 mostra a distribuição de frequências conjunta de 6.850 unidades de leite, disposta numa tabela de contingência.

Tabela 42: Distribuição de frequências conjunta do tipo de leite e condição do peso.Condições do Peso Tipo do Leite Total

B C UHTDentro das especificações 500 4.500 1.500 6.500Fora das especificações 30 270 50 350

Total 530 4.770 1.550 6.850Fonte: Dados extraídos da dissertação de mestrado de Luciana S.C.V da Silva - Programa de Pós-graduação em engenharia de produação/ UFSC, 2001.

a) Faça um gráfico mostrando o comportamento dos Tipos de leite com relação às Condições de Peso. Interprete osresultados.

b) Verifique se existe associação entre os Tipos de leite e as Condições de Peso. Justifique utilizando porcentagens e oCoeficiente de Contigência de Pearson.

10 Correlação e Regressão Linear Simples

10.1 Análise de CorrelaçãoÉ comum na prática, o interesse em se analisar o comportamento conjunto de duas ou mais variáveis quantitativas.

Nesta seção trataremos do estudo de correlação entre duas variáveis quantitativas. Suponha que seja de interesse obteruma medida estatística que indique se existe ou não relação entre duas variáveis e se existe relação qual a sua magnitudee sinal. Veja alguns exemplos:

• Idade e altura das crianças;

• Tempo de prática de esportes e ritmo cardíaco;

• Tempo de estudo e nota na prova;

• Doses de Nitrogênio e a produção de milho;

• Taxa de desemprego e taxa de criminalidade; e

• Expectativa de vida e taxa de analfabetismo.

10.1.1 Diagrama de Dispersão

O primeiro passo para verificar a possível correlação entre duas variáveis quantitativas, em termos de um conjuntode elementos em que se observem essas duas variáveis, é através do diagrama (ou gráfico) de dispersão, em que os valoresdestas variáveis são representados por pontos, num sistema cartesiano. Esta representação é feita sob forma de paresordenados (X, Y), onde X é um valor observado de uma variável e Y é o correspondente valor da outra variável.

Exemplo 1 - Números de anos de serviço e número de clientes de 10 agentes de uma companhia de seguros:Na Figura 20 estão representados os pares (X,Y ) observados na Tabela 43. Através da observação da disposição

dos pontos, concluí-se que há uma dependência entre as variáveis, porque no conjunto à medida que aumenta o tempo deserviço, aumenta o número de clientes. Temos então uma correlação positiva.

47

Page 48: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Tabela 43: Números de anos de serviço e No de clientes de 10 agentes de uma companhia de seguros.Agente Anos de serviço (X) No de clientes (Y )

A 2 48B 4 56C 5 64D 6 60E 8 72F 2 45G 3 57H 7 80I 6 75J 3 47

Figura 20: Gráfico de dispersão do Tempo de serviço versus No de clientes

48

Page 49: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Exemplo 2 - Numa pesquisa com 10 famílias com renda bruta mensal entre 10 e 60 salários mínimos, mediu-se:Y: a % da renda bruta anual gasta com assistência médica. X: renda bruta mensal (expressa em no de salários-mínimos).

Tabela 44: Dados referentes a renda bruta anual gasta com assistência médica e No de salários mínimos por família.Família X Y

A 12 7,2B 16 7,4C 18 7,0D 20 6,5E 28 6,6F 30 6,7G 40 6,0H 48 5,6I 50 6,0J 54 5,5

Figura 21: Gráfico de dispersão da Renda bruta anual e gasto com assistência médica.

Observando a Figura 21, nota-se que existe uma dependência inversa, ou seja, uma correlação negativa, aumen-tando a renda bruta, diminui a porcentagem da mesma, gasta em assistência médica.

49

Page 50: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Exemplo 3 - Oito indivíduos foram submetidos a um teste sobre conhecimento de língua estrangeira e, em seguida,mediu-se o tempo gasto por cada um para aprender operar uma determinada máquina. Assim,X: resultado obtido no teste (máximo 100 pontos)Y: tempo em minutos necessário para aprender operar satisfatoriamente a máquina.

Tabela 45: Dados referentes ao resultado de um teste sobre conhecimento em língua estrangeira e tempo gasto paraaprender a operar uma determinada máquina.

Indivíduos X YA 45 343B 52 368C 61 355D 70 334E 74 337F 76 381G 80 345H 90 375

Figura 22: Gráfico de dispersão do resultado obtido no teste e tempo em minutos necessário para aprender operar satisfa-toriamente a máquina.

Do diagrama de dispersão, Figura 22, conclui-se que parece não haver nenhum tipo de dependência entre as duasvariáveis, pois conhecer o resultado do teste não ajuda prever o tempo gasto para aprender a operar a máquina.

10.1.2 Coeficiente de Correlação Linear de Pearson

O coeficiente de correlação linear de Pearson, representado pela letra r, é utilizado para quantificar a correlaçãoentre duas variáveis quantitativas. Assume valores no intervalo [-1,+1] e é calculado por:

r = Corr(X,Y ) =n(∑xy)− (

∑x∑y)√

n(∑x2)− (

∑x)2√n(∑y2)− (

∑y)2

(15)

onde r = −1 indica uma relação linear negativa perfeita, r = 1 indica uma relação linear positiva perfeita e r = 0 indicaque não há relação linear entre as variáveis. Pode haver outro tipo de relação entre X e Y .

Para obter os somatórios da equação de r procede-se da seguinte maneira:∑xy: Fazem-se os produtos X × Y , referente a cada par de observações e depois efetua-se a soma;∑x: Somam-se os valores da variável X;∑y: Somam-se os valores da variável Y ;

50

Page 51: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

∑x2: Elevam-se ao quadrado cada valor de X e, depois, efetua-se a soma.∑y2: Elevam-se ao quadrado cada valor de Y e depois efetua-se a soma.

Exemplo: Considere as seguintes variáveis:Y - consumo de cerveja em um dia (em 100 litros); eX - temperatura máxima (em oC).Estas variáveis foram observadas em nove localidades com as mesmas características demográficas e sócio-econômicas.A seguir, veja a tabela com os dados amostrais.

Tabela 46: Dados referentes a consumo de cerveja em um dia (em 100 litros) e temperatura máxima (em oC).Temperatura Consumo

16 29031 37438 39339 42537 40636 37036 36522 32010 269

Verifique através do coeficiente de correlação se existe associação entre as variáveis e plote os dados num gráficode dispersão.

10.2 Regressão Linear SimplesA análise estatística de um conjunto de dados pode ser realizada através de uma variedade de métodos existentes.

A escolha do método a ser utilizado deve estar de acordo com o tipo de informação disponível e os objetivos que se desejaalcançar. Considere as seguintes situações:

• Um estado implementa novas punições severas para motoristas bêbados; Qual é o efeito disso sobre sobre osacidentes fatais nas estradas?

• Uma diretoria regional de ensino reduz o tamanho de suas turmas do ensino fundamental; qual é o efeito disso sobreas pontuações dos alunos nos exames nacionais?

• Você conclui com sucesso mais um ano de estudos da universidade; qual é o efeito disso sobre seu salário futuro?

O modelo de regressão linear relaciona uma variável X , a outra Y . Como Y é afetado por X , Y é chamada de variáveldependente e X de variável independente. Exemplos de Y e X:Y : consumo X: Renda;Y : Salário X: Anos de estudo;Y : Vendas X: Gastos com propaganda.

O modelo usado com maior freqüência é o linear, na forma:

Yi = α+ βXi + ei, i = 1, · · · , n. (16)

onde:

i) Yi: variável resposta (dependente) de interesse relativa ao indivíduo i;

ii) Xi: variável explicativa (independente);

iii) ei: erro aleatório não observável, aquilo que não é possível "prever"através do modelo;

iv) α e β coeficientes de inclinação e angular da reta, respectivamente. Esses parâmetros são desconhecidos e precisamser estimados.

Dentre os métodos de estimação o mais utilizado na análise de regressão é o método dos mínimos quadrados. Isto se deveem grande parte a simplicidade computacional e matemática do mesmo, e o que é ainda mais importante, está presenteem praticamente todos os pacotes de programas estatísticos disponíveis no mercado. Além disso, o aspecto inferencial éamplamente desenvolvido e divulgado.

51

Page 52: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

↪→ Estimadores de mínimos quadrados para α e β:

α = y − βx (17)

β =

∑yixi − nyx∑x2i − nx2

(18)

Interpretação dos parâmetros do modelo:1) Intercepto (α): é o valor esperado para Y quando X = 0.2) Coeficiente angular (β): representa o quanto varia a média de Y para cada aumento de uma unidade da variável X .

10.2.1 Coeficiente de Determinação - R2

O coeficiente de determinação R2, também chamado de lucro relativo, representa o poder explicativo da regressãoe tem por objetivo avaliar a “qualidade” do ajuste. Seu valor fornece a proporção da variação total da variável Y explicadapela variável X através da função ajustada. Pode-se expressar R2 por:

R2 = β2 ×∑

(xi − x)2∑(yi − y)2

(19)

10.3 Exercícios1. Considere os seguintes dados amostrais obtidos de um estudo da relação entre o número de anos que os candidatosa certo emprego no exterior estudaram alemão no curso secundário ou na faculdade, e as notas obtidas em um teste deproficiência naquela língua:

Indivíduo 1 2 3 4 5 6 7 8 9 10No de Anos (X) 3 4 4 2 5 3 4 5 3 2

Nota do teste (Y ) 57 78 72 58 89 63 73 84 75 48

a) Faça um gráfico de dispersão dos dados;

b) Estime os coeficientes de regressão do modelo e determine a equação da reta de mínimos quadrados que nos permitapredizer a nota do teste a partir do número de anos de estudo em alemão. Interprete os coeficientes do modelo;

c) Qual o lucro relativo (R2) que se tem usando o modelo de RLS?

d) Calcule o coeficiente de correlação entre as duas variáveis e interprete;

2. Os dados abaixo referem-se ao resíduo de cloro em uma piscina em vários momentos, após ter sido tratada comprodutos químicos:

X 0 2 4 6 8 10 12Y 2,2 1,2 1,5 1,4 1,1 1,1 0,9

onde X representa o No de horas que a piscina foi tratada eY representa: Resíduos de cloro (partes por milhão).Para esses dados,∑X = 42,

∑X2 = 364,

∑Y = 9, 4,

∑Y 2 = 13, 72 e

∑XY = 47, 4.

A leitura a zero horas foi feita imediatamente após completado o tratamento químico.

a) Ajuste uma reta de mínimos quadrados que nos permita predizer o resíduo de cloro em termos do número de horasapós a piscina ter sido tratada com produtos químicos.

b) Com a equação da reta de mínimos quadrados, estime o resíduo de cloro na piscina 5 horas após ter sido tratada.

c) Com a equação da reta de mínimos quadrados, estime o resíduo de cloro na piscina 8 horas após ter sido tratada.Por que razão sua resposta é um tanto diferente das 1,1 partes por milhão efetivamente observadas ao final de 8horas?

52

Page 53: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

d) Calcule o coeficiente de correlação entre as duas variáveis e interprete;

e) Qual o lucro relativo (R2) que se tem usando o modelo de RLS?

3. Em uma certa localidade obtiveram-se os seguintes dados sobre a precipitação pluviométrica anual (X) e a produçãode algodão em kilos por área , Y para um período de 7 anos.

Ano 1 2 3 4 5 6 7X 18 159 118 115 22 127 111Y 520 190 208 213 310 194 160

a) Faça um gráfico de dispersão para os dados;

b) Determine a equação de mínimos quadrados que nos permita predizer a produção de algodão em kg por área a partirdos dados sobre precipitação pluviométrica anual;

c) Qual o lucro relativo (R2) que se tem usando o modelo de RLS?

d) Qual seria a produção de algodão estimada se em um dado ano a precipitação pluviométrica for 100?

e) Calcule o coeficiente de correlação entre as duas variáveis e interprete;

4. Em dada região de Bocaina - SP, acredita-se que o gado alimentado em determinado pasto tem um ganho de peso maiorque o usual. Estudos de laboratório detectaram uma substância no pasto e deseja-se verificar se ela pode ser utilizadapara melhorar o ganho de peso de bovinos. Foram escolhidos 15 bois de mesma raça e idade, e cada animal recebeu umadeterminada concentração da substância X (em mg/l). O ganho de peso após 30 dias, denotado por Y , foi anotado e osdados foram os seguintes:

X 0,2 0,5 0,6 0,7 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0Y 9,4 11,4 12,3 10,2 11,9 13,6 14,2 16,2 16,2 17,7 18,8 19,9 22,5 24,7 23,1

a) Estime a equação de regressão. Interprete os coeficientes do modelo;

b) Verifique se existe correlação entre concentração da substância e peso;

c) Para que o gado ganhasse 30 Kg de quanto deveria ser a concentração da substância?

5. Os dados amostrais a seguir representam a procura por um produto (em milhares de unidades) e seu preço (em centavos)cobrado em 6 áreas de mercado diferentes:

Preço(X) 18 10 14 11 16 13Procura(Y) 9 125 57 90 22 79

a) Ajuste uma reta de mínimos quadrados com a qual possamos predizer a procura do produto em termos do seu preço;

b) Interprete os coeficientes do modelo;

c) Calcule o coeficiente de correlação entre as duas variáveis e interprete;

6. Os dados a seguir mostram as despesas com propaganda (expressas em percentagem das despesas totais) e o lucrolíquido operacional (expresso em percentagem do total de vendas) em uma amostra de 6 drogarias:

a) Ajuste uma reta de mínimos quadrados que permita predizer o lucro operacional líquido em termos das despesascom propaganda;

b) Interprete os coeficientes do modelo;

c) Calcule o coeficiente de correlação entre as duas variáveis e interprete;

d) Calcule o coeficiente de determinação do modelo e interprete;

53

Page 54: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Despesas com propaganda Lucro operacional líquido1,5 3,61,0 2,82,8 5,40,4 1,91,3 2,92,0 4,3

7. Uma indústria submete seus operários a um teste de aptidão, e três meses depois mede a produtividade desses operários.Os resultados obtidos de uma amostra de 6 operários, estão na tabela abaixo.

aptidão (X) 22 26 15 19 20 18produtividade (Y ) 48 52 25 40 43 30

a) Determine a reta de regressão que se ajuste aos dados. Interprete os coeficientes obtidos;

b) Se um operário tira 24 no teste de aptidão, qual a sua produtividade esperada, depois de três meses?

8. A tabela abaixo apresenta dados referentes a idade X e a pressão sistólica Y para um grupo de 12 mulheres.

X 56 42 72 36 63 47 55 49 38 42 68 60Y 147 125 160 118 149 128 150 145 115 140 152 155

a) Determine o coeficiente de correlação;

b) Determine a reta de regressão;

c) Estime a pressão de uma mulher de 45 anos.

54

Page 55: Universidade Federal de Mato Grosso Notas de Aula ... · Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007. 3. Universidade Federal de Mato Grosso Notas de Aula

Universidade Federal de Mato GrossoNotas de Aula - Disciplina: Estatística I

Prof. Neuber/Eveliny - 2015 - Curso: Estatística

Referências[1] ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.

[2] BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.

[3] BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatística para cursos de Engenharia e informá-tica. São Paulo: Editora Atlas S.A., 2004.

[4] CRESPO, A.A.; Estatística Fácil. Editora: Saraiva.

[5] FONSECA, J.S.; MARTINS, G. de A. Curso de estatística, 4a ed., Editora Atlas, SP., 2010.

[6] JAY L. DEVORE, Probabilidade e Estatística para Engenharia e Ciências, Editora THOMSON, SP, 2006.

[7] JOHN E. FREUND, Estatística Aplicada à Economia, Administração e Contabilidade, 11a ed., Editora Artmed Bo-okman, SP., 2006.

[8] LIMA, A.C.Pedroso; MAGALHÃES, M.Nascimento. Noções de Probabilidade e Estatística. Editora Edusp. 2004.

[9] MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning, 2004.

[10] MORETTIN, Luiz Gonzaga. Estatística Básica. 7a ed. Editora Makron Books. Vols. 1 e 2. 1999.

[11] NETO, P.L.O.Costa. Estatística, 2a Edição, Editora Edgard Blücher Ltda. 2002.

[12] SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.

[13] STEVENSON, W.J. Estatística aplicada à administração. Tradução de Alfredo Alves de Farias. Harbra, S.P., 1981.

55