64
ESTATÍSTICA DESCRITIVA ESTATÍSTICA DESCRITIVA Prof. MSc. Marcos Antônio Resende Prof. MSc. Marcos Antônio Resende Miranda Miranda 1

slides de estat+¡stica - 2010

Embed Size (px)

Citation preview

Page 1: slides de estat+¡stica - 2010

ESTATÍSTICA DESCRITIVAESTATÍSTICA DESCRITIVA

Prof. MSc. Marcos Antônio Resende MirandaProf. MSc. Marcos Antônio Resende Miranda

1

Page 2: slides de estat+¡stica - 2010

1 - Introdução

Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão diante de incertezas, justificando cientificamente as decisões.

Os princípios estatísticos são utilizados em uma grande variedade de situações – no governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas e físicas.

2

Page 3: slides de estat+¡stica - 2010

Estatística é a ciência ou método científico que estuda os fenômenos multicausais, coletivos ou de massa e procura inferir as leis que os mesmos obedecem.

Método estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os passos da metodologia estatística são os seguintes:

3

Page 4: slides de estat+¡stica - 2010

Definição cuidadosa do problema. Formulação de um plano para coleta das unidades de observação. Coleta, resumo e apresentação das unidades de observação ou de seus valores numéricos. Análise dos resultados. Divulgação de relatório com as conclusões, de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisões.

4

Page 5: slides de estat+¡stica - 2010

Em geral, é aceita a divisão da estatística em dois grandes grupos: estatística descritiva indutiva.

Descritiva: corresponde aos procedimentos

relacionados com a coleta, elaboração,

tabulação, análise, interpretação e

apresentação dos dados.

5

Page 6: slides de estat+¡stica - 2010

Isto é, inclui as técnicas que dizem respeito

à sintetização e à descrição de dados

numéricos. Tais métodos podem ser gráficos

e envolvem a utilização de recursos

computacionais.

O objetivo da estatística descritiva é tornar as

coisas mais fáceis de entender, relatar e

discutir.

6

Page 7: slides de estat+¡stica - 2010

Indutiva (ou inferencial): parte de uma ou

mais amostras (subconjuntos da população)

e conclui sobre a população. Utiliza técnicas

como a teoria das probabilidades, inferência

estatística, amostragem.

Exemplos de utilização: Pesquisas na Educação,

Pesquisa de Mercado, Pesquisa de opinião pública,

Ensaios de medicamentos e em praticamente todo

experimento.

A inferência estatística procura com base nos

dados amostrais tirar conclusões sobre a população.7

Page 8: slides de estat+¡stica - 2010

Com maior freqüência utilizamos o estudo da

amostra do que da população, não só por

serem menos dispendiosas e consumirem

menos tempo no processamento dos dados,

mas também porque muitas vezes não

dispomos de todos os elementos da

população.

8

Page 9: slides de estat+¡stica - 2010

O esquema a seguir tente sintetizar as etapas

de uma pesquisa estatística:

Fig. 1.1 – Etapas de uma pesquisa estatística9

Page 10: slides de estat+¡stica - 2010

Definições:

População: coleção completa de todos os

elementos (valores, pessoas, medidas,...) a

serem estudados.

Amostra: subcoleção de elementos extraídos

da população.

Censo: coleção de dados relativos a todos os

elementos de uma população.

10

Page 11: slides de estat+¡stica - 2010

Amostragem: coleção de dados relativos a

elementos de uma amostra.

Parâmetro: medida numérica que descreve

uma característica de uma população

Estatística: medida numérica que descreve

uma característica de uma amostra

11

Page 12: slides de estat+¡stica - 2010

Exemplos:

i) Deseja-se conhecer o perfil sócio- econômico dos pais dos alunos de uma escola.População ou universo: todos os pais dos

alunos.Características: perfil sócio-econômico.

12

Page 13: slides de estat+¡stica - 2010

ii) Deseja-se conhecer o consumo de energia elétrica em MWh nas residências da cidade de Teófilo Otoni no ano de 2009.

População ou universo: todos as residências que estavam ligadas a rede elétrica em Teófilo Otoni , em 2009.

Características: X = consumo anual de energia elétrica em MWh.

13

Page 14: slides de estat+¡stica - 2010

iii) Deseja-se saber se nas indústrias situadas no Estado de Minas Gerais, em 2009, existia algum tipo de controle ambiental.

População ou universo: indústrias situadas no Estado de Minas Gerais em 2009.

Característica: X = existência ou não de algum tipo de controle ambiental na indústria.

14

Page 15: slides de estat+¡stica - 2010

iv) Estudo sobre a precipitação pluviométrica na Região Sudeste no ano 2009.

População ou universo: área referente à

Região Sudeste.

Característica: X = precipitação pluviométrica.

15

Page 16: slides de estat+¡stica - 2010

Populações finitas e infinitas: Quanto aonúmero de elementos, as populações podemser classificadas em finita ou infinita,dependendo do número de elementos que acompõe.Exemplos :i) População finita: empresas do Pólo Petroquímico de Camaçari.ii) População infinita: as pressõesatmosféricas ocorridas nos diversos pontos doContinente em determinado momento. 16

Page 17: slides de estat+¡stica - 2010

Em geral, como os universos são grandes, investigar todos os elementos populacionaispara determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de investigação leva a destruição do elemento observado, ou, como no caso de populações infinitas, éimpossível observar a totalidade da população. Assim, estudar parte da população constitui-se um aspecto fundamental da Estatística (amostra).

17

Page 18: slides de estat+¡stica - 2010

Amostragem

O objetivo da amostragem é permitir fazer inferências sobre uma população após Inspeção de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populaçõesinfinitas tornam a amostragem preferível a umestudo completo (censo).

Os principais tipos de amostragem utilizados são os probabilísticos, onde todos osindivíduos da população têm a mesma chance de serem selecionados.

18

Page 19: slides de estat+¡stica - 2010

Os planos de amostragem probabilística

são delineados de tal modo que se conhece

todas as combinações amostrais possíveis e

suas probabilidades, podendo-se então

determinar o erro amostral.

Os métodos mais comuns de amostragem

probabilística são:

19

Page 20: slides de estat+¡stica - 2010

Amostragem aleatória simples: os elementos

de uma população são escolhidos de tal forma

que todos tenham a mesma chance de serem

escolhidos. Pode-se utilizar uma tabela de

números aleatórios ou um programa de

geração de números aleatórios. Amostragem estratificada: subdivide-se a

população em, no mínimo, dois estratos

(subpopulações) que compartilham a mesma

característica e em seguida escolhe-se 20

Page 21: slides de estat+¡stica - 2010

uma amostra de cada. Exemplo: homens e

mulheres. Amostragem sistemática: escolhe-se um

ponto de partida e então, sistematicamente,

selecionam-se os outros. Por exemplo: o 3°,

403°, 803°, 1203°,... Indivíduos. Amostragem por conglomerados: divide-se a

população em conglomerados (áreas), em

seguida sorteiam-se algumas áreas e analisam-

se todos os elementos dos conglomerados

escolhidos. Por exemplo: bairros. 21

Page 22: slides de estat+¡stica - 2010

22

Page 23: slides de estat+¡stica - 2010

23

Page 24: slides de estat+¡stica - 2010

24

Page 25: slides de estat+¡stica - 2010

25

Page 26: slides de estat+¡stica - 2010

Amostragens não probabilísticas são

utilizadas quando a população em estudo é

muito pequena ou de difícil obtenção. Neste

caso a análise de uma amostra poderia

causar distorções. Uma pessoa familiarizada

com a população pode indicar melhor as

unidades amostrais. Este tipo de amostragem

não permite avaliar o erro amostral. EX:

doença rara.

26

Page 27: slides de estat+¡stica - 2010

Tipos de Variáveis

A característica que nos interessa analisar

recebe o nome de variável.

As características ou variáveis podem ser

divididas em dois tipos: qualitativas e

quantitativas.

27

Page 28: slides de estat+¡stica - 2010

QUALITATIVA NOMINAL (SEXO, COR DOS OLHOS...)

ORDINAL (CLASSE SOCIAL, GRAU DE INSTRUÇÃO...)

QUANTITATIVA CONTÍNUA (PESO, ALTURA...) DISCRETA (NÚMERO DE FILHOS, NÚMERO

DE CARROS...)28

Page 29: slides de estat+¡stica - 2010

Variáveis qualitativas - quando o resultado da

observação é apresentado na forma de

qualidade ou atributo. Exemplos: sexo; estado

civil; grau de escolaridade; etc.

Variáveis quantitativas - quando o resultado

da observação é um número, decorrente de

um processo de mensuração ou contagem.

Exemplos: número de filhos; salário mensal;

altura; peso; idade; tamanho da família; etc.

29

Page 30: slides de estat+¡stica - 2010

Para resumir as informações levantadas

durante uma pesquisa usaremos a técnica e a

representação mais apropriada, a depender do

tipo de variável que estamos analisando.N atu reza d o s D ad o s

E x : n ú m ero d e h ab itan tes d e u m a cid ad e

C o n tagen s

D iscreta

E x : ren d a p er cap ita d e u m a cid ad e

M ed id as

C o n tín u a

Q u an tita tivas

E x : grau d e esco larid ad e

A trib u to s / ca tego rias

Q u alita tivas

V ariáveis

Fig. 1.2 – Natureza dos dados30

Page 31: slides de estat+¡stica - 2010

Apresentação Gráfica de Dados Após a apuração, há a necessidade de

dispor os dados e os resultados obtidos a partirdeles em uma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e facilitar a compreensão das conclusões apresentadas ao leitor. Os dados e os resultados são então apresentados na formade tabelas.

Uma tabela possui elementos essenciais, taiscomo:

31

Page 32: slides de estat+¡stica - 2010

Título – é obrigatório. Deve ser colocado naparte superior da tabela. Corpo da tabela – é o conjunto de linhas e colunas onde se encontram as informações sobre o fato observado. Cabeçalho – é a parte superior da tabela, onde se especifica o conteúdo de cada coluna. Coluna indicadora – é a parte da tabela emque se especifica o conteúdo de cada linha. Fonte – é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É colocado no fim da tabela. 32

Page 33: slides de estat+¡stica - 2010

Clubes Porcentagem de torcedores (%)

A 15

B 11

C 7

D 6

E 5

F 4

G 4

H 3

I 2

Tab. 1.1: Ranking das torcidas no futebol brasileiro

Fonte: Rede Globo, 06 de jan. de 200433

Page 34: slides de estat+¡stica - 2010

Os dados estatísticos, apresentados em tabelas, também podem ser expostos em gráficos. Desde que não haja necessidade de grande precisão, os gráficos dão, melhor do que as tabelas, visão de tendências e ajudam a interpretar um fenômeno.

34

Page 35: slides de estat+¡stica - 2010

Tabelas, gráficos e medidas podem ser

utilizados para descrever ou explorar um

conjunto de dados, ou comparar dois ou mais

conjuntos. Gráfico de Barras: usado para apresentar

séries cronológicas, geográficas e categóricas.

É mais comum a apresentação das barras em

posição vertical, conforme representado na

Fig. 1.8.

35

Page 36: slides de estat+¡stica - 2010

No entanto, as barras em posição horizontal

facilitam a identificação das categorias,

principalmente nos casos em que essas

categorias têm nomes muito longos.

Gráfico de Barras Vertical: facilidade de

identificação das categorias, conforme

representado na Fig. 1.9.

36

Page 37: slides de estat+¡stica - 2010

Fonte: não identificada

Fig. 1.8 – Gráfico de barras

Fonte: Rede Globo, 06 de jan. de 2004 Fig. 1.9 – Gráfico de barras

vertical

Ranking das torcidas

0 5 10 15 20

A

B

C

D

E

F

G

H

I

Clu

bes

Porcentagem de torcedores (%)

Ranking de torcedores

024

68

1012

1416

A B C D E F G H I

Clubes

Porc

entag

em de

torc

edor

es

(%)

37

Page 38: slides de estat+¡stica - 2010

Gráfico de Setores: usado para comparar

proporções, conforme representado pela Fig.

1.10.

Gráfico de Linhas: usado para apresentar

séries cronológicas, conforme representado

pela Fig. 1.11.

38

Page 39: slides de estat+¡stica - 2010

Consumo de refrigerantes

38%

26%

18%

10%

8%

Coca-Cola

GuaranáAntárticaFanta

Sprite

Outros

Os brasileiros de férias no exterior

4,2

2,9 2,92,3

1,7 1,9

0

1

2

3

4

5

1 2 3 4 5 6

Ano

Mil

es d

e v

iaja

nte

s

Fonte: não identificada Fig. 1.10 – Gráfico de setor

Fonte: Revista Veja, 14 de jan. de 2004Fig. 1.11 – Gráfico de linhas

Gráficos Comparativos: são desenhados dois gráficos, lado a lado, para melhor estabelecer a comparação de um fenômeno, conforme representado na Fig. 1.12.

39

Page 40: slides de estat+¡stica - 2010

Fonte: Folha de São Paulo, 12 de jan. de 2004

As universidades e o cumprimento da LDB

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

1 2 3

Situação das Instituições

Porc

enta

gem

Privadas

Públicas

Total

Situações das Instituições:1 – Com ao menos 1/3 do corpo docente trabalhando em regime integral.2 - Com ao menos 1/3 do corpo docente com título de mestre ou doutor3 – Têm menos de três cursos de pós-graduação recomendados pela Capes

Fig. 1.12 – Gráfico comparativo

40

Page 41: slides de estat+¡stica - 2010

Exercícios.1. Identifique cada número como discreto ou

contínuo.a) Cada cigarro Camel tem 16,13 mg de

Alcatrão.b) O altímetro de um avião da Varig indica

uma altitude de 21.359 pés.c) Uma pesquisa efetuada com 1015

pessoas indica que 40 delas são assinantes de um serviço de informação on-line.

41

Page 42: slides de estat+¡stica - 2010

d) O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar passagem a pedestres é de 2367 segundos.

e) De 1000 consumidores pesquisados, 930 reconheceram a marca da “Coca-Cola”.

f) Apresente dois exemplos de dados discretos ou contínuos de sua empresa / pesquisa.

42

Page 43: slides de estat+¡stica - 2010

2. Uma pessoa foi encarregada de pesquisar

o reconhecimento da marca Nike, devendo

contactar por telefone 1500 consumidores.

Por que razão é incorreta a utilização de

listas telefônicas como população para

fornecer a amostra?

43

Page 44: slides de estat+¡stica - 2010

3. Um relatório patrocinado pela Florida Citrus

Comission concluiu que os níveis de

colesterol podem ser reduzidos mediante

ingestão de produtos cítricos. Por que razão a

conclusão poderia ser suspeita?

4. Identifique o tipo de amostragem utilizado:

a) Um psicólogo de uma Universidade

seleciona 12 homens e 12 mulheres de cada

uma das quatro turmas de inglês. 44

Page 45: slides de estat+¡stica - 2010

b) Um cabo eleitoral escreve o nome de cada vereador da cidade, em cartões separados, mistura-se e extrai 3 nomes.

c) Um pesquisador médico da USP entrevista todos os portadores de leucemia em cada um dos 20 hospitais selecionados aleatoriamente.

d) A empresa Sony seleciona cada 200º CD de sua linha de produção e faz um teste de qualidade rigoroso.

45

Page 46: slides de estat+¡stica - 2010

e) Um professor seleciona 15% de mulheres e 15% de homens de uma turma para responder a uma pergunta.

f) A supervisora escolhe dentre os 28 professores, 3 para representar a escola em um evento na cidade.

46

Page 47: slides de estat+¡stica - 2010

5. Uma população se encontra dividida em

três estratos, com tamanhos, respectivamente,

A = 80, B = 120 e C = 60. Ao se realizar uma

amostragem estratificada proporcional, 12

elementos da amostra foram retirados do

primeiro estrato. Qual é o número de

elementos da amostra?

47

Page 48: slides de estat+¡stica - 2010

6. Uma amostragem entre os moradores de

uma cidade é realizada da seguinte forma: em

cada bairro, sorteia-se um certo número de

quarteirões proporcional à área do bairro; de

cada quarteirão, são sorteadas cinco

residências, cujos moradores são entrevistados.

a) Essa amostra será representativa da

população ou poderá apresentar algum vício?

b) Que tipo de amostragem foram usados

no procedimento? Justifique.48

Page 49: slides de estat+¡stica - 2010

7. Discuta sobre o planejamento de um

experimento enfatizando a importância dos

métodos de boa amostragem.

8. (ENEM/2006) Uma pesquisa de opinião foi

realizada para avaliar os níveis de audiência

de alguns canais de televisão, entre 20h e

21h, durante uma determinada noite. Os

resultados obtidos estão representados no

gráfico de barras abaixo.49

Page 50: slides de estat+¡stica - 2010

Nº de residências 100

80 60 40 20 0 A B C D nenhum

Fig. 1.13 - Nº de residências ligadas em um determinado canal de TV, entre 20h e 21h, durante uma noite.

I) O número de residências atingidas nessapesquisa foi aproximadamente de:

a) 100 b) 135 c) 150 d) 200 e) 22050

Page 51: slides de estat+¡stica - 2010

II) A porcentagem de entrevistados que

declararam estar assistindo ao canal B é

aproximadamente:

a) 15% b) 20% c) 22% d) 27% e) 30%

51

Page 52: slides de estat+¡stica - 2010

20.000

18.000

16.000

14.000

12.000

10.000 1991 1992 1993 1994 1995 1996 1997

9. O quadro abaixo apresenta o número de novos casos de AIDS notificados anualmente no Brasil no período considerado:

Fig. 1.14 - Número de novos casos de AIDS notificados anualmente no Brasil

52

Page 53: slides de estat+¡stica - 2010

As informações contidas no gráfico permitem concluir corretamente que, no período considerado:

a)a partir de 1997, certamente caiu o número de novos casos de aidéticos;

b)o número aproximado de aidéticos no país, em 1997, era de 112.000;

c)a maior taxa de variação no número de aidéticos ocorreu em 1996;

d)a maior taxa de variação no número de aidéticos ocorreu em 1992;

e)o número máximo de aidéticos ocorreu em 1996. 53

Page 54: slides de estat+¡stica - 2010

2. REPRESENTAÇÃO GRÁFICA E DISTRIBUIÇÃO DE FREQÜÊNCIA2.1 – Introdução

Ao estudarmos grandes conjuntos de dados, é conveniente organizá-los e resumi-los, construindo uma tabela de freqüências. A título de ilustração, considere o exemplo a seguir, de dados brutos, relativo ao tempo de parada(em minutos) de uma máquina para manutenção (Tab. 2.1).A construção de uma distribuição de freqüência consiste na elaboração de classes a partir de intervalos, fixando um número adequado de classes.

54

Page 55: slides de estat+¡stica - 2010

Tab. 2.1 - Tempo de parada (em minutos) de uma máquina para manutenção

7 3 4 9 5

8 5 3 8 7

9 3 1 9 9

5 7 7 10 3

4 8 8 8 7

8 8 9 3 8

6 10 7 7 9

9 9 7 8 1

55

Page 56: slides de estat+¡stica - 2010

O primeiro procedimento a ser tomado para a elaboração de uma distribuição de freqüências de uma variável contínua consiste na ordenação dos dados (rol), para permitir uma melhor manipulação (Tab. 2.2).

Tab. 2.2 - Tempo de parada (em minutos) de uma máquina para manutenção

1 4 7 8 9

1 5 7 8 9

3 5 7 8 9

3 5 7 8 9

3 6 7 8 9

3 7 8 8 9

3 7 8 9 10

4 7 8 9 1056

Page 57: slides de estat+¡stica - 2010

2.2 – Distribuição de FreqüênciasA precisão de medida corresponde ao

menor valor detectável pelo instrumento ou procedimento de medida empregado. No exemplo dos tempos de parada, a precisão de medida é x = 1. Deve-se atentar que os valores presentes no conjunto de dados não são exatos, mas carregam alguma inexatidão devido à precisão de medida. Assim, um valor de 5 não representa necessariamente uma nota de exatamente 5, mas sim uma nota que pode estar acontecendo em qualquer ponto entre 4,5 e 5,5. 57

Page 58: slides de estat+¡stica - 2010

A elaboração de uma distribuição de freqüência para variáveis contínuas requer a apresentação de alguns conceitos:

1 – Amplitude: corresponde à diferença entre o maior e o menor valor de um conjunto de dados. Em geral, é simbolizada por “A”.

2 - Amplitude de Classe: consiste na diferença entre o limite superior e o limite inferior de uma classe em uma distribuição de freqüência. Será aqui simbolizada por “c”.

58

Page 59: slides de estat+¡stica - 2010

A seguir, temos o algoritmo para obtenção de uma

distribuição de freqüência relativa à uma variável

contínua.

Passo 1 – Escolhe-se um número de classes k. É importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüência nula ou muito pequena, apresentando uma distribuição irregular e prejudicial à interpretação do fenômeno.

59

Page 60: slides de estat+¡stica - 2010

Para determinar o número de classes há diversos métodos. Veremos dois deles:

(1) k = 5, para n 25 e k = √n , para n > 25.

(2) Fórmula de Sturges: k = 1 + 3,3 log n, onde n é o tamanho da amostra. Ex: Se n = 49 teríamos: k = 7 k = 1 + 3,3 log 49 = 6,58 7

nk nk nk

60

Page 61: slides de estat+¡stica - 2010

Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em mente é que a escolha dependerá, sobretudo da natureza dos dados e da unidade de medida em que eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco flexíveis. Para facilitar a análise é conveniente que se mantenham os intervalos de classe sempre constantes.

Passo 2 – Calcula-se a amplitude total A dos dados: A = MVO – mvo onde MVO: maior valor observado e mvo: menor valor observado;

61

Page 62: slides de estat+¡stica - 2010

Passo 3 – Calcula-se a amplitude de classe c, através de: fazendo o arredondamento igual ao número de casas decimais dos dados.

k

ΔxAc

k

ΔxAc

Passo 4 – O limite inferior LI1 da 1ª classe é obtido por: LI1 = mvo - x/2

62

Page 63: slides de estat+¡stica - 2010

Passo 5 - O limite superior LS1 da 1ª classe é

obtido por: LS1 = LI1 + c, sendo que LS1 = LI2 e

assim, sucessivamente – soma-se ao valor do limite inferior da primeira classe a amplitude de classe e obtém-se o limite superior, sendo o limite superior da primeira classe o inferior da segunda;

Passo 6 – Construídas as classes, são contados quantos dados estão em cada classe (freqüências absolutas de cada classe);

63

Page 64: slides de estat+¡stica - 2010

Obs: a freqüência absoluta (fa) é o número de repetições de um valor individual ou de uma classe de valores da variável.Passo 7 - São calculadas as freqüências relativas e percentuais de cada classe.Obs: a freqüência relativa (fr) representa a proporção de observações de um valor individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo.Obs: a freqüência percentual (fp) é o produto da freqüência relativa por 100, tendo como resultado uma porcentagem 64