Introdu˘c~ao - dme.im.ufrj.brflavia/mad342/aula03_mad342.pdf · A amostra e formada pelas 20 medidas de tempos de rea˘c ... No estudo foram analisados dados da estatura dos homens

Inferencia Estatıstica: como fazer afirmacoes

sobre uma populacao conhecendo uma amostra

da populacao?

Referencia: Bussab e Morettin - Estatıstica

Basica - Editora Saraiva - Capıtulos 10 e 11.

Introducao

O uso de informacoes de uma amostra para

concluir sobre o todo faz parte da atividade

diaria da maioria das pessoas.

Observe como uma dona de casa verifica se

o feijao esta bom de sal. Ou ainda, observe

quando um cliente de supermercado, apos pro-

var uma uva rosada na secao de horti-fruti,

decide se vai comprar ou nao dessas uvas. Es-

sas decisoes sao baseadas em procedimentos

amostrais.

1

Conceitos Importantes

Populacao: e o conjunto de todos os elemen-

tos sob investigacao com pelo menos uma ca-

racterıstica em comum.

Amostra: e qualquer subconjunto nao-vazio

da populacao.

Parametro: Caracterıstica numerica da po-

pulacao.

Estatıstica: Caracterıstica numerica da amos-

tra.2

Observe que aqui o uso da palavra estatıstica

tem outro significado.

Com o conceito que acabamos de apresentar

podemos dizer que usamos estatısticas para es-

timar parametros.

Um estimador de um parametro e uma es-

tatıstica.

Uma questao importante na Inferencia Estatısti-

ca e a de como avaliar um estimador.

3

Problemas de Inferencia

• Verificacao do tempo de vida medio da

lampada fluorescente especificado pelo fa-

bricante. Essa verificacao pode fazer parte

de

1. um procedimento de controle de qua-

lidade da empresa - se o tempo medio

de vida da amostra retirada de um lote

de tais lampadas nao atender a especi-

ficacao estabelecida, entao todo o lote

deve ser rejeitado;

2. um procedimento de um orgao de de-

fesa do consumidor - se o tempo medio

de vida de uma amostra de tais lampadas

obtidas de diversos pontos de venda aten-

der a especificacao do fabricante, entao

a reclamacao dos consumidores nao de-

vera ser aceita.

4

• Avaliacao de um novo produto. Antes do

lancamento, o novo produto sera distribuı-

do a um grupo de consumidores potenci-

ais que responderao um questionario. Se

os resultados dos questionarios mostrarem

que o novo produto foi bem aceito, entao

o grupo de marketing tera suporte para de-

fender o lancamento do novo produto.

• Previsao do tempo medio de espera dos

clientes no caixa de um banco. Se o tempo

medio de espera de uma amostra de clientes

for maior que o tempo medio afirmado pelo

gerente da agencia, entao sera bastante

provavel que as reclamacoes dos clientes

tenham fundamento.

5

• Ha razoes para supor que o tempo de rea-

cao Y a certo estımulo visual depende da

idade do indivıduo. Suponha que essa de-

pendencia seja linear.

Para verificar se essa suposicao e verdadeira,

obtiveram-se 20 dados da seguinte forma:

20 pessoas foram selecionadas, sendo 10

homens e 10 mulheres. Dentro de cada

grupo, de homens e mulheres, foram sele-

cionadas duas pessoas das seguintes faixas

de idade: 20, 25, 30, 35 e 40 anos.

Cada pessoa foi submetida ao teste e seu

tempo de reacao y foi registrado.

A populacao poderia ser considerada como

formada por todas aquelas pessoas que vies-

sem a ser submetidas ao teste, segundo o

sexo e a idade. A amostra e formada pelas

20 medidas de tempos de reacao.

6

• Previsao da populacao brasileira por genero

e idade a fim de formular polıticas publicas

para os proximos 40 anos.

Existem diversos modelos de previsao detamanho de populacao. Diversos fatoresinterferem na dinamica da populacao. Naquinta-feira, dia 29 de agosto de 2013, oIBGE divulgou que no Brasil ja sao 201milhoes de habitantes e tambem apresen-tou uma previsao sobre a populacao porgenero e idade ate 2060.

A populacao total projetada para o Brasil em 2013foi de 201,0 milhoes de habitantes, atingindo 212,1milhoes em 2020, ate alcancar o maximo de 228,4milhoes em 2042, quando comecara a decrescer,atingindo o valor de 218,2 em 2060, nıvel equiva-lente ao projetado para 2025 (218,3 milhoes).

7

• Estudo revela que a estatura media dos homens eu-ropeus aumentou 11 cm entre 1870 e 1980 Em O Globo,04/09/2013.

LONDRES - A estatura media dos homens europeus aumen-tou 11 centımetros, de 167 a 178, em pouco mais de umseculo, segundo resultados de uma pesquisa da Universidadede Essex, do Reino Unido. No estudo foram analisados dadosda estatura dos homens com 20 anos de 15 paıses europeusentre 1870 e 1980. A analise se limitou a homens, segundoa pesquisa, porque os dados de mulheres sao mais difıceisde se conseguir. Durante as ultimas decadas, a informacaofoi obtida principalmente em levantamentos de estatura desoldados. Nao houve grande diferenca entre os paıses. O es-tudo revela que muitos paıses europeus, entre eles a Gra Bre-tanha e a Irlanda, os paıses escandinavos, Holanda, Austria,Belgica e Alemanha, tiveram “clara aceleracao” do ritmo decrescimento durante as duas guerras mundiais e a GrandeDepressao. Fato que os autores consideram “surpreendente”,ja que e o perıodo anterior aos grandes avancos da medicinamoderna e da implementacao dos servicos nacionais de saude.O aumento da estatura humana e um indicador chave para amelhora da saude da populacao, afirmou ao “El Paıs”, Timo-thy Hatton, professor de Economia da Universidade de Essexe diretor do estudo. Na opiniao dele, uma razao possıvel paraeste aumento, alem da diminuicao da mortalidade infantil,poderia ser a forte tendencia de reducao de fecundidade.

8

Como selecionar uma amostra?

As observacoes contidas numa amostra sao

tanto mais informativas sobre a populacao, quan-

to mais conhecimento tivermos dessa mesma

populacao.

Por exemplo a analise quantitativa de globulos

brancos obtida de algumas gotas de sangue

da ponta do dedo de um paciente da a ideia

geral da quantidade de globulos brancos no

corpo todo, pois sabe-se que a distribuicao dos

globulos brancos e homogenea, e de qualquer

lugar que se tivesse retirado a amostra ela seria

“representativa”.

Nem sempre a escolha de uma amostra ade-

quada e imediata.

9

Em Bussab e Morettin, os procedimentos de

levantamento de dados sao apresentados nos

seguintes tres grupos.

1. Levantamentos Amostrais - a amostra e

obtida de uma populacao bem definida, por

meio de processos bem protocolados e contro-

lados pelo pesquisador.

Tais levantamentos costumam ser subdividi-

dos em dois subgrupos: probabilısticos e nao-

probabilısticos. O primeiro reune todas as tec-

nicas que usam mecanismos aleatorios de sele-

cao dos elementos de uma amostra, atribuindo

a cada um deles, uma probabilidade, conhecida

a priori, de pertencer a amostra.

10

No segundo grupo estao os demais procedi-mentos, tais como amostras intencionais, nasquais os elementos sao selecionados com oauxılio de especialistas, e amostras de volunta-rios, como ocorre em alguns testes sobre novosmedicamentos e vacinas.

A grande vantagem dos procedimentos proba-bilısticos e poder medir a precisao da amostraobtida.

2. Planejamento de Experimentos. Tem comoprincipal objetivo analisar o efeito de uma varia-vel sobre outra(s). Requer interferencias dopesquisador sobre o ambiente em estudo (po-pulacao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.

Exemplo: A altura de um produto na gondolade um supermercado afeta as vendas do pro-duto? Se sim, como?

11

3. Levantamentos Observacionais. Os da-

dos sao coletados sem que o pesquisador te-

nha controle sobre as informacoes obtidas, ex-

ceto eventualmente sobre possıveis erros gros-

seiros. As series de dados temporais sao e-

xemplos tıpicos desses levantamentos.

Exemplo: suponha o problema de prever as

vendas futuras numa empresa em funcao das

vendas passadas. O pesquisador nao pode se-

lecionar dados, esses sao as vendas efetiva-

mente ocorridas.

Observe que aqui tambem se encaixa o pro-

blema de projecoes de tamanhos populacionais.

12

Amostra Aleatoria Simples(AAS)

Uma amostra aleatoria simples ocorre quando

atribuımos probabilidades de selecao na amos-

tra iguais para todos os elementos da popula-

cao.

Com relacao a precisao neste tipo de amostra-

gem existe diferenca se a selecao e feita com

reposicao ou sem reposicao.

No entanto, quando o tamanho da amostra

for muito inferior ao tamanho da populacao

(menor que 5% da populacao) a selecao sem

reposicao comporta-se, de modo aproximado,

como uma selecao com reposicao, e nesse caso

costuma-se tratar o problema como se fosse

com reposicao.

13

Distribuicao Amostral

No inıcio da aula falamos em usar estatısticas

para estimar um parametro.

Na pratica so podemos obter uma amostra da

populacao e, com base nela, tirar conclusoes

sobre a populacao.

Como poderemos fazer afirmacoes sobre a qua-

lidade das nossas conclusoes? Como podere-

mos falar sobre o erro decorrente da variabili-

dade amostral?

A resposta a essas perguntas envolve o con-

ceito de distribuicao amostral.

14

Suponha o problema de estimar um parametro

θ de certa populacao e que para isso dispo-

mos de uma amostra de tamanho n dessa po-

pulacao: x1, x2, ..., xn. Suponha tambem que

usaremos uma estatıstica T funcao da amostra

para estimar θ.

T = t(x1, x2, ..., xn)

T pode ser a soma (n∑i=1

xi), a media (x), a me-

diana, a amplitude, o desvio padrao amostral, e

sua escolha dependera do parametro que que-

remos estimar.

Para poder avaliar a qualidade de T como esti-

mador de θ e fundamental conhecer o modelo

probabilısitco que explica a variabilidadde de

seus valores, ou seja, a distribuicao amostral

de T .15

A figura a seguir ilustra como poderıamos ficticiamente obter essadistribuicao.

16

Mas como poderemos pelo menos fazer umhistograma de valores da estatıstica se so dis-pomos de uma amostra?

O Teorema Central do Limite da Teoria dasProbabilidades e uma peca chave para resolveresse problema.

Vamos simplificar o problema de estimacao deum parametro generico θ para um problemaespecıfico de estimacao da media populacional,µ.

Para isso dispomos de uma amostra aleatoriade tamanho n da populacao cujos valores ob-servados sao x1, x2, ..., xn.

No que segue usaremos: µ para a media dapopulacao e

σ2 para a variancia da populacao (σ - desviopadrao da populacao).

Um estimador natural de µ a ser usado e amedia amostral x.

17

O Teorema Central do Limite (TCL) afirma:

Se X1, X2,..., Xn e uma amostra aleatoria sim-

ples de uma populacao qualquer cuja media

e µ e variancia e σ2, a distribuicao amostral

de X =1

n

n∑i=1

Xi, a media amostral, se apro-

xima de uma distribuicao normal com media µ

e varianciaσ2

nquando n cresce.

Ou seja, para n suficientemente grande,

Xa∼ N

(µ,σ2

n

)ou equivalentemente,

X − µσ/√n

a∼ N (0,1)

Para entender melhor esse resultado vamos a-

presentar alguns exemplos.

18

Situacao 1: Suponha uma populacao Uniforme

em [0,5]: sua densidade e constante no in-

tervalo dado. O valor esperado de uma po-

pulacao uniforme em [0,5] e 2,5 e a variancia

e 25/12 ' 2,08.

Agora vamos sortear 100 amostras aleatorias

de tamanho 2 e calcular as respectivas medias

amostrais. A figura a seguir mostra um his-

tograma dos 100 valores obtidos.

19

Os histogramas a seguir mostram os compor-

tamentos da media amostral para 100 amostras

de tamanho 5, 10, 15 e 25 de uma populacao

uniforme em [0,5].

20

21

Como e possıvel perceber, a medida que au-

mentamos o tamanho da amostra, a variabi-

lidade dos valores da media amostral se torna

cada vez mais simetrica em torno de 2,5 (a

media da populacao) e que a variabilidade em

torno da media diminui.

Para amostras de populacoes uniformes, consi-

deram-se tamanhos amostrais moderados para

usar o TCL. Para n = 15 a aproximacao ja

e boa. No entanto, se a distribuicao popu-

lacional for muito afastada de uma normal,

por exemplo com forte assimetria positiva, sera

necessario um tamanho amostral bem superior

a 15 para que a aproximacao seja considerada

boa.

Vamos ver um exemplo desse tipo.

22

Suponha uma populacao com o seguinte com-

portamento.

Aqui foi escolhida uma populacao cuja media

e 0,04, mas que apresenta assimetria positiva.

23

Histogramas dos valores de x para 200 amostras

de tamanhos 5, 20, 30 e 40.

24

Mas como saber quando o tamanho amostral

e adequado ou nao para usar o TCL?

Voce nao precisara se preocupar com isso. Em

geral, o uso do TCL e considerado adequado

para amostras de tamanho maior ou igual a

30, independentemente da forma original da

populacao.

O desvio padrao da distribuicao amostral da

media, igual a σ√n

, e chamado de erro padrao

de X. Ele fornece uma medida do grau com

que as medias amostrais se desviam do valor

esperado de sua distribuicao (que coincide com

a media populacional µ).

Logo, podemos usar essa informacao para des-

cobrir o quao precisa e a nossa estimativa da

media da populacao.

25

Vejamos um exemplo teorico. Suponha queuma populacao, caracterizada por uma variavelaleatoria X, tenha distribuicao normal com me-dia 10 e variancia 100.

X ∼ N( 10︸︷︷︸=µ

,100︸︷︷︸=σ2

)

Suponha tambem que iremos trabalhar comamostras aleatorias de tamanho n = 16. Comofica a distribuicao amostral de X, a media amos-tral?

26

Aqui cabe comentar que no caso de populacoesnormais, nao e necessario usar o TCL, poisa distribuicao amostral de X e, de fato, umanormal.

Assim, temos

X ∼ N(µ, σ

2

n

)= N(10,6.25).

Veja o grafico dessa distribuicao (em vermelhodestaca-se a distribuicao da populacao).

27

Como e possıvel ver a distribuicao amostral da

media e muito mais concentrada em torno de

seu valor esperado do que a distribuicao da

populacao.

Calcule, por exemplo, agora P (−5 < X < 15)

e compare com P (−5 < X < 15)

Usando o Excel:

P (−5 < X < 15) = normdist(15; 10; 10; true)−normdist(−5; 10; 10; true) '0.8664

P (−5 < X < 15) = normdist(15; 10; 2.5; true)−normdist(−5; 10; 2.5; true) '1−

A notacao 1− foi usada para indicar que a probabilidade e quaseigual a 1, mas e menor que 1.

28

Vimos que entre ±1,96 desvios da media o

grafico da distribuicao normal compreende 95%

dos valores. Qual deveria ser o tamanho da

amostra se desejassemos que em 95% das vezes

a media amostral caısse entre 10 ± 2, isto e,

entre 8 e 12?

0,95 = P (8 < X < 12) = P

(8−10

10/√n< Z < 12−10

10/√n

)=

= P(−0,2

√n < Z < 0,2

√n)

= 2φ(0,2√n)− 1

Logo, φ(0,2√n) = 0,975 e, usando a tabela

da normal pardao 0,2√n = 1,96.

√n =

1,96

0,2↔ n = (9,8)2 ' 96.

Obs.: Com n = 16, temos P (8 < X < 12) ' 0,58.

29

Antes de prosseguir, vamos enumerar os prin-

cipais resultados apresentados ate aqui.

Sejam

X uma populacao com media µ e variancia σ2;

X1, X2, ..., Xn uma amostra aleatoria de tamanho

n da populacao;

X = 1n

n∑i=1

Xi a media amostral.

Entao, o valor esperado, ou simplesmente a

media, da distribuicao de X e dado por

E[X] = µ e, a variancia, por Var(X) =σ2

n.

O erro-padrao (desvio padrao) de X: σX =σ√n

30

Se a populacao for normal,

X ∼ N(µ,σ2

n)

qualquer que seja n; ou equivalentemente,

X − µσ/√n∼ N(0,1).

Se a populacao nao for normal, segue, do TCL,

que para n ≥ 30,

Xa∼ N(µ,

σ2

n)

ou equivalentemente,

X − µσ/√n

a∼ N(0,1).

31

Nos problemas reais o valor de σ tambem nao e

conhecido. Portanto, sera necessario, usando

a amostra disponıvel, estimar seu valor.

Observe que como o erro padrao de X

(σX =

σ√n

)e inversamente proporcional ao tamanho da

amostra, isso significa que quanto maior for o

tamanho amostral, menor sera a variabilidade

das medias amostrais e, portanto, mais precisa

sera a nossa estimativa da media populacional.

O mesmo deve ser esperado para estimativas

do desvio padrao populacional σ: quanto maior

for a amostra, mais precisas serao as nossas

estimativas.

Se X1, X2, ..., Xn e a amostra observada, esti-

mamos a variancia da populacao σ2 pela va-

riancia amostral S2 = 1n−1

n∑i=1

(Xi − X)2 e, σ

por S =√S2.

32

Assim, para amostras grandes n ≥ 30, se σ2

e desconhecido, usamos uma estimativa dadapor s e aplicamos o TCL

X − µS/√n

a∼ N (0,1) .

com S estimador de σ.

E se n < 30? Como proceder?

Vamos comecar essa discussao com um exem-plo particular de estimacao de uma proporcaopopulacional.

Seja X1, X2,..., Xn uma amostra aleatoria dadistribuicao binomial(1, p) tal que cada Xi e 0ou 1 com probabilidades 1 − p ou p respecti-vamente. Suponha que p seja desconhecida erepresente uma proporcao de interesse.

Lembre que no modelo binomial(1, p) tem-sevalor esperado µ = p e variancia σ2 = p(1− p).

33

Observe que nesse contexto X = p e a pro-porcao amostral de “sucessos”. E natural usara proporcao amostral (que e uma media) comoestimador da proporcao populacional.

Se n e grande podemos usar o TCL tal que

pa∼ N

p︸︷︷︸=µ

,p(1− p)

n︸︷︷︸=σ2

n

.

Porem, para valores moderados de n e de-pendendo do verdadeiro valor de p essa apro-ximacao podera nao ser boa.

No entanto, nesse contexto particular, e facilver que np ∼ binomial(n, p), pois representara onumero de sucessos em n Ensaios de Bernoullicom probabilidade de sucesso p.

Assim, a distribuicao exata de p e uma binomialmultiplicada por um fator 1/n.

34

Exemplo: Um professor da um teste de 20questoes do tipo certo ou errado. Para tes-tar a hipotese de o estudante estar chutandoa resposta, ele adota a seguinte regra de de-cisao: “Se 13 ou mais questoes estiverem cor-retas, ele decide que o estudante nao chutouas questoes do teste”. Qual e a probabilidadede rejeitarmos a hipotese, sendo ela de fatoverdadeira?

Solucao: Se a hipotese e de fato verdadeiraobserve que o estudante ira acertar cada umadas 20 questoes com probabilidade 1/2. Re-jeitamos a hipotese se o numero de acertos emaior ou igual a 13.

Seja X o numero de acertos. Queremos cal-cular P (X ≥ 13 dado que p = 1/2). Observeque nesse caso, X ∼ binomial(20,1/2).

Vamos usar o Bioestat para calcular essa pro-babilidade.

35

Depois de abrir o programa, escolha no menu

horizontal superior Estatısticas e, depois Dis-

tribuicoes de Probabilidade. Em seguida, clique

na opcao binomial.

Basta entao informar n = 20, k = 13 e pro-

porcao esperada igual a 1/2.

36

Assim,

P (X ≥ 13) = P (X = 13) + P (X > 13) =

= 0,0739 + 0,0577 = 0,1316

tal que ha uma probabilidade de cerca de 13%de rejeitar a hipotese de que o aluno esta chu-tando as respostas do teste dado que de fatoele chutou.

No Excel usa-se

= 1 − distr.binom(12; 20; 0,5; verdadeiro) queretorna o valor 0,131587982' 0,13.

Qual deveria ser a regra se desejassemos queessa probabilidade fosse no maximo igual a5%?

37

Para responder a pergunta podemos ir aumen-tando o valor de k na tela binomial do Bioestatate a primeira vez que P (X ≥ k) seja inferior a0,05.

Por exemplo, se aumentarmos para k=14, obte-remos P (X ≥ 14) = 0.0577 que ainda e maiorque 0,05.

Vejamos entao com k = 15. Agora temosP (X ≥ 15) = 0,0207. Logo a resposta sera“Devemos rejeitar a hipotese de que o alunoesta chutando as respostas, se o numero deacertos for maior ou igual a 15.”

Observe que como o problema envolve umavariavel aleatoria discreta, numero de acertos,pode nao existir uma solucao exata para proba-bilidades fixadas. Fixamos a probabilidade em5%, mas vimos que ou a regra e para 14 acer-tos e a probabilidade e cerca de 6%(5,77%) oupara 15, e a probabilidade e cerca de 2%(2,07%).

38

Agora vamos ver como fica o caso de amostras

moderadas de uma variavel aleatoria contınua.

Suponha que dispomos de uma amostra aleato-

ria de tamanho moderado (n < 30) de uma

variavel aleatoria X contınua.

Nesse caso, ha uma solucao similar quando a

variavel aleatoria sob consideracao tem uma

distribuicao normal. Porem, se claramente nao

for razoavel supor a normalidade da variavel

em estudo, a solucao que iremos apresentar

nao sera adequada.

Uma possıvel forma de lidar com dados nao

normais e transforma-los.

39

Por exemplo, para dados positivos com assime-

tria a direita, costuma-se usar a transformacao

logarıtmica. Se com a transformacao, a su-

posicao de normalidade for razoavel, podemos

trabalhar na escala transformada, lembrando

depois de voltar a escala original na hora de

apresentarmos nossas conclusoes.

Existem tecnicas de inferencia estatıstica nao-

parametrica que nao requerem a suposicao da

forma da distribuicao da populacao que tam-

bem podem ser usadas para o caso nao-normal

com amostras moderadas.

Veremos agora a solucao para o caso: amos-

tras moderadas de uma populacao normal

com media µ e desvio padrao σ desco-

nhecidos.

40

Para isso, vamos enunciar primeiro um impor-

tante resultado para amostras da distribuicao

normal.

Seja X1, X2, ..., Xn uma amostra da distribuicao N(µ, σ2).Entao,

1. X ∼ N(µ, σ

2

n

);

2. S2 = 1n−1

n∑i=1

(Xi − X)2 e X sao variaveis aleatorias

independentes;

3. n−1σ2 S

2 tem uma distribuicao de qui-quadrado comn−1 graus de liberdade (sera explicado adiante) e;

4.

T =X − µS/√n

tem uma distribuicao t com n−1 graus de liberdade.

41

A distribuicao t

Tambem conhecida como distribuicao t de Stu-

dent, leva esse nome pois foi publicada por

William Sealy Gosset (1876-1937) em 1908

sob o pseudonimo de Student, pois Gosset nao

podia usar seu nome verdadeiro para publicar

trabalhos enquanto trabalhasse para a cerve-

jaria Guinness.

A distribuicao t, como a normal padrao, tam-

bem tem densidade simetrica em torno de zero,

porem apresenta caudas mais pesadas do que

a normal padrao. O unico parametro que a

define (ν) caracteriza a sua forma e e chamado

numero de graus de liberdade.

42

Quanto maior for o valor do parametro ν, a

distribuicao t(ν) se aproximara da distribuicao

normal padrao.

Os dois graficos a seguir ilustram as propriedades

citadas da distribuicao t.

43

44

Como obter probabilidades associadas a dis-

tribuicao t(ν)?

Da mesma forma que a normal padrao, tambem

estao disponıveis na maioria dos livros de es-

tatıstica tabelas da distribuicao t. Probabili-

dades associadas a distribuicao t tambem po-

dem ser obtidas via programas estatısticos. A

planilha EXCEL por exemplo fornece probabi-

lidades associadas a distribuicao t.

Como vimos a distribuicao t e caracterizada

por um parametro ν, chamado numero de graus

de liberdade.

Vejamos uma tabela dessa distribuicao.

45

46

Exemplo: Suponha que se deseja estimar o

tempo medio para realizar uma tarefa. Para

isso sorteou-se uma amostra aleatoria de 16

operarios cujos tempos de realizacao da tarefa,

em minutos, foram registrados.

82 102 91 90 87 107 83 7888 101 99 76 67 87 99 88

47

Suponha que desejamos determinar um inter-

valo simetrico em torno da verdadeira media

tal que a probabilidade da estatıstica T cair

entre esses dois valores seja de 95%.

Ja resolvemos um problema similar a esse, mas

no contexto da distribuicao normal com varian-

cia conhecida e vimos que, depois de padronizar,

P (−1,96 < Z < 1,96) = 0,95. Observe que

agora, apesar de considerarmos a normalidade

dos dados, a variancia da populacao nao e co-

nhecida. Logo, usaremos a distribuicao t com

n− 1 = 16− 1 = 15 graus de liberdade.

Aqui, a chave para solucionar esse problema e

usar o resultado

T =X − µS/√

15∼ t(15)

48

No Bioestat, escolhendo o modulo distribuicoes

de probabilidade, outras distribuicoes, distribui-

cao t, podemos por tentativas encontrar o valor

simetrico em torno de zero que produz uma

probabilidade de 95% para os valores inter-

mediarios.

Depois de algumas tentativas o Bioestat fornece

o valor 2.13, uma aproximacao com duas casas

decimais.

49

No Excel, obtemos esse valor de forma mais

direta usando a funcao

= INV.T ( 0,975︸︷︷︸probabilidade acumulada

;graus de liberdade︷︸︸︷

15 )

que retorna o valor 2,13145.

Logo,

P (−2,13 < T =X − µS/√

15< 2,13) = 0,95.

50

Como verificar se a suposicao de normalidade

dos dados e razoavel?

Existem ferramentas graficas tais como os gra-

ficos de probabilidade normal, que devem ter

uma aparencia linear, quando os dados de fato

sao normais e, os histogramas das distribuicoes

de frequencias, que devem ter uma forma uni-

modal aproximadamente simetrica em torno da

media.

Tambem existem varios testes estatısticos de

verificacao da suposicao de normalidade. Va-

mos deixar esta discussao para uma aula pos-

terior a proxima, na qual trabalharemos com as

primeiras idieas de testes de hipoteses e alguns

testes mais simples.

51

Intervalos de Confianca

Vamos comecar com um exemplo. Suponha

que se deseja estimar a media µ de uma po-

pulacao qualquer e que para isso usaremos a

media amostral X de uma amostra aleatoria de

tamanho n. Usando o TCL, supondo n ≥ 30

temos que

X − µσ/√n

a∼ N(0,1).

Logo, usando a tabela da normal padrao, pode-

mos escrever, por exemplo,

P (−1,96 <X − µσX

< 1,96) = 0,95

com σX = σ√n

.

52

Por meio de operacoes algebricas, e possıvel

reescrever a equacao anterior na forma

P(X − 1,96σX < µ < 1,96σX

)= 0,95

e, essa equacao nos fornece os limites de 95%

de confianca de µ, a saber,

X ± 1,96σX

Notacao: IC(µ,0.95) : X ± 1,96σX

com σX = σ√n

.

53

Interpretacao do intervalo: a figura a seguir e

util na interpretacao.

Resumindo: Se pudessemos construir uma quan-

tidade grande de intervalos da forma X±1,96σX,

todos baseados em amostras aleatorias de tama-

nho n da populacao, 95% deles conteriam o

parametro µ.

54

No exemplo que acabamos de apresentar, 95%

e dito ser o nıvel ou coeficiente de confianca

do intervalo.

E claro que podemos usar um nıvel de con-

fianca qualquer e que, em geral fara sentido,

nıveis de confianca altos, proximos de 1.

1,96 e o quantil da distribuicao normal padrao

tal que P (−1,96 < Z < 1,96) = 0,95.

Vamos adotar a seguinte notacao

seja z(γ) tal que

P (−z(γ) < Z < z(γ)) = γ,

0 < γ < 1.

55

Observe que com essa notacao z(0.95) = 1,96.

E tambem que um intervalo de nıvel de con-

fianca γ para µ e dado por X ± z(γ)σX.

56

Intervalos de Confianca com nıvel de confiancaγ para a media populacional

1. Amostras da distribuicao normal ou amostrassuficientemente grandes n ≥ 30

IC(µ, γ) : X︸︷︷︸media amostral

±z(γ)σ√n︸︷︷︸

erro padrao

Observacao: se o valor de σ nao for conhecidosubstitua-o na expressao acima por uma esti-mativa.

2. Amostras da distribuicao normal, σ desco-nhecido, n < 30

IC(µ, γ) : X︸︷︷︸media amostral

±t(γ,n−1)s√n︸︷︷︸

erro padrao de X

57

Em (2) na tela anterior a notacao t(γ,n−1) e

similar a notacao usada na distribuicao normal,

conforme a figura a seguir. A diferenca e que

agora usamos uma distribuicao t com n − 1

graus de liberdade.

58

Intervalos de Confianca para a proporcao po-pulacional

No caso de intervalos para a proporcao, se fos-semos usar a expressao dada em (1) terıamos

IC(p, γ) : p︸︷︷︸proporcao amostral

±z(γ)

√p(1− p)√n︸︷︷︸

erro padrao de p

No entanto o valor de p nao e conhecido eaparece na expressao do erro padrao. Nessecontexto costuma-se adotar duas estrategias.A primeira, conservadora, trabalha com o piorcenario possıvel e substitui p na formula doerro padrao por 1/2, que produz o intervalomais largo possıvel.

A segunda , que pode ser usada para tamanhosamostrais suficientemente grandes, substitui ppor p.

59

Assim temos,

Alternativa conservadora:

IC(p, γ) : p± z(γ)

√1

4n

Outra alternativa:

IC(p, γ) : p± z(γ)

√p(1− p)√n

60

Exemplo 1: (Pinheiro e outros - Estatıstica

Basica: a arte de trabalhar com dados - Cap.

7- ex. 7.6)

Levando em conta simultaneamente as respos-

tas dadas por 200 clientes de uma empresa a

todos os itens de um questionario, foi calcu-

lado um ındice de satisfacao global correspon-

dente a cada respondente. Este ındice varia de

0 (totalmente insatisfeito) a 100 (totalmente

satisfeito). Com respeito a esse ındice de sa-

tisfacao foi construıdo um intervalo de 95%

de confianca para o nıvel medio de satisfacao

da populacao de clientes dessa empresa e que

resultou nos seguintes limites

IC(µ,95%) : (43,5 ; 63,9).

Quais das afirmacoes a seguir estao corretas e

quais nao estao? Justifique cada uma de suas

respostas.

61

(a) A probabilidade de que µ esteja entre 43,5

e 63,9 e 95%.

(b) Se fosse extraıda uma outra amostra, tam-

bem com 200 clientes, a probabilidade de a

media amostral dos ındices de satisfacao ob-

servados cairem entre 43,5 e 63,9 e 95%.

(c) Se fossem extraıdas 100 amostras de tama-

nho 200 e se usasse o mesmo procedimento

que deu origem ao intervalo apresentado no

enunciado para cada amostra, cerca de 95%

dos intervalos obtidos conteriam o valor de µ.

(d) O desvio padrao populacional do ındice de

satisfacao e aproximadamente igual a 5,1.

(e) Todos os entrevistados apresentaram ındices

de satisfacao entre 43,5 e 63,9.

62

Exemplo 2: (Dancey e Reidy - Estatıstica sem

Matematica para Psicologia. Capıtulo 4. Ex-

ercıcio 2)

O Dr. Doolittle finalmente desistiu da ideia de

conversar com animais e decidiu tornar-se um

psicologo experimental de animais. Ele esta

particularmente interessado em descobrir se os

gatos sao ou nao mais inteligentes que os ca-

chorros. Para isso ele desenvolveu um teste de

inteligencia especıfico para esse estudo e testa

amostras de gatos e cachorros. Ele foi cuida-

doso para nao introduzir qualquer tipo de vıcio

no teste e acredita que criou um teste que nao

esta associado as especies, ou seja, pode ser u-

sado em qualquer especie. Dr, Dotlittle espera

que exista uma diferenca entre os escores de

gatos e cachorros. No experimento ele traba-

lhou com duas amostras aleatorias de 10 gatos

e 10 cachorros e, os resultados obtidos, estao

na tabela a seguir.

63

gatos cachorros95 116

100 112104 102

78 96130 89111 124

89 131114 117102 107

97 110

1. Construa intervalos de confianca de 95%

de confianca para os escores medios de

gatos e de cachorros.

2. Que suposicoes voce usou para construir

os intervalos do item anterior?

3. Voce diria que o Dr. Doolittle esta cor-

reto? Por que?

64

Exemplo 3: (Levine e outros - Estatıstica: Teo-ria e Aplicacoes - Cap. 6 - exercıcio 6.56)

O diretor de pessoal de uma grande corporacaodeseja estudar o absenteısmo dos trabalhadoresadministrativos do escritorio central da cor-poracao durante o ano. Uma amostra aleato-ria de 25 empregados administrativos revelouo seguinte:

• x = 9,7 dias, s = 4 dias

• 12 trabalhadores administrativos estiveramausentes mais de 10 dias.

(a) Construa um intervalo de 99% de con-fianca, para o numero medio de ausencias detrabalhadores administrativos no ano pasado.

(b) Construa um intervalo de 95% de con-fianca para a proporcao de trabalhadores ad-ministrativos que estiveram ausentes por maisde 10 dias durante o ano passado.

65

Referencias bibliograficas:

(1) Busssab e Morettin - Estatıstica Basica.

Editora Saraiva

(2) Pinheiro e outros - Estatıstica Basica - a

arte de trabalhar com dados - Elsevier

(3) Thurman - Estatıstica - Saraiva

(4) Dancey e Reidy - Estatıstica sem Matematica

para Psicologia - Penso

(5) Levine e outros. Estatıstica: Teoria e

Aplicacoes.

66

Documents

Introdu˘c~ao - dme.im.ufrj.brflavia/mad342/aula03_mad342.pdf · A amostra e formada pelas 20 medidas de tempos de rea˘c ... No estudo foram analisados dados da estatura dos homens