Upload
vuongdang
View
216
Download
0
Embed Size (px)
Citation preview
Inferencia Estatıstica: como fazer afirmacoes
sobre uma populacao conhecendo uma amostra
da populacao?
Referencia: Bussab e Morettin - Estatıstica
Basica - Editora Saraiva - Capıtulos 10 e 11.
Introducao
O uso de informacoes de uma amostra para
concluir sobre o todo faz parte da atividade
diaria da maioria das pessoas.
Observe como uma dona de casa verifica se
o feijao esta bom de sal. Ou ainda, observe
quando um cliente de supermercado, apos pro-
var uma uva rosada na secao de horti-fruti,
decide se vai comprar ou nao dessas uvas. Es-
sas decisoes sao baseadas em procedimentos
amostrais.
1
Conceitos Importantes
Populacao: e o conjunto de todos os elemen-
tos sob investigacao com pelo menos uma ca-
racterıstica em comum.
Amostra: e qualquer subconjunto nao-vazio
da populacao.
Parametro: Caracterıstica numerica da po-
pulacao.
Estatıstica: Caracterıstica numerica da amos-
tra.2
Observe que aqui o uso da palavra estatıstica
tem outro significado.
Com o conceito que acabamos de apresentar
podemos dizer que usamos estatısticas para es-
timar parametros.
Um estimador de um parametro e uma es-
tatıstica.
Uma questao importante na Inferencia Estatısti-
ca e a de como avaliar um estimador.
3
Problemas de Inferencia
• Verificacao do tempo de vida medio da
lampada fluorescente especificado pelo fa-
bricante. Essa verificacao pode fazer parte
de
1. um procedimento de controle de qua-
lidade da empresa - se o tempo medio
de vida da amostra retirada de um lote
de tais lampadas nao atender a especi-
ficacao estabelecida, entao todo o lote
deve ser rejeitado;
2. um procedimento de um orgao de de-
fesa do consumidor - se o tempo medio
de vida de uma amostra de tais lampadas
obtidas de diversos pontos de venda aten-
der a especificacao do fabricante, entao
a reclamacao dos consumidores nao de-
vera ser aceita.
4
• Avaliacao de um novo produto. Antes do
lancamento, o novo produto sera distribuı-
do a um grupo de consumidores potenci-
ais que responderao um questionario. Se
os resultados dos questionarios mostrarem
que o novo produto foi bem aceito, entao
o grupo de marketing tera suporte para de-
fender o lancamento do novo produto.
• Previsao do tempo medio de espera dos
clientes no caixa de um banco. Se o tempo
medio de espera de uma amostra de clientes
for maior que o tempo medio afirmado pelo
gerente da agencia, entao sera bastante
provavel que as reclamacoes dos clientes
tenham fundamento.
5
• Ha razoes para supor que o tempo de rea-
cao Y a certo estımulo visual depende da
idade do indivıduo. Suponha que essa de-
pendencia seja linear.
Para verificar se essa suposicao e verdadeira,
obtiveram-se 20 dados da seguinte forma:
20 pessoas foram selecionadas, sendo 10
homens e 10 mulheres. Dentro de cada
grupo, de homens e mulheres, foram sele-
cionadas duas pessoas das seguintes faixas
de idade: 20, 25, 30, 35 e 40 anos.
Cada pessoa foi submetida ao teste e seu
tempo de reacao y foi registrado.
A populacao poderia ser considerada como
formada por todas aquelas pessoas que vies-
sem a ser submetidas ao teste, segundo o
sexo e a idade. A amostra e formada pelas
20 medidas de tempos de reacao.
6
• Previsao da populacao brasileira por genero
e idade a fim de formular polıticas publicas
para os proximos 40 anos.
Existem diversos modelos de previsao detamanho de populacao. Diversos fatoresinterferem na dinamica da populacao. Naquinta-feira, dia 29 de agosto de 2013, oIBGE divulgou que no Brasil ja sao 201milhoes de habitantes e tambem apresen-tou uma previsao sobre a populacao porgenero e idade ate 2060.
A populacao total projetada para o Brasil em 2013foi de 201,0 milhoes de habitantes, atingindo 212,1milhoes em 2020, ate alcancar o maximo de 228,4milhoes em 2042, quando comecara a decrescer,atingindo o valor de 218,2 em 2060, nıvel equiva-lente ao projetado para 2025 (218,3 milhoes).
7
• Estudo revela que a estatura media dos homens eu-ropeus aumentou 11 cm entre 1870 e 1980 Em O Globo,04/09/2013.
LONDRES - A estatura media dos homens europeus aumen-tou 11 centımetros, de 167 a 178, em pouco mais de umseculo, segundo resultados de uma pesquisa da Universidadede Essex, do Reino Unido. No estudo foram analisados dadosda estatura dos homens com 20 anos de 15 paıses europeusentre 1870 e 1980. A analise se limitou a homens, segundoa pesquisa, porque os dados de mulheres sao mais difıceisde se conseguir. Durante as ultimas decadas, a informacaofoi obtida principalmente em levantamentos de estatura desoldados. Nao houve grande diferenca entre os paıses. O es-tudo revela que muitos paıses europeus, entre eles a Gra Bre-tanha e a Irlanda, os paıses escandinavos, Holanda, Austria,Belgica e Alemanha, tiveram “clara aceleracao” do ritmo decrescimento durante as duas guerras mundiais e a GrandeDepressao. Fato que os autores consideram “surpreendente”,ja que e o perıodo anterior aos grandes avancos da medicinamoderna e da implementacao dos servicos nacionais de saude.O aumento da estatura humana e um indicador chave para amelhora da saude da populacao, afirmou ao “El Paıs”, Timo-thy Hatton, professor de Economia da Universidade de Essexe diretor do estudo. Na opiniao dele, uma razao possıvel paraeste aumento, alem da diminuicao da mortalidade infantil,poderia ser a forte tendencia de reducao de fecundidade.
8
Como selecionar uma amostra?
As observacoes contidas numa amostra sao
tanto mais informativas sobre a populacao, quan-
to mais conhecimento tivermos dessa mesma
populacao.
Por exemplo a analise quantitativa de globulos
brancos obtida de algumas gotas de sangue
da ponta do dedo de um paciente da a ideia
geral da quantidade de globulos brancos no
corpo todo, pois sabe-se que a distribuicao dos
globulos brancos e homogenea, e de qualquer
lugar que se tivesse retirado a amostra ela seria
“representativa”.
Nem sempre a escolha de uma amostra ade-
quada e imediata.
9
Em Bussab e Morettin, os procedimentos de
levantamento de dados sao apresentados nos
seguintes tres grupos.
1. Levantamentos Amostrais - a amostra e
obtida de uma populacao bem definida, por
meio de processos bem protocolados e contro-
lados pelo pesquisador.
Tais levantamentos costumam ser subdividi-
dos em dois subgrupos: probabilısticos e nao-
probabilısticos. O primeiro reune todas as tec-
nicas que usam mecanismos aleatorios de sele-
cao dos elementos de uma amostra, atribuindo
a cada um deles, uma probabilidade, conhecida
a priori, de pertencer a amostra.
10
No segundo grupo estao os demais procedi-mentos, tais como amostras intencionais, nasquais os elementos sao selecionados com oauxılio de especialistas, e amostras de volunta-rios, como ocorre em alguns testes sobre novosmedicamentos e vacinas.
A grande vantagem dos procedimentos proba-bilısticos e poder medir a precisao da amostraobtida.
2. Planejamento de Experimentos. Tem comoprincipal objetivo analisar o efeito de uma varia-vel sobre outra(s). Requer interferencias dopesquisador sobre o ambiente em estudo (po-pulacao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.
Exemplo: A altura de um produto na gondolade um supermercado afeta as vendas do pro-duto? Se sim, como?
11
3. Levantamentos Observacionais. Os da-
dos sao coletados sem que o pesquisador te-
nha controle sobre as informacoes obtidas, ex-
ceto eventualmente sobre possıveis erros gros-
seiros. As series de dados temporais sao e-
xemplos tıpicos desses levantamentos.
Exemplo: suponha o problema de prever as
vendas futuras numa empresa em funcao das
vendas passadas. O pesquisador nao pode se-
lecionar dados, esses sao as vendas efetiva-
mente ocorridas.
Observe que aqui tambem se encaixa o pro-
blema de projecoes de tamanhos populacionais.
12
Amostra Aleatoria Simples(AAS)
Uma amostra aleatoria simples ocorre quando
atribuımos probabilidades de selecao na amos-
tra iguais para todos os elementos da popula-
cao.
Com relacao a precisao neste tipo de amostra-
gem existe diferenca se a selecao e feita com
reposicao ou sem reposicao.
No entanto, quando o tamanho da amostra
for muito inferior ao tamanho da populacao
(menor que 5% da populacao) a selecao sem
reposicao comporta-se, de modo aproximado,
como uma selecao com reposicao, e nesse caso
costuma-se tratar o problema como se fosse
com reposicao.
13
Distribuicao Amostral
No inıcio da aula falamos em usar estatısticas
para estimar um parametro.
Na pratica so podemos obter uma amostra da
populacao e, com base nela, tirar conclusoes
sobre a populacao.
Como poderemos fazer afirmacoes sobre a qua-
lidade das nossas conclusoes? Como podere-
mos falar sobre o erro decorrente da variabili-
dade amostral?
A resposta a essas perguntas envolve o con-
ceito de distribuicao amostral.
14
Suponha o problema de estimar um parametro
θ de certa populacao e que para isso dispo-
mos de uma amostra de tamanho n dessa po-
pulacao: x1, x2, ..., xn. Suponha tambem que
usaremos uma estatıstica T funcao da amostra
para estimar θ.
T = t(x1, x2, ..., xn)
T pode ser a soma (n∑i=1
xi), a media (x), a me-
diana, a amplitude, o desvio padrao amostral, e
sua escolha dependera do parametro que que-
remos estimar.
Para poder avaliar a qualidade de T como esti-
mador de θ e fundamental conhecer o modelo
probabilısitco que explica a variabilidadde de
seus valores, ou seja, a distribuicao amostral
de T .15
A figura a seguir ilustra como poderıamos ficticiamente obter essadistribuicao.
16
Mas como poderemos pelo menos fazer umhistograma de valores da estatıstica se so dis-pomos de uma amostra?
O Teorema Central do Limite da Teoria dasProbabilidades e uma peca chave para resolveresse problema.
Vamos simplificar o problema de estimacao deum parametro generico θ para um problemaespecıfico de estimacao da media populacional,µ.
Para isso dispomos de uma amostra aleatoriade tamanho n da populacao cujos valores ob-servados sao x1, x2, ..., xn.
No que segue usaremos: µ para a media dapopulacao e
σ2 para a variancia da populacao (σ - desviopadrao da populacao).
Um estimador natural de µ a ser usado e amedia amostral x.
17
O Teorema Central do Limite (TCL) afirma:
Se X1, X2,..., Xn e uma amostra aleatoria sim-
ples de uma populacao qualquer cuja media
e µ e variancia e σ2, a distribuicao amostral
de X =1
n
n∑i=1
Xi, a media amostral, se apro-
xima de uma distribuicao normal com media µ
e varianciaσ2
nquando n cresce.
Ou seja, para n suficientemente grande,
Xa∼ N
(µ,σ2
n
)ou equivalentemente,
X − µσ/√n
a∼ N (0,1)
Para entender melhor esse resultado vamos a-
presentar alguns exemplos.
18
Situacao 1: Suponha uma populacao Uniforme
em [0,5]: sua densidade e constante no in-
tervalo dado. O valor esperado de uma po-
pulacao uniforme em [0,5] e 2,5 e a variancia
e 25/12 ' 2,08.
Agora vamos sortear 100 amostras aleatorias
de tamanho 2 e calcular as respectivas medias
amostrais. A figura a seguir mostra um his-
tograma dos 100 valores obtidos.
19
Os histogramas a seguir mostram os compor-
tamentos da media amostral para 100 amostras
de tamanho 5, 10, 15 e 25 de uma populacao
uniforme em [0,5].
20
21
Como e possıvel perceber, a medida que au-
mentamos o tamanho da amostra, a variabi-
lidade dos valores da media amostral se torna
cada vez mais simetrica em torno de 2,5 (a
media da populacao) e que a variabilidade em
torno da media diminui.
Para amostras de populacoes uniformes, consi-
deram-se tamanhos amostrais moderados para
usar o TCL. Para n = 15 a aproximacao ja
e boa. No entanto, se a distribuicao popu-
lacional for muito afastada de uma normal,
por exemplo com forte assimetria positiva, sera
necessario um tamanho amostral bem superior
a 15 para que a aproximacao seja considerada
boa.
Vamos ver um exemplo desse tipo.
22
Suponha uma populacao com o seguinte com-
portamento.
Aqui foi escolhida uma populacao cuja media
e 0,04, mas que apresenta assimetria positiva.
23
Histogramas dos valores de x para 200 amostras
de tamanhos 5, 20, 30 e 40.
24
Mas como saber quando o tamanho amostral
e adequado ou nao para usar o TCL?
Voce nao precisara se preocupar com isso. Em
geral, o uso do TCL e considerado adequado
para amostras de tamanho maior ou igual a
30, independentemente da forma original da
populacao.
O desvio padrao da distribuicao amostral da
media, igual a σ√n
, e chamado de erro padrao
de X. Ele fornece uma medida do grau com
que as medias amostrais se desviam do valor
esperado de sua distribuicao (que coincide com
a media populacional µ).
Logo, podemos usar essa informacao para des-
cobrir o quao precisa e a nossa estimativa da
media da populacao.
25
Vejamos um exemplo teorico. Suponha queuma populacao, caracterizada por uma variavelaleatoria X, tenha distribuicao normal com me-dia 10 e variancia 100.
X ∼ N( 10︸︷︷︸=µ
,100︸ ︷︷ ︸=σ2
)
Suponha tambem que iremos trabalhar comamostras aleatorias de tamanho n = 16. Comofica a distribuicao amostral de X, a media amos-tral?
26
Aqui cabe comentar que no caso de populacoesnormais, nao e necessario usar o TCL, poisa distribuicao amostral de X e, de fato, umanormal.
Assim, temos
X ∼ N(µ, σ
2
n
)= N(10,6.25).
Veja o grafico dessa distribuicao (em vermelhodestaca-se a distribuicao da populacao).
27
Como e possıvel ver a distribuicao amostral da
media e muito mais concentrada em torno de
seu valor esperado do que a distribuicao da
populacao.
Calcule, por exemplo, agora P (−5 < X < 15)
e compare com P (−5 < X < 15)
Usando o Excel:
P (−5 < X < 15) = normdist(15; 10; 10; true)−normdist(−5; 10; 10; true) '0.8664
P (−5 < X < 15) = normdist(15; 10; 2.5; true)−normdist(−5; 10; 2.5; true) '1−
A notacao 1− foi usada para indicar que a probabilidade e quaseigual a 1, mas e menor que 1.
28
Vimos que entre ±1,96 desvios da media o
grafico da distribuicao normal compreende 95%
dos valores. Qual deveria ser o tamanho da
amostra se desejassemos que em 95% das vezes
a media amostral caısse entre 10 ± 2, isto e,
entre 8 e 12?
0,95 = P (8 < X < 12) = P
(8−10
10/√n< Z < 12−10
10/√n
)=
= P(−0,2
√n < Z < 0,2
√n)
= 2φ(0,2√n)− 1
Logo, φ(0,2√n) = 0,975 e, usando a tabela
da normal pardao 0,2√n = 1,96.
√n =
1,96
0,2↔ n = (9,8)2 ' 96.
Obs.: Com n = 16, temos P (8 < X < 12) ' 0,58.
29
Antes de prosseguir, vamos enumerar os prin-
cipais resultados apresentados ate aqui.
Sejam
X uma populacao com media µ e variancia σ2;
X1, X2, ..., Xn uma amostra aleatoria de tamanho
n da populacao;
X = 1n
n∑i=1
Xi a media amostral.
Entao, o valor esperado, ou simplesmente a
media, da distribuicao de X e dado por
E[X] = µ e, a variancia, por Var(X) =σ2
n.
O erro-padrao (desvio padrao) de X: σX =σ√n
30
Se a populacao for normal,
X ∼ N(µ,σ2
n)
qualquer que seja n; ou equivalentemente,
X − µσ/√n∼ N(0,1).
Se a populacao nao for normal, segue, do TCL,
que para n ≥ 30,
Xa∼ N(µ,
σ2
n)
ou equivalentemente,
X − µσ/√n
a∼ N(0,1).
31
Nos problemas reais o valor de σ tambem nao e
conhecido. Portanto, sera necessario, usando
a amostra disponıvel, estimar seu valor.
Observe que como o erro padrao de X
(σX =
σ√n
)e inversamente proporcional ao tamanho da
amostra, isso significa que quanto maior for o
tamanho amostral, menor sera a variabilidade
das medias amostrais e, portanto, mais precisa
sera a nossa estimativa da media populacional.
O mesmo deve ser esperado para estimativas
do desvio padrao populacional σ: quanto maior
for a amostra, mais precisas serao as nossas
estimativas.
Se X1, X2, ..., Xn e a amostra observada, esti-
mamos a variancia da populacao σ2 pela va-
riancia amostral S2 = 1n−1
n∑i=1
(Xi − X)2 e, σ
por S =√S2.
32
Assim, para amostras grandes n ≥ 30, se σ2
e desconhecido, usamos uma estimativa dadapor s e aplicamos o TCL
X − µS/√n
a∼ N (0,1) .
com S estimador de σ.
E se n < 30? Como proceder?
Vamos comecar essa discussao com um exem-plo particular de estimacao de uma proporcaopopulacional.
Seja X1, X2,..., Xn uma amostra aleatoria dadistribuicao binomial(1, p) tal que cada Xi e 0ou 1 com probabilidades 1 − p ou p respecti-vamente. Suponha que p seja desconhecida erepresente uma proporcao de interesse.
Lembre que no modelo binomial(1, p) tem-sevalor esperado µ = p e variancia σ2 = p(1− p).
33
Observe que nesse contexto X = p e a pro-porcao amostral de “sucessos”. E natural usara proporcao amostral (que e uma media) comoestimador da proporcao populacional.
Se n e grande podemos usar o TCL tal que
pa∼ N
p︸︷︷︸=µ
,p(1− p)
n︸ ︷︷ ︸=σ2
n
.
Porem, para valores moderados de n e de-pendendo do verdadeiro valor de p essa apro-ximacao podera nao ser boa.
No entanto, nesse contexto particular, e facilver que np ∼ binomial(n, p), pois representara onumero de sucessos em n Ensaios de Bernoullicom probabilidade de sucesso p.
Assim, a distribuicao exata de p e uma binomialmultiplicada por um fator 1/n.
34
Exemplo: Um professor da um teste de 20questoes do tipo certo ou errado. Para tes-tar a hipotese de o estudante estar chutandoa resposta, ele adota a seguinte regra de de-cisao: “Se 13 ou mais questoes estiverem cor-retas, ele decide que o estudante nao chutouas questoes do teste”. Qual e a probabilidadede rejeitarmos a hipotese, sendo ela de fatoverdadeira?
Solucao: Se a hipotese e de fato verdadeiraobserve que o estudante ira acertar cada umadas 20 questoes com probabilidade 1/2. Re-jeitamos a hipotese se o numero de acertos emaior ou igual a 13.
Seja X o numero de acertos. Queremos cal-cular P (X ≥ 13 dado que p = 1/2). Observeque nesse caso, X ∼ binomial(20,1/2).
Vamos usar o Bioestat para calcular essa pro-babilidade.
35
Depois de abrir o programa, escolha no menu
horizontal superior Estatısticas e, depois Dis-
tribuicoes de Probabilidade. Em seguida, clique
na opcao binomial.
Basta entao informar n = 20, k = 13 e pro-
porcao esperada igual a 1/2.
36
Assim,
P (X ≥ 13) = P (X = 13) + P (X > 13) =
= 0,0739 + 0,0577 = 0,1316
tal que ha uma probabilidade de cerca de 13%de rejeitar a hipotese de que o aluno esta chu-tando as respostas do teste dado que de fatoele chutou.
No Excel usa-se
= 1 − distr.binom(12; 20; 0,5; verdadeiro) queretorna o valor 0,131587982' 0,13.
Qual deveria ser a regra se desejassemos queessa probabilidade fosse no maximo igual a5%?
37
Para responder a pergunta podemos ir aumen-tando o valor de k na tela binomial do Bioestatate a primeira vez que P (X ≥ k) seja inferior a0,05.
Por exemplo, se aumentarmos para k=14, obte-remos P (X ≥ 14) = 0.0577 que ainda e maiorque 0,05.
Vejamos entao com k = 15. Agora temosP (X ≥ 15) = 0,0207. Logo a resposta sera“Devemos rejeitar a hipotese de que o alunoesta chutando as respostas, se o numero deacertos for maior ou igual a 15.”
Observe que como o problema envolve umavariavel aleatoria discreta, numero de acertos,pode nao existir uma solucao exata para proba-bilidades fixadas. Fixamos a probabilidade em5%, mas vimos que ou a regra e para 14 acer-tos e a probabilidade e cerca de 6%(5,77%) oupara 15, e a probabilidade e cerca de 2%(2,07%).
38
Agora vamos ver como fica o caso de amostras
moderadas de uma variavel aleatoria contınua.
Suponha que dispomos de uma amostra aleato-
ria de tamanho moderado (n < 30) de uma
variavel aleatoria X contınua.
Nesse caso, ha uma solucao similar quando a
variavel aleatoria sob consideracao tem uma
distribuicao normal. Porem, se claramente nao
for razoavel supor a normalidade da variavel
em estudo, a solucao que iremos apresentar
nao sera adequada.
Uma possıvel forma de lidar com dados nao
normais e transforma-los.
39
Por exemplo, para dados positivos com assime-
tria a direita, costuma-se usar a transformacao
logarıtmica. Se com a transformacao, a su-
posicao de normalidade for razoavel, podemos
trabalhar na escala transformada, lembrando
depois de voltar a escala original na hora de
apresentarmos nossas conclusoes.
Existem tecnicas de inferencia estatıstica nao-
parametrica que nao requerem a suposicao da
forma da distribuicao da populacao que tam-
bem podem ser usadas para o caso nao-normal
com amostras moderadas.
Veremos agora a solucao para o caso: amos-
tras moderadas de uma populacao normal
com media µ e desvio padrao σ desco-
nhecidos.
40
Para isso, vamos enunciar primeiro um impor-
tante resultado para amostras da distribuicao
normal.
Seja X1, X2, ..., Xn uma amostra da distribuicao N(µ, σ2).Entao,
1. X ∼ N(µ, σ
2
n
);
2. S2 = 1n−1
n∑i=1
(Xi − X)2 e X sao variaveis aleatorias
independentes;
3. n−1σ2 S
2 tem uma distribuicao de qui-quadrado comn−1 graus de liberdade (sera explicado adiante) e;
4.
T =X − µS/√n
tem uma distribuicao t com n−1 graus de liberdade.
41
A distribuicao t
Tambem conhecida como distribuicao t de Stu-
dent, leva esse nome pois foi publicada por
William Sealy Gosset (1876-1937) em 1908
sob o pseudonimo de Student, pois Gosset nao
podia usar seu nome verdadeiro para publicar
trabalhos enquanto trabalhasse para a cerve-
jaria Guinness.
A distribuicao t, como a normal padrao, tam-
bem tem densidade simetrica em torno de zero,
porem apresenta caudas mais pesadas do que
a normal padrao. O unico parametro que a
define (ν) caracteriza a sua forma e e chamado
numero de graus de liberdade.
42
Quanto maior for o valor do parametro ν, a
distribuicao t(ν) se aproximara da distribuicao
normal padrao.
Os dois graficos a seguir ilustram as propriedades
citadas da distribuicao t.
43
44
Como obter probabilidades associadas a dis-
tribuicao t(ν)?
Da mesma forma que a normal padrao, tambem
estao disponıveis na maioria dos livros de es-
tatıstica tabelas da distribuicao t. Probabili-
dades associadas a distribuicao t tambem po-
dem ser obtidas via programas estatısticos. A
planilha EXCEL por exemplo fornece probabi-
lidades associadas a distribuicao t.
Como vimos a distribuicao t e caracterizada
por um parametro ν, chamado numero de graus
de liberdade.
Vejamos uma tabela dessa distribuicao.
45
46
Exemplo: Suponha que se deseja estimar o
tempo medio para realizar uma tarefa. Para
isso sorteou-se uma amostra aleatoria de 16
operarios cujos tempos de realizacao da tarefa,
em minutos, foram registrados.
82 102 91 90 87 107 83 7888 101 99 76 67 87 99 88
47
Suponha que desejamos determinar um inter-
valo simetrico em torno da verdadeira media
tal que a probabilidade da estatıstica T cair
entre esses dois valores seja de 95%.
Ja resolvemos um problema similar a esse, mas
no contexto da distribuicao normal com varian-
cia conhecida e vimos que, depois de padronizar,
P (−1,96 < Z < 1,96) = 0,95. Observe que
agora, apesar de considerarmos a normalidade
dos dados, a variancia da populacao nao e co-
nhecida. Logo, usaremos a distribuicao t com
n− 1 = 16− 1 = 15 graus de liberdade.
Aqui, a chave para solucionar esse problema e
usar o resultado
T =X − µS/√
15∼ t(15)
48
No Bioestat, escolhendo o modulo distribuicoes
de probabilidade, outras distribuicoes, distribui-
cao t, podemos por tentativas encontrar o valor
simetrico em torno de zero que produz uma
probabilidade de 95% para os valores inter-
mediarios.
Depois de algumas tentativas o Bioestat fornece
o valor 2.13, uma aproximacao com duas casas
decimais.
49
No Excel, obtemos esse valor de forma mais
direta usando a funcao
= INV.T ( 0,975︸ ︷︷ ︸probabilidade acumulada
;graus de liberdade︷︸︸︷
15 )
que retorna o valor 2,13145.
Logo,
P (−2,13 < T =X − µS/√
15< 2,13) = 0,95.
50
Como verificar se a suposicao de normalidade
dos dados e razoavel?
Existem ferramentas graficas tais como os gra-
ficos de probabilidade normal, que devem ter
uma aparencia linear, quando os dados de fato
sao normais e, os histogramas das distribuicoes
de frequencias, que devem ter uma forma uni-
modal aproximadamente simetrica em torno da
media.
Tambem existem varios testes estatısticos de
verificacao da suposicao de normalidade. Va-
mos deixar esta discussao para uma aula pos-
terior a proxima, na qual trabalharemos com as
primeiras idieas de testes de hipoteses e alguns
testes mais simples.
51
Intervalos de Confianca
Vamos comecar com um exemplo. Suponha
que se deseja estimar a media µ de uma po-
pulacao qualquer e que para isso usaremos a
media amostral X de uma amostra aleatoria de
tamanho n. Usando o TCL, supondo n ≥ 30
temos que
X − µσ/√n
a∼ N(0,1).
Logo, usando a tabela da normal padrao, pode-
mos escrever, por exemplo,
P (−1,96 <X − µσX
< 1,96) = 0,95
com σX = σ√n
.
52
Por meio de operacoes algebricas, e possıvel
reescrever a equacao anterior na forma
P(X − 1,96σX < µ < 1,96σX
)= 0,95
e, essa equacao nos fornece os limites de 95%
de confianca de µ, a saber,
X ± 1,96σX
Notacao: IC(µ,0.95) : X ± 1,96σX
com σX = σ√n
.
53
Interpretacao do intervalo: a figura a seguir e
util na interpretacao.
Resumindo: Se pudessemos construir uma quan-
tidade grande de intervalos da forma X±1,96σX,
todos baseados em amostras aleatorias de tama-
nho n da populacao, 95% deles conteriam o
parametro µ.
54
No exemplo que acabamos de apresentar, 95%
e dito ser o nıvel ou coeficiente de confianca
do intervalo.
E claro que podemos usar um nıvel de con-
fianca qualquer e que, em geral fara sentido,
nıveis de confianca altos, proximos de 1.
1,96 e o quantil da distribuicao normal padrao
tal que P (−1,96 < Z < 1,96) = 0,95.
Vamos adotar a seguinte notacao
seja z(γ) tal que
P (−z(γ) < Z < z(γ)) = γ,
0 < γ < 1.
55
Observe que com essa notacao z(0.95) = 1,96.
E tambem que um intervalo de nıvel de con-
fianca γ para µ e dado por X ± z(γ)σX.
56
Intervalos de Confianca com nıvel de confiancaγ para a media populacional
1. Amostras da distribuicao normal ou amostrassuficientemente grandes n ≥ 30
IC(µ, γ) : X︸︷︷︸media amostral
±z(γ)σ√n︸︷︷︸
erro padrao
Observacao: se o valor de σ nao for conhecidosubstitua-o na expressao acima por uma esti-mativa.
2. Amostras da distribuicao normal, σ desco-nhecido, n < 30
IC(µ, γ) : X︸︷︷︸media amostral
±t(γ,n−1)s√n︸︷︷︸
erro padrao de X
57
Em (2) na tela anterior a notacao t(γ,n−1) e
similar a notacao usada na distribuicao normal,
conforme a figura a seguir. A diferenca e que
agora usamos uma distribuicao t com n − 1
graus de liberdade.
58
Intervalos de Confianca para a proporcao po-pulacional
No caso de intervalos para a proporcao, se fos-semos usar a expressao dada em (1) terıamos
IC(p, γ) : p︸︷︷︸proporcao amostral
±z(γ)
√p(1− p)√n︸ ︷︷ ︸
erro padrao de p
No entanto o valor de p nao e conhecido eaparece na expressao do erro padrao. Nessecontexto costuma-se adotar duas estrategias.A primeira, conservadora, trabalha com o piorcenario possıvel e substitui p na formula doerro padrao por 1/2, que produz o intervalomais largo possıvel.
A segunda , que pode ser usada para tamanhosamostrais suficientemente grandes, substitui ppor p.
59
Assim temos,
Alternativa conservadora:
IC(p, γ) : p± z(γ)
√1
4n
Outra alternativa:
IC(p, γ) : p± z(γ)
√p(1− p)√n
60
Exemplo 1: (Pinheiro e outros - Estatıstica
Basica: a arte de trabalhar com dados - Cap.
7- ex. 7.6)
Levando em conta simultaneamente as respos-
tas dadas por 200 clientes de uma empresa a
todos os itens de um questionario, foi calcu-
lado um ındice de satisfacao global correspon-
dente a cada respondente. Este ındice varia de
0 (totalmente insatisfeito) a 100 (totalmente
satisfeito). Com respeito a esse ındice de sa-
tisfacao foi construıdo um intervalo de 95%
de confianca para o nıvel medio de satisfacao
da populacao de clientes dessa empresa e que
resultou nos seguintes limites
IC(µ,95%) : (43,5 ; 63,9).
Quais das afirmacoes a seguir estao corretas e
quais nao estao? Justifique cada uma de suas
respostas.
61
(a) A probabilidade de que µ esteja entre 43,5
e 63,9 e 95%.
(b) Se fosse extraıda uma outra amostra, tam-
bem com 200 clientes, a probabilidade de a
media amostral dos ındices de satisfacao ob-
servados cairem entre 43,5 e 63,9 e 95%.
(c) Se fossem extraıdas 100 amostras de tama-
nho 200 e se usasse o mesmo procedimento
que deu origem ao intervalo apresentado no
enunciado para cada amostra, cerca de 95%
dos intervalos obtidos conteriam o valor de µ.
(d) O desvio padrao populacional do ındice de
satisfacao e aproximadamente igual a 5,1.
(e) Todos os entrevistados apresentaram ındices
de satisfacao entre 43,5 e 63,9.
62
Exemplo 2: (Dancey e Reidy - Estatıstica sem
Matematica para Psicologia. Capıtulo 4. Ex-
ercıcio 2)
O Dr. Doolittle finalmente desistiu da ideia de
conversar com animais e decidiu tornar-se um
psicologo experimental de animais. Ele esta
particularmente interessado em descobrir se os
gatos sao ou nao mais inteligentes que os ca-
chorros. Para isso ele desenvolveu um teste de
inteligencia especıfico para esse estudo e testa
amostras de gatos e cachorros. Ele foi cuida-
doso para nao introduzir qualquer tipo de vıcio
no teste e acredita que criou um teste que nao
esta associado as especies, ou seja, pode ser u-
sado em qualquer especie. Dr, Dotlittle espera
que exista uma diferenca entre os escores de
gatos e cachorros. No experimento ele traba-
lhou com duas amostras aleatorias de 10 gatos
e 10 cachorros e, os resultados obtidos, estao
na tabela a seguir.
63
gatos cachorros95 116
100 112104 102
78 96130 89111 124
89 131114 117102 107
97 110
1. Construa intervalos de confianca de 95%
de confianca para os escores medios de
gatos e de cachorros.
2. Que suposicoes voce usou para construir
os intervalos do item anterior?
3. Voce diria que o Dr. Doolittle esta cor-
reto? Por que?
64
Exemplo 3: (Levine e outros - Estatıstica: Teo-ria e Aplicacoes - Cap. 6 - exercıcio 6.56)
O diretor de pessoal de uma grande corporacaodeseja estudar o absenteısmo dos trabalhadoresadministrativos do escritorio central da cor-poracao durante o ano. Uma amostra aleato-ria de 25 empregados administrativos revelouo seguinte:
• x = 9,7 dias, s = 4 dias
• 12 trabalhadores administrativos estiveramausentes mais de 10 dias.
(a) Construa um intervalo de 99% de con-fianca, para o numero medio de ausencias detrabalhadores administrativos no ano pasado.
(b) Construa um intervalo de 95% de con-fianca para a proporcao de trabalhadores ad-ministrativos que estiveram ausentes por maisde 10 dias durante o ano passado.
65
Referencias bibliograficas:
(1) Busssab e Morettin - Estatıstica Basica.
Editora Saraiva
(2) Pinheiro e outros - Estatıstica Basica - a
arte de trabalhar com dados - Elsevier
(3) Thurman - Estatıstica - Saraiva
(4) Dancey e Reidy - Estatıstica sem Matematica
para Psicologia - Penso
(5) Levine e outros. Estatıstica: Teoria e
Aplicacoes.
66