17
Exercícios Resolvidos 1. Comparação entre os graus de dificuldade de duas provas de Estatística Um professor aplicou provas de Estatística a duas turmas no mesmo dia. Os resultados obtidos foram os seguintes: Turma da Manhã: número de alunos = 19 2,5 3,5 4,5 5,0 5,5 5,5 6,0 6,5 7,0 7,5 7,5 7,5 7,5 8,0 8,0 8,5 9,0 9,0 10,0 Média amostral = 6,76 Desvio Padrão amostral = 1,97 Turma da Tarde: número de alunos = 20 3,5 3,5 4,0 4,5 5,0 5,0 5,5 5,5 6,0 6,5 6,5 7,0 7,0 7,0 7,0 7,5 7,5 8,0 9,0 9,5 Média amostral = 6,25 Desvio Padrão amostral = 1,69 Depois de aplicadas as provas, alguns alunos da Tarde alegaram que a prova da Manhã tinha sido mais fácil e que, por isso, a Turma da Tarde tinha sido prejudicada. O professor era o mesmo e foi usado o mesmo material didático, em ambos os casos. Além disso, supõe-se que em média os alunos de uma turma estudaram tanto quanto os da outra. Também não havia nada que indicasse que os alunos de uma turma fossem academicamente mais fortes que os da outra. Assim sendo, as médias populacionais podem ser vistas como representativas do nível de facilidade de cada uma das duas provas. (a) Teste a hipótese nula de variâncias populacionais iguais contra a hipótese alternativa de variâncias populacionais diferentes, ao nível de significância de 5%. (b) Caso a hipótese de variâncias iguais tenha sido aceita no item (a), teste a hipótese nula de médias populacionais iguais contra a hipótese alternativa de que a média da Turma da Manhã é maior que a da Turma da Tarde, ao nível de significância de 5%. (c) O que se pode afirmar sobre o p-valor no caso do teste de médias do item (b)? Solução: (a) O teste a ser aplicado aqui é H 0 : versus H 1 : , onde = variância populacional das notas na prova da Manhã e = variância populacional das notas na prova da Tarde. Partindo das premissas de que, em ambas as provas, a distribuição das notas segue uma curva Normal (cuja veracidade poderia ser apurada a partir dos próprios dados, por exemplo através de gráficos de probabilidade Normal Ver Capítulo 12), podemos aplicar o teste F para a igualdade de variâncias. A estatística de teste é F = , e sua distribuição de probabilidade sob H 0 é uma F com graus de liberdade n M 1 = 18 no numerador e n T 1 = 19 no denominador.

Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Embed Size (px)

Citation preview

Page 1: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Exercícios Resolvidos

1. Comparação entre os graus de dificuldade de duas provas de Estatística

Um professor aplicou provas de Estatística a duas turmas no mesmo dia. Os resultados

obtidos foram os seguintes:

Turma da Manhã: número de alunos = 19 2,5 3,5 4,5 5,0 5,5 5,5 6,0 6,5 7,0 7,5 7,5 7,5 7,5 8,0 8,0 8,5 9,0 9,0 10,0

Média amostral = 6,76 Desvio Padrão amostral = 1,97

Turma da Tarde: número de alunos = 20 3,5 3,5 4,0 4,5 5,0 5,0 5,5 5,5 6,0 6,5 6,5 7,0 7,0 7,0 7,0 7,5 7,5 8,0 9,0 9,5

Média amostral = 6,25 Desvio Padrão amostral = 1,69

Depois de aplicadas as provas, alguns alunos da Tarde alegaram que a prova da Manhã

tinha sido mais fácil e que, por isso, a Turma da Tarde tinha sido prejudicada.

O professor era o mesmo e foi usado o mesmo material didático, em ambos os casos.

Além disso, supõe-se que em média os alunos de uma turma estudaram tanto quanto os

da outra. Também não havia nada que indicasse que os alunos de uma turma fossem

academicamente mais fortes que os da outra. Assim sendo, as médias populacionais

podem ser vistas como representativas do nível de facilidade de cada uma das duas

provas.

(a) Teste a hipótese nula de variâncias populacionais iguais contra a hipótese alternativa

de variâncias populacionais diferentes, ao nível de significância de 5%.

(b) Caso a hipótese de variâncias iguais tenha sido aceita no item (a), teste a hipótese

nula de médias populacionais iguais contra a hipótese alternativa de que a média da

Turma da Manhã é maior que a da Turma da Tarde, ao nível de significância de 5%.

(c) O que se pode afirmar sobre o p-valor no caso do teste de médias do item (b)?

Solução:

(a) O teste a ser aplicado aqui é H0: versus H1: , onde

= variância populacional das notas na prova da Manhã e

= variância populacional das notas na prova da Tarde.

Partindo das premissas de que, em ambas as provas, a distribuição das notas segue

uma curva Normal (cuja veracidade poderia ser apurada a partir dos próprios

dados, por exemplo através de gráficos de probabilidade Normal – Ver Capítulo

12), podemos aplicar o teste F para a igualdade de variâncias.

A estatística de teste é F = , e sua distribuição de probabilidade sob H0 é uma F

com graus de liberdade nM – 1 = 18 no numerador e nT – 1 = 19 no denominador.

Page 2: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Uma vez que: nM = 19; 76,6xM; 97,1sM

; nT = 20; 25,6xT;

,69,1sTtemos então Fobs = . Por outro lado, para esse par (18, 19) de

nos

de graus de liberdade, obtemos também F0,025 = 0,38 e F0,975 = 2,55. Portanto,

como 0,38 < 1,36 < 2,55, devemos aceitar H0: ao nível α = 5%.

(b) Para o teste de médias, temos H0: M = T versus H1: M > T, onde

M = média populacional das notas na prova da Manhã e

T = média populacional das notas na prova da Tarde.

Uma vez que a premissa de Normalidade acima mencionada tenha sido verificada

e, já que a hipótese de variâncias iguais foi aceita no item (a), podemos aplicar aos

dados o teste t de Student para amostras não pareadas.

A estatística de teste é

TM

2

c

TM

n

1

n

1S

XXT , onde

22019

69,1)120(97,1)119(s

222

c 3,35

20

1

19

1

25,676,6Tobs

0,875

Por outro lado, como se trata de um teste unilateral, o critério de decisão é:

Rejeitar H0 se Tobs > α1t . Caso contrário, aceitar H0.

O número de graus de liberdade é 19 + 20 2 = 37 e, portanto, para = 5%,

temos 95,0t 1,687. Como Tobs = 0,875 < 1,687 = 95,0t , a hipótese H0 não deve ser

rejeitada. Ou seja, ao trabalharmos ao nível de significância de 5%, com base nos

dados não há evidências de que a média M seja superior à média T. A análise

aqui apresentada nos leva a concluir, com base nos dados, pela plausibilidade da

hipótese nula de que o nível de dificuldade foi o mesmo nas duas provas.

(c) Como H0 foi aceita ao nível = 5%, é claro que o p-valor é maior ou igual a 5%.

Na verdade, p-valor = P[T > 0,875] , onde T segue uma lei de probabilidade t de

Student com 37 graus de liberdade. Então, consultando um software adequado,

vemos que 0,194valorp ou 19,4%. O que poderia ser dito sobre o p-valor

com base na Tabela da t neste caso?

2. Será que a taxa de inflação tende a ser mais baixa nos países mais ricos do

que nos países mais pobres?

Os diversos países do planeta foram divididos em dois grupos conforme o seu nível de

renda per capita:

Grupo A: renda per capita menor ou igual a 2500 dólares

Grupo B: renda per capita acima de 2500 dólares

Page 3: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

A tabela a seguir contem uma amostra de países do Grupo A e uma amostra de países

do Grupo B, e para cada um desses países reporta a taxa de inflação no ano de 2005.

Conjunto de Dados

Países do Grupo A Inflação Países do Grupo B Inflação

Guiné Bissau 107,38 Polonia 114,58

Serra Leoa 135,93 Servia 330,05

Viet Nam 124,4 Belize 113,34

Haiti 248,28 Iran 192,89

Malawi 198,4 Granada 111,1

Camboja 114,03 S. Vicente e Granadinas 108,81

Mianmar 297,04 Africa do Sul 128,05

Gâmbia 156,39 Uruguai 162,27

Rep Centro Africana 111,48 Fed Russa 199,72

Laos 163,06 Santa Lucia 111,98

Benin 114,95 Mexico 127,14

Bangladesh 130,16 Eslováquia 132,97

Zâmbia 251,44 Malásia 108,99

Burkina Fasso 116,03 Chile 113,64

Nigeria 207,38 Gabão 104,85

Ilhas Salomão 148,1 S Cristovão e Nevis 110,98

Paquistão 128,48 Seichelles 114,89

India 121,54 Arabia Saudita 100,72

Honduras 149,6 Libia 80,25

Sudão 145,46 Trinidad e Tobago 126,49

Armenia 117,5 Portugal 116,89

Bolivia 116,63 Grécia 118,15

Filipinas 129,8 Eslovenia 130,59

Guatemala 142,79 Chipre 114,52

Vanuatu 111,72 Barein 104,86

Egito 128,13 Kuweit 108,77

Paraguai 150,87 China, Macau 99,02

Butão 119,13 Nova Zelandia 113

Camarões 110,48 Hong Kong 93,38

El Salvador 118,02 Italia 112,71

Equador 175,86 Qatar 120,88

Jordânia 112,67 Bélgica 111,03

Colombia 136,85 Alemanha 108,27

Rep Dominicana 230,43 Canadá 112,17

Tonga 160,41 Japão 97,83

Romênia 231,6 Estados Unidos 113,41

Cazaquistão 140,35 Dinamarca 110,22

Tunisia 113,75 Suécia 107,51

Noruega 109,06

Fonte: Site da United Nations Statistics Division

Obs.: A taxa de inflação é medida pelo ìndice de preços ao consumidor, ano 2000 = 100, segundo o FMI.

Page 4: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Queremos comparar as taxas médias de inflação nesses dois grupos de países, através de

um Teste de Hipótese onde:

H0: μA = μB contra H1: μA > μB, (ou, equivalentemente, H0: μA – μB = 0 contra H1: μA –

μB > 0), sendo μA e μB as médias populacionais dessa variável em cada um dos grupos. Como os tamanhos de amostra m=38 e n=39 são ambos relativamente grandes, aqui pode ser

usada a estatística de teste

n

S

m

S

YXZ

2

Y

2

X

, cuja distribuição é aproximadamente Normal

Padrão sob a hipótese nula, mesmo quando as variâncias populacionais 2

Xσ e 2

Yσ não são iguais

– Ver Considerações finais sobre o teste t não pareado, na sub-seção 11.1.1.

(a) Teste H0 contra H1 ao nível α = 1%.

(b) Qual o p-valor?

Solução:

(a) A partir dos dados podem ser calculados:

Grupo nobs Média D Padrão

A: renda pc ≤ 2500 38 150,435 47,0537

B: renda pc > 2500 39 122,974 40,8135

Então 733,2

39

40,8135

38

47,0537

974,122150,435Z

22obs

.

Como obsZ 2,733 > 2,33 = z0,99 , H0 deve ser rejeitada.

Isso significa que, ao nível α = 1%, há evidências suficientes de que as taxas de inflação são

em média mais baixas entre os países mais ricos (renda per capita > 2500 dólares) do que

entre os países mais pobres (renda per capita ≤ 2500 dólares).

(b) O p-valor aqui é igual à área sob a curva da Normal padrão e à direita de 2,733, a saber,

p-valor=0,00314. O que você concluiria sobre o p-valor com base na Tabela I?

3. Testando a independência em tabelas de contingência 2x2 Dadas duas variáveis aleatórias discretas X e Y, queremos aplicar o teste Qui-quadrado para

testar H0: “X e Y são independentes” contra H1: “Existe dependência entre X e Y”, com base

na Tabela de Contingência a seguir:

Valores de Y

Valores de X b1 b2 Total

a1 n11 n12 n1.

a2 n21 n22 n2.

Page 5: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Total n.1 n.2 n

Para isso será usada a estatística de teste , onde ehk =n

n..n kh , para

todo par (h,k), com o critério de decisão usual. Quais das seguintes afirmações estão corretas e

quais não estão? Por que?

(a) Quanto mais próximo de zero estiver o valor da estatística de teste mais motivos se

terá para rejeitar a hipótese de independência.

(b) Na expressão acima ehk representa o no esperado de observações com X = ah e Y =

bk dados os totais de linha e de coluna, se houver independência total entre X e Y.

(c) Como só há 1 grau de liberdade, uma vez fixados n1., n2., n.l e n.2, na montagem de

uma tabela como acima somente uma das 4 freqüências nkl pode variar livremente.

(d) Se H0 é falsa, a probabilidade de que a estatística de teste seja inferior ao valor que

se obtem da tabela do Qui quadrado para 1 grau de liberdade e = 0,05 é igual a

0,95.

(e) O procedimento usual de teste é adequado, qualquer que seja o tamanho n da

amostra.

Solução:

(a) Errado. Na verdade acontece exatamente o oposto dessa afirmação, isto é: Quanto maior

for a estatística de teste, mais motivos se tem para rejeitar a hipótese de independência. (b) Correto. Isto porque se houver independência total entre X e Y, a distribuição conjunta

delas é igual ao produto das distribuições marginais de X e de Y. (c) Correto. Isto porque se, por exemplo, for escolhido um valor para n11, os valores das

demais freqüências poderão ser calculados por:

n12 = n1. – n11, n21 = n.1 – n11, n22 = n2. – n.1 + n11

(d) Errado. O que pode ser dito é que: Se H0 é verdadeira, essa probabilidade é igual a 0,95. (e) Errado. Se o tamanho da amostra for muito pequeno, o teste qui-quadrado não pode ser

aplicado, já que ele se baseia em uma propriedade assintótica, ou seja, válida quando n

tende a infinito.

4. Concurso público

Em um concurso público promovido por uma empresa estatal, os candidatos às

vagas de Engenheiro Civil constituem a nossa população de interesse. Entre eles, os

que se submeteram a uma preparação específica para o concurso constituem a sub-

população A e os que não fizeram essa preparação constituem a sub-população B.

Sejam pA a probabilidade de aprovação para um candidato que se preparou e pB a

probabilidade de aprovação para um candidato que não se preparou. Deseja-se testar

H0: pA = pB contra H1: pA > pB.

Para isso foram coletadas amostras aleatórias em ambas as sub-populações e os

resultados obtidos foram os seguintes:

Sub-população Tamanho amostral Aprovados

Prepararam-se (A) 100 34

Não se prepararam (B) 200 43

Se nA e nB são os tamanhos de amostra utilizados, e se XA e XB são as respectivas

freqüências de aprovados, pode ser usada como estatística de teste

Page 6: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Z = .

(a) O que pode ser dito sobre a distribuição de probabilidade de Z sob H0? Por que?

(b)Qual a decisão a ser tomada ao nível de significância de 5%?

(c) Qual o nível crítico neste caso?

Solução:

(a) É claro que:

XA é Binomial com parâmetros nA e pA.

XB é Binomial com parâmetros nB e pB.

XA e XB são variáveis aleatórias independentes.

Então

E = pA – pB e

Var = Var + Var =

Portanto, como nA = 100 e nB = 200 são suficientemente grandes para que se

possa usar o TCL, se H0 é verdadeira, então Z = segue uma

distribuição aproximadamente Normal com média = 0 e desvio padrão

(b) Se Z tivesse uma distribuição Normal Padrão sob H0, a região de rejeição ao

nível α = 5% seria: Z > 1,64.

Por outro lado, o valor observado de Z é

Então já estaria na região de rejeição se DP(Z) fosse igual a 1. Como

DP(Z) 1, com mais forte razão, H0 deve ser rejeitada.

Portanto, ao nível α = 5%, há fortes evidências de que a probabilidade de

aprovação é maior entre os candidatos que se prepararam do que entre os que

não se prepararam para o concurso.

(c) O nível crítico no caso é

P[Z > 2,04] 1 – Φ(2,04) = 0,0206.

5. Tensão longitudinal de folhas de papel - Ajuste de uma Normal

Suponha que a tensão longitudinal das folhas de papel de um determinado tipo produzidas por uma Companhia foi monitorada a cada 30 minutos, durante uma

Page 7: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

semana, sendo obtidos os resultados (N) apresentados na seguinte tabela de freqüências.

Tabela - Distribuição de 336 observações da tensão longitudinal das folhas de papel produzidas por uma Companhia

Tensão longitudinal (N)

Frequência observada (ni)

250 ⊢ 260 6

260 ⊢ 270 20

270 ⊢ 280 64

280 ⊢ 290 138

290 ⊢ 300 78

300 ⊢ 310 26

310 ⊢ 320 4

Total 336

Usando um teste de aderência Qui-quadrado:

(a) Testar ao nível de significância de 1% se as observações podem ser consideradas provenientes de uma população Normalmente distribuída.

(b) Qual o p-valor?

Solução

(a) Para aplicar o teste de aderência Qui-quadrado é necessário ter os dados dispostos numa tabela de freqüências como acima. Como o nosso objetivo é verificar se os dados se ajustam a uma distribuição Normal, devemos estimar

inicialmente os valores dos parâmetros e . As estimativas usadas são e

s . Se dispusermos dos dados brutos, esses valores podem ser calculados diretamente a partir deles. Em nosso caso só dispomos de uma tabela de freqüências. Assim usando as técnicas vistas no Capítulo 7, calculamos os valores aproximados para a média amostral e o desvio padrão amostral, obtendo: = 285,6 e s = 11,0.

A hipótese nula que desejamos testar é

H0 : “Os dados ajustam-se adequadamente a uma distribuição Normal”

contra a hipótese alternativa

H1 : “Os dados não se ajustam à distribuição Normal”

.Para efeito do teste consideraremos inicialmente 9 intervalos:

(– , 250), [250, 260), [260, 270), [270, 280),

[280, 290), [290, 300), [300, 310), [310, 320) e [320, + ).

Para cada um dos limites calculamos, a seguir, o valor da variável Normal padrão Z,

usando Z = .

Os nove intervalos, expressos em termos da variável Z serão então:

(– , -3,24), [-3,24, -2,33), [-2,33, -1,42), [-1,42, -0,51),

[-0,51, 0,40), [0,40, 1,31), [1,31, 2,22), [2,22, 3,13) e [3,13, + ).

Page 8: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

A probabilidade teórica (segundo H0) de cada intervalo é a probabilidade de Z estar compreendido entre os limites do intervalo considerado. Deste modo, por exemplo, para a terceira classe teremos

P (-2,33 ≤ Z < -1,42) = 0,0679.

A freqüência esperada dessa classe é então 336 0,0679 = 22,8.

Para os 9 intervalos as freqüências esperadas correspondentes são:

0,2 ; 3,1 ; 22,8 ; 76,3 ; 117,7 ; 83,8 ; 27,5 ; 4,1 e 0,3 .

A freqüência esperada dos dois primeiros intervalos é menor que 5. Por isso agrupamos as três primeiras classes, resultando uma freqüência observada de 26 e uma freqüência esperada de 26,1. Analogamente, agrupamos as três últimas classes obtendo-se uma freqüência observada de 30 e uma freqüência esperada de 31,9.

Chegamos assim, à seguinte tabela:

Z Probabilidade ni ei (ni –ei)2 / ei

Z < - 1,42 0,0778 26 26,1 0,0004

-1,42 ≤ Z < -0,51 0,2272 64 76,3 1,9828

-0,51 ≤ Z < 0,40 0,3504 138 117,7 3,5012

0,40 ≤ Z < 1,31 0,2495 78 83,8 0,4014

Z ≥ 1,31 0,0951 30 31,9 0,1132

Total 1,0000 336 336 5,999

Logo, o valor observado para a estatística de teste é = 5,999 6,0 .

Como restaram K = 5 classes e foram estimados dois parâmetros da distribuição Normal , o número de graus de liberdade para a distribuição Qui-quadrado ficou

reduzido a = 2 .

Para = 0,01 temos = 9,21.

Este valor é maior que o encontrado para , o que nos leva a decidir pela

aceitação de H0 ao nível de significância de 1%.

(b) O p-valor é = P ( > ) = P ( > 6,0) = 0,0498, para uma distribuição

Qui-quadrado com 2 graus de liberdade. Qual seria a conclusão usando = 0,05?

6. Debate entre dois candidatos no 2º turno de uma eleição presidencial

Deseja-se avaliar se o fato de uma rede nacional de TV ter transmitido um debate

entre os dois únicos candidatos (A e B) ao 2º turno de uma eleição presidencial

alterou ou não as intenções de voto do eleitorado. Para isso foram selecionados ao

acaso 1000 eleitores, cujas opiniões foram levantadas antes e depois de assistirem a

esse debate. Os resultados obtidos foram os seguintes:

Depois de assistir o debate

Antes de assistir o debate Apoiam A Apoiam B Total

Apoiavam A 520 80 600

Page 9: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Apoiavam B 130 270 400

Total 650 350 1000

Teste, ao nível α = 5%, a hipótese nula H0: “O debate não influiu sobre as

preferências do eleitorado” contra a hipótese alternativa H1: “O debate afetou as

preferências do eleitorado”.

Solução:

Para um eleitor escolhido ao acaso, sejam:

PAA a probabilidade dele apoiar A antes e depois do debate

PAB a probabilidade dele apoiar A antes do debate e B depois do debate

PBA a probabilidade dele apoiar B antes do debate e A depois do debate

PBB a probabilidade dele apoiar B antes e depois do debate

Então, as intenções de voto do eleitorado antes do debate são:

Para o candidato A: pA. = pAA + pAB e Para o candidato B: pB. = pBA + pBB

E, depois do debate:

Para o candidato A: p.A = pAA + pBA e Para o candidato B: p.B = pAB + pBB

Logo, para que o debate não afete as preferências do eleitorado, devemos ter

pA. = p.A e pB. = p.B ,

ou seja, a hipótese nula pode ser escrita como H0: pAB = pBA.

Observe que, dada uma amostra composta por n eleitores, se XAA , XAB , XBA , XBB

representam os números de eleitores da amostra em cada uma das 4 situações acima

especificadas, então o vetor aleatório (XAA , XAB , XBA , XBB) segue uma

distribuição multinomial com parâmetros n e PAA , PAB , PBA , PBB.

Podemos estimar PAB e PBA a partir dos dados através de e .

Então, se H0 for verdadeira, é de se esperar que esteja próximo de zero.

Admitamos que H0: PAB = PBA seja verdadeira e, para simplificar a notação, façamos

PAB = PBA = p.

Então temos:

E( ) = p – p = 0 e

Var( ) = = (Var(XAB) + Var(XBA) – 2 Cov(XAB,

XBA)).

Por outro lado, da teoria relativa à distribuição multinomial (ver Exerc ???),

sabemos que:

Var(XAB) = n pAB (1 – pAB) = np(1 – p)

Var(XBA) = n pBA (1 – pBA) = np(1 – p)

Cov(XAB, XBA) = – n pAB pBA = – np2

Daí, Var( ) = [2 np(1 – p) – 2 (– np2)] =

Page 10: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Pelo TCL, podemos então afirmar que, se n é suficientemente grande, Z =

segue uma distribuição aproximadamente Normal Padrão. Como n = 1000 pode ser

considerada uma amostra bastante grande, esta será portanto a nossa estatística de

teste.

Por outro lado, o valor observado da estatística de teste é Zobs = .

Entretanto, observe que Zobs depende de p, cujo valor não conhecemos.

Será que esse valor observado é compatível com H0?

Como, sob H0, Z N(0,1), sabemos que, ao nível de significância α = 5%, a região

de aceitação seria < 1,96. Temos então que verificar se o valor observado da

estatística de teste Zobs = está ou não na região de aceitação.

Para começar, se H0 for verdadeira, quais seriam os valores possíveis do parâmetro

p?

Como PAA + PBB + 2p = 1 e 0 PAA + PBB 1, temos 0 p ½.

Consideremos então algumas possibilidades para o valor de p:

Se p = ½, ou seja, PAA + PBB = 0, isto significaria que todos os eleitores

mudaram de opinião em função do debate. Neste caso teríamos Zobs = =

1,58 e, portanto, estaríamos na região de aceitação. Porém, convenhamos

que esta definitivamente não é uma alternativa muito realista.

Se p = 1/4, ou seja, PAA + PBB = 1/2, isto significaria que metade do

eleitorado mudou de opinião em função do debate. Neste caso teríamos Zobs

= = 2,24 e, portanto, já estaríamos na região de rejeição. Esta já é uma

alternativa um pouco mais realista.

Se p for menor que 1/4, teremos PAA + PBB > 1/2, o que significaria que

menos da metade do eleitorado mudou de opinião em função do debate.

Neste caso, pelo mesmo raciocínio acima, e com mais forte razão,

estaríamos na região de rejeição. Esta é a alternativa mais realista à luz dos

próprios dados. Por que?

Já que, sob H0, PAB = PBA = p, podemos concluir que seria um bom

estimador de p. Então, com base nos dados, nossa estimativa de p seria

, que é menor que ¼.

Por tudo o que foi dito acima, concluímos que a hipótese nula de que o debate não

afetou as preferências do eleitorado deve ser rejeitada ao nível de 5%.

Page 11: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Exercícios Propostos

1. Número de Bromo e estabilidade de um combustível

Dependendo da sua composição química, uma formulação de um combustível pode ser mais ou menos instável à estocagem. Isso significa que quando o combustível é deixado estocado por algum tempo, ele se deteriora mais rapidamente quando é instável do que quando é estável. O Número de Bromo é uma das propriedades que pode afetar a estabilidade do combustível. Os dados abaixo são medições do Número de Bromo, realizadas em amostras estáveis e em amostras instáveis do combustível em estudo.

Estáveis 38 40 47 48 48 33 32 65 50 53 31 34 19 42 38 63 78 37 59 60

Instáveis 74 68 60 64 80 76 78 31 85 50 78 55 59 74 - - - - - -

(a) Use esses dados para testar, ao nível α = 5%, se há igualdade entre os dois grupos quanto ao valor médio do Número de Bromo.

(b) Qual o p-valor?

2. Aluguel de sala e quarto na Zona Sul do Rio de Janeiro

Consultando o site www.zap.com.br em um determinado dia, encontramos alguns

apartamentos com sala e um quarto anunciados para aluguel nos bairros de Botafogo e

Flamengo, ambos situados na Zona Sul do Rio de Janeiro. Os valores do aluguel mensal

(em reais) propostos pelos anunciantes eram os seguintes:

Flamengo 1500 1600 1600 1700 1800 1500 2100 350 700 1500 1500 1500 1700 2500 2500

Botafogo 1500 1800 3000 1800 1900 2000 500 1700 1800 1800 2500

Admitindo que esses dois conjuntos de apartamentos possam ser encarados como

amostras representativas da oferta por imóveis de sala e quarto nesses dois bairros

naquele momento:

(a) Verifique se são atendidas as premissas em que se baseia o teste t não pareado da

hipótese nula de médias iguais contra a hipótese alternativa de médias diferentes

para a variável aluguel mensal nos dois bairros aqui considerados.

(b) Aplique esse teste, ao nível de 1%.

(c) Qual o p-valor?

3. Octanagem da gasolina

Page 12: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Uma companhia de petróleo teve que passar grande parte da sua produção de gasolina

de uma formulação que contem tetra-etileno para uma outra formulação que não contem

chumbo. Uma característica de qualidade importante da gasolina é a octanagem. Foi

realizado um experimento no qual 10 medições da octanagem foram obtidas para cada

uma das duas formulações e os resultados podem ser sintetizados na tabela abaixo:

Média Amostral Desvio Padrão Amostral

Formulação 1 (contem 20% de etanol) 85,30 1,28

Formulação 2 (contem 10% de etanol) 85,50 1,12

(a) As variâncias podem ser consideradas iguais, ao nível de significância de 0,01?

(b) Teste, ao nível de significância = 0,01, a hipótese nula de que as médias

populacionais da octanagem correspondentes às duas formulações são iguais contra

a hipótese alternativa de que elas são diferentes.

(c) Obtenha o nível crítico.

Obs.: Admita válidas as premissas de que os dados correspondentes a cada uma das

formulações seguem distribuições normais e de que as variâncias populacionais são

iguais.

4. Uso do laser para ativar a barreira imunológica contra a doença periodontal

O líquido sulcular gengival é uma importante barreira imunológica que atua na defesa do

organismo humano contra a instalação da doença periodontal, associada à presença de

placas bacterianas. Foi feito um estudo com o objetivo de avaliar a ativação da barreira

imunológica estimulando o tecido gengival através da aplicação do laser em baixa

intensidade. Para este estudo foram selecionados 30 voluntários, com idade entre 18 e 60

anos, com estruturas dentais e periodontais clinicamente normais. Uma área foi submetida a

irradiação laser de baixa intensidade de λ = 780 nm (Infra-vermelho) e uma outra área foi

submetida a irradiação laser de λ = 680 nm (Vermelho). A variação da quantidade de

volume do fluido foi medida pelo instrumento eletrônico chamado Periotron. Os resultados

obtidos estão na tabela a seguir.

no. Nome Gênero Idade

Sem laser antes

Sem laser

depois

Laser InfraVerm

antes

Laser InfraVerm

depois

Laser Verm antes

Laser Verm

depois

1 BGN M 29 52 50 39 51 25 61

2 GRS M 44 31 22 26 82 26 80

3 MVLF M 31 114 111 134 183 36 98

4 AJMV F 25 64 62 16 48 25 41

5 DML M 28 73 61 30 52 16 38

6 EMO F 37 94 45 46 71 77 88

7 PDM F 31 88 67 71 86 40 68

8 KCDF F 28 89 85 22 32 31 54

9 ABM F 20 61 50 27 52 40 45

10 DLS F 36 59 22 41 68 36 90

11 LAS M 54 123 95 150 176 55 109

12 RVSJ M 25 62 30 40 58 55 89

Page 13: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

13 LMTV F 50 59 59 43 46 45 48

14 ATV M 21 59 58 80 130 58 116

15 RVS M 50 53 23 23 50 42 115

16 MVAA M 38 30 20 42 49 54 58

17 EPR M 29 58 41 72 80 72 91

18 TPFN F 28 75 86 49 97 56 86

19 ALRB F 24 67 74 29 46 30 36

20 KOL F 29 52 19 33 34 18 19

21 CGA F 44 17 13 10 15 15 25

22 BLJ F 36 32 10 28 40 25 31

23 AFB M 40 34 22 18 33 44 55

24 EBMF F 23 30 35 54 74 26 32

25 EC M 46 37 29 37 68 61 85

26 ABT F 25 25 10 32 53 29 39

27 LLSS M 27 66 64 76 86 47 52

28 MMML F 59 151 70 23 38 30 35

29 FGS F 26 75 93 28 90 68 83

30 OAA M 36 67 25 22 26 20 54

Fonte: "AVALIAÇÃO DAS ALTERAÇÕES DO FLUIDO CREVICULAR GENGIVAL DRENADO

DE TECIDOS GENGIVAIS CLINICAMENTE NORMAIS SUBMETIDOS À RADIAÇÃO LASER EM

BAIXA INTENSIDADE" (ESTUDO EM ANIMA NÓBILE), LÍVIO DE BARROS SILVEIRA, 2008

(a) Com base nesses resultados pode-se concluir que os lasers de baixa intensidade de

emissão infravermelha (λ = 780 nm), nas condições do presente estudo,

promoveram um aumento de volume do fluido sulcular gengival drenado? (b) Que procedimento de teste você utilizou para responder a essa pergunta? Por que? (c) As premissas nas quais ele se baseia são obedecidas neste caso? (d) Qual o p-valor obtido? (e) E quanto à ação da radiação vermelha (λ = 680 nm), o que se pode concluir?

5. Comparando três rações para suínos

Um criador de suínos deseja comparar três tipos de ração para alimentar seus animais.

Para isso, durante um determinado período, ele alimenta 30 animais com a ração A, 20

animais com a ração B e 25 animais com a ração C. Os aumentos de peso (em kg)

observados para esses animais no período considerado são apresentados na tabela

abaixo.

Tabela – Aumento de peso (em kg) de suínos, em resposta a 3 diferentes rações.

A 44 49 43 51 44 75 42 51 34 30 53 42 45 36 30

32 21 33 42 10 40 39 52 46 29 42 47 45 39 59

B 34 36 40 54 59 53 44 54 32 68 69 54 41 46 47

65 66 45 57 39

Page 14: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

C 57 40 40 36 45 66 39 50 25 21 29 27 28 39 42

21 30 41 43 29 42 44 58 28 49

(a) Formule o problema como uma ANOVA, onde:

o fator é o tipo de ração,

os níveis do fator são as diferentes rações,

a variável de interesse é o aumento de peso dos suínos

(b) Verifique a validade da premissa de igualdade entre as variâncias da variável

resposta nos diferentes grupos, através de Box Plots simultâneos do aumento de

peso para as 3 rações consideradas.

(c) Monte a tabela de ANOVA.

(d) Qual a decisão a ser tomada ao nível α = 5%?

(e) Como ficam as comparações múltiplas neste caso?

6. Comparando a porosidade média de 4 tipos de solo

A variável porosidade do terreno foi medida em 341 localidades (caracterizadas por

latitude, longitude e profundidade) de uma região rica em petróleo, onde há 4 tipos de

solo: A, B, C e D. A tabela a seguir contem o tamanho da amostra, a média amostral da

porosidade e a variância da porosidade para cada um dos tipos de solo:

Tipos de solo A B C D

Tamanho amostral 105 55 53 128

Média amostral 27,46 31,03 31,20 31,67

Variância amostral 16,60 21,63 11,42 23,67

Admitindo válida a premissa de igualdade das variâncias populacionais:

(a) Obtenha a tabela de ANOVA e teste a igualdade das médias da porosidade para

os 4 tipos de solo, ao nível de significância de 5%.

(b) Faça as comparações múltiplas ao nível de significância de 5%.

(c) Extraia suas conclusões.

7. Anúncios de carros na Web Num determinado dia, havia 2695 carros anunciados para venda no site

www.carrosnaweb.com.br, e eles se distribuíam segundo o fabricante da seguinte maneira:

Fabricante Freqüência

Chevrolet 613

Volkswagen 591

Fiat 554

Ford e Renault 472

Outros 465

Total 2695

Page 15: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

Teste a hipótese de que esses 5 grupos de fabricantes são equiprováveis.

8. Postos de gasolina: Bandeira e Região geográfica

A tabela de contingência abaixo retrata a distribuição dos postos revendedores de

combustíveis automotivos, por bandeira e por região geográfica, no Brasil no ano 2000. Bandeiras

Regiões BR e B BR IpShTxEss Outros Total

Norte 655 (474) 344 (782) 486 (230) 1485

Nordeste 1919 (1570) 2264 (2590) 738 (761) 4921

Sudeste 4377 (4418) 7143 (7290) 2329 (2141) 13849

Sul 1424 (1950) 4067 (3218) 622 (945) 6113

C-Oeste 912 (875) 1505 (1444) 326 (424) 2743

Brasil 9287 15323 4501 29111

Obs.1: Os valores entre parênteses são as freqüências esperadas sob independência.

Obs.2: “IpShTxEss” quer dizer “Ipiranga, Shell, Texaco e Esso”.

Teste a independência entre essas duas variáveis ao nível de 1%.

9. Relação entre comprimento e largura do corpo das tartarugas Foi coletada uma amostra com n = 48 tartarugas e, para cada uma delas, foram medidos o seu

comprimento C e a sua largura L. Foram então definidas novas variáveis x = ln(C) e y = ln(L),

porque as distribuições de C e L são ambas muito assimétricas.

Usando os dados sobre x e y para cada elemento da amostra calculou-se então o coeficiente

de correlação amostral entre essas duas variáveis e o resultado obtido foi 0,977. Em seguida foi

testada (*

) a hipótese nula H0 de que o coeficiente de correlação populacional entre x e y é igual

a 0 contra a hipótese alternativa H1 de que ele é diferente de 0. H0 foi rejeitada ao nível de

significância = 1%.

Foram então discretizadas as variáveis x e y da maneira abaixo, de modo a se obter a Tabela

de Contingência a seguir:

Classe de y Classe de x Total

x 4,8 x > 4,8

y 4,6 24 9 33

y > 4,6 0 15 15

Total 24 24 48

Deseja-se agora testar H0: Há independência entre as variáveis “Classe de x” e “Classe de y”

contra a alternativa H1: Há interdependência entre essas variáveis.

(a) Determine o nível crítico correspondente ao teste que se baseia na Tabela de Contingência

acima. Explicite o seu raciocínio.

(b) Há ou não coerência entre os resultados do teste de correlação (*

) acima referido e o do teste

de independência que você acaba de realizar? Por que?

10. Novamente a viscosidade no processo químico – Examinando a dispersão

Usando os mesmos dados do Exercício P10.4 sobre a viscosidade em um processo

químico, o objetivo agora é fazer inferências sobre a variância dessa variável.

Page 16: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

(a) T

este a hipótese nula H0: σ2 1 contra a hipótese alternativa H1: σ

2 > 1, ao nível

de significância α = 5%. Para isso faça a suposição de que a variável viscosidade

segue um modelo Normal. É possível provar que se X1, X2, ..., Xn constituem

uma amostra aleatória da distribuição N(µ,σ2), então a estatística obedece

a uma lei de probabilidade Qui-quadrado com (n – 1) graus de liberdade. Como

na fronteira entre H0 e H1 temos σ2 = 1, podemos usar como a

nossa estatística de teste e, uma vez fixado o valor do nível de significância α do

teste, o critério de decisão passa a ser: Rejeitar H0, se > Caso

contrário, aceitar H0.

(b) Q

ual é o p-valor?

11. Mais uma vez a viscosidade no processo químico – Examinando a premissa

de Normalidade

Usando ainda os mesmos dados do Exercício P10.4 sobre a viscosidade em um

processo químico, o objetivo agora é verificar se ela segue ou não uma curva Normal.

(a) P

articione o intervalo [12,5; 17,5] em 5 subintervalos de mesma amplitude (= 1) e

determine a freqüência de observações em cada um deles. Com base nessa

partição, aplique o teste Qui-quadrado de aderência para testar, ao nível α = 5%,

a hipótese de Normalidade dessa distribuição.

(b) Q

ual é o p-valor?

12. Chegadas de e-mails

Suspeita-se que o número X de mensagens que chegam no intervalo de uma hora à

caixa de e-mail de uma determinada pessoa segue a lei de probabilidade de Poisson(λ)

com λ = 1,5. Foi obtida a seguinte seqüência de 100 “observações iid” da v.a. X:

2 4 2 0 1 1 1 1 2 2 2 2 1 1 2 2 0 3 1 1

2 1 1 3 2 1 2 2 1 1 2 3 1 1 0 2 1 2 1 1

Page 17: Exercícios Resolvidos - Instituto de Matemática - UFRJim.ufrj.br/probest/Exercicios/C11_Exercicios_09_11_2011.pdf · Exercícios Resolvidos 1. Comparação entre os graus de dificuldade

1 1 0 0 0 0 2 0 1 1 3 2 1 1 2 2 4 3 1 1

3 1 3 3 5 1 1 1 1 3 3 1 5 1 1 3 1 0 4 1

0 0 0 1 3 1 2 1 2 0 2 2 0 2 2 1 2 1 0 1

(a) Use um teste de aderência para testar, ao nível de significância α = 0,05, a hipótese

de que esses dados realmente seguem um modelo de Poisson(1,5).

(b) Qual o p-valor?