No es de Probabilidade e Estat stica tulo 1niveam/micro da sala/aulas/ce067...foram entrevistadas a respeito da ul´ tima vez em que vacinaram seus ﬁlhos. b) Uma amostra de sangue

Nocoes de Probabilidade e Estatıstica

Resolucao dos Exercıcios Pares

Capıtulo 1

Gledson Luiz Picharski

Data da ultima atualizacao: 24 de Outubro de 2007

Secao 1.1

2. Para as situacoes descritas a seguir, identifique a populacao e a amostra correspondente. Discuta a validadedo processo de inferencia estatıstica para acada um dos casos.

a) Para avaliar a eficacia de uma campanha de vacinacao no estado de Sao Paulo,200 maes de recem-nascidos,durante o primeiro semestre de um dado ano em uma dada maternidade em Sao Paulo,foram entrevistadas a respeito da ultima vez em que vacinaram seus filhos.

b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.

c) Para verificar a audiencia de um programa de TV, 563 indivıduos foram entrevistados por telefonecom relacao ao canal em que estavam sintonizados.

d) A fim de avaliar a intencao de votopara presidente dos brasileiros, 122 pessoas foram entrevistadasem Brasılia.

Resposta:

a) As criancas do estado de Sao Paulo sao a populacao de interesse, estao fazendo parte da amostra200 maes de recem nascidos, nao e interessante utilizar esta amostra, pois nao e representativa, podeser que algumas maes estejam no primeiro filho e apenas um posto de saude nao representa o estadotodo.

b) A populacao e o sangue do paciente, a amostra e um pouco deste sangue, como o sangue e homogeneoentao esta e uma amostra representativa e podemos tirar conclusoes sobre todo o sangue do paciente.

c) Os telespectadores de um programa de TV sao a populacao de interesse, a amostra e formada pelos563 indivıduos que foram entrevistados por telefone com relacao ao canal em eu estavam sintonizados.Nao seria valido inferir atravez desta amostra, pois apenas um seleto grupo esta participando dapesquisa, como a pesquisa e por telefone, pode ser que telespectadores nao tenham telefone, ou naoquiseram atender, ou entao nao quiseram atender.

d) Os eleitores brasileiros formam a populacao, a amostra sao as 122 pessoas entrevistadas em Brasılia, aamostra nao e representativa, para saber a intencao de voto dos brasileiros, precisariamos pesquisarcom um numero bem maior de pessoas e distribuido entre varios estados, apenas um estado naorepresenta o paıs todo.

1

Secao 1.2

2. Quinze pacientes de uma clınica de ortopedia foram entrevistados quanto ao numero de meses previstosde fisioterapia, se havera(S) ou nao(N) sequelas apos o tratamento e o grau de complexidade da cirurgiarealizada: alto(A), medio(M) ou baixo(B). Os dados sao apresentados na tabela abaixo.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5

Sequelas S S N N N S S N N S S N S N NCirurgia A M A M M B A M B M B B M M A

a) Classifique cada uma das variaveis.

b) Para o cada variavel, construa a tabela de frequuencia e faca uma representacao grafica.

c) Para o grupo de pacientes que nao ficaram com sequelas, faca um grafico de barras para a variavelFisioterapia. Voce acha que essa variavel se comporta de modo diferente nesse grupo?

Resposta:

a) Fisioterapia e quantitativa discreta, Sequelas e qualitativa nominal e Cirurgia e qualitativa ordinal.

b) A Figura ?? mostra os graficos de cada uma das variaveis e as tabelas de frequencia sao geradas peloscomandos a seguir.

> tb1 <- with(dados, table(Fisioterapia))

> tb1

Fisioterapia

4 5 6 7 8

2 5 3 3 2

> seque.tb <- table(dados$Sequelas)

> seque.tb

N S

8 7

> cir.tb <- table(dados$Cirurgia)

> cir.tb

B M A

4 7 4

> barplot(tb1, main = "meses de fisioterapia")

> pie(seque.tb, main = "sequelas", radius = 0.95, init.angle = 45)

> barplot(cir.tb, main = "complexidade da cirurgia")

c) Nota-se que o tempo de fisioterapia e menor nos pacientes sem sequelas, observamos isso na Figura ??

> fisio.tb <- table(with(dados, Fisioterapia[Sequelas == "N"]))

> fisio.tb

> barplot(fisio.tb)

4. Um grupo de estudantes do ensino medio foi submetido a um teste de matematica resultando em:

freq(0,2] 14(2,4] 28(4,6] 27(6,8] 11

(8,10] 4

2

4 5 6 7 8

meses de fisioterapia

01

23

45

N

S

seqüelas

B M A

complexidade da cirurgia

01

23

45

67

Figura 1: Representacoes graficas das variaveis.

a) Construa o histograma.

b) Se a nota mınima para aprovacao e 5, qual sera a porcentagem de aprovacao?

c) Obtenha o box-plot.

Resposta:

Para gerar os dados em classes percebi 3 possibilidades, aqui esta resolvido pela que considerei maissimples, as duas outras maneiras estrao no final do capitulo.

> freqs <- c(14, 28, 27, 11, 4)

> dados <- rep(0:4 * 2 + 1, freqs)

> dados.tb <- table(cut(dados, seq(0, 10, l = 6)))

> dados.tb

(0,2] (2,4] (4,6] (6,8] (8,10]

14 28 27 11 4

a) A Figura ?? representa o histograma das notas.

> op <- options()

> par(mar = c(2, 2, 2, 2))

> hist(dados, breaks = 0:5 * 2, main = "", xlab = "", ylab = "")

> options(op)

b) Primeiramente monto uma tabela de frequencia acumulada, descubro o percentual que tirou acimade 4 e acima de 6 entao trato a media 5 linearmente e encontro o percentual de aprovados.

> freqAc <- cumsum(prop.table(freqs))

> result <- 1 - (freqAc[2] + freqAc[3])/2

> result

[1] 0.3392857

Encontramos entao aprovacao de aproximadamente 0.339.

No histograma da Figura ?? esta representado o percentual de aprovados.

> hist(dados, breaks = 0:5 * 2, main = "", xlab = "", ylab = "")

> rect(5, 0, 6, dados.tb[3], col = "gray")



> legend("topright", c("repr.", "apr."), fill = c("white", "gray"))

c) A Figura ?? representa o boxplot das notas.

> boxplot(dados, main = "")

3

> op <- options()

> par(mar = c(2, 2, 2, 2))

> fisio.tb <- table(with(dados, Fisioterapia[Sequelas == "N"]))

> fisio.tb

> barplot(fisio.tb)

> options(op)

4 5 6 7

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Figura 2: barplot para a variavel Fisioterapia.

Secao 1.3

2. Considerando o banco de dados criado no Exercıcio 1 desta secao, construa um histograma para as quatrovariaveis e, baseado no grafico, descreva os seus comportamentos.

Resposta:

A tabela da pagina 7 do livro foi obtida no endereco http://www.ime.usp.br/~noproest. E possivelnotar que grande parte dos estudantes teem entre 17 e 18 anos e a quantidade de pessoas e menor quantomaiores sao as idades. Percebe-se que aparecem mais pessoas conforme maior a altura ate 1,70, alturasentre 1,7 e 1,85 tem frequencia de aproximadamente 4 pessoas a cada 5cm. Nota-se que a maioria daspessoas tem peso entre 50 e 60Kg. Percebe-se ainda que grande parte das pessoas teem 1 ou 2 filhos.Estes dados estao representados na Figura ??

> # enderecando a um endereco de internet poderiamos ter problemas de conectividade,

> # mas pode facilitar um pouco a programac~ao se tudo funcionar certinho.

> tab1.1 <- read.table('http://www.ime.usp.br/~noproest/dados/questionario',head=T)> with(tab1.1, hist(Idade, main = "Idade", xlab = "", ylab = ""))

> with(tab1.1, hist(Alt, main = "ALtura", xlab = "", ylab = ""))

> with(tab1.1, hist(Peso, main = "Peso", xlab = "", ylab = ""))

> with(tab1.1, hist(Filhos, main = "Filhos", xlab = "", ylab = ""))

4

0 2 4 6 8 10

05

1015

2025

0 2 4 6 8 100

510

1520

25

repr.apr.

24

68

Figura 3: Representacoes para as notas dos alunos.

Secao 1.4

2. Suponha que duas empresas desejam emprega-lo e apos considerar as vantagens de cada uma, voce vaiescolher aquela que lhe pagar melhor. Apos mcerta pesquisa, voce consegue a distribuicao de salario dasempresas, dadas segundo os graficos abaixo.

Empresa A

10 20 30 40 50

020

4060

8010

0

Empresa B

10 20 30 40 50 60 70

020

4060

8010

0

Com base nas informacoes de cada grafico, qual seria sua decisao?

Resposta:

Para poder representar os histogramas fiz uma soposicao dos dados. Na Figura ?? e possivel verificar queo salario na empresa A esta distribuido de forma mais uniforme, o que indica que ela deve pagar mais parapessoas em cargos intermediarios, a empresa B mostra ter um salario inicial um pouco maior e tambempoucas pessoas ganham mais do que na A, entao se eu fosse ser contratado para um auto cargo escolheriaA e se fosse para cargos intermediarios, que sao a maioria ds cargos, escolheria B.

4. A idade dos 20 ingressantes num certo ano no curso de pos-graduacao em jornalismo de uma universidadefoi o seguinte: 22,22,22,22,23,23,24,24,24,24,25,25,26,26,26,26,27,28,35,40.

a) Apresente os dados em uma tabela de frequencia, incluindo a frequencia relativa.

5

Idade

18 20 22 24

05

1015

2025

30

ALtura

1.5 1.6 1.7 1.8

02

46

810

12

Peso

40 50 60 70 80 90 100

05

1015

20

Filhos

1 2 3 4 5 6 7

010

2030

40

Figura 4:

b) Idades atıpicas parecem ter ocorrido nesse ano. Apos sua retirada do conjunto de dados refaca o item(a). Comente as diferencas encontradas.

Resposta:

As idades sao apresentadas a seguir.

> idade <- c(rep(22:28, c(4, 2, 4, 2, 4, 1, 1)), 35, 40)

> idade

[1] 22 22 22 22 23 23 24 24 24 24 25 25 26 26 26 26 27 28 35 40

a) > table(idade)

idade

22 23 24 25 26 27 28 35 40

4 2 4 2 4 1 1 1 1

> range(idade)

[1] 22 40

> nclass.Sturges(idade)

[1] 6

6

> idade.class <- ordered(cut(idade, seq(21.5, 41.5, 5)))

> idade.class

[1] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5]

[7] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5]

[13] (21.5,26.5] (21.5,26.5] (21.5,26.5] (21.5,26.5] (26.5,31.5] (26.5,31.5]

[19] (31.5,36.5] (36.5,41.5]

Levels: (21.5,26.5] < (26.5,31.5] < (31.5,36.5] < (36.5,41.5]

> idade.class.tb <- table(idade.class)

> idade.class.tb

idade.class

(21.5,26.5] (26.5,31.5] (31.5,36.5] (36.5,41.5]

16 2 1 1

> freqs <- data.frame(Classes = names(idade.class.tb), absoluta = as.vector(idade.class.tb),

+ relativa = as.vector(prop.table(idade.class.tb)))

> freqs

Classes absoluta relativa

1 (21.5,26.5] 16 0.80

2 (26.5,31.5] 2 0.10

3 (31.5,36.5] 1 0.05

4 (36.5,41.5] 1 0.05

b) Usando o box-plot apresentado na Figura ??, percebemos que 35 e 40 sao dados atıpicos. Na tabelade frequencia a seguir e possivel perceber que todas as classes estao com alguma informacao, sendoassim o resultado fica melhor resumido, alem disso, na tabela de frequencia do item a ocorreu umacumulo de frequencia nos menores valores e nesta todos os dados sao representativos da grandemaioria.

> boxplot(idade)

> idade1 <- idade[idade < 35]

> idade1

[1] 22 22 22 22 23 23 24 24 24 24 25 25 26 26 26 26 27 28

> table(idade1)

idade1

22 23 24 25 26 27 28

4 2 4 2 4 1 1

> range(idade1)

[1] 22 28

> nclass.Sturges(idade1)

[1] 6

> idade1.class <- ordered(cut(idade1, seq(20.5, 28.5, 4)))

> idade1.class

[1] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5]

[7] (20.5,24.5] (20.5,24.5] (20.5,24.5] (20.5,24.5] (24.5,28.5] (24.5,28.5]

[13] (24.5,28.5] (24.5,28.5] (24.5,28.5] (24.5,28.5] (24.5,28.5] (24.5,28.5]

Levels: (20.5,24.5] < (24.5,28.5]

> idade1.class.tb <- table(idade1.class)

> idade1.class.tb

idade1.class

(20.5,24.5] (24.5,28.5]

10 8

7

2530

3540

Figura 5: Boxplot representando outliers

6. O posto de saude de um certo bairro mantem um arquivo com o numero de criancas nas famılias queutilizam do Posto. Os dados sao os seguintes: 3,4,3,4,5,1,6,3,4,5,3,4,3,3,4,3,5,5,5,5,6,11,10,2,1,2,3,1,5 e 2.

a) Organize uma tabela de frequencia.

b) Faca uma representacao grafica.

c) Voce identifica valores muito discrepantes? Que fazer com eles?

Resposta:

> crian <- c(rep(1:5, c(3, 4, 7, 5, 6)), 6, 6, 10, 11)

> crian

[1] 1 1 1 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5

[26] 6 6 10 11

a) A tabela de frequencia e apresentada a seguir

> table(crian)

crian

1 2 3 4 5 6 10 11

3 4 7 5 6 2 1 1

b) A representacao grafica e mostrada atraves do box-plot da Figura ??

> boxplot(crian)

c) Percebemos que 10 e 11 sao valores discrepantes, eles podem ser retirados da amostra, afim deanalisar melhor os dados, pois esses valores influenciam as medidas resumo o que interferiria emqualquer tomada de decisao, nota-se por exemplo a diferenca entre a media considerando ou naoestes valores.

> mean(crian)

[1] 3.965517

> mean(crian[crian < 10])

8

24

68

10

Figura 6: Numero de criancas nas familias que utilizam o posto

[1] 3.481481

8. Um grupo de pedagogos estuda a influencia da troca de escolas no desempenho de alunos do ensinofundamental. Como parte do levantamento realizado, foi anotado o numero de escolas cursadas pelosalunos participantes do estudo.

freq1 462 573 214 155 4

a) Qual a porcentagem dos alunos que cursaram mais de uma escola?

b) Construa o grafico de barras.

c) Classifique os alunos em dois grupos segundo a rotatividade: alta para alunos com mais de 2 escolase baixa para os demais. Obtenha a tabela de frequencia dessa variavel.

Resposta:

a) Percebe-se fazendo uma simples operacao que em torno de 68% dos alunos cursaram em mais de umaescola.

> 1 - cumsum(prop.table(table(freq)))[1]

1

0.6783217

b) o grafico de barras e apontado na Figura ??

> barplot(table(freq))

9

1 2 3 4 5

010

2030

4050

Figura 7: Numero de Escolas cursadas pelos alunos.

c) A tabela de frequencia e obtida a seguir.

> freq[freq > 2] <- "alta"

> freq[freq <= 2] <- "baixa"

> table(freq)

freq

alta baixa

40 103

10. O tempo de utilizacao de caixas eletronicos depende de cada usuario e das operacoes efetuadas. Foramcoletadas 26 medidas desse tempo(em minutos):

1.10 1.20 1.70 1.50 0.90 1.30 1.40 1.60 1.70 1.60 1.00 0.80 1.501.30 1.70 1.60 1.40 1.20 1.20 1.00 0.90 1.80 1.70 1.50 1.30 1.50

a) organize uma tabela de frequencia sem agrupar os dados.

b) Agrupe os dados em faixas de tamanho 0,2 a partir de 0,8 e obtenha uma nova tabela de frequencia.

c) Compare as tabelas obtidas em (a) e (b). Comente as diferencas.

d) Se ao inves de 26 medidas tivessemos 1000, qual procedimento, dentre agrupar ou nao, voce utilizaria?

Resposta:

a) A tabela de frequencia vem a seguir.

> table(temp)

temp

0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8

1 2 2 1 3 3 2 4 3 4 1

b) Podemos observar a tabela de frequencia por classes a seguir.

> range(temp)

10

[1] 0.8 1.8

> table(ordered(cut(temp, seq(0.8, 1.8, by = 0.2), include.lowest = T)))

[0.8,1] (1,1.2] (1.2,1.4] (1.4,1.6] (1.6,1.8]

5 4 5 7 5

c) Percebemos que no item b fica mais facil de visualizar os dados por eles estarem mais resumidos.

d) se tivessemos estas 1000 medidas no digitadas no computador poderiamos ultilizar varias outrasjeitos de resumir os dados, entre eles agrupar em poucas classes poderia ser uma solucao, mas tentarvisualizar todos os 1000 dados nao parece ser uma boa alternativa.

12. Foram feitas medidas em operarios da construcao civil a respeito da taxa de hemoglobina no sangue(emgramas/cm3):

11.10 12.20 11.70 12.50 13.90 12.30 14.40 13.60 12.70 12.6011.30 11.70 12.60 13.40 15.20 13.20 13.00 16.90 15.80 14.7013.50 12.70 12.30 13.50 15.40 16.30 15.20 12.30 13.70 14.10

a) Organize os dados em faixas de tamanho 1 a partir do 11.

b) Construa o histogrma.

c) Determine o terceiro quartil e a mediana.

d) Taxas abaixo de 12 ou acima de 16 sao consideradas alteradas e requerem aompanhamento medico.Obtenha a tabela de frequencia da variavel Acompanhamento Medico com duas opcoes sim ou nao.

Resposta:

a) Separando os dados em classes de tamanho 1, obtemos 5 classes

> range(hem)

[1] 11.1 16.9

> table(ordered(cut(hem, 11:17)))

(11,12] (12,13] (13,14] (14,15] (15,16] (16,17]

4 10 7 3 4 2

b) O Histograma e representado na Figura ??

> hist(hem, main = "")

c) Atravez do comando a seguir, podemos verificar a mediana o terceiro quartil e outras medidas resumo.

> summary(hem)

Min. 1st Qu. Median Mean 3rd Qu. Max.

11.10 12.35 13.30 13.46 14.32 16.90

d) Obtemos a tabela de acompanhamento medico substituindo os valores numericos, pelos caracteressim e nao de acordo com a situacao, como percebe-se nos comandos a seguir.

> hem[hem < 12 | hem > 16] <- "sim"

> hem[hem != "sim"] <- "nao"

> table(hem)

hem

nao sim

24 6

14. O numero de gols marcados no ultimo campeonato da Federacao Paulista de Futebol pelos 20 clubesparticipantes nos seus 38 jogos e uma variavel com os seguintes valores:

11

11 12 13 14 15 16 17

02

46

810

Figura 8: Histograma sobre a Taxa de Hemoglobina

Clube 1 2 3 4 5 6 7 8 9 10Gols 32 42 73 35 79 57 37 52 35 25

Clube 11 12 13 14 15 16 17 18 19 20Gols 55 70 42 41 63 66 74 29 47 53

a) Classifique a variavel. Voce acha rasoavel construir uma tabela de frequencia de acordo com aclassificacao dada?

b) Construa uma tabela de frequencia agrupando as observacoes em intervalos de comprimento 10 apartir de 20(nao esqueca de indicar claramente os intervalos).

c) obtenha o histograma.

d) Que porcentagem dos clubes marcaram mais de 38 gols?

Resposta:

a) A variavel e quantitativa ordinal, nao parece interessante construir uma tabela de frequencia comos valores dados, pois eles estariam pouco resumidos e seria quase a mesma coisa que olhar para osvalores originais.

b) A tabela de frequencia iniciando em 20 e de comprimento 10 e obtida a seguir.

> range(gols)

[1] 25 79

> table(ordered(cut(gols, 2:8 * 10)))

(20,30] (30,40] (40,50] (50,60] (60,70] (70,80]

2 4 4 4 3 3

c) O Histograma e obtido na Figura ??

> hist(gols)

12

Histogram of gols

20 30 40 50 60 70 80

01

23

4

Figura 9: Taxa de Hemoglobina

d) Observamos na Figura ?? que 0.7 dos times marcaram mais que 38 gols

> por <- length(gols[gols > 38])/length(gols)

> por

[1] 0.7

> hist(gols, main = "")

> rect(c(38, 4:7 * 10), rep(0, 5), 4:8 * 10, c(4, 4, 4, 3, 3),

+ col = "gray")

> legend("topright", c("> 38 gols", "< 38 gols"), fill = c("gray",

+ "white"))

16. O ındice de germinacao e um dos principais fatores para definir a qualidade das sementes. Ele e deter-minado em experimento cientıfico conduzido pelo fabricante e regulamentado pelos orgaos fiscalizadores.Um fabricante afirma que o ındice de germinacao de suas sementes de milho e de 85%. Para verificartal afirmacao, uma cooperativa de agricultores sorteou 100 amostras com 100 sementes em cada uma eanotou a porcentagem de germinacao em cada amostra.

V1(60,75] 8(75,80] 20(80,85] 42(85,90] 18(90,95] 10

(95,100] 2

a) Faca uma representacao grafica da tabela acima.

b) Construa o box-plot

13

20 30 40 50 60 70 80

01

23

4 > 38 gols< 38 gols

Figura 10: Numero de gols.

c) Comente a afirmacao do fabricante.

Resposta:

Primeiramente suponho que os dados sao o ponto medio de cada classe, e em seguida monto as classesatraves desses valores, e uma suposicao bastante valida para as analises a seguir.

> freq <- c(8, 20, 42, 18, 10, 2)

> pm <- c(67.5, 0:4 * 5 + 77.5)

> sgerm <- rep(pm, freq)

> sgerm.tb <- table(ordered(cut(sgerm, c(60, seq(75, 100, by = 5)))))

> sgerm.tb

(60,75] (75,80] (80,85] (85,90] (90,95] (95,100]

8 20 42 18 10 2

a) Os dados sao continuos, mas as classes podem ser tratadas como dados discretos e podemos melhorvisualizar os dados em um grafico de barras, mostrado pela Figura ??.

> barplot(sgerm.tb)

b) O Box-plot e mostrado na Figura ??

> boxplot(sgerm)

c) Para verificar se a afirmacao do fabricante e rasoavel poderia ser feito um teste de hipoteses, mas issoe visto apenas no capitulo 8, entao intuitivamente podemos perceber que em media a germinacao ebastante proxima da afirmada pelo fabricante.

> mean(sgerm)

[1] 82.5

> rm("freq", "pm", "sgerm", "sgerm.tb")

18. Num estudo sobre rotatividade de mao-de-obra na industria, anotou-se o numero de empregos nos ultimos3 anos para operarios especializados.

14

(60,75] (75,80] (80,85] (85,90] (90,95] (95,100]

010

2030

40

Figura 11: Indice de germinacao de sementes de milho do fabricante.

a) Construa o diagrama de barra correspondente a cada tabela usando a porcentagem no eixo dasordenadas.

b) Junte as informacoes das duas tabelas em uma so e obtenha um diagrama de barras da rotatividadede mao-de-obra na industria (sem diferenciar a especializacao).

c) Voce acha que os trabalhadores especializados trocam menos de emprego? Justifique.

Resposta:

a) Os histogramas sao mostrados na Figura ??

> par(mfrow = c(1, 2))

> hist(esp, breaks = 0:5, freq = F, main = "especializados")

> hist(nesp, breaks = 0:5, freq = F, main = "n~ao especializados")

> par(mfrow = c(1, 1))

b) Podemos observar o diagrama de barras na Figura ??

> barplot(table(c(nesp, esp)), main = "")

c) Percebemos, atraves do item a, que os trabalhadores especializados trocam menos de emprego doque os nao especializados, isso esta no fato de termos uma quantidade maior de especializados commenor variacao de empregos.

20. Um exame vestibular para uma faculdade tem 80 nquestoes, sendo 40 de portugues e 40 de matema-tica. Para os 20 melhores classificados, apresentamos o numero de acertos em cada disciplina, em ordemdecrescente do total de pontos.

a) Organize uma tabela de frequencia para cada variavel.

b) Faca uma representacao grafica das tabelas obtidas em (a).

c) Construa a tabela de frequencia da variavel total de pontos.

15

7075

8085

9095

Figura 12: Box-plot sobre as germinacoes.

d) Comente sobre a afirmacao: os aprovados sao melhores em portugues do que em matematica.

Resposta:

O numero de acerto em cada disciplina de cada aluno e apresentado a seguir.

> Port <- c(35, 35, 34, 32, 31, 30, 26, 26, 24, 23, 23, 12, 11,

+ 20, 17, 12, 14, 20, 8, 10)

> Mat <- c(31, 29, 27, 28, 28, 26, 30, 28, 25, 23, 21, 32, 31,

+ 20, 21, 25, 20, 13, 23, 20)

> notas <- t(matrix(c(Port, Mat), ncol = 2, nrow = 20))

> dimnames(notas) <- list(c("Port", "Mat"), 1:20)

> notas

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Port 35 35 34 32 31 30 26 26 24 23 23 12 11 20 17 12 14 20 8 10

Mat 31 29 27 28 28 26 30 28 25 23 21 32 31 20 21 25 20 13 23 20

a) Por termos poucos dados, parece ser de facil visualisacao, por isso nao e necessario que os dadossejam separados em classes(mas poderiam), as tabelas sao apresentadas a seguir.

> table(Port)

Port

8 10 11 12 14 17 20 23 24 26 30 31 32 34 35

1 1 1 2 1 1 2 2 1 2 1 1 1 1 2

> table(Mat)

Mat

13 20 21 23 25 26 27 28 29 30 31 32

1 3 2 2 2 1 1 3 1 1 2 1

b) A Figura ?? representa as tabelas obtidas no item a.

> hist(Port, freq = T)

> hist(Mat, freq = T)

16

especializados

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

não especializados

0 1 2 3 4 5

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Figura 13: Rotatividade de mao de obra na industria.

c) O total de pontos de cada aluno, pode ser obtido com a soma entre as duas linhas, que representam asdisciplinas, da matriz gerada anteriormente, talvez fosse interessante colocarmos os dados em classes,mas por termos pouca informacao nao considero necessario.

> table(notas[1, ] + notas[2, ])

30 31 33 34 37 38 40 42 44 46 49 54 56 59 60 61 64 66

1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1

d) Nota-se, nos histogramas do item b, que poucos alunos tiraram notas mais altas em matematica, oque demonstra que eles se sairam melhor em portugues.

22. Deseja-se comparar tres tecnicas para extracao do siso. Cada uma das tecnicas foi aplicada em 20 pacientese os resultados sao apresentados a seguir.

A B C

56

78

910

a) Encontre valores aproximados para a mediana de cada tecnica.

17

1 2 3 4 5

010

020

030

040

050

0

Figura 14: Rotatividade de mao de obra na industria.

b) O intervalo interquartil e definido como a diferenca entre o terceiro e o primeiro quartis. Calcule seuvalor para cada uma das tecnicas e comente.

c) Discuta a variabilidade do tempo de recuperacao em cada tecnica.

d) Se voce e otimista, qual tecnica escolheria?

Resposta:

a) Pelo box-plot apresentado no livro, encontramos medianas de aproximadamente 6,7, 9,5 e 8 para asvariaveis A, B e C.

b) O intervalo interquartil pode ser obtido observando o grafico do livro. Entre os pacientes submetidosa cada uma das tres tecnicas, seu valor e de aproximadamente 2, 0,5 e 1,5 dias para as tecnicas A, Be C.

c) O tempo de recuperacao para a tecnica A e entre 4,8 e 8,7 dias, para a B e entre 8,7 e 10 dias e paraa C e entre 6 e 9,5 dias, esta variacao e dada pelas caracteristicas de cada tecnica.

d) Escolheria a tecnica A, pois tem um possui um grupo razoavel com menor tempo de recuperacao doque as outras tecnicas.

24. (Use o computador) Os itens seguintes referem-se aos dados contidos no arquivo de nome cancer.txt.Esse arquivo contem os dados de uma pesquisa sobre incidencia de cancer e e apresentado em 9 colunasrepresentando as seguintes variaveis de interesse:

coluna 1:identificacao do paciente.

coluna 2:diagnostico:

1 = falso-negativo:diagnostico como nao tendo a doenca quando na verdade tinham.

2 = negativo: diagnostico como nao tendo a doenca quando de fato nao a tinham

3 = positivo:diagnosticados como tendo a doenca.

4 = falso-positivo:diagnosticados como tendo a doenca quando na verdade nao tinham.

coluna 3:idade

18

Histogram of Port

5 10 15 20 25 30 35

01

23

45

Histogram of Mat

10 15 20 25 30 35

01

23

45

67

Figura 15: Comparacao de Notas.

coluna 4:espectro quımico da analise de sangue-alkaliine phosphatose(AKP).

coluna 5:concentracao de fosfato no sangue(P).

coluna 6:enzima, lactate dehydrogenase(LDH).

coluna 7:albumina(ALB).

coluna 8:nitrogenio na ureia(N).

coluna 9:glicose(GL).

a) Escolha 3 variaveis dentre as colunas 2 a 9. Classifique-as e faca o histograma e a tabela de frequenciapara cada uma delas(se necessario, crie ate cinco faixas).

b) Uma afirmacao feita por alguns medicos e a de que o grupo dos false-positivos e mais jovem do que odos falso-negativos. Para os dados dessa pesquisa, o que voce diria a respeito? Justifique sua respostabaseando-se em graficos e tabelas de frequencia.

Resposta:

Os arquivos do livro sao encontrados em http://www.ime.usp.br/~noproest, onde temos cancer.xls.

> cancer <- read.table("http://www.ime.usp.br/~noproest/dados/cancer",

+ head = T)

> head(cancer)

Ident Grupo Idade AKP P LDH ALB N GL

1 1 1 71 8.0 3.2 7.8 62 6 113

2 2 1 66 10.5 5.1 50.1 57 9 93

3 3 1 83 8.5 3.3 15.3 53 21 109

4 4 1 52 12.8 3.2 18.8 45 14 91

5 5 1 61 7.4 4.3 12.9 69 19 78

6 6 1 54 8.1 2.7 15.9 57 10 122

> attach(cancer)

a) O Grupo e uma variavel qualitativa nominal, GL e quantitativa continua e Idade e uma quantitativacontinua. A Figura ?? mostra os histogramas das tres variaveis.

> table(Grupo)

> range(Idade)

> table(ordered(cut(Idade, 0:5 * 20 + 5)))

> range(GL)

19

> table(ordered(cut(GL, 0:5 * 60, include.lowest = T)))

> hist(Grupo, breaks = 0:4, main = "")

> hist(Idade, breaks = 0:5 * 20 + 5, main = "")

> hist(GL, breaks = 0:5 * 60, main = "")

Grupo

Fre

quen

cy

0 1 2 3 4

050

100

150

Idade

Fre

quen

cy

20 40 60 80 100

020

4060

8010

014

0

GL

Fre

quen

cy

0 50 100 150 200 250 300

050

100

150

200

250

300

Figura 16: Histogramas de idade, grupo e glicose(GL).

b) Pela Figura ??, podemos perceber que o grupo com falso-positivos e um pouco mais jovem do que ooutro, pois temos um maior quantidade de pessoas mais novas nesse grupo. y

> range(Idade[Grupo == 1])

[1] 18 101

> range(Idade[Grupo == 4])

[1] 9 88

> table(ordered(cut(Idade[Grupo == 1], 0:9 * 10 + 15)))

(15,25] (25,35] (35,45] (45,55] (55,65] (65,75] (75,85] (85,95]

5 7 8 9 13 9 2 2

(95,105]

1

> table(ordered(cut(Idade[Grupo == 4], 0:8 * 10 + 5)))

(5,15] (15,25] (25,35] (35,45] (45,55] (55,65] (65,75] (75,85]

1 9 3 7 18 11 10 5

> hist(Idade[Grupo == 1], freq = F, main = "falso-negativo")

> hist(Idade[Grupo == 4], freq = F, main = "falso-positivo")

> detach(cancer)

> rm("cancer")

26. (Use o computador) Os itens seguintes referem-se aos dados contidos no arquivo de nome aeusp.txt, quecontem parte dos dados de uma pesquisa, realizada pela Associacao dos Educadores da USP(AEUSP),sobre aspectos socio-economicos e culturais de comunidades de baixa renda da regiao do Butanta, SaoPaulo. O questionario foi respondido por um dos moradores da casa sorteada para participar da pesquisa.Os dados estao organizados da seguinte forma:

coluna 1:Numero do questionario(Num).

coluna 2:COmunidade(Comun).

coluna 3:Sexo(Sexo).

20

falso−negativo

20 40 60 80 100

0.00

00.

010

0.02

0

falso−positivo

0 20 40 60 80

0.00

00.

005

0.01

00.

015

0.02

00.

025

Figura 17: Comparativo de idade entre falso-negativo e falso-positivo

1 = masculino;

2 = feminino;

coluna 4:Faixas de idade, em anos(Idade):

1 = [14, 25);

2 = [25, 35);

3 = [35, 45);

4 = [45,∞);

coluna 5:Estado civil(Ecivil).

1 = solteiro;

2 = casado;

3 = divorciado;

4 = viuvo;

5 = outro;

coluna 6:Regiao de procedencia(Reproce).

coluna 7:Tempo de residencia em Sao PAulo, em anos(Temposp).

coluna 8:Numero de residentes na casa(Resid).

coluna 9:Trabalho(Trab):

1 = sim;

2 = nao;

3 = aposentado;

coluna 10:Tipo de trabalho, so para os que trabalham(Ttrab):

1 = empregado com carteira;

2 = empregado sem carteira;

3 = profissional liberal;

4 = autonomo;

5 = rural;

coluna 11:Idade em que comecou a trabalhar, em anos(Itrab).

coluna 12:Renda familiar em faixa de reais(Renda).

1 = [0, 150);

21

2 = [150, 300);

3 = [300, 450);

4 = [450, 900);

5 = [900, 1500);

6 = [1500,∞);

coluna 13:Acesso a computador(Acompu):

1 = sim;

2 = nao;

coluna 14:Serie em que parou de estudar(Serief).

Branco = nao parou de estudar;

1 a 8 = series do ensino fundamental;

9 a 12 = series do ensino medio.

a) Explore o conjunto de dados e classifique as variaveis. Verifique se existem variaveis com valoresincompatıveis ou invalidos e proponha alternativas para a solucao do problema. Observe que existemvariaveis com respostas em branco e discuta porque isso acontece.

b) Estude a variavel Renda em funcao de Comun. Voce diria que os moradores da Cohab e do Jardimd’Abril tem a mesma renda? Justifique sua resposta baseando-se em graficos e tabelas de frequencia.

c) Verifique se o comportamento da variavel Temposp e influenciado pelo tipo de trabalho(variavelTrab).

d) Faca um box-plot para a variavel Itrab.

Resposta:

> se <- read.xls("aeusp.xls", head = T)

> head(se)

Num Comun Sexo Idade Ecivil X.Reproce X.Temposp X.Resid Trab Ttrab X.Itrab

1 1 JdRaposo 2 4 4 Nordeste 21 9 3 NA 20

2 2 JdRaposo 2 1 1 Sudeste 24 9 1 1 14

3 3 JdRaposo 2 2 1 Nordeste 31 3 1 1 14



6 6 JdRaposo 2 4 2 Sudeste 24 4 2 NA 15

X.Renda X.Acompu X.Serief

1 1 2 1

2 2 2 7

3 5 2 7

4 5 2 11

5 6 1 4

6 4 2 4

> attach(se)

a) Classificacao das veriaveis:

quantitativas continuas:Tempo de residencia em SP e Idade que comecou a trabalhar.

quantitativas discretas:Faixa de Idade, Numero de residencias e faixa da renda familiar.

qualitativas nominais:Comunidade, sexo, estado civil, regiao de procedencia, trabalho, tipo detrabalho e acesso ao computador.

qualitativas ordinais:Serie em que parou de estudar.

A seguir faco o teste para verificar se todos os dados apresentados, sao possiveis, para os dados naocoerentes substituo por NA. Existem outras atitudes que poderiam ser tomadas conforme o caso, ostestes de verificacao tambem poderiam ser de varias formas, poderiamos por exemplo tentar perceberse o dado esta errado por erro de digitacao, ou por que a resposta do individuo foi incoerente, ou pelopesquisador nao ter colotado os dados de forma correta, mas aqui vou assumir que seja o suficientesubstituir por NA.

22

> with(se, Sexo[Sexo != 1 & Sexo != 2] <- NA)

> with(se, Idade[Idade < 1 | Idade > 4] <- NA)

> with(se, Ecivil[Ecivil < 1 | Ecivil > 5] <- NA)

> with(se, X.Temposp[X.Temposp[Idade == 1] > 25] <- NA)



> with(se, X.Temposp[X.Temposp[Idade == 4] > Inf] <- NA)

> with(se, Idade[X.Temposp == NA] <- NA)

> with(se, Trab[Trab < 1 | Trab > 3] <- NA)

> with(se, Ttrab[Ttrab < 1 | Ttrab > 5] <- NA)

> with(se, X.Renda[X.Renda < 1 | X.Renda > 6] <- NA)

> with(se, X.Acompu[X.Acompu < 1 | X.Acompu > 2] <- NA)

> with(se, X.Serief[X.Serief < 1 | X.Serief > 12] <- NA)

As variaveis em branco podem aparecer por que o item nao foi respondido pelo morador.

b) Pelos histogramas apresentados na Figura ?? e possivel perceber que o Jardim d’Abril tem uma rendaum pouco menor

> ren.c <- X.Renda[Comun == "Cohab"]

> ren.j <- X.Renda[Comun == "JddAbril"]

> table(ren.c)

ren.c

1 2 3 4 5 6

3 7 9 36 17 14

> table(ren.j)

ren.j

1 2 3 4 5 6

5 16 10 14 4 1

> hist(ren.c, breaks = 0:6, main = "Cohab", freq = F)

> hist(ren.j, breaks = 0:6, main = "Jardim d'Abril", freq = F)

Cohab

0 1 2 3 4 5 6

0.0

0.1

0.2

0.3

0.4

Jardim d’Abril

0 1 2 3 4 5 6

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Figura 18: Comparativo de renda entre os dois bairros.

c) Podemos verificar na Figura ?? que o tempo de residencia em SP independe do tipo de trabalho, poiso tipo 1 e 4 acumulam aproximadamente o mesma quantia de pessoas com o limite de idade proximoe sao bem distintos.

> boxplot(X.Temposp ~ Ttrab)

> stripchart(X.Temposp ~ Ttrab, vertical = TRUE)

23

1 2 3 4

010

2030

4050

1 2 3 4

010

2030

4050

Figura 19: Camparacao entre tempo em SP e tipo de trabalho.

d) O boxplot esta representado na Figura ??.

> boxplot(X.Itrab, main = "")

510

1520

2530

35

Figura 20: Idade em que comecou a trabalhar.

> detach(se)

> rm("se", "ren.c", "ren.j")

24

Existem muitas solucoes para um mesmo exercıcio, em alguns casos acho interessante fazer uma demonstracaode mais casos possıveis.

No caso em que recebemos uma tabela de classe e precisamos tratar dos dados, percebo 3 solucoes, umadelas seria pegar o ponto medio de cada classe e gerar ele conforme a frequencia que a classe a parece, foi essa apossicao que assumi e esta resolvido em exercıcios como o 4 da secao 1.2, outras solucoes seriam pegar numerosespacados igualmente dentro de cada classe, ou entao pegar numeros aleatorios dentro de cada classe, vou usaro exercıcio citado para fazer isto.

1.2.4

Solucao 2

Dentro da primeira classe tem 14 numeros igualmente espacados, e assi ocorre para cada classe com aquantidade de numeros relativos a sua frequencia.

> freq <- c(14, 28, 27, 11, 4)

> x <- paste("a", 1:5, sep = "")

> for (i in 1:5) (assign(x[i], seq((0:4 * 2.001)[i], (1:5 * 2)[i],

+ l = freq[i])))

> y <- matrix(unlist(sapply(x, get)))

> table(ordered(cut(y, seq(0, 10, by = 2), include.lowest = T)))

[0,2] (2,4] (4,6] (6,8] (8,10]

14 28 27 11 4

> hist(y, breaks = 0:5 * 2)

Solucao 3

Muito semelhante a anterior, mas agora os numeros foram gerados de forma aleatoria dentro de cadaclasse.

> freq <- c(14, 28, 27, 11, 4)

> x <- paste("a", 1:5, sep = "")

> for (i in 1:5) (assign(x[i], runif(freq[i], (0:4 * 2.001)[i],

+ (1:5 * 2)[i])))

> y <- matrix(unlist(sapply(x, get)))

> table(ordered(cut(y, seq(0, 10, by = 2), include.lowest = T)))

[0,2] (2,4] (4,6] (6,8] (8,10]

14 28 27 11 4

> hist(y, breaks = 0:5 * 2)

E importante observar que as duas primeiras solucoes fornecem as mesmas medias que o livro ensinacalcular, ja a solucao 3 a media pode se distinguir, pois os dados supostos foram gereados aleatoriamentedentro de cada classe.

25

Documents

No es de Probabilidade e Estat stica tulo 1niveam/micro da sala/aulas/ce067...foram entrevistadas a respeito da ul´ tima vez em que vacinaram seus ﬁlhos. b) Uma amostra de sangue