Upload
vonhi
View
214
Download
0
Embed Size (px)
Citation preview
3.6. Análise descritiva com dados agrupados
Em algumas situações, os dados podem ser apresentados
diretamente nas tabelas de frequências. Netas situações devemos
utilizar estratégias específicas para obter as medidas descritivas de
posição e de dispersão.
3.6.1. Dados agrupados com variáveis discretas
Para variáveis discretas os resultados com dados agrupados
são os mesmos quando se tem a amostra, pois esta pode ser
recomposta com as frequências da tabela.
Exemplo 6: Dados coletados em entrevistas com 500 pessoas
sendo coletadas informações sobre o tempo de casamento até o
primeiro divórcio e o número de divórcios de cada.
Variável discreta: X = número de divórcios por indivíduo
Tabela 13: Número de divórcios por indivíduo.
Divórcios = xi ni fi Fac xi fi ni xi2
1 240 0,480 0,480 0,480 240
2 125 0,250 0,730 0,500 500
3 81 0,162 0,892 0,486 729
4 48 0,096 0,988 0,384 768
5 6 0,012 1,000 0,060 150
Total 500 1,000 − 1,910 2387
i) Média amostral: k é o número de classes na tabela de
frequências, então, a média amostral pode ser calculada
fazendo
k
i
ii
k
i
ii
n
jj
n
nx
n
nx
n
x
x11
1,
ou seja,
k
iii fxx
1
.
Portanto, no exemplo temos:
k
iii fxx
1
= 1,91 divórcios (≈ 2 divórcios)
ii) Variância e desvio padrão amostrais: da mesma forma como
no caso anterior, podemos obter a variância amostral fazendo:
k
iii
n
jj xnx
1
2
1
2.
Desta forma, no exemplo
variância amostral:
13,1499
95,562
)1500(
)91,1(5002387
)1(
2222
n
xnxs i
desvio padrão amostral:
06,1s divórcios (≈ 1 divórcio)
iii) Mediana: a mediana pode ser obtida da mesma forma como
no caso anterior, com a determinação da posição central.
Logo, a mediana é dada pela observação que ocupa a posição
(n + 1)/2.
No exemplo, como n = 500, temos que a mediana é dada pela
observação que ocupa a posição:
5,2502
1500
2
1
n.
Logo, a mediana é dada pela média entre a 250ª e 251ª
observações ordenadas:
22
22
2)(
)251()250(
xxxmed divórcios
iv) Quartis: para os quartis, também procedemos da mesma
forma, ou seja
Como a mediana divide os dados em dois grupos de 250
observações, 1Q é dado pela observação que ocupa a posição
central da primeira metade e 3Q a observação central da segunda
metade.
12
11
2
)126()125(
1
xx
Q divórcio
32
33
2
)376()375(
3
xx
Q divórcios
Nota: Uma variação para o caso de dados agrupados pode ser
obtida representando-se os desvios )( xxi diretamente na tabela:
Tabela 14: Número de divórcios por indivíduo (representação alternativa).
Divórcios = xi ni fi Fac xi fi (xi – x ) ni (xi – x )2
1 240 0,480 0,480 0,480 -0,910 198,744
2 125 0,250 0,730 0,500 0,090 1,013
3 81 0,162 0,892 0,486 1,090 96,236
4 48 0,096 0,988 0,384 2,090 209,669
5 6 0,012 1,000 0,060 3,090 57,2886
Total 500 1,000 – 1,910 – 562,950
Média amostral: ii fxx = 1,91 divórcios
Variância amostral:
13,1499
95,562
)1(
22
n
xxs i
Exemplo 7: Considere a tabela abaixo representando a distribuição
de frequências do número de parasitas encontrados por muda de
certa espécie de planta. X = número de parasitas por muda.
Tabela 15: Número de parasitas por planta.
xi ni n acum. fi Fac xi fi ni xi2
2 3 3 0,083 0,083 0,167 12
3 6 9 0,167 0,250 0,500 54
4 9 18 0,250 0,500 1,000 144
5 5 23 0,139 0,639 0,694 125
6 6 29 0,167 0,806 1,000 216
7 4 33 0,111 0,917 0,778 196
8 3 36 0,083 1,000 0,667 192
Total 36 – 1,000 – 4,806 939
Então:
média amostral:
k
iii fxx
1
= 4,806 ( 5 parasitas)
variância amostral: )136(
)806,4(36939
)1(
2222
n
xnxs i
071,335
485,1072 s
desvio padrão amostral: 752,1071,3 s parasitas
A mediana é a observação na posição (36 + 1)/2 = 18.5
5,42
54
2)(
)19()18(
xxxmed parasitas
Para a obtenção dos quartis, o procedimento é semelhante.
Como n é par, os quartis são as observações centrais das metades
inferior e superior à mediana.
Desta forma, Q1 está entre 9ª e 10ª observações ordenadas:
5,32
43
2
)10()9(
1
xx
Q parasitas.
Q3 está entre 27ª e 28ª observações ordenadas, porém,
podemos ver que Q3 pertence à quinta classe uma vez que esta
acumula 29 observações,
0.62
)28()27(
3
xx
Q parasitas.
A moda é igual a 4 parasitas, cuja frequência é igual a 9, isto é,
4)( xmo parasitas
3.6.2. Dados agrupados com variáveis contínuas
No caso de variáveis contínuas os resultados com dados
agrupados não são os mesmos daquelas da amostra.
Neste caso, faz-se uma aproximação a partir da suposição de
que os dados são distribuídos de maneira uniforme dentro da classe.
A partir desta suposição, como as classes têm amplitude
constante h, tomamos os seus pontos médios como referência e,
a partir daí, para o cálculo de x e s2, procedemos da mesma
maneira como no caso anterior.
Para as medidas de posição ordenadas, no entanto, devemos
identificar o ponto exato para o qual a frequência acumulada é
igual àquela desejada.
Exemplo 8: Dados coletados em entrevistas com 500 pessoas
sendo coletadas informações sobre o tempo de casamento até o
primeiro divórcio. X = tempo (anos) até o primeiro divórcio.
Tabela 16: Tempo até o primeiro divórcio.
Anos até 1º.
divórcio
Pto. médio
xi ni fi Fac xi fi ni xi
2
0 |---- 6 3 280 0.56 0.56 1.68 2520
6 |---- 12 9 140 0.28 0.84 2.52 11340
12 |---- 18 15 60 0.12 0.96 1.80 13500
18 |---- 24 21 15 0.03 0.99 0.63 6615
24 |---- 30 27 5 0.01 1.00 0.27 3645
Total
500 1.00 – 6.90 37620
i) Média amostral:
ii fxx = 6,90 anos
ii) Variância e desvio padrão amostrais:
685,27499
13815
)1500(
)90,6(50037620
)1(
2222
n
xnxs i
26,5s anos
iii) Mediana:
Inicialmente devemos identificar a classe que contém a
mediana, ou seja, a classe que acumula uma frequência igual ou
maior do que 0.50 (50%).
med(x) pertence à 1ª classe, pois a Fac é maior do que 0.50.
Uma vez identificada a classe da mediana devemos encontrar
o ponto exato que acumula a sua frequência, ou seja, devemos
encontrar o ponto exato com Fac = 0.50.
Devido à suposição de uniformidade dentro das classes, este
ponto é facilmente obtido através de uma simples regra de três:
50.0
56.0
0)(
)06(
xmed,
de onde se obtêm:
50.0656.0)( xmed
56.0
50.06)(
xmed
36.5)( xmed anos
iv) Quartis:
Os quartis são obtidos de maneira semelhante à mediana, com
a diferença que as suas frequências acumuladas são 0.25 (25%) e
0.75 (75%), respectivamente.
Q1 pertence à 1ª classe, pois a Fac é maior do que 0.25.
Regra de três
25.0
56.0
0
)06(
1
Q,
25.0656.01 Q
68.21 Q anos
Q3 pertence à 2ª classe, pois a Fac é maior do que 0.75.
A frequência cumulada até a classe anterior é 0.56, portanto,
faltam 19.056.075.0 de frequência.
Regra de três
19.0
28.0
6
)612(
3
Q,
19.0628.063 Q
07.103 Q anos
v) Moda:
Para dados agrupados, ao invés da moda, pode-se considerar a
classe modal, que neste caso é a 1ª classe, com frequência igual a
280, ou seja, a classe modal seria: )6;0[ anos.
Porém, uma opção mais apropriada seria a moda de Czuber,
calculada a seguir:
Em que:
Li é o limite inferior da classe modal;
h é a amplitude de classe da distribuição de frequências;
da é a diferença da frequência da classe modal (relativa ou
absoluta) com a classe imediatamente anterior;
dp é a diferença da frequência da classe modal (relativa ou
absoluta) com a classe imediatamente posterior.
Figura 19: Cálculo da moda de Czuber.
Com os dados do tempo de casamento até o primeiro divórcio,
temos:
LI = 0, h = 6, da = 280 e dp = 140, portanto:
420
2806
)140280(
28060)(
xmocz
4)( xmocz anos.
Exemplo 3: Notas no teste GMAT na seleção de alunos de
graduação numa universidade americana.
Tabela 17: Notas no teste GMAT
Notas
Pto. médio:
xi ni fi xi fi Fac ni xi2
300 |-- 350 325 3 0.035 11.5 0.035 316875
350 |-- 400 375 7 0.082 30.9 0.117 984375
400 |-- 450 425 18 0.212 90.0 0.329 3251250
450 |-- 500 475 24 0.282 134.1 0.611 5415000
500 |-- 550 525 15 0.176 92.6 0.787 4134375
550 |-- 600 575 10 0.118 67.6 0.905 3306250
600 |-- 650 625 4 0.047 29.4 0.952 1562500
650 |-- 700 675 4 0.047 31.8 0.999 1822500
Totais 85 1.000 488.0 - 20793125
i) Média amostral: ii fxx = 488.0 pts
ii) Variância e desvio padrão amostrais:
2.655884
2024224020793125
)1(
22
2
n
xnxns
ipts2
98.802.6558 s pts
vi) Mediana:
med(x) pertence à 4ª classe, pois a Fac = 0.611 é maior do que
0.50.
Regra de três:
171.0
282.0
450)(
450500
xmed,
de onde se obtêm:
171.050282.0450)( xmed
282.0
171.050450)(
xmed
3.480)( xmed pts
vii) Quartis:
Q1 pertence à 3ª classe, pois a Fac = 0.329 é maior do que
0.25.
Regra de três:
133.0
212.0
400
400450
1
Q,
212.0
133.0504001
Q
4.4311 Q pts
Q3 pertence à 5ª classe, pois a Fac = 0.787 é maior do que
0.75.
Regra de três:
139.0
176.0
500
500550
1
Q,
176.0
139.0505001
Q
5.5391 Q pts
Figura 20: Histograma das notas do teste GMAT
iii) Moda: pelo método de Czuber, temos:
LI = 450, h = 50, da = 6 e dp = 9, portanto:
15
300450
)96(
650450)(
xmocz
470)( xmocz pts
3.6.3. Percentis amostrais pelo gráfico da distribuição
acumulada
Tabela 18: Notas no teste GMAT
Escores Pto. médio: xi ni fi Fac
300 |-- 350 325 3 0.035 0.035
350 |-- 400 375 7 0.082 0.117
400 |-- 450 425 18 0.212 0.329
450 |-- 500 475 24 0.282 0.611
500 |-- 550 525 15 0.176 0.787
550 |-- 600 575 10 0.118 0.905
600 |-- 650 625 4 0.047 0.952
650 |-- 700 675 4 0.048 1.000
Totais 85 1.000
Figura 21: Gráfico de frequências acumuladas (Fac)
das notas no teste GMAT.
A mediana pode ser obtida facilmente por semelhança de
triângulos unindo-se os pontos abaixo dos “degraus” do
gráfico, conforme mostra a Figura 22.
Figura 22: Representação da mediana no gráfico de frequências
acumuladas das notas GMAT
Regra de três: Isolando no gráfico apenas o degrau referente à classe da
mediana, temos:
329.050.0
329.0611.0
450)(
450500
xmed,
171.050282.0450)( xmed
3.480)( xmed pts
O mesmo procedimento pode ser realizado para a
obtenção dos quartis.
Regra de três: Isolando no gráfico os degraus referente às classes dos quartis
Q1 e Q3, temos:
Obtenção de Q1:
117.025.0
117.0329.0
400
400450
1
Q,
133.050212.04001 Q
4.4311 Q pts
Obtenção de Q3:
611.075.0
611.0787.0
500
500550
3
Q,
139.050176.05003 Q
5.5393 Q pts
Exemplo 4: Dados coletados em entrevistas com 48 mulheres de
uma comunidade rural sobre o número de vezes que ficaram
grávidas (dados fictícios).
X = variável número de gravidezes por mulher
Tabela 19: Número de gravidezes por mulher (var. discreta)
ix in if acF ii fx 2)( xxn ii
1 7 0.146 0.146 0.146 30.343
2 13 0.271 0.417 0.542 15.219
3 11 0.229 0.646 0.687 0.074
4 7 0.146 0.792 0.584 5.899
5 6 0.125 0.917 0.625 22.072
6 4 0.083 1.000 0.498 34.059
Total 48 1.000 - 3.082 107.666
Calcular a média, variância, mediana, moda, quartis:
i) Cálculo da média:
)229.03()271.02()146.01(1
k
ii fxx
)083.06()125.05()146.04(
498.0625.0584.0687.0542.0146.01
k
ii fxx
3082.31
k
ii fxx gravidezes
ii) Cálculo da variância e desvio padrão:
29.247
666.107
11
22
k
i
ii
n
xxns
514.129,2 s gravidezes
iii) Cálculo da mediana:
3)( xmed gravidezes pois Fac (3) > 0.50.
Ainda: 32
)()25()24(
xxxmed
iv) Cálculo dos quartis:
21 Q gravidezes pois Fac (2) > 0.25.
Ainda: 22
)13()12(
1
xx
Q .
43 Q gravidezes pois Fac (4) > 0.75.
Ainda: 42
)37()36(
1
xx
Q .
v) Cálculo da moda:
2)( xmo gravidezes observação com maior
frequência.
Figura 23: Histograma do número de gravidezes/mulher
(dados fictícios).
Exemplo 6: Salário de 36 funcionários da Companhia MB em
número de salários mínimos (dados do livro Estatística Básica de
Bussab & Morettin).
X = salário (sm)
Tabela 20: Salário dos funcionários da Cia MB, em s.m. (var. contínua)
classes
Pto. Médio
ix in if acF ii fx 2
ii xn
04 |-- 08 6 10 0,278 0,278 1,67 360
08 |-- 12 10 12 0,333 0,611 3,33 1200
12 |-- 16 14 8 0,222 0,833 3,11 1568
16 |-- 20 18 5 0,139 0,972 2,50 1620
20 |-- 24 22 1 0,028 1,000 0,61 484
Total 36 1,000 - 11,22 5232
Figura 24: Salário dos funcionários da Cia MB, em s.m.
Calcular a média, variância, mediana, moda, quartis: (no caso, xi, i = 1, 2, …, k são os pontos médios das classes)
i) Cálculo da média:
22,111
k
ii fxx sm
ii) Cálculo da variância e desvio padrão:
00,2035
)22,11(365232
1
2222
n
xnxs i
47,400,20 s sm
iii) Cálculo da moda:
Para esses dados a classe modal é a 2ª classe, com frequência
igual a 12, ou seja, a classe modal é a classe )12;8[ .
A moda de Czuber, por sua vez, é dada por:
6
88
)42(
248)(
xmo
cz
33.9)( xmocz
sm
iv) Mediana: )(xmed pertence à 2ª classe, pois a 2ª classe
acumula mais de 50% dos dados ( 50,0acF ).
Como até a classe anterior temos 0,28 de distribuição
acumulada, os 0,22 restantes para totalizar 0,50 devem ser obtidos
da 2ª classe. Assim, por meio da proporcionalidade entre os
retângulos na figura (regra de três), obtém-se a mediana.
22,0
33,0
8)(
)812(
xmed,
33,0
22,048)(
xmed
67,10)( xmed sm
v) Quartis: Para os quartis o procedimento é semelhante ao da
mediana.
Para o quartil 1Q devemos encontrar a classe que acumula
uma frequência igual ou maior do que 0,25.
Desta forma, 1Q pertence à 1ª classe, que acumula uma
frequência igual a 0,28. Num procedimento semelhante ao
anterior, temos:
25,0
28,0
4
)48(
1
Q
28,0
25,0441
Q
57,71 Q sm
3
Q pertence à 3ª classe, que acumula uma frequência igual a
0,83 (> 0,75).
Desta forma, temos:
14,0
22,0
12
)1216(
3
Q
22,0
14,04123
Q
55,143 Q sm
3.6.4. Fórmula para o cálculo da mediana e quartis
Os cálculos acima podem resumidos na fórmula dos percentis
amostrais. No caso a mediana é o percentil 0,50 (50%) e sua
fórmula é dada por:
i
ca
inff
FhLxmed
)1(50,0)(
Em que:
h = amplitude da classe;
Linf = limite inferior da classe da mediana;
fi = frequência relativa da classe que contém a mediana;
)1(caF = frequência acumulada até a classe imediatamente
anterior à classe da mediana.