View
215
Download
0
Category
Preview:
Citation preview
Vimos que a informação contida num conjunto de dados pode ser resumida na forma de tabelas e gráficos.
Frequentemente, entretanto, necessitamos de um “índice” que expresse certa propriedade dos dados.
ESTATÍSTICAS: As “Estatísticas” são índices numéricos que representam propriedades específicas das
variáveis.
A primeira propriedade de uma variável em que normalmente estamos interessados refere-se a “posições” específicas na distribuição desta variável.
09/11/2015 3 Prof. franke
x1x2
Qual o significado dos valores de x1 e x2 na distribuição?
09/11/2015 4 Prof. franke
Existem três medidas básicas que refletem a posição da estatística numa distribuição de frequências: Média (aritmética, ponderada, geométrica, harmônica)
Moda
Mediana 4.3.1 - Média Aritmética
É a medida de posição mais utilizada.
Indica uma “posição central” nos dados.
É a soma de todos os casos dividida por seu número total.
onde: = média aritmética para amostra e para população
= representa cada uma das observações disponíveis na amostra
n = número de amostras.
Obs.: a média é afetada por valores extremos.
A média aritmética nem sempre está no “CENTRO” Exemplo: Considere as notas finais, relativas aos alunos de três turmas.
09/11/2015 5 Prof. franke
Turma Notas dos alunos Média da turma
A 4; 5; 5; 6; 6; 7; 7; 8 ?
B 1; 2; 4; 6; 6; 9; 10; 10 ?
C 0; 6; 7; 7; 7; 7,5; 7,5 ?
Figura 1 – Representação das distribuições das notas de três turmas e posições das médias aritméticas. Adaptado de BARBETTA et al., 2010.
4.3.2 - Média aritmética ponderada:
A forma de calcular de uma média ponderada é multiplicar cada valor pelo seu respectivo peso, somar todas as parcelas e dividir o resultado dessa soma pelo total dos pesos atribuídos.
Exemplo: Cálculo de média pondera de um aluno que obteve as seguintes notas
6 Prof. franke
Nota (xi) Peso (pi) Produto (xi .pi)
4 1 4
7 2 14
6 3 18
Total = 6 = 36
09/11/2015
Experimente fazer: São dadas as notas de cinco alunos, em três provas que tinham pesos 2, 3 e 5,
respectivamente. Calcule as médias ponderadas.
Quem terá a maior e quem terá a menor média ponderada?
7 Prof. franke
Aluno 1ª prova 2ª prova 3ª prova Média ponderada
Ana 7 6 5
Cláudia 1 2 9
Marcos 5 5 5
Pedro 10 10 0
Sérgio 5 7 3
09/11/2015
Experimente fazer: São dadas as notas de cinco alunos, em três provas que tinham pesos 2, 3 e 5,
respectivamente. Calcule as médias ponderadas.
Quem terá a maior e quem terá a menor média ponderada? Ana!
8 Prof. franke
Aluno 1ª prova 2ª prova 3ª prova Média ponderada
Ana 7 6 5 5,70
Cláudia 1 2 9 5,30
Marcos 5 5 5 5,00
Pedro 10 10 0 5,00
Sérgio 5 7 3 4,60
09/11/2015
4.3.3 - Media Harmônica
Retrata a harmonia entre os dados
Exercício exemplo: 2, 3, 5, 10
4.3.4 - Media geométrica
É obtida pela raiz n do produto dos n valores disponíveis
É utilizada em administração e economia, para determinar taxas de crescimento em certo período
Exercício: 2, 3, 5, 10.
9 Prof. franke
𝑥 ℎ =4
(12+13+
15+
110)
= 4
1,1333= 3,529
09/11/2015
Exemplo: Cálculo da média de dados apresentados (agrupados) em tabelas de distribuição de frequências. Exemplo das árvores
Prof. franke 10
Diâmetro (cm)
Ponto médio da classe
xi
Frequência absoluta
(fi)
Parciais da
média 20 |– 30 25 2 30 |– 40 35 9 40 |– 50 45 11 50 |– 60 55 15 60|– 70 65 17 70 |– 80 75 16 80 |– 90 85 7 90 |– 100 95 3
Total - 80
09/11/2015
Exemplo: Cálculo da média de dados apresentados (agrupados) em tabelas de distribuição de frequências. Exemplo das árvores
𝑥 = 60,5125
Prof. franke 11
Diâmetro (cm)
Ponto médio da classe
xi
Frequência absoluta
(fi)
Parciais da
média 20 |– 30 25 2 50,0 30 |– 40 35 9 315,0 40 |– 50 45 11 495,0 50 |– 60 55 15 825,0 60|– 70 65 17 1.105,0 70 |– 80 75 16 1.200,0 80 |– 90 85 7 595,0 90 |– 100 95 3 285,0
Total - 80 4.870,0
09/11/2015
Prof. franke 12
4.5.5 - Mediana
É o valor que ocupa a posição central de um conjunto de dados ordenados.
Se o número de observações for impar, a mediana será o valor central da distribuição; se o número for par, a mediana será a média dos dois valores centrais.
Tem a vantagem de não ser afetada pelos valores extremos.
Por ser insensível à presença de valores aberrantes, a mediana é considerada um estimador robusto.
Exercício: 7,0; 8,5; 5,0; 8,0; 5,5; 10,0 Ordenando: 5,0; 5,5; 7,0; 8,0; 8,5; 10,0
A mediana é uma separatriz porque separa o conjunto de dados em dois:
O que antecede a mediana;
O que sucede a mediana.
09/11/2015
Prof. franke 13
4.3.6 – Moda
É o valor que ocorre com mais frequência em uma amostra
A = {2, 4, 7, 12, 23, 8, 11, 4, 12, 22, 7, 12, 9, 10}
Comparação entre média, mediana e moda: Quando se comparam medidas de posição (tendência central) devemos lembrar:
A média aritmética é o centro de gravidade do conjunto de dados;
A mediana é o valor que ocupa a posição central de um conjuntos de dados ordenados;
A moda é o valor mais frequente.
09/11/2015
Prof. franke 14
As medidas de dispersão referem-se a maior ou menor variabilidade de um conjunto de dados em torno da média.
Permite identificar até que ponto os resultados se concentram ao redor da centro de um conjunto de observações.
Existem várias medidas para avaliar a dispersão de um conjunto de dados: 1. Amplitude 2. Variância 3. Desvio Padrão 4. Coeficiente de Variação 5. Assimetria 6. Curtose 7. Erro padrão da média
09/11/2015
Prof. franke 15
4.4.1 – Amplitude É a diferença entre o maior e menor valor presente nos dados amostrais O seu conhecimento é importante quando se faz a representação gráfica dos dados,
pois esta só deve conter valores entre o máximo e mínimo observado.
4.4.2 – Variância
Mede a dispersão dos dados em torno da média.
A dispersão dos dados em torno da média é medida pelos desvios em relação à média.
Desvios em relação à media é a diferença entre cada valor observado e a média do conjunto.
Ou seja, variância é a soma dos quadrados dos desvios de cada ponto em torno da média aritmética.
= variância da população = variância da amostra
09/11/2015
Prof. franke 16
Exemplo: Calcule a variância 09/11/2015do pH em cinco amostras de água.
Amostras pH
1 1,6
2 1,7
3 1,7
4 1,5
5 1,6
Soma 8,1
= 1,62
Amostras pH Desvios
1 1,6 -0,02
2 1,7 0,08
3 1,7 0,08
4 1,5 -0,12
5 1,6 -0,02
Soma 8,1 0,00
Amostras pH Desvios
Desvios
1 1,6 -0,02 0,0004
2 1,7 0,08 0,0064
3 1,7 0,08 0,0064
4 1,5 -0,12 0,0144
5 1,6 -0,02 0,0004
Soma 8,1 0,00 0,028
09/11/2015
Prof. franke 18
4.4.3. Desvio Padrão É a raiz quadrada, com sinal positivo, da variância
4.4.3.1 – Desvio padrão da Amostra
4.4.3.2 – Desvio padrão da população
S = desvio padrão
= desvio padrão
09/11/2015
Prof. franke 19
4.4.4 Coeficiente de Variação ou coeficiente de variabilidade (CV) O Coeficiente de variação (CV) é o desvio padrão expresso como percentagem
da média. É utilizado para comparar grandezas de unidades iguais ou diferentes, quando
os grupos são essencialmente diferentes.
Interpretação para o CV: CV até 15% - variação pequena
CV entre 15 e 30% - variação média
CV superior a 30% - variação grande
Onde: CV =coeficiente de variação S = variância da amostra = media da amostra
09/11/2015
Prof. franke 20
Exemplo de medidas descritivas:
Tabela 2 – Medidas descritivas das notas finais dos alunos de três turmas Tabela 2 – Medidas descritivas das notas finais dos alunos de três turmas
Turma
Notas dos alunos Nº de alunos
Média Mediana Moda Variância Desvio padrão
CV (%)
A 4; 5; 5; 6; 6; 7; 7; 8
B 1; 2; 4; 6; 6; 9; 10; 10
C 0; 6; 7; 7; 7; 7,5; 7,5
Turma
Notas dos alunos Nº de alunos
Média Mediana Moda Variância Desvio padrão
CV (%)
A 4; 5; 5; 6; 6; 7; 7; 8 8 6,0 6,0 1,71 1,31 21,8
B 1; 2; 4; 6; 6; 9; 10; 10 8 6,0 6,0 6,0 12,29 3,51 58,5
C 0; 6; 7; 7; 7; 7,5; 7,5 7 6,0 7,0 7,0 7,25 2,69 44,8
09/11/2015
Prof. franke 21
Exemplo de medidas descritivas:
Tabela 2 – medidas descritivas das notas finais dos alunos de três turmas
Turma
Notas dos alunos Nº de alunos
Média Mediana Moda Variância Desvio padrão
CV (%)
A 4; 5; 5; 6; 6; 7; 7; 8 8 6,0 6,0 1,71 1,31 21,8
B 1; 2; 4; 6; 6; 9; 10; 10 8 6,0 6,0 6,0 12,29 3,51 58,5
C 0; 6; 7; 7; 7; 7,5; 7,5 7 6,0 7,0 7,0 7,25 2,69 44,8
Figura 1 – Representação das distribuições das notas de três turmas e posições das médias aritméticas. Adaptado de BARBETTA et al., 2010.
09/11/2015
Prof. franke 22
4.4.5. Assimetria Indica o grau de desvio de uma curva no sentido horizontal, podendo esse desvio ser
positivo, com excesso de valores altos, ou negativo, com predomínio de valores baixos em relação a uma curva da distribuição normal.
09/11/2015
Prof. franke 23
4.4.6. Curtose É o grau de achatamento de uma curva em relação a uma curva representativa da
distribuição normal
09/11/2015
Prof. franke 24
4.4.7. Erro padrão da média
Dá uma ideia da precisão da estimativa da média
A estimativa para a média se torna mais precisa (intervalo menor) com o aumento da quantidade de observações (n).
09/11/2015
Prof. franke 25
4.4.1 Extremos Quando se tem interesse em conhecer outros aspectos relativos ao
conjunto de valores, além de um valor central ou valor típico, podemos recorrer a medidas como: mediana, extremos e quartil.
Chamamos de extremo inferior ao menor valor do conjunto de valores e extremo superior ao maior valor.
Obs.: Mesmo para variáveis que supostamente tenham distribuição razoavelmente simétricas, a média e a mediana podem não ser iguais, já que, em geral, estamos analisando apenas alguns valores dessas variáveis.
Para variáveis com distribuições razoavelmente simétricas, a média é a medida de posição central mais adequada, porque usa o máximo da informação contida nos dados.
A média é calculada usando propriamente a magnitude dos valores, enquanto a mediana utiliza somente a ordenação dos valores.
09/11/2015
Prof. franke 27
4.5.2 Quartis São medidas que dividem a série de valores da amostra em quatro frequências iguais de
25% cada. São eles:
Q1 – 1º quartil (quartil inferior) que delimita os 25% menores valores
Q2 - 2º quartil (mediana) separa os 50% menores dos 50% maiores valores
Q3 - 3º quartil (quartil superior) que separa os 25% maiores valores
Com os dados ordenados crescentemente, temos:
Posição de Qi:
Posição de md:
Posição de Qs:
Fonte: BARBETTA et al., 2010
09/11/2015
Prof. franke 28
Exemplo: Dados brutos: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12 Ordenando: 3, 5, 5, 6, 7, 8, 9, 11, 12, 15, 18 n = 11
Posição de Qi: Qi = 5
Posição de md: md = 8
Posição de Qs: Qs = 12
09/11/2015
29
Ano Total (mm)
1961 1868 1962 955 1963 1673 1964 1389 1965 1770 1966 1875 1967 1811 1968 1488 1969 3287 1970 2824 1971 1286 1972 1673 1973 1609 1974 1381 1975 1485 1976 1597 1977 1823 1978 1374 1979 1416 1980 1606 1981 1259 1982 1944 1983 2292 1984 2044 1985 1407 1986 1467 1987 2005 1988 1489 1989 1582 1990 1944
Ano Total (mm)
1962 955 1981 1259 1971 1286 1978 1374 1974 1381 1964 1389 1985 1407 1979 1416 1986 1467 1975 1485 1968 1488 1988 1489 1989 1582 1976 1597 1980 1606 1973 1609 1963 1673 1972 1673 1965 1770 1967 1811 1977 1823 1961 1868 1966 1875 1982 1944 1990 1944 1987 2005 1984 2044 1983 2292 1970 2824 1969 3287
Moda = 1673 e 1944 mm
Série original Série ordenada
Qi
Distância interquartílica
Qs
09/11/2015 Prof. franke
31
Ano Total (mm)
1961 1868 1962 955 1963 1673 1964 1389 1965 1770 1966 1875 1967 1811 1968 1488 1969 3287 1970 2824 1971 1286 1972 1673 1973 1609 1974 1381 1975 1485 1976 1597 1977 1823 1978 1374 1979 1416 1980 1606 1981 1259 1982 1944 1983 2292 1984 2044 1985 1407 1986 1467 1987 2005 1988 1489 1989 1582 1990 1944
Ordem Ano
Total (mm)
1 1962 955 2 1981 1259 3 1971 1286 4 1978 1374 5 1974 1381 6 1964 1389 7 1985 1407 8 1979 1416 9 1986 1467
10 1975 1485 11 1968 1488 12 1988 1489 13 1989 1582 14 1976 1597 15 1980 1606 16 1973 1609 17 1963 1673 18 1972 1673 19 1965 1770 20 1967 1811 21 1977 1823 22 1961 1868 23 1966 1875 24 1982 1944 25 1990 1944 26 1987 2005 27 1984 2044 28 1983 2292 29 1970 2824 30 1969 3287
Moda = 1673 e 1944 mm
Série original Série ordenada
09/11/2015 Prof. franke
09/11/2015 Prof. franke 32
Figura 5 – Posição dos quartis e extremos em distribuições diferentes quanto à dispersão e assimetria. Fonte: BARBETTA et al., 2010
Prof. franke 33
4.5.2 Diagrama de caixas (Box plot) Trata-se de um retângulo que representa o desvio interquartílico.
Este retângulo representa, portanto, a faixa dos 50% dos valores mais típicos da distribuição
Ele é dividido no valor correspondente à mediana; assim, indica o quartil inferior, a mediana e o quartil superior
09/11/2015
• O coeficiente de Gini é um dos principais índices de desigualdade utilizados.
• O Gini é uma medida de desigualdade desenvolvida pelo estatístico italiano Corrado Gini e publicada no documento “Variabilità e Mutabilità” em 1912.
• Esse índice é comumente utilizado para calcular a desigualdade de distribuição de renda, mas pode ser usada também para qualquer distribuição, como concentração de terra, riqueza entre outras.
• Ele consiste em um número entre 0 e 1, onde:
• Índice 0 (zero) corresponde à completa igualdade de renda (onde todos têm a mesma renda), e;
• Índice 1 (um) corresponde à completa desigualdade (onde uma pessoa tem toda a renda, e as demais nada têm).
• A construção do coeficiente de Gini é baseado na “Curva de Lorenz”.
Prof. franke 35 09/11/2015
4.6.1 Definição da Curva de Lorenz É uma curva que mostra como a proporção acumulada da renda (qi ) varia em função
da proporção acumulada da população (i), estando os indivíduos ordenados pelos valores crescentes da renda.
Como a diagonal principal divide o quadrado em partes iguais, qualquer ponto nessa reta é um ponto em que os valores da abscissa e ordenada são iguais.
Prof. franke 36 09/11/2015
• 4.6.2 Coeficiente de Gini
Para calcular o índice de Gini usa-se frequentemente a equação de Brown
Onde: X = proporção acumulada da população Y= proporção acumulada da renda
Para facilitar os cálculos pode-se usar uma forma equivalente, usando
distribuição de frequências
Onde: Qi = proporção de renda e Pi = proporção da população Prof. franke 37 09/11/2015
• Exemplo: Calcule o índice de Gini para a distribuição dos salários mensais dos trabalhadores de uma empresa.
Prof. franke 38
Fonte: BARBETTA et al., 2010
Pessoa Salário Pessoa Salário Pessoa Salário
1 3200 16 600 31 600
2 1800 17 2500 32 300 3 1200 18 1500 33 480 4 600 19 360 34 480 5 5000 20 1200 35 480 6 3000 21 1680 36 600
7 2700 22 2300 37 720
8 1360 23 1094 38 400
9 750 24 1045 39 715
10 600 25 2625 40 960
11 150 26 4070 41 900 12 600 27 3565 42 400
13 700 28 2855 43 600 14 100 29 600 15 600 30 600
Parâmetros da tabela freq
n = 43
Máximo= 5000
Mínimo= 100
Amplitude= 4900
n. classes= 7
Intervalo classses = 700
09/11/2015
• Procedimento para cálculo do IGini
(6) = Acumulado da coluna (5) (7) = proporção do acumulado da população: quociente entre coluna (4) por (n) 43 (8) = proporção do acumulado da renda: quociente da coluna (6) por (54.350) (9) = Subtração da coluna (7) pela coluna (8)
Prof. franke 39
(1) (2) (3) (4) (5) (6) (7) (8) (9)
Faixas de
salários
(R$)
Ponto
médio
Frequência,
pessoas
(fi)
Frequência
acumulada
(fa)
P. Médio
X
frequência
Acumulado P Q P-Q
[100;800)
[800;1500)
[1500;2200)
[2200; 2900)
[2900;3600)
[3600; 4300)
[4300;5000]
450
1150
1850
2550
3250
3950
4650
23
8
2
5
3
1
1
23
31
33
38
41
42
43
10.350
9.200
3.700
12.750
9.750
3.950
4.650
10.350
19.550
23.250
36.000
47.750
49.700
54.350
0,53
0,72
0,77
0,88
0,95
0,98
1,00
0,19
0,36
0,43
0,66
0,84
0,91
1,00
0,34
0,36
0,34
0,22
0,11
0,07
0,00
Soma 43 54.350 4,83 1,44
09/11/2015
Figura 4 – Histograma de frequência do exemplo dos trabalhadores de uma empresa
Prof. franke 40
Fonte: BARBETTA et al., 2010
09/11/2015
23
8
2
5
3
1 1
0
5
10
15
20
25
450 1150 1850 2550 3250 3950 4650
Fre
qu
ên
cia
de
tra
ba
lha
do
res
Classes de salários (R$)
Como faz a curva de Lorenz no Excel
Figura 5 – Curva de Lorenz para o exemplo dos trabalhadores da empresa.
Prof. franke 41
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Po
rce
nta
ge
m d
e s
alá
rio
s (Q
)
Porcentagem da população (P)
09/11/2015
Prof. franke 43
Figura 6 - Coeficiente de Gini para a renda dos brasileiro, no período de 1977 a 2008 Fonte: IBGE, 2013.
09/11/2015
Prof. franke 44
0,622 0,604
0,593 0,582 0,589 0,594 0,588 0,596 0,587
0,599 0,615
0,634 0,612
0,580 0,602 0,599 0,600 0,600 0,598 0,592 0,593 0,587 0,581
0,569 0,566 0,559 0,552 0,544
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
0,450
0,500
0,550
0,600
0,650
0,700
1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007
Índ
ice
de
gin
i
Anos
desigualdade de renda no Brasil
Figura 6 - Coeficiente de Gini para a renda dos brasileiro, no período de 1977 a 2008 Fonte: IBGE, 2013.
09/11/2015
Recommended