Upload
walter-walton
View
16
Download
2
Embed Size (px)
Citation preview
Descrição de Dados: Medidas de Posição
3.1MEDIDAS DE POSIÇÃO EM CONJUNTOS DE DADOS
Uma medida de posição é um valor calculado a partir de um grupo
de dados e é utilizado para descrever estes dados de alguma forma. Normalmente, desejamos que o valor seja representativo do grupo de valores, e dessa forma
algum tipo de média é desejado. No sentido estatístico uma média é uma medida de tendência central para uma coleção de valores. Este capítulo aborda os vários
procedimentos estatísticos interessados nas medidas de posição.
3.2A MÉDIA ARITMÉTICA
A média aritmética é definida como a soma dos valores no grupo de dados
dividida pelo número de valores.
Em estatística, uma medida descritiva de uma população, ou parâmetro da população, é freqüentemente representada por
uma letra grega, enquanto uma medida descritiva de uma amostra, ou uma estatística da amostra, é representada por uma letra romana. Dessa forma, a media aritmética de uma população
de valores e representada pelo símbolo μ, enquanto a média aritmética de uma amostra de valores é representada pelo símbolo X (lê-se X barra). As fórmulas para a média da amostra
e média da população são:
μ = ΣXN (3.1)
X = ΣXn (3.2)
Operacionalmente, as duas fórmulas são idênticas. Em ambos os casos elas realizam uma
soma de todos os valores ¿) e em seguida a dividem pelo número de valores. Entretanto, a distinção de denominadores ocorre porque na análise estatística a letra maiúscula
N indica o número de itens da população, enquanto a letra minúscula n indica o número de itens na amostra.
Exemplo 1 Durante um determinado mês de verão, os oito
representantes de venda de uma empresa de aquecedores e ar-condicionado venderam o seguinte número de unidades de ar-condicionado central: 8, 11, 5, 14, 8, 11, 16, 11.
Considerando este mês como uma população estatística de interesse, o número médio de unidades vendidas é
μ = ΣXN = 84
8 = 10,5 unidades
Nota: Para fins de apresentação de resultados, geralmente divulga-se as medidas de localização com um dígito além dos dígitos da medida original.
Exemplo 4 Os oito representantes de vendas descritos no Exemplo 1 venderam os seguintes números de unidades de ar-condicionado central: 8, 11, 5, 14, 8, 11, 16 e 11. A moda para este
grupo de valores é o valor com a maior freqüência, ou moda = 11,0.
3.6 RELAÇÃO ENTRE A MÉDIA E A MEDIANA
Para qualquer distribuição simétrica, a média, a mediana e a
moda coincidem em seus valores [ver Fig. 3-1 (a)]. Para uma distribuição positivamente assimétrica a média, é sempre maior que a mediana [ver Fig. 3-1(b)]. Para uma
distribuição negativamente assimétrica, a média é sempre menor que a mediana [ver Fig. 3-1(c)]. Estas duas últimas relações são sempre verdadeiras, independente da
distribuição ser ou não unimodal. Uma medida de simetria em estatística, que se concentra na diferença entre os valores da média e da mediana para um grupo de valores, é o
coeficiente de assimetria de Pearson, descrito na Seção 4.12. Os conceitos de simetria e assimetria são explorados na Seção 2.4.
(a) Simétrica
(b) Positivamente assimétrica
(c) Negativamente assimétrica
Figura 3-1
Exemplo 5 - Para os dados de vendas considerados nos
exemplos 1, 3 e 4, a média é 10,5, enquanto a mediana é 11,0. Devido à média ser menor que a mediana, a distribuição dos valores observados é negativamente
assimétrica, ou seja, inclinada para a esquerda.
7 CRITÉRIO MATEMÁTICO SATISFEITO PELA MÉDIA E MEDIANA
Um propósito para a determinação de
qualquer medida de tendência central, assim como a mediana ou média, é o de utilizá-la para representar o nível geral dos valores incluídos no grupo. Tanto a média como a mediana
são “boas” medidas representativas, mas do ponto de vista de diferentes critérios matemáticos ou objetivos. A mediana é o valor representativo que minimiza a soma
dos valores absolutos das diferenças entre cada valor no grupo e a mediana.
Ou seja, a mediana minimiza a soma dos desvios absolutos em relação ao
valor individual sendo representado. Em comparação, a média aritmética se concentra na minimização da soma dos desvios quadráticos em relação aos valores individuais
no grupo. O critério pelo qual o objetivo de minimizar a soma dos desvios quadráticos associado com o valor representativo é chamado critério dos mínimos
quadrados. Este critério é o de maior importância na inferência estatística baseada em dados amostrados, como discutido na próxima seção.
Exemplo 6 - Para os dados das vendas que foram considerados nos exemplos anteriores, a mediana é 11,0 e a média é 10,5. Os valores ordenados das vendas são apresentados na
primeira coluna da Tabela 3.2. As outras colunas desta tabela estão interessadas na determinação da soma dos desvios absolutos e dos desvios quadráticos dos valores individuais
em relação à mediana e à média. Note que a soma dos desvios absolutos para a mediana, 20, é menor que a soma correspondente para a média. Por outro lado, para o critério dos
mínimos quadrados, a soma dos desvios quadráticos para média, 86,00, é menor que a soma correspondente para a mediana. Nenhum valor diferente da média pode ter uma
menor soma dos desvios quadráticos que a média.
Tabela 3.2 Critério matemático satisfeito pela mediana e média (Mediana =11,0; Média = 10,5)
X |X - Mediana | |X- Média| (X-Mediana)2 (X --- Média)
5 6 5,5 36 30,25
8 3 2,5 9 6,25
8 3 2,5 9 6,25
11 0 0,5 0 0,25
11 0 0,5 0 0,25
11 0 0,5 0 0,25
14 3 3,5 9 12,25
16 5 5,5 25 30,25
Soma 20 21,0 88 86,00
3.8 USO DA MÉDIA, MEDIANA E MODA
Primeiramente consideramos o uso destas medidas de representação de dados populacionais. O valor da moda indica onde estão localizados a maioria dos valores observados, como o salário por hora em uma companhia. Ela pode ser útil como medida descritiva para um grupo da população, mas somente se existir uma moda bem definida. Por outro lado, a mediana é sempre uma excelente medida que representa o nível “típico” dos valores observados, assim como os salários em uma população. Isso é verdadeiro independente da existência de mais de uma moda ou se a distribuição da população é simétrica ou assimétrica. A falta de simetria não é um problema especial porque a mediana dos salários, por exemplo, é sempre o salário da “pessoa central” quando os salários estão listados em ordem de magnitude. A média aritmética também é um excelente valor representativo para uma população, mas somente se a população é simétrica. Para dados não-simétricos, os valores extremos (por exemplo, alguns salários muito elevados de técnicos especialistas) servirão para distorcer o valor da média como um valor representativo. Dessa forma, a mediana é geralmente a melhor medida de posição dos dados para descrever os dados de uma população.
Consideramos agora o uso de três medidas de posição em relação a dados amostrados. Recorde do Capítulo 1 que o propósito da inferência estatística com a posição dos dados da amostra é
fazer possíveis afirmações sobre a população da qual os dados foram retirados. A moda não é uma boa medida de localização em relação a dados da amostra porque seu valor pode variar muito de uma amostra para outra. A mediana é melhor que a moda porque seu valor é mais estável de uma amostra para outra. Entretanto, o valor da média é o mais estável das três medidas. Como será introduzido posteriormente na Seção 4.9 e explorado totalmente no Capítulo 8, a razão para a relativa estabilidade da média de uma amostra para outra é porque ela é a medida de posição que satisfaz o critério dos mínimos quadrados. Dessa forma, para dados amostrados, a melhor medida de posição é geralmente a média aritmética.
Exemplo 7 Os salários por hora de 650 empregados em uma fábrica foram reunidos. A melhor medida representativa dos salários típicos é a mediana, porque uma população está envolvida e a mediana é relativamente não afetada pela falta de simetria dos salários. De fato, dados como salários são provavelmente positivamente assimétricos, com relativamente poucos valores de salários sendo excepcionalmente altos na cauda direita da distribuição.
Exemplo 8 Uma amostra aleatória de n = 100 salários foi obtida de uma companhia que tem milhares de empregados. O melhor salário representativo para milhares de empregados é a média da amostra. Apresar de ser pouco provável que a média da amostra seja igual à média dos salários de toda a população, ela é geralmente mais próxima da média populacional que seria a mediana populacional, usada como um estimador para o salário médio da população.
3.9 USO DA MÉDIA EM CONTROLE ESTATÍSTICO DE PROCESSOS
Na Seção 2.12 observamos que um gráfico corrido (run chart) é um gráfico dos valores dos dados na seqüência temporal em que eles foram observados, e que os valores plotados podem ser valores individuais ou médias de amostras seqüencial. Preferimos plotar médias que valores individuais porque qualquer medida de posição será geralmente mais estável (ou menos variável) de uma amostra para outra que as observações individuais. Como observamos na seção anterior, a média da amostra é mais estável
que a mediana ou a moda. Por esta razão, o foco dos gráficos corridos interessados em dados representativos é plotar as médias das amostras. Dessa forma um gráfico é chamado de gráfico, e serve como base na determinação da estabilidade do processo ou se existe variação neste que tenha uma causa atribuível que deva ser corrigida.