56
Descrição de Dados: Medidas de Posição 3.1 MEDIDAS DE POSIÇÃO EM CONJUNTOS DE DADOS Uma medida de

Capítulo 3

Embed Size (px)

Citation preview

Page 1: Capítulo 3

Descrição de Dados: Medidas de Posição

3.1MEDIDAS DE POSIÇÃO EM CONJUNTOS DE DADOS

Uma medida de posição é um valor calculado a partir de um grupo

Page 2: Capítulo 3

de dados e é utilizado para descrever estes dados de alguma forma. Normalmente, desejamos que o valor seja representativo do grupo de valores, e dessa forma

Page 3: Capítulo 3

algum tipo de média é desejado. No sentido estatístico uma média é uma medida de tendência central para uma coleção de valores. Este capítulo aborda os vários

Page 4: Capítulo 3

procedimentos estatísticos interessados nas medidas de posição.

3.2A MÉDIA ARITMÉTICA

A média aritmética é definida como a soma dos valores no grupo de dados

Page 5: Capítulo 3

dividida pelo número de valores.

Em estatística, uma medida descritiva de uma população, ou parâmetro da população, é freqüentemente representada por

Page 6: Capítulo 3

uma letra grega, enquanto uma medida descritiva de uma amostra, ou uma estatística da amostra, é representada por uma letra romana. Dessa forma, a media aritmética de uma população

Page 7: Capítulo 3

de valores e representada pelo símbolo μ, enquanto a média aritmética de uma amostra de valores é representada pelo símbolo X (lê-se X barra). As fórmulas para a média da amostra

Page 8: Capítulo 3

e média da população são:

μ = ΣXN (3.1)

X = ΣXn (3.2)

Operacionalmente, as duas fórmulas são idênticas. Em ambos os casos elas realizam uma

Page 9: Capítulo 3

soma de todos os valores ¿) e em seguida a dividem pelo número de valores. Entretanto, a distinção de denominadores ocorre porque na análise estatística a letra maiúscula

Page 10: Capítulo 3

N indica o número de itens da população, enquanto a letra minúscula n indica o número de itens na amostra.

Exemplo 1 Durante um determinado mês de verão, os oito

Page 11: Capítulo 3

representantes de venda de uma empresa de aquecedores e ar-condicionado venderam o seguinte número de unidades de ar-condicionado central: 8, 11, 5, 14, 8, 11, 16, 11.

Page 12: Capítulo 3

Considerando este mês como uma população estatística de interesse, o número médio de unidades vendidas é

μ = ΣXN = 84

8 = 10,5 unidades

Page 13: Capítulo 3

Nota: Para fins de apresentação de resultados, geralmente divulga-se as medidas de localização com um dígito além dos dígitos da medida original.

Page 14: Capítulo 3

Exemplo 4 Os oito representantes de vendas descritos no Exemplo 1 venderam os seguintes números de unidades de ar-condicionado central: 8, 11, 5, 14, 8, 11, 16 e 11. A moda para este

Page 15: Capítulo 3

grupo de valores é o valor com a maior freqüência, ou moda = 11,0.

3.6 RELAÇÃO ENTRE A MÉDIA E A MEDIANA

Para qualquer distribuição simétrica, a média, a mediana e a

Page 16: Capítulo 3

moda coincidem em seus valores [ver Fig. 3-1 (a)]. Para uma distribuição positivamente assimétrica a média, é sempre maior que a mediana [ver Fig. 3-1(b)]. Para uma

Page 17: Capítulo 3

distribuição negativamente assimétrica, a média é sempre menor que a mediana [ver Fig. 3-1(c)]. Estas duas últimas relações são sempre verdadeiras, independente da

Page 18: Capítulo 3

distribuição ser ou não unimodal. Uma medida de simetria em estatística, que se concentra na diferença entre os valores da média e da mediana para um grupo de valores, é o

Page 19: Capítulo 3

coeficiente de assimetria de Pearson, descrito na Seção 4.12. Os conceitos de simetria e assimetria são explorados na Seção 2.4.

(a) Simétrica

Page 20: Capítulo 3

(b) Positivamente assimétrica

Page 21: Capítulo 3

(c) Negativamente assimétrica

Figura 3-1

Exemplo 5 - Para os dados de vendas considerados nos

Page 22: Capítulo 3

exemplos 1, 3 e 4, a média é 10,5, enquanto a mediana é 11,0. Devido à média ser menor que a mediana, a distribuição dos valores observados é negativamente

Page 23: Capítulo 3

assimétrica, ou seja, inclinada para a esquerda.

7 CRITÉRIO MATEMÁTICO SATISFEITO PELA MÉDIA E MEDIANA

Um propósito para a determinação de

Page 24: Capítulo 3

qualquer medida de tendência central, assim como a mediana ou média, é o de utilizá-la para representar o nível geral dos valores incluídos no grupo. Tanto a média como a mediana

Page 25: Capítulo 3

são “boas” medidas representativas, mas do ponto de vista de diferentes critérios matemáticos ou objetivos. A mediana é o valor representativo que minimiza a soma

Page 26: Capítulo 3

dos valores absolutos das diferenças entre cada valor no grupo e a mediana.

Ou seja, a mediana minimiza a soma dos desvios absolutos em relação ao

Page 27: Capítulo 3

valor individual sendo representado. Em comparação, a média aritmética se concentra na minimização da soma dos desvios quadráticos em relação aos valores individuais

Page 28: Capítulo 3

no grupo. O critério pelo qual o objetivo de minimizar a soma dos desvios quadráticos associado com o valor representativo é chamado critério dos mínimos

Page 29: Capítulo 3

quadrados. Este critério é o de maior importância na inferência estatística baseada em dados amostrados, como discutido na próxima seção.

Page 30: Capítulo 3

Exemplo 6 - Para os dados das vendas que foram considerados nos exemplos anteriores, a mediana é 11,0 e a média é 10,5. Os valores ordenados das vendas são apresentados na

Page 31: Capítulo 3

primeira coluna da Tabela 3.2. As outras colunas desta tabela estão interessadas na determinação da soma dos desvios absolutos e dos desvios quadráticos dos valores individuais

Page 32: Capítulo 3

em relação à mediana e à média. Note que a soma dos desvios absolutos para a mediana, 20, é menor que a soma correspondente para a média. Por outro lado, para o critério dos

Page 33: Capítulo 3

mínimos quadrados, a soma dos desvios quadráticos para média, 86,00, é menor que a soma correspondente para a mediana. Nenhum valor diferente da média pode ter uma

Page 34: Capítulo 3

menor soma dos desvios quadráticos que a média.

Tabela 3.2 Critério matemático satisfeito pela mediana e média (Mediana =11,0; Média = 10,5)

Page 35: Capítulo 3

X |X - Mediana | |X- Média| (X-Mediana)2 (X --- Média)

5 6 5,5 36 30,25

8 3 2,5 9 6,25

8 3 2,5 9 6,25

11 0 0,5 0 0,25

11 0 0,5 0 0,25

11 0 0,5 0 0,25

14 3 3,5 9 12,25

16 5 5,5 25 30,25

Soma 20 21,0 88 86,00

3.8 USO DA MÉDIA, MEDIANA E MODA

Primeiramente consideramos o uso destas medidas de representação de dados populacionais. O valor da moda indica onde estão localizados a maioria dos valores observados, como o salário por hora em uma companhia. Ela pode ser útil como medida descritiva para um grupo da população, mas somente se existir uma moda bem definida. Por outro lado, a mediana é sempre uma excelente medida que representa o nível “típico” dos valores observados, assim como os salários em uma população. Isso é verdadeiro independente da existência de mais de uma moda ou se a distribuição da população é simétrica ou assimétrica. A falta de simetria não é um problema especial porque a mediana dos salários, por exemplo, é sempre o salário da “pessoa central” quando os salários estão listados em ordem de magnitude. A média aritmética também é um excelente valor representativo para uma população, mas somente se a população é simétrica. Para dados não-simétricos, os valores extremos (por exemplo, alguns salários muito elevados de técnicos especialistas) servirão para distorcer o valor da média como um valor representativo. Dessa forma, a mediana é geralmente a melhor medida de posição dos dados para descrever os dados de uma população.

Consideramos agora o uso de três medidas de posição em relação a dados amostrados. Recorde do Capítulo 1 que o propósito da inferência estatística com a posição dos dados da amostra é

Page 36: Capítulo 3

fazer possíveis afirmações sobre a população da qual os dados foram retirados. A moda não é uma boa medida de localização em relação a dados da amostra porque seu valor pode variar muito de uma amostra para outra. A mediana é melhor que a moda porque seu valor é mais estável de uma amostra para outra. Entretanto, o valor da média é o mais estável das três medidas. Como será introduzido posteriormente na Seção 4.9 e explorado totalmente no Capítulo 8, a razão para a relativa estabilidade da média de uma amostra para outra é porque ela é a medida de posição que satisfaz o critério dos mínimos quadrados. Dessa forma, para dados amostrados, a melhor medida de posição é geralmente a média aritmética.

Exemplo 7 Os salários por hora de 650 empregados em uma fábrica foram reunidos. A melhor medida representativa dos salários típicos é a mediana, porque uma população está envolvida e a mediana é relativamente não afetada pela falta de simetria dos salários. De fato, dados como salários são provavelmente positivamente assimétricos, com relativamente poucos valores de salários sendo excepcionalmente altos na cauda direita da distribuição.

Exemplo 8 Uma amostra aleatória de n = 100 salários foi obtida de uma companhia que tem milhares de empregados. O melhor salário representativo para milhares de empregados é a média da amostra. Apresar de ser pouco provável que a média da amostra seja igual à média dos salários de toda a população, ela é geralmente mais próxima da média populacional que seria a mediana populacional, usada como um estimador para o salário médio da população.

3.9 USO DA MÉDIA EM CONTROLE ESTATÍSTICO DE PROCESSOS

Na Seção 2.12 observamos que um gráfico corrido (run chart) é um gráfico dos valores dos dados na seqüência temporal em que eles foram observados, e que os valores plotados podem ser valores individuais ou médias de amostras seqüencial. Preferimos plotar médias que valores individuais porque qualquer medida de posição será geralmente mais estável (ou menos variável) de uma amostra para outra que as observações individuais. Como observamos na seção anterior, a média da amostra é mais estável

Page 37: Capítulo 3

que a mediana ou a moda. Por esta razão, o foco dos gráficos corridos interessados em dados representativos é plotar as médias das amostras. Dessa forma um gráfico é chamado de gráfico, e serve como base na determinação da estabilidade do processo ou se existe variação neste que tenha uma causa atribuível que deva ser corrigida.