15

Siguiente

Embed Size (px)

DESCRIPTION

FACILITADOR JOSE HERIBERTO CRUZ GARCÍA. Siguiente. J.H.C.G. III.- MEDIDAS DE DISPERSIÓN. 3.1 Introducción. - PowerPoint PPT Presentation

Citation preview

Page 1: Siguiente
Page 2: Siguiente

III.- MEDIDAS DE DISPERSIÓN.

3.1 Introducción.

Como ya se había citado en el capítulo II, las medidas de dispersión nos ayudan a determinar que tanta variación ( o dispersión) existe dentro de un conjunto de datos. Así, estas medidas nos ayudan a mejorar nuestro conocimiento respecto al comportamiento de los datos bajo estudio.

Le puede resultar interesante antes de adentrarnos en el estudio de las principales medidas de dispersión el observar la siguiente gráfica para que el lector reflexione sobre como se pueden complementar ambos grupos de medidas (de tendencia central y de dispersión).

Page 3: Siguiente

3.2 Variabilidad.

En la vida cotidiana es difícil encontrar situaciones en las que no se presenten variaciones. Por ejemplo, la medición de la longitud de un estacionamiento por diferentes personas, producirá diferentes resultados; el peso en gramos de paquetes de detergentes en un supermercado es posible que no sean iguales. Tales variaciones pueden ser de dos tipos: las que se producen debido a una causa determinada (o asignable) y las que se originan al azar. En el caso de los paquetes de detergente, la diferencia en peso, puede ser causada por los tamaños de las cajas ( esto es un paquete grande contra un paquete mediano). En este caso el problema es fácil de identificar y controlar (esto es, compre el tamaño que desee). Otras posibles causas, pueden ser variabilidad en la máquina que llena los paquetes, variaciones en los pesos de las cajas vacías, absorción de humedad durante el empacado y transporte del producto. Para el consumidor es difícil detectar este tipo de variabilidad y su resultado se refleja en el peso de los paquetes.

Page 4: Siguiente

3.3 El rango.

El rango como ya se había señalado en el capítulo I, es la diferencia entre el mayor y el menor de los valores de un conjunto de datos.

Así puede recordarse en el ejemplo No. 1.2.4.1 en donde el rango es:

r = valor mayor - valor menor = 5 - 3.2 = 1.8

Puede observarse que le rango es fácil de obtener, pero debe reconocerse su utilidad como medida de dispersión para un análisis estadístico posterior es muy limitada.

3.4 Medidas de desviación promedio.

Existen una serie de medidas que miden la desviación promedio de cada dato respecto a una medida de tendencia central (generalmente la media aritmética) de un conjunto de datos. De hecho, esta serie de medidas que a continuación se describirán, son de una gran al momento de proceder a hacer un análisis estadístico.

Page 5: Siguiente

3.5 Obtención de la desviación promedio absoluta, la varianza y desviación estándar para datos no agrupados.

3.5.1 La desviación promedio absoluta.

La desviación promedio absoluta mide la desviación (en valor absoluto) que existe entre la media y cada uno de los datos del conjunto de datos, dividiendo finalmente la suma de tales desviaciones entre el total de datos. Esta medida de dispersión puede determinarse con la siguiente expresión: _ D. P. A. = Xi - X Ec. 3.1 n _ Donde: X = Media aritmética. Xi = I-ésimo dato del conjunto de datos. n = Número de datos.

Page 6: Siguiente

3.5.2 La varianza.

La varianza de una muestra se calcula obteniendo la desviación al cuadrado de cada dato con respecto a la media y dividiendo la suma resultante entre el total de datos menos uno (n - 1). Se ha observado que para inferir la varianza de una población a partir de la varianza de una muestra de la misma, se obtienen mejores resultados usando n - 1 en la expresión correspondiente, que sólo divide entre n.

La varianza muestral se puede calcular empleando la siguiente fórmula: _ s2 (X) = ( Xi - X )2 Ec. 3.2 n - 1

Por otra parte, la varianza de una población se obtiene con la siguiente expresión: 2 (X) = ( Xi - m )2 Ec. 3.3 N

Page 7: Siguiente

Es importante recalcar que tanto la varianza como la desviación estándar son medidas de dispersión con mayor aplicación en el análisis estadístico.

Adicionalmente se puede agregar que la desviación estándar nos permite determinar con cierto grado de certeza, donde estan localizados los valores de una distribución de frecuencia con relación a la media.

Esto se puede hacer de acuerdo al teorema de Chebyshev el cual nos dice que independientemente de la forma dela distribución, al menos un 75% de los valores caerán dentro de más o menos dos desviaciones estándar a partir de la media de la distribución, y al menos un 89% de los valores caerán dentro de más o menos tres desviaciones estándar a partir de la media.

3.5.3 La desviación estándar.

La desviación estándar es la raíz cuadrada de la varianza. Así, la desviación estándar para una muestra se obtiene mediante la siguiente fórmula: _ s (X) = s2 (X) = ( Xi - X )2 Ec. 3.4 n - 1

Mientras que la desviación estándar para una población se determina mediante la siguiente expresión: (X) = 2 (X) = ( Xi - m )2 Ec. 3.5 N

Page 8: Siguiente

Fig. No. 3. 2 Localización de las observaciones alrededor de la media de una distribución de frecuencia normal.

68 %95 %99 %

+ s - s

+ 2s + 3s - 2s - 3s

A continuación se ilustrará la aplicación de estás medidas de dispersión a través del ejemplo No. 1.2.5.1 del capítulo I, cuyo arreglo se muestra en la tabla No. 3.5.1

Page 9: Siguiente

Camion Tara (Toneladas) |Xi - X| (Xi - X)2

1 10.3 0.18 0.03242 11.0 0.52 0.27043 9.8 0.68 0.46244 11.6 1.12 1.25445 10.3 0.18 0.03246 10.8 0.32 0.10247 10.3 0.18 0.03248 10.1 0.38 0.14449 11.6 1.12 1.254410 9.0 1.48 2.1904

= 6.16 = 5.776

Tabla No. 3.5.1Obtencion de Medidas de Dispersion para las Taras de

Camiones que Cargan Carbon Mineral

Se va a suponer para fines de ejemplificar, que dichos datos son una muestra.Así entonces las medidas de dispersión son:

_1) D. P. A. = Xi - X = 6.16 = 0.616

n 10 _

2) Varianza = s (X) = s2 (X) = ( Xi - X )2 = 5.776 = 0.64178 n - 1 9

3) Desviación estándar = s (X) = s2 (X) = 0.64178 = 0.8011

Page 10: Siguiente

De manera similar que como se hizo con las medidas de tendencia central, se puede estimar con una buena aproximación el valor de la varianza y de la desviación estándar para un conjunto de datos agrupados.

Así se tiene que para obtener la varianza de una muestra de datos agrupados, se puede aplicar la siguiente fórmula. _

s2 (X) = fi( Xi - X )2 Ec. 3.6 n - 1 Donde: Xi = representa la marca de clase o punto medio de la clase i-ésima. fi = frecuencia de la clase i-ésima. n = total de datos de la muestra.

Mientras que para obtener la varianza para una población de datos agrupados, se puede aplicar la siguiente expresión:

2 (X) = fi( Xi - )2 Ec. 3.7

N

Donde: N = total de datos de la población.

3.6 Obtención de la varianza y desviación estándar para datos agrupados.

3.6 Obtención de la varianza y desviación estándar para datos agrupados.

Page 11: Siguiente

Por otra parte, para la desviación estándar ya se sabe que simplemente es extraer la raíz cuadrada de la varianza

A continuación, se ilustrara la aplicación de estás medidas a través del ejemplo No. 2.3.2 del capítulo II, que aquí se reproducen.

Clase (Xi) FrecuenciaPunto

Medio(fi)fi Xi (Xi - X)2 fi(Xi - X)2

3 1.10 - 2.82 1.96 5.88 16.933.225 50.799.6754 2.82 - 4.54 3.68 14.72 5.736.025 22.944.1006 2.54 - 6.26 5.40 32.40 0.455625 273.3759 6.26 - 7.98 7.12 64.08 1.092.025 9.828.2256 7.98 - 9.70 8.84 53.04 7.645.225 45.871.350

= 28 = 170.12 = 132.1771

Tabla No. 2.3.2Obtencion de la Medida de Dispersion para las Calificaciones Parciales a partir de

Datos Agrupados

Page 12: Siguiente

Por lo tanto, la media será: _ X = f i Xi = 170.12 = 6.075 n 28Si además, se considera que dichos datos forman parte de una muestra, entonces: _1) la varianza = s2 (X) = fi( Xi - X )2 = 132.1771 = 4.895 n - 1 27

2.) la desviación estándar = s (X) = s2 (X) = 4.895 = 2.21

Page 13: Siguiente

3.7 Asimetría y kurtosis.

En términos de asimetría, una curva de frecuencia puede ser:

1) asimétrica negativa: asimétrica con la "cola" hacia la izquierda

2) positivamente sesgada: asimétrica con la "cola" hacia la derecha.

3) simétrica.

En términos de kurtosis, una curva de frecuencia puede ser:

1) platikúrtica: plana con las observaciones distribuidas de manera relativamente uniforme en todas las clases.

2) leptokúrtica: puntiaguda, con las observaciones concentradas en un estrecho rango de valores

3) mesokúrtica: ni plana ni puntiaguda, en término de los valores observados.

Page 14: Siguiente

3.8 Coeficiente de asimetría de Pearson.

El coeficiente de asimetría de Pearson mide la desviación de la asimetría, expresando la diferencia entre la media y la mediana con respecto a la desviación estándar del grupo de mediciones. Las fórmulas son: ~ Asimetría poblacional = 3( - m) Ec. 3.8 _ ~ Asimetría de la muestra = 3(X - m) Ec. 3.9 s

Para una distribución simétrica, el valor del coeficiente de asimetría es siempre 0, porque la media y la mediana son iguales. Para una distribución con asimetría positiva, la media es siempre mayor que la mediana y, por ello, el valor del coeficiente es positivo. Para una distribución con asimetría negativa, la media es siempre mayor que la mediana y, por ello el valor del coeficiente es negativo.

Page 15: Siguiente

A continuación se calculará el coeficiente de asimetría de Pearson para el ejemplo No. 2.3.2 del capítulo II, como sigue:

Datos: _ ~ X = 6.075, m = 6.355 y s = 2.21

_ ~ Asimetría de la muestra = 3(X - m) = 3(6.075 - 6.355) = - 0.38 s 2.21

Así, la distribución de las calificaciones tiene una ligera asimetría negativa, es decir, "esta sesgada hacia la izquierda".