16
Instituto Universitario Politécnico Santiago Mariño Escuela Ingeniería Electrónica Sede Barcelona, Anzoátegui MEDIDAS DE DISPERSION Profesor: Bachiller:

Medidas de dispersion

Embed Size (px)

Citation preview

Page 1: Medidas de dispersion

Instituto Universitario Politécnico Santiago Mariño

Escuela Ingeniería Electrónica

Sede Barcelona, Anzoátegui

MEDIDAS DE DISPERSION

Profesor: Bachiller:

Carlos Hernández Julio Morales

BARCELONA, Diciembre 2015

Page 2: Medidas de dispersion

Medidas de Dispersión

Las medidas que hasta ahora conocemos, medias, modas, percentiles, etc., tienen todas ellas la propiedad de ubicarse siempre entre los dos valores extremos de los datos, mínimo y máximo, pues indican posición, bien sean central, o bien sea extrema como por ejemplo el percentil 5, o el percentil 95.

Las medidas que van a ser estudiadas en esta presentación no gozan de esta propiedad, y persiguen como objetivo describir la homogeneidad o heterogeneidad de los datos.

Las medidas de tendencia central son insuficientes para describir el comportamiento de los datos, pues no proporcionan información acerca de cuan cerca o cuán lejos se encuentra estos datos, con relación a ese valor central.

Así por ejemplo el trio de datos {8, 9,10} y {1, 10,16} tienen ambos media 9; pero resulta obvio, que en el primero de ellos existe una menor desviación con respecto a este valor central que en el segundo.

Medir la variabilidad resulta muy importante en diversas situaciones prácticas, pues a través de su medición se podrán comparar conjuntos de datos, y así establecer cuando existe una mayor concentración de ellos en la región central.

Así por ejemplo, en estudios sociales las medidas de dispersión proporcionan la información requerida para analizar cómo es la distribución de los ingresos dentro de la sociedad; en los estudios de la calidad industrial, estas mismas medidas de dispersión se utilizan para medir la precisión de las maquinas utilizadas en el proceso de producción.

Características de las Medidas de Dispersión

Las medidas de dispersión nos sirven para cuantificar la separación de los valores de una distribución.

Llamaremos DISPERSIÓN O VARIABILIDAD, a la mayor o menor separación de los valores de la muestra, respecto de las medidas de centralización que hayamos calculado.

Page 3: Medidas de dispersion

Al calcular una medida de centralización como es la media aritmética, resulta necesario acompañarla de otra medida que indique el grado de dispersión, del resto de valores de la distribución, respecto de esta media.

A estas cantidades o coeficientes, les llamamos: MEDIDAS DE DISPERSIÓN, pudiendo ser absolutas o relativas.

Usos de las medidas de dispersión

 Tanto las unas como las otras, son medidas que se toman para tener la posibilidad de establecer comparaciones de diferentes muestras, para las cuales son conocidas ya medidas que se tienen como típicas en su clase.

Por ejemplo: Si se conoce el valor promedio de los aprobados en las universidades venezolanas, y al estudiar una muestra de los resultados de los exámenes de alguna Universidad en particular, se encuentra un promedio mayor, o menor, del ya establecido; se podrá juzgar el rendimiento de dicha institución.

Rango

Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto (Xn o Xmax.) y el más bajo (X1 ó Xmin) en un conjunto de datos.

Rango para datos no agrupados;R = Xmáx.-Xmín = Xn-X1

Ejemplo:Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que:

R = Xn-X1 ) = 34-18 = 16 años

Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el límite superior de la última clase menos el límite inferior de la primera clase.

Rango para datos agrupados;R= (lim. Sup. De la clase n – lim. Inf. De la clase 1)Ejemplo:

Page 4: Medidas de dispersion

Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:

Clases P.M.Xi

fi fr fa↓ fa↑ fra↓ fra↑

7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.0021.835 – 36.250 29.043 4 0.13 14 20 0.46 0.6736.250 – 50.665 43.458 5 0.17 19 16 0.63 0.5450.665 – 65.080 57.873 3 0.10 22 11 0.73 0.3765.080 – 79.495 72.288 3 0.10 25 8 0.83 0.2779.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17Total XXX 30 1.00 XXX XXX XXX XXX

El rango de la distribución de frecuencias se calcula así:

R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)

Características del Rango

El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (máximo y mínimo) en una distribución.

Puesto que el recorrido se basa en los valores extremos éste tiende s ser errático. No es extraño que en una distribución de datos económicos o comerciales incluya a unos pocos valores en extremo pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersión con respecto a esos valores anormales, ignorando a los demás valores de la variable.

La principal desventaja del recorrido es que sólo está influenciado por los valores extremos, puesto que no cuenta con los demás valores de la variable. Por tal razón, siempre existe el peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.

En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor de importancia.

Page 5: Medidas de dispersion

Utilidad en la estadística

El rango comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.

Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es la estatura medida en centímetros, tendríamos:

Es posible ordenar los datos como sigue:

Donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:

En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.

Desviaciones TípicasLa desviación típica o desviación estándar (denotada con el símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una medida de dispersión para variables de razón (variables cuantitativas o cantidades racionales) y de intervalo. Se define como la raíz cuadrada de la varianza de la variable.

Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que presentan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.

Características Características de la desviación estándar es una medida de centralización o dispersión para variables de razón y de intervalo, de gran utilidad en la estadística descriptiva.

Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de

Page 6: Medidas de dispersion

distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.Es útil para describir cuanto se apartan de la media de la distribución los elementos individuales. Una medida de ello se denomina puntuación estándar número de desviaciones a las que determinada observación se encuentra con respecto a la media Característica de la Desviación Estándar: 1. Es afectada por el valor de cada observación.2. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis en las desviaciones extremas que en las demás desviaciones. 3. Si en el eje X de la distribución de frecuencias normal, se mide a ambos lados de la media una distancia igual a: Una desviación estándar se forma un intervalo en el cual se encuentra el 68.27% de los valores centrales de la variable Dos desviaciones estándar, se forma un intervaloDonde se encuentra el 95.43% de los valores centrales. Tres desviaciones estándar, se forma un intervalo que contiene el 99,73% deLos valores centrales. 4. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviación estándar no hay pérdida de información por lo que la desviación para los datos observados es igual que para los datos tabulados. En la construcción de una tabla de una variable continua hay pérdida de información por el agrupamiento de los valores en intervalos y se traduce en la discrepancia entre el valor de la desviación observada y tabulada.

Utilidad en la estadística

Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su ecuación sería:

EJEMPLO

El gerente de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente.

Page 7: Medidas de dispersion

Por lo que su media es:

Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuánto es el promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado.

2.-Ejemplo: Desviación estándar para datos no agrupadosCalcular la desviación estándar al siguiente conjunto de datos muéstrales.

220 215 218 210 210219 208 207 213 225213 204 225 211 221218 200 205 220 215217 209 207 211 218

VarianzaLa varianza es un conjunto de datos cuantitativos {X1, X2, X3……Xn} sin agrupar, se define como la media aritmética del cuadrado de sus desvíos.

La varianza es una medida de dispersión que representa exclusivamente lo que establece la definición: Media aritmética del cuadrado de los desvíos.

Page 8: Medidas de dispersion

Características

Lo que hace la varianza es establecer la variabilidad de la variable aleatoria. Es importante tener en cuenta que, en ciertos casos, es preferible emplear otras medidas de dispersión ante las características de las distribuciones.

Una de las características de la varianza es que viene expresada en unidades cuadráticas respecto de las unidades originales de la variable. Un parámetro de dispersión derivado de la varianza y que tiene las mismas unidades de la variable aleatoria es la desviación típica, que se define como la raíz cuadrada de la varianza.

Utilidad en la estadística

En Teoría de Probabilidad y la Estadística, la varianza es aquella medida de dispersión que ostenta una variable aleatoria respecto a su esperanza. La varianza se relaciona con la desviación típica o desviación estándar, la cual se denota a través de la letra griega denominada sigma y que será laraíz cuadrada de la varianza.

Para calcular la varianza será necesario seguir los siguientes pasos: primero deberemos calcular la media, es decir, el promedio de los números, luego, por cada número, deberemos restar la media y elevar el resultado al cuadrado y finalmente la media de esas diferencias al cuadrado.

La principal función y utilidad que se le puede encontrar a la varianza es que nos permite saber y determinar qué es normal, qué es grande, qué es pequeño, aquello que es extra grande o bien aquello que es extra pequeño.

Por ejemplo, si tomamos varias razas de perros y la idea es determinar cuál de ellos es más grande y cuál el más pequeño, sin dudas, la mejor manera de saber la respuesta a esta incógnita será la aplicación de la fórmula de la varianza.

Page 9: Medidas de dispersion

Coeficiente de Variación

En estadística, cuando se desea hacer referencia a la relación entre el tamaño de la media y la variabilidad de la variable, se utiliza el coeficiente de variación.

Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V.

Se calcula:

Donde   es la desviación típica, y   es la Media. Se puede dar en porcentaje calculando:

Características

El coeficiente de variación no posee unidades.

El coeficiente de variación es típicamente menor que uno. Sin embargo, en ciertas distribuciones de probabilidad puede ser 1 o mayor que 1.

Para su mejor interpretación se expresa como porcentaje.

Depende de la desviación típica, también llamada "desviación estándar", y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor el C.V. pierde significado, ya que puede dar

Page 10: Medidas de dispersion

valores muy grandes, que no necesariamente implican dispersión de datos.

El coeficiente de variación es común en varios campos de la probabilidad aplicada, como teoría de renovación y teoría de colas. En estos campos la distribución exponenciales a menudo más importante que la distribución normal. La desviación típica de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es 1. Las distribuciones con un C.V. menor que uno, como la distribución de Erlang se consideran de "baja varianza ", mientras que aquellas con un C.V. mayor que uno, como la distribución hiperexponencial se consideran de "alta varianza". Algunas fórmulas en estos campos se expresan usando el cuadrado del coeficiente de variación, abreviado como S.C.V. (por sus siglas en inglés).

Utilidad en la estadística

Su utilidad radica en que podemos determinar que tanta variabilidad existe entre dos muestra en las que inclusive la información no tienen las mismas unidades o se trata de datos diferentes. En el siguiente ejemplo se muestra la utilidad del coeficiente de variación

 Ejemplo.

 Dos profesores que imparten diferentes materias a un mismo grupo deciden investigar como es el coeficiente de variación de en una y otra materia, para lo cual se obtiene la media y la desviación estándar respectivamente, por lo que:

 Resultados de la materia A:   

 Resultados de la materia B: 

Page 11: Medidas de dispersion

Por lo que se concluye que aunque las calificaciones en promedio son igual a 8 las calificaciones son mucho más dispersas ya que el coeficiente de variación es mayor para la segunda muestra.

Page 12: Medidas de dispersion

Bibliografía

Www.vitutor.com.es

www.wikipedia.com

www.monografias.com

www.ricondelvago.com.org

Page 13: Medidas de dispersion