12
UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN ESTADÍSTICA DESCRIPTIVA UNIVARIADA Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 1 Unidad 2. ANÁLISIS ESTADÍSTICO DESCRIPTIVO Medidas de posición, localización o de tendencia central: media aritmética, la mediana y la moda. Medidas de posición no centrales. Cuantiles: cuartiles, deciles y percentiles. Introducción En esta unidad se presentan varias medidas numéricas que proporcionan otras opciones para representar y resumir datos. Veremos medidas de localización, dispersión, forma y asociación. Si estas medidas se calculan con datos de una muestra, se denominan estadísticos muestrales. Si se calculan con los datos de una población se llaman parámetros poblacionales. Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté, más o menos centrada, se habla de estas medidas como medidas de posición o localización. Entre las medidas de tendencia central tenemos: o Media aritmética o Media ponderada o Media geométrica o Media armónica o Mediana o Moda Se debe tener en cuenta que estas medidas de posición o medidas de tendencia se usan cuando se están observando variables cuantitativas. De las medidas antes mencionadas, nos centraremos en: Media Aritmética La media aritmética es lo que viene a la mente de la mayoría de las personas cuando se menciona la palabra "promedio". Es la más importante de las medidas de tendencia central. Si los datos pertenecen a una muestra, la media aritmética se denota con , si los datos son de una población, se denota con la letra griega (mu) . El procedimiento para calcular la media aritmética es el mismo, independientemente si el conjunto de datos se refiere a las observaciones de una muestra o a todos los valores de una población. Es la suma de los valores de un conjunto de observaciones dividido por el número total de ellos. =1 para una muestra ; = =1 para una población Por ejemplo, las notas obtenidas por una clase de 20 alumnos en un examen de Estadística y ordenadas de menor a mayor son : 1, 2, 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 8, 8, 9, 9. Su media se calcula así: = 1+2+2+3+3+4+4+4+5+5+6+6+6+6+7+7+8+8+9+9 20 = 105 20 = 5,25

Estadistica descriptiva

Embed Size (px)

DESCRIPTION

Resumen de apuntes universitarios de Estadistica descriptiva

Citation preview

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 1

Unidad 2. ANÁLISIS ESTADÍSTICO DESCRIPTIVO

Medidas de posición, localización o de tendencia central: media aritmética, la mediana y la moda. Medidas de posición no centrales. Cuantiles: cuartiles, deciles y percentiles.

Introducción

En esta unidad se presentan varias medidas numéricas que proporcionan otras opciones para representar y resumir datos. Veremos medidas de localización, dispersión, forma y asociación. Si estas medidas se calculan con datos de una muestra, se denominan estadísticos muestrales. Si se calculan con los datos de una población se llaman parámetros poblacionales.

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté, más o menos centrada, se habla de estas medidas como medidas de posición o localización.

Entre las medidas de tendencia central tenemos:

o Media aritmética o Media ponderada o Media geométrica o Media armónica o Mediana o Moda

Se debe tener en cuenta que estas medidas de posición o medidas de tendencia se usan cuando se están observando variables cuantitativas. De las medidas antes mencionadas, nos centraremos en:

Media Aritmética

La media aritmética es lo que viene a la mente de la mayoría de las personas cuando se menciona la palabra "promedio". Es la más importante de las medidas de tendencia central. Si los datos pertenecen a una muestra, la media aritmética se denota con , si los datos son de una

población, se denota con la letra griega (mu) . El procedimiento para calcular la media aritmética es el mismo, independientemente si el conjunto de datos se refiere a las observaciones de una muestra o a todos los valores de una población.

Es la suma de los valores de un conjunto de observaciones dividido por el número total de ellos.

∑ 𝑥𝑖𝑛𝑖=1

𝑛 para una muestra ; =

∑ 𝑥𝑖𝑁𝑖=1

𝑁 para una población

Por ejemplo, las notas obtenidas por una clase de 20 alumnos en un examen de Estadística y ordenadas de menor a mayor son : 1, 2, 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 8, 8, 9, 9. Su media se calcula así:

= 1+2+2+3+3+4+4+4+5+5+6+6+6+6+7+7+8+8+9+9

20=

105

20= 5,25

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 2

Propiedades de la media aritmética

1. Todos los valores son incluidos en el cálculo de la media. 2. Una serie de datos solo tiene una media. 3. Es una medida muy útil para comparar dos o más poblaciones. 4. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a

la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.

Nota: No debe interpretarse a la media como punto medio de los datos. La media representa el punto de equilibrio de las observaciones, el cual no tiene que ser igual al punto medio.

Ejemplo: Las notas de un alumno son: 10, 8, 7, 9, 10, 7, 6. Obtener la nota promedio. En este caso la media es un buen representante del rendimiento académico del alumno.

Ejemplo: Una empresa tiene 5 empleados, sus sueldos en pesos son: 3000, 3000, 3000, 3000, 30000. Entonces la media es: = 8400. El dueño de la empresa diría orgulloso ¡El sueldo promedio de los empleados en mi empresa es de $ 8400 al mes! Pero claramente, la media no es un buen representante de este conjunto de datos, dado que hay 4 empleados que ganan sólo 3000 y sólo uno que gana 30000. En general cuando la muestra tenga valores alejados entre si, la media no será un buen representante del conjunto de datos.

Desventaja de la media aritmética

Puede ser afectada por los valores extremos; por lo que si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar a esa serie de datos.

Media Ponderada 𝒑

La fórmula de la media aritmética supone que cada observación es de igual importancia. Habitualmente, suele suceder así; sin embargo, existen algunas excepciones. Por ejemplo, un profesor informa a su clase que efectuará cuatro parciales. Estos, con respecto a la calificación final del curso equivalen a:

Parcial 1: 10%, Parcial 2: 20%, Parcial 3: 30% y Parcial 4: 40%

El cálculo de la media deberá considerar las diferentes ponderaciones de los exámenes. Se conoce como peso o ponderación a los factores cuantitativos que modifican a cada uno de los datos. La media ponderada de una colección de datos x1, x2, ..,xn , cuyas respectivas ponderaciones son w1, w2, ..,wn se define como:

𝑝 = ∑(𝑥𝑖 ∗ 𝑤𝑖)

∑ 𝑤𝑖

Así, un alumno que logre las siguientes calificaciones:

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 3

Evaluación Calificación Ponderación

1 89 0,10

2 75 0,20

3 62 0,30

4 52 0,40

𝑝 = (89 ∗ 0,10) + (75 ∗ 0,20) + (62 ∗ 0,30) + (52 ∗ 0,40)

0,10 + 0,20 + 0,30 + 0,40= 63,3

Obtendrá un promedio ponderado de 68,3 puntos. Si en cambio, todas las evaluaciones poseen la misma importancia, entonces el promedio o media aritmética sería 69,5 puntos.

= 89 + 75 + 62 + 52

4= 69,5

Media aritmética para datos agrupados

Es posible utilizar una variante de la fórmula para calcular la media ponderada, a fin de obtener la media de una distribución de frecuencias. Las ponderaciones son sustituidas por las frecuencias absolutas simples y la fórmula se convierte en:

= ∑(𝑥𝑖 ∗ 𝑓𝑖)

∑ 𝑓𝑖

Si las clases de la distribución de frecuencias son intervalos, el agrupamiento hace que se pierda información y por lo tanto, la media resultante es una aproximación. El uso de los puntos medios de clase (marcas de clase) los considera como promedios de clase, que representan a la clase respectiva, lo cual no siempre se cumple. Sin embargo, si no se dispone de datos originales, no existe otra alternativa razonable. Además la aproximación de esta fórmula a la verdadera media es generalmente buena.

Ejemplo: En un test realizado a un grupo de 42 personas se h an obtenido las puntuaciones que muestra la tabla. Calcular la puntuación media.

[ , ) 𝑥𝑖 𝑓𝑖 𝑥𝑖 * 𝑓𝑖

[10, 20) 15 1 15

[20, 30) 25 8 200

[30, 40) 35 10 350

[40, 50) 45 9 405

[50, 60) 55 8 440

[60, 70) 65 4 260

[70, 80) 75 2 150

N=42 1820

= 1820

42= 43,33

Mediana 𝑴𝒆

La mediana de una colección de datos, que previamente han sido ordenados, es aquél valor más central o que está más en el centro del conjunto de datos. En otras palabras, la mediana es mayor que aproximadamente la mitad de los datos y menor que (aproximadamente) la otra mitad. Así se tiene que aproximadamente, 50% de las observaciones se encuentran por arriba y 50% (aproximadamente), por debajo de ella, o sea que se forman dos subconjuntos que contienen la misma cantidad de datos. Por ser el valor central, los valores extremos no afectan su valor.

Cuando se tiene un nº impar de observaciones, la 𝑴𝒆 es el valor del medio. En el caso de que la cantidad de observaciones sea par, entonces no existe un número que se encuentre en el centro; por lo tanto se calcula como el promedio de los dos valores que se encuentran en el centro de la muestra ordenada.

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 4

Propiedades de la mediana

1. Hay solo una mediana en una serie de datos. 2. No es afectada por los valores extremos (altos o bajos). 3. Puede ser calculada en distribuciones con escala de razón, intervalar y ordinal.

Datos no agrupados o conjunto de datos

Ejemplos o Para n impar.

Notas de un alumno A: 10, 8, 7, 9, 10, 7, 6. Datos ordenados: 6, 7, 7, 8, 9, 10, 10. La mediana de las notas es 8.

o Para n par Notas de un alumno B: 10, 8, 7, 9, 10, 7, 6, 9. Datos ordenados: 6, 7, 7, 8, 9, 9, 10, 10. La mediana de las notas es: 8,5

En el ejemplo anterior de la empresa con 5 empleados la mediana sería igual a $ 3000, por lo tanto sería un mejor representante del conjunto de datos. La mediana no es afectada por valores alejados ni es afectada por asimetría.

Datos Agrupados

Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos:

1. Calcular:

Orden de la mediana: 𝑴𝒆 = 𝒏

𝟐 𝒐

𝒏+𝟏

𝟐 dependiendo si la muestra tiene un nº impar o par de elementos

2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que n / 2.

3. Aplicando la siguiente fórmula con los valores del intervalo mediano:

𝑴𝒆 = 𝐿𝑖 + ℎ ∗ 𝑁2 − 𝐹𝑎

𝑓𝑴𝒆

𝐿𝑖 : es el límite inferior de la clase mediana 𝐹𝑎: frecuencia acumulada anterior a la clase mediana

𝑓𝑴𝒆: frecuencia absoluta de la clase mediana

ℎ: amplitud del intervalo

Ej.: Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:

[ , ) 𝑥𝑖 𝑓𝑖 𝐹

60 - 63 61,5 5 5

63 - 66 64,5 18 23

66 - 69 67,5 42 65

69 - 72 70,5 27 92

72 - 75 73,5 8 100

100

𝑴𝒆 = 𝒏 + 𝟏

𝟐= 50,5

Clase mediana: 66 - 69

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 5

𝑴𝒆 = 𝐿𝑖 + ℎ ∗ 𝑁 + 1

2− 𝐹𝑎

𝑓𝑴𝒆

= 66 + 3 ∗ 50,5 − 23

42= 67,96

Modo o Moda 𝑴𝒐

Es aquel o aquellos valor de la variable x que ocurren con mayor frecuencia en el conjunto. Es el valor que más se repite. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal.

Propiedades de la moda

1. La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, intervalar, y de razón). 2. La moda tiene la ventaja de no ser afectada por valores extremos. 3. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

Desventajas de la moda

En muchas series de datos no hay moda porque ningún valor aparece más de una vez. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cuál es el valor representativo de la serie de datos? Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca de clase del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clase. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serás las marcas de clase de dichos intervalos.

𝑀𝑜 = 𝐿𝑖 + ℎ ∗ 1

1 + 2

1 = 𝑓𝑖 𝑚á𝑥 − 𝑓𝑖 𝑎𝑛𝑡 2 = 𝑓𝑖 𝑚á𝑥 − 𝑓𝑖 𝑝𝑜𝑠

𝐿𝑖 : es el límite inferior de la clase modal 1: diferencia entre fi de la clase modal y la fi anterior a ésta

2: diferencia entre fi de la clase modal y la fi posterior a ésta ℎ: amplitud del intervalo

Comparación entre medidas de tendencia central

Si no hay ningún argumento de peso en contra, se preferirá siempre la media. Hay dos razones para apoyar esta norma general. La primera es que en ella se basan otros estadísticos y la segunda es que es mejor estimador de su parámetro que la mediana y la moda. Hay al menos 3 situaciones en las que se preferirá la mediana a la media: 1. Cuando la variable esté medida en escala ordinal. 2. Cuando haya valores extremos que distorsionen la interpretación de la media. 3. Cuando haya intervalos abiertos, situaciones en las que el intervalo superior carece de límite superior, el

intervalo inferior carece de límite inferior o ambos.

La media es extremadamente sensible a las puntuaciones y un cambio en sólo una de ellas supone un cambio en la media aritmética, mientras que la mediana sólo se vería alterada por cambios en los valores centrales. La mediana será la segunda candidata para representar la tendencia central y se preferirá la mediana a la moda, a menos de que:

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 6

1. Se trate de una variable medida en escala nominal 2. Haya intervalos abiertos y la mediana pertenezca a uno de ellos.

Representación gráfica de las Medidas de Tendencia Central

Para saber cuándo una distribución es simétrica o asimétrica debemos graficarla. Los gráficos más utilizados son: histogramas o polígono de frecuencias.

Si los datos son homogéneos las distribuciones son simétricas y la media es igual a la mediana y la moda. En la distribución asimétrica a derecha o positiva el orden es: MO – ME – MEDIA. En la distribución asimétrica a izquierda o negativa el orden es: MEDIA – ME – MO. La mediana gráficamente es el valor de x que corresponde a la recta vertical que divide un histograma en dos partes de igual área.

MEDIDAS DE POSICIÓN NO CENTRALES: CUANTILES

Los CUANTILES son medidas de posición que determinan la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Dividen a la distribución en un cierto número de partes, de manera que en cada una de ellas, existe el mismo número de valores de la variable.

CUARTILES, DECILES Y PERCENTILES

CUARTILES (𝑸𝒊), dividen a la distribución en cuatro partes iguales (tres divisiones): Q1, Q2, Q3, que corresponden al 25%, 50%, 75%.

DECILES (𝑫𝒊), dividen a la distribución en 10 partes iguales (9 divisiones): D1,..., D9, correspondientes a 10%,..., 90%

PERCENTILES (𝑫𝒊), cuando dividen a la distribución en 100 partes (99 divisiones): P1,..., P99, correspondientes a 1%,..., 99%.

Existe un valor en el cual coinciden los cuartiles, los deciles y percentiles; y es cuando son iguales a la

Mediana. Así veremos que: 𝑸𝟐 = 𝑫𝟓 = 𝑷𝟓𝟎 = 𝑴𝒆.

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 7

Para datos no agrupados o conjunto de datos

𝑄𝑖 = 𝑖∗𝑛

4 𝑠𝑖𝑒𝑛𝑑𝑜 𝑖 = 1, 2, 3 𝑜 4

𝐷𝑖 = (𝑖 ∗ 𝑛)

10 𝑠𝑖𝑒𝑛𝑑𝑜 𝑖: 1, 2, … , 10

𝑃𝑖 = (𝑖 ∗ 𝑛)

100 𝑠𝑖𝑒𝑛𝑑𝑜 𝑖: 1, 2, … , 100

Recordar:

- El 𝑄𝑖, 𝐷𝑖 , 𝑃𝑖1, nos muestran la posición de 𝑄𝑖, 𝐷𝑖 , 𝑃𝑖 . - Usar n para un conjunto de datos impares y n+1 para datos pares.

Ejemplo: Calcular los cuartiles de la siguiente serie estadística: 3, 5, 2, 7, 6, 4, 9, 1.

1º Ordenamos la serie: 1, 2, 3, 4, 5, 6, 7, 9.

2º Según la fórmula anterior: 𝑄𝑖 = 𝑖∗𝑛

4

Entonces: 𝑄1 = 1∗(8+1)

4= 2,25 ; º𝑄2 =

2∗(8+1)

4= 4,5 ; º𝑄3 =

3∗(8+1)

4= 6,75

Ejemplo: En la siguiente distribución de notas, hallar Me, Q1, Q3, P80, P90 y P99

xi 1 2 3 4 5 6 7 8 9 10

fi 7 15 41 52 104 69 26 13 19 14

F 7 22 63 115 219 288 314 327 346 360

𝑀𝑒 = 𝑄2 = 𝑃50 = 5 ; 𝑄1 = 𝑃25 = 4 ; 𝑄3 = 𝑃75 = 6 ; 𝑃80 = 6,5 ; 𝑃90 = 8 ; 𝑃99 = 10

Comprobar los resultados obtenidos, aplicando las correspondientes fórmulas.

Para datos Agrupados

Orden del cuartil °𝑄𝑖 =

(𝑖 ∗ 𝑛)

4 𝑠𝑖𝑒𝑛𝑑𝑜 𝑖: 1,2,3,4

𝑄𝑖 = 𝑙𝑖 +°𝑄𝑖 − 𝐹𝑎

𝑓𝑄𝑖 ∗ ℎ

Orden del Decil °𝐷𝑖 =

(𝑖 ∗ 𝑛)

10 𝑠𝑖𝑒𝑛𝑑𝑜 𝑖: 1,2, … ,10

𝐷𝑖 = 𝑙𝑖 +°𝐷𝑖 − 𝐹𝑎

𝑓𝐷𝑖 ∗ ℎ

Orden del percentil °𝑃𝑖 =

(𝑖 ∗ 𝑛)

100 𝑠𝑖𝑒𝑛𝑑𝑜 𝑖: 1,2, … ,100

𝑃𝑖 = 𝑙𝑖 +°𝑃𝑖 − 𝐹𝑎

𝑓𝑃𝑖 ∗ ℎ

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 8

Ejercicio: Calcular el percentil 35 y 60 de la distribución de la siguiente tabla:

xi fi F

[50, 60) 55 8 8

[60, 70) 65 10 18

[70, 80) 75 16 34

[80, 90) 85 14 48

[90, 100) 95 10 58

[100, 110) 105 5 63

[110, 120) 115 2 65

65

°𝑃35 = (35∗65)

100= 22,75 ; °𝑃60 =

(60∗65)

100= 39

𝑃35 = 70 +22,75 − 18

16 ∗ 10 = 72,97 ; 𝑃60 = 80 +

39 − 34

14 ∗ 10 = 83,57

Medidas de Dispersión absolutas: Desviación media. La varianza y la desviación típica. Medidas de dispersión relativas. Coeficiente de variación o variabilidad.

Introducción

En el análisis estadístico no alcanza con el cálculo e interpretación de las medidas de tendencia central o de posición, ya que, por ejemplo, cuando pretendemos expresar toda una información a través de la media aritmética, no estamos siendo absolutamente fieles a la realidad; ya que suelen existir datos extremos inferiores y superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo bien representados por este parámetro. Si dos conjuntos de datos tienen la misma media aritmética, no significa este hecho, que las distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos.

Ejemplo, los valores 5, 50, 95 tiene igual media aritmética y mediana que los valores 49, 50,51; sin embargo, para la primera información la media aritmética, se encuentra muy alejada de los valores extremos 5 y 95, cosa que no ocurre con la segunda información que posee igual media aritmética y mediana. Veremos entonces que la primera información es más heterogénea o dispersa que la segunda.

Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión: - absolutas que no son comparables entre diferentes muestras; y - relativas que nos permitirán comparar varias muestras.

Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes indicadores:

- Rango o recorrido. - Desviación media. - Varianza y desviación típica o estándar. - Coeficiente de variación o variabilidad.

Ejemplo:

(1) 1,72; 1,73; 1,74; la = 1,73

(2) 1,65; 1,73; 1,81; la = 1,73

En (2) se dice que los datos están más dispersos, porque hay mayor distancia entre cada valor y la . Es decir hay mayor variabilidad de los datos.

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 9

Recordar Calidad en la información y variación están relacionadas inversamente. Cuanto más grande es la variación en los datos, más baja es la calidad de los datos (información).

Rango o Recorrido o Alcance

Es la diferencia entre el valor mayor y el valor menor. Sirve como medida de dispersión sólo si hay pocas observaciones. No más de 10 valores. No sirve cuando hay valores atípicos. Se usa mucho para estudios de control de calidad.

Siguiendo con el último ejemplo:

R1 = 1,74 - 1,72 = 0,02 R2 = 1,81 - 1,65 = 0,16

El segundo conjunto tiene mayor rango; por lo tanto los valores están más dispersos respecto de la .

Varianza

Es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las xi de su propia media aritmética, mayor es la varianza; cuando más cerca estén las xi a su media, menor es la varianza.

Es la media aritmética de los cuadrados de las desviaciones. Se define y expresa matemáticamente de la siguiente manera:

Para muestras con n ≥ 30 Para muestras con n < 30

Para datos no agrupados:

n

xxn

i

i

1

2

2

1

1

2

2

n

xx

s

n

i

i

Para datos agrupados:

n

fxxk

i

ii

1

2

2

1

1

2

2

n

fxx

s

k

i

ii

Desviación Estándar

Es la raíz cuadrada de la varianza. La unidad de medida de la varianza está alterada por los cuadrados de las diferencias de los datos con la media; por eso se calcula la desviación estándar o desviación típica.

𝑆 = √𝑆2

Para muestras con n ≥ 30 Para muestras con n < 30

Para datos no agrupados:

n

xxn

i

i

1

2

1

1

2

n

xx

s

n

i

i

Para datos agrupados:

n

fxxk

i

ii

1

2

1

1

2

n

fxx

s

k

i

ii

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 10

Coeficiente de Variación de Pearson

Es una medida relativa de dispersión porque permite comparar dos o más muestras entre sí. No tiene unidad de medida, su resultado es un porcentaje. Diremos que comparando dos muestras posee menor dispersión aquella cuyo coeficiente de variación sea menor.

Su fórmula es la siguiente:

𝐶𝑉 = 𝑠

∗ 100

Ejemplo: El entrenador de un equipo de natación debe elegir a uno de sus integrantes para la próxima competencia de estilo libre. Según los tiempos en segundos que obtuvieron los postulantes de las cinco últimas carreras de 100 m de estilo libre, ¿qué nadador le conviene elegir?

Diego 61,7 61,7 62,3 62,9 63,1

Tomás 61,5 62,9 62,9 63,7 63,7

Sergio 60,7 62,4 62,7 62,7 63,2

Para poder decidir, calcula las medidas de posición de cada uno.

Promedio o media moda mediana

Diego 62,34 61,7 62,3

Tomás

Sergio

En promedio, los nadadores más rápidos son ................................ y ................................., pero esto no significa que hayan tenido el mismo rendimiento; por eso necesitamos las otras medidas de posición: de ellos dos, tanto la moda como la mediana indican que ................................ fue más veloz. Sin embargo, para elegir el nadador adecuado, no basta con considerar las medidas de posición, ya que también es necesario que su rendimiento sea parejo, es decir, que los tiempos de sus 100 m libres no tengan mucha dispersión.

Ejemplo: La tabla a continuación indica los salarios básicos por hora (en unidades monetarias) en abril 2001 para ciertas categorías ocupacionales de obreros sindicalizados en cierto sector de la construcción.

Salarios básicos por hora, según tipo de trabajo y lugares encuestados

Ocupación A B C D

Albañiles 6.290 7.375 5.750 7.500

Carpinteros 5.900 7.020 5.370 6.660

Electricistas 7.500 7.600 6.700 7.335

Pintores 7.170 6.735 4.750 6.110

Determine cuál es la ocupación en la que existe la mayor variación en los salarios básicos y cuál es la que muestra la menor variación. Para hacer estas comparaciones deberá utilizar el coeficiente de variación (CV).

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 11

Medidas de forma

Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o bloques: medidas de asimetría y medidas de curtosis.

Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según sea ésta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de simetría, decimos que la distribución es simétrica. Diremos entonces, que es simétrica, cuando a ambos lados de la media aritmética exista el mismo nº de valores de la variable, equidistantes de dicha media dos a dos, y tales que, cada par de valores equidistantes tiene la misma frecuencia absoluta. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría. Estas medidas comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal.

MEDIDA DE ASIMETRÍA

Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda. Existen varias medidas de la asimetría de una distribución de frecuencias; entre ellas mencionaremos al Coeficiente de Asimetría de Pearson, que se obtiene a partir de:

𝐴𝑠 = - 𝑀𝑜

𝑆

Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda.

MEDIDA DE APUNTAMIENTO O CURTÓSIS

Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtósis:

Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

UNIVERSIDAD DE CONGRESO ORIENTACIÓN EN GESTIÓN DE INSTITUCIONES EDUCATIVAS TECNOLOGÍA DE GESTIÓN

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Apuntes de Teoría: Unidad_2 Prof. Jorge Mariotti 12

Resumiendo: estadística descriptiva