Upload
tayraflores
View
1.565
Download
1
Embed Size (px)
Citation preview
Módulo 3
Medidas Descriptivas
A las medidas de tendencia central se les conocen así, ya quepueden condensar en un solo valor central alrededor del cualtodos los datos se distribuyen
Variabilidad o dispersión: se refiere a la extensión de los datos de una distribución, es decir el grado en que las observaciones se distribuyenForma o Sesgo: las curvas que representan los puntos de un conjunto de datos pueden ser sesgadas o simétricas.
En una curva simétrica una línea vertical que pase por el punto más alto de la curva divide el área en dos partes iguales.
En una curva sesgada los valores de su distribución de frecuencias están concentrados en el extremo inferior o en el superior de la escalad e medición horizontal
Para condensar y describir los datos se utilizan las medidas deTendencia central , las medidas de dispersión y las medidas deAsimetría y forma.
Medidas Descriptivas
Tendencia Central
Y Posición
Variabilidad Forma
• Media
• Mediana
• Moda
• Cuartiles
• Deciles
• Percentiles
• Rango
• Desviación Típica
•Varianza
• Coeficiente de
Variación
• Sesgo
• Curtosis
• Simetría
Las medidas de tendencia central son valores numéricos que señalan un tipo de centro de un conjunto de datos, centro que se utiliza para representar el conjunto.
Tendencia Central o de Posición
Las medidas de posición facilitan información sobre la serie de datos que se está analizando.
Estas medidas permiten conocer diversas características de una serie de datos.
Las medidas de posición son de dos tipos:
•Medidas de posición central:
Informan sobre los valores medios de la serie de datos.
Son medidas que buscan posiciones (valores) con respecto a losque los datos muestran tendencia a agruparse.
•Medidas de posición no centrales:
•Informan de como se distribuye el resto de los valores de la serie.
Permiten conocer otros puntos característicos de la distribución
que no son los valores centrales.
Medidas de posición central
Media
Mediana
Moda
Medidas de posición no centrales
Cuartiles
Deciles
Percentiles
CUANTILES
MediaEs el valor medio ponderado de la serie de datos. Se
pueden calcular diversos tipos de media, siendo las
más utilizadas:
Media aritmética
Media geométrica
Media armónica
Media Aritmética o Promedio
• Es la media aritmética de los valores de una
variable.
• Es la suma de los valores dividido por el tamaño
muestral.
• Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor.
• Muy sensible a valores extremos.
• Es el centro de gravedad de un conjunto de
datos.
ESTADISTICAS
DESCRIPTIVAS
POBLACION MUESTRA
MEDIA ARITMETICA x
SIMBOLOGIA
Para un conjunto de datos X1 ………XN, de una población, en su
forma no agrupada, la media aritmética se obtiene sumando todas
las observaciones del conjunto de datos y se divide por el número
total de observaciones de la población , tal como se expresa en la
ecuación:
Media Aritmética Para Datos No agrupados
)(1 PoblaciónN
N
iiX
Para un conjunto de datos x1 ………xn, de una muestra, en su
forma no agrupada, la media aritmética se obtiene sumando todas
las observaciones del conjunto de datos y se divide por el número
total de observaciones de la muestra :
)(1 Muestran
n
iix
x
Un conjunto de datos no agrupados se
convierten en un conjunto de datos agrupados
cuando éstos son organizados en una distribución
de frecuencias de clase.
Recordando el concepto de datos agrupados…..
CLASES MC (Xi) fi (Xi)(fi)
1 X1 f1 (X1)(f1)
2 X2 f2 (X2)(f2)
3 X3 f3 (X3)(f3)
4 X4 f4 (X4)(f4)
. . . .
. . . .
. . . .
. . . .
. . . .
m Xm fm (Xm)(fm)
m
i
if1
i
m
i
i fX1
TOTALES
Media Aritmética Para Datos Agrupados D
I
S
T
R
I
B
U
C
I
O
N
D
E
F
R
E
C
U
E
N
C
I
A
m
i
i
m
i
ii
f
fX
1
1
m
i
i
m
i
ii
f
fX
X
1
1
Para la población
Para la muestra
Nota: El cálculo es el mismo, solo cambia la simbología utilizada
La media armónica resulta poco influida por la existencia de
determinados valores mucho más grandes que el conjunto de los
otros, siendo en cambio sensible a valores mucho más pequeños
que el conjunto.
La media armónica no está definida en el caso de la existencia en el
conjunto de valores nulos.
La media armónica, representada por H, de una cantidad finita de
números es igual al recíproco, o inverso, de la media aritmética de
los recíprocos de dichos números
Así, dados los números a1,a2, ... , an, (NO AGRUPADOS) la media
armónica será igual a:
m
ii
i
m
i
i
fX
f
ArmónicaM
1
1
*1
.
)........(*)(*)( 221
mi fm
ff XXXaMGeometric
OTROS TIPOS DE MEDIA
Media geométrica (no agrupados)
Se eleva cada valor al número de veces que se ha repetido
Se multiplican todo estos resultados y al producto final se le
calcula la raíz "n" (siendo "n" el total de datos de la muestra).
nn
n
nnn nXXXXX1
321 )........( 321
Por ejemplo, la media geométrica de 2 y 18 es
Otro ejemplo, la media de 1, 3 y 9 seria
Sólo es relevante la media geométrica si todos los números son
positivos. Si uno de ellos es 0, entonces el resultado es 0. Si hay
un número negativo (o una cantidad impar de ellos) entonces la
media geométrica es, o bien negativa o bien inexistente en los
números reales.
En muchas ocasiones se utiliza su trasformación en el manejo
estadístico de variables con distribución no normal.
La media geométrica es relevante cuando varias cantidades son
sumadas para producir un total.
Ventajas:
Se trata de un concepto familiar para la mayoría de las
personas y es intuitivamente claro.
Cada conjunto de datos tiene una media, es una medida que
puede calcularse y es única debido a que cada conjunto
de datos posee una y sólo una media.
Es útil para llevar a cabo procedimientos estadísticos como
la comparación de medias de varios conjuntos de datos.
Desventajas:
Puede verse afectada por valores extremos que no son
representativos del resto de los datos.
Resulta tedioso calcular la media debido a que se utilizan
cada uno de los puntos de datos en su cálculo.
No se puede calcular la media para un conjunto de datos
que tiene clases de extremo abierto, ya sea en el inferior
o en el superior de la escala.
MEDIA
ARITMETICA
Según el tipo de datos que se analice será más apropiado utilizar la
media aritmética o la media geométrica:
• La media geométrica se suele utilizar en series de datos como tipos
de interés anuales, inflación, etc., donde el valor de cada año tiene un
efecto multiplicativo sobre el de los años anteriores.
• En todo caso, la media aritmética es la medida de posición central
más utilizada.
• Lo más positivo de la media es que en su cálculo se utilizan todos
los valores de la serie, por lo que no se pierde ninguna información.
• Sin embargo, presenta el problema de que su valor (tanto en el caso
de la media aritmética como geométrica) se puede ver muy influido
por valores extremos, que se aparten en exceso del resto de la serie.
Estos valores anómalos podrían condicionar en gran medida el valor
de la media, perdiendo ésta representatividad.
Se denomina media (aritmética) ponderada de un conjunto de números
al resultado de multiplicar cada uno de los números por un valor
particular para cada uno de ellos, llamado su peso, obteniendo a
continuación la suma de estos productos, y dividiendo el resultado de
esta suma de productos entre la suma de los pesos.
Este "peso" depende de la importancia o significancia de cada uno de
los valores.
O dicho de otro modo es un promedio en el que cada valor de
observación se pondera con algún índice de acuerdo a su importancia.
Para una serie de datos
X = { x1, x2, ..., xn}
a la que corresponden los pesos
W = { w1, w2, ..., wn}
la media ponderada se calcula como:
o:
Un ejemplo es la obtención de la media ponderada de las notas de una
materia en la que se asigna distinta importancia (peso) a cada una de las
pruebas de que consta la evaluación.
La Media Pesada ó ponderada: permite calcular el
promedio que toma en cuenta la importancia de cada
valor con respecto al total.
X p= Σ (wx)/ Σw
Donde w es el peso asignado a cada observación
Mediana
• Es el valor de la serie de datos ordenados que se sitúa justamente en el centro de la
muestra (un 50% de valores son inferiores y otro 50% son superiores)
• Es conveniente cuando los datos son asimétricos.
• No presentan el problema de estar influido por los valores extremos, pero en cambio
no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor
por el número de veces que se ha repetido).
Es el valor del elemento central, cuando los datos están dispuestos en
orden ascendente o descendente.
Para Datos No agrupados
• Con un número impar de
observaciones:
. Se ordenan las observaciones por orden
de magnitud.
. Se ubica la observación que está en el
medio del conjunto de datos.
• Con un número par de observaciones:
. Se ordenan las observaciones por
magnitud.
. Se calcula el promedio de las dos
observaciones centrales.
Para Datos Agrupados
• Se ubica hasta que
intervalo hay 50% de las
observaciones.
• Se aplica la fórmula con los
datos de la distribución de
frecuencias.
CALCULO DE LA MEDIANA
Fórmula para el Cálculo de la
Mediana de un Conjunto de Datos
Agrupados
LRI: límite real inferior de la clase mediana
n: frecuencia total
: frecuencia acumulada anterior
al intervalo donde esta localizada la mediana
: frecuencia del intervalo donde está localizada
la mediana
Cr: ancho real del intervalo
rn
cme
nterioracumuladaa
f
fLRIMe
2/)1(
nterioracumuladaaf
mef
Moda
Es el valor que ocurre con mayor frecuencia en un conjunto
de datos
Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.
Para Datos No agrupados
• Es el valor que se repite con
mayor frecuencia
• Si hay dos valores que se
repiten con mayor frecuencia
entonces existen dos modas
Para Datos Agrupados
• Se ubica el intervalo con lafrecuencia mayor
• Se aplica la fórmula
correspondiente para
encontrar la moda
Fórmula para el cálculo de la Moda de un conjunto
de Datos Agrupados
LRI: Límite real inferior de la clase modal
d1: frecuencia de la clase modal menos la frecuencia de la clase
que se encuentra inmediatamente por debajo de ella.
d2: frecuencia de la clase modal menos la frecuencia de la clase
que está por encima de ella
Cr: ancho del intervalo modal
rcdd
dLRIMo *
( 21
1
De acuerdo al número de modas de un conjunto
de datos se pueden dar los siguientes casos:
UNIMODAL
BIMODAL
MULTIMODAL
Ventajas y desventajas de la moda:
•La moda, al igual que la mediana, se puede utilizar como una posición central para datos
tanto cualitativos como cuantitativos.
•También, al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, se escoge el valor
más frecuente del conjunto de datos como el valor modal.
•Se puede utilizar la moda sin importar qué tan grandes o qué tan pequeños sean los
valores del conjunto de datos, e independientemente de cuál sea su dispersión.
•Se puede utilizar aun cuando una o más clases sean de extremo abierto.
•Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene
valores que se presenten más de una vez.
•En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
número de veces.
Cuando los datos contienen dos, tres o más modas, resultan difíciles de
• interpretar y comparar.
¿Cuál medida de tendencia central se debe utilizar?
• La media aritmética debe utilizarse cuando el conjunto de datos es
homogéneo.
• En una distribución simétrica las tres medidas coinciden, por lo cual se
puede utilizar cualquiera.
• Cuando los datos no son homogéneos se debe utilizar la mediana, ya que
esta no es sensible a los valores extremos, y además no se ve altamente
influida por la frecuencia de aparición de un solo valor.
• Cuando la población está sesgada ya sea positiva o negativamente la
mediana resulta ser la mejor medida de posición.
• La moda se utiliza más que todo para datos categóricos.
Los cuantiles son medidas de posición que se determinan
mediante un método que determina la ubicación de los valores
que dividen un conjunto de observaciones en partes iguales.
Son los valores de la distribución que la dividen en partes iguales,
es decir, en intervalos que comprenden el mismo número de valores.
Cuando la distribución contiene un número alto de intervalos
o de marcas y se requiere obtener un promedio de una parte de ella,
se puede dividir la distribución en cuatro, en diez o en cien partes.
Medidas de Posición no centrales
Estadísticos de posición
• Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.
• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
Cuartiles: son 3 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en cuatro tramos
iguales, en los que cada uno de ellos concentra el 25% de los
resultados. Dividen el conjunto de datos en 4 partes iguales
Deciles: son 9 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en diez tramos
iguales, en los que cada uno de ellos concentra el 10% de los
resultados. Dividen el conjunto de datos en 10 partes
iguales
Percentiles: son 99 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en cien tramos
iguales, en los que cada uno de ellos concentra el 1% de los
resultados. Dividen el conjunto de datos en 100 partes
iguales
Cuartiles, Deciles y Percentiles
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50.
– El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%.
• Cuartiles: Dividen a la muestra en 4 grupos con frecuencias
similares.
– Primer cuartil = Percentil 25 = Cuantil 0,25.
– Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana.
– Tercer cuartil = Percentil 75 = cuantil 0,75.
– Ejemplos: El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?
• Percentil 5 o cuantil 0,05.
– ¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75.
– El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales. ¿Entre qué valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95.
– ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población?
• Entre el cuartil 1º y 3º.
Los cuartiles son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil
es precisamente la mediana. El primer cuartil, es el valor en el cual o por
debajo del cual queda un cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo
del cual quedan las tres cuartas partes (75%) de los datos.
Los deciles son ciertos números que dividen la sucesión de datos
ordenados en diez partes porcentualmente iguales. Son los nueve
valores que dividen al conjunto de datos ordenados en diez partes
iguales, son también un caso particular de los percentiles. Los deciles
se denotan D1, D2,..., D9, que se leen primer decil, segundo decil,
etc.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para
fijar el aprovechamiento académico.
Los percentiles son, tal vez, las medidas más utilizadas para
propósitos de ubicación o clasificación de las personas
cuando atienden características tales como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión
de datos ordenados en cien partes porcentualmente iguales.
Estos son los 99 valores que dividen en cien partes iguales el
conjunto de datos ordenados. Los percentiles (P1, P2,... P99),
leídos primer percentil,..., percentil 99.
Cálculo de los Cuantiles
Para Datos No agrupados
• Se ordenan las observaciones
por magnitud
• Se divide el conjunto de datos
en 4 partes iguales, o 10 partes
iguales o 100 partes iguales
• Luego se localizan los
valores de los cuantiles
Para Datos Agrupados
• Se ubica hasta que
intervalo están el 25% ó el
10% de las observaciones
• Se aplica la fórmula
Fórmula General para los Cuantiles
Datos Agrupados
Me = LRI + [( k(n+1)/p – faca)/ fmp] * Cr
LRI: límite real inferior del cuantil
n : frecuencia total
faca: frecuencia acumulada anterior al intervalo donde está localizado
el cuantil
fmp: frecuencia del intervalo donde está localizado el cuantil
Cr: ancho real del intervalo
Si se desean calcular los cuartiles p =4
Si se desea calcular los deciles p= 10
Si se desea calcular los percentiles p= 100
Medidas Descriptivas
Tendencia Central
Y Posición
Variabilidad Forma
• Media
• Mediana
• Moda
• Cuartiles
• Deciles
• Percentiles
• Rango
• Desviación Típica
•Varianza
• Coeficiente de
Variación
• Sesgo
• Curtosis
• Simetría
Medidas de Variabilidad
Se refiere a la extensión de los datos de una distribución, es
decir el grado en que las observaciones se distribuyen
• Rango
• Desviación Típica
• Varianza
• Coeficiente de Variación
Importancia de la dispersión
Proporciona información adicional que permite juzgar la
confiabilidad de la medida de tendencia central. Si los datos se
encuentran ampliamente dispersos, la posición central es menos
representativa de los datos.
Ya que existen problemas característicos para datos
ampliamente dispersos, debemos ser capaces de distinguir que
presentan esa dispersión antes de abordar esos problemas.
Quizá se desee comparar las dispersiones de diferentes
muestras. Si no se desea tener una amplia dispersión de valores
con respecto al centro de distribución o ésto presenta riesgos
inaceptables, necesitamos tener habilidad de reconocerlo y
evitar escoger distribuciones que tengan las dispersiones más
grandes.
Ejemplo pg 71lind marchal wathen
Rango : mide la amplitud de los valores de la población o de
una muestra
Es la diferencia entre el valor mayor y el valor menor de un
conjunto de datos
Medidas De Variabilidad
menormayor VVR
ervaloprimerervaloultimo LRILRSloR intint
Datos no
agrupados
Datos agrupados
Varianza :
Mide la distancia existente entre los valores de la serie y la
media.
Se calcula como la sumatoria de las diferencias al cuadrado
entre cada valor y la media, multiplicadas por el número de
veces que se ha repetido cada valor.
Es la dispersión de los datos alrededor de la media.
Es un indicador de la variabilidad expresado en unidades
cuadradas.
Desviación Típica ó estándar
Es la raíz cuadrada de la sumatoria de los cuadrados de las
desviaciones respecto a la media.
Es un indicador de la variabilidad expresado en unidades
absolutas.
1
)(1
2
2
2 1
2)(
n
XXN
i
i
S
N
iXN
i
Calculo de Varianza para Datos No Agrupados
Población
Muestra
1
)(
)(
1
2
1
2
n
XX
S
N
X
N
i
i
N
i
i
Cálculo de Desviación Estándar Datos No Agrupados
Población
Muestra
Ecuaciones para el cálculo de la
varianza y la desviación estándar para
datos agrupados
ESTADISTICAS
DESCRIPTIVAS
POBLACION MUESTRA
VARIANZA
DESVIACION
STANDARD
2
S
2
S
SIMBOLOGIA
CLASES MC (Xi) fi
1 X1 f1
2 X2 f2
3 X3 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
Totales
2)( iX ii fX 2)(
m
i
if1
i
m
i
i fX 2
1
)(
2
1 )( X1
2
1 )( fX 2
2 )( X2
3 )( X 3
2
3 )( fX
2
2
2 )( fX
Para un conjunto de datos de una población que se agrupa en una distribución de frecuencias
m
f i
fi
i
m
i iX
1
1
2
2)(
DE LOS DATOS DE LA TABLA ANTERIOR SE
OBTIENE EL CALCULO DE LA VARIANZA DE LA
POBLACION POR LA EXPRESION:
m
if i
fi
m
i iX
1
1
2)(
CALCULO DE LA DESVIACION ESTANDAR
DE LA POBLACION
CLASES MC (Xi) fi
1 X1 f1
2 X2 f2
3 X3 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
Totales
2)( XX i ii fXX 2)(
m
i
if1
i
m
i
i fXX 2
1
)(
2
1 )( XX 1
2
1 )( fXX 2
2 )( XX 2
3 )( XX 3
2
3 )( fXX
2
2
2 )( fXX
Para una muestra
11
1
2
1
)(2
n
m
f i
fi
i
m
ixix
S
CALCULO DE LA VARIANZA DE LA MUESTRA
¿Por qué utilizamos n – 1 como denominador en lugar de n? Los especialistas en
estadística pueden demostrar que si tomamos muchas muestras de una población dada, si
encontramos la varianza de la muestra para cada muestra y promediamos los resultados,
entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos
que tomemos n – 1 como denominador de los cálculos.
m
f i
fi
i
m
ixix
S
1
1
1
2)(
CALCULO DE LA DESVIACION ESTANDAR
DE LA MUESTRA
Usos de la desviación estándar
Teorema de Chebyshev
La desviación estándar nos permite determinar, con un buen
grado de precisión, dónde están localizados los valores de una
distribución de frecuencias con relación a la media. El
teorema de Chebyshev dice que no importa qué forma tenga la
distribución, al menos 75% de los valores caen dentro de + 2
desviaciones estándar a partir de la media de la distribución, y
al menos 89% de los valores caen dentro de + 3 desviaciones
estándar a partir de la media.
Pgs 81 y 82 lind marchalwatten
Para distribuciones simétricas:
Teorema de la Normal
Aproximadamente 68% de los valores de la población cae
dentro de + 1 desviación estándar a partir de la media.
Aproximadamente 95% de los valores estará dentro de + 2
desviaciones estándar a partir de la media.
Aproximadamente 99% de los valores estará en el intervalo
que va desde tres desviaciones estándar por debajo de la
media hasta tres desviaciones estándar por arriba de la media.
Coeficiente de Variación
Es una medida relativa de dispersión, en la cual se expresa la
desviación estándar como un porcentaje de la media.
Resulta útil al comparar la cantidad de variación en grupos de
datos que posean medias diferentes.
Se calcula como cociente entre la desviación típica y la media.
El interés del coeficiente de variación es que al ser un
porcentaje permite comparar el nivel de dispersión de dos
muestras. Esto no ocurre con la desviación típica, ya que viene
expresada en las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie
de datos de la altura de los alumnos de una clase y otra serie
con el peso de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene expresada en cm y la otra en
kg). En cambio, sus coeficientes de variación son ambos
porcentajes, por lo que sí se pueden comparar.
La desviación estándar es una medida absoluta de la dispersión que expresa la
variación en las mismas unidades que los datos originales.
La desviación estándar no puede ser la única base para la comparación de dos
distribuciones. Si tenemos una desviación estándar de 10 y una media de 5, los
valores varían en una cantidad que es el doble de la media misma. Si, por otro lado,
tenemos una desviación estándar de 10 y una media de 5.000, la variación con
respecto a la media es insignificante. En consecuencia, no podemos conocer la
dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su
media y cómo se compara la desviación estándar con respecto a la media.
Lo que necesitamos es una medida relativa que nos proporcione una estimación de la
magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de
variación es una de estas medidas relativas de dispersión. Se relaciona la desviación
estándar y la media, expresando la desviación estándar como porcentaje de la media.
Coeficiente de variación
Coeficiente de variación • Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de“qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
– Es frecuente mostrarla en porcentajes• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)
• Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.
– Por ejemplo 0ºC ≠ 0ºF
x
SCV
X
Scv
CV
PARA LA POBLACION
PARA LA MUESTRA
ESTADISTICAS
DESCRIPTIVAS
POBLACION MUESTRA
MEDIA
VARIANZA
DESVIACION
STANDARD
2
x
S2
S
COEFICIENTE DE VARIACION CV cv
• Miden el grado de dispersión (variabilidad)
de los datos, independientemente de su causa.
• Amplitud o Rango („range‟): La diferencia entre las
observaciones extremas.– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores
extremos.
• Rango intercuartílico („interquartile range‟):– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
– No es tan sensible a valores extremos.
Otras Medidas de Dispersión
x
Fr
1
0.75
0.5
0.25
0
P25 P50 P75
Q1 Q2 Q3
mediana
Recorrido o rango
intercuartílico
Medidas de forma: Grado de concentración
Las medidas de forma permiten conocer que forma tiene la curva que representa la
serie de datos de la muestra. Forma es el patrón de distribución de los valores de los
datos a través del rango de todos los valores.
La distribución puede ser simétrica cuando los valores pequeños y grandes se equilibran
entre si. Puede ser asimétrica cuando muestra un desequilibrio entre los valores
pequeños y grandes.
En concreto, podemos estudiar las siguientes características de la curva:
Concentración: mide si los valores de la variable están más o menos uniformemente
repartidos a lo largo de la muestra.
Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de
la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda
son similares.
Curtosis: mide si los valores de la distribución están más o menos concentrados
alrededor de los valores medios de la muestra.
Para medir el nivel de concentración de una distribución de
frecuencia se pueden utilizar distintos indicadores, entre
ellos el Indice de Gini.
Este índice se calcula aplicando la siguiente fórmula:
En donde los valores de la fórmula se basan en las
proporciones acumuladas de las dos variables que se analizan.
El Indice Gini (IG) puede tomar valores entre 0 y 1:
IG = 0 : concentración mínima. La muestra está
uniformemente repartida a lo largo de todo su rango.
IG = 1 : concentración máxima. Un sólo valor de la
muestra acumula el 100% de los resultados.
Asimetría
El concepto de asimetría se refiere a si la curva que forman los
valores de la serie presenta la misma forma a izquierda y derecha
de un valor central (media aritmética)
Para medir el nivel de asimetría se utiliza el llamado Coeficiente
de Asimetría de Fisher, que viene definido:
Los resultados pueden ser los siguientes:
g1 = 0 (distribución simétrica; existe la misma
concentración de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribución asimétrica positiva; existe
mayor concentración de valores a la izquierda de la
media que a su derecha)
g1 < 0 (distribución asimétrica negativa; existe
mayor concentración de valores a la derecha de la
media que a su izquierda)
Asimetría o sesgo
• Una distribución es simétrica si la mitad izquierda de su distribución es la imagenespecular de su mitad derecha.
• En las distribuciones simétricas la media y la mediana coinciden. Si sólo hay unamoda también coincide.
• La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de ladistribución.
• La media tiende a desplazarse hacia las valores extremos (colas).
Media < mediana asimétrica negativa o sesgo negativo
La mayoría de los valores están en la parte inferior de la distribución. La distorsión
hacia la izquierda es provocada por algunos valores muy pequeños.
Media = mediana simétrica o asimetría cero
.
Media > mediana asimétrica o positiva o sesgo derecho
La mayoría de los valores están en la parte superior de la distribución. La distorsión
hacia la derecha es provocada por algunos valores muy grandes.
• Las discrepancias entre las medidas de centralización son indicación de asimetría.
Las curvas que representan los puntos de datos de un conjunto de datos pueden
ser simétricas o sesgadas.
Las curvas simétricas, tienen una forma tal que una línea vertical que pase por
el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada
parte es una imagen espejo de la otra.
En las curvas sesgadas, los valores de su distribución de frecuencias están
concentrados en el extremo inferior o en el superior de la escala de medición
del eje horizontal. Los valores no están igualmente distribuidos.
Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) o
sesgadas hacia la izquierda (negativamente sesgadas).
El Coeficiente de Curtosis analiza el grado de concentración
que presentan los valores alrededor de la zona central de la
distribución. La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal o gaussiana. Es adimensional.
Se definen 3 tipos de distribuciones según su grado de
curtosis:
Distribución mesocúrtica: presenta un grado de
concentración medio alrededor de los valores centrales de la
variable (el mismo que presenta una distribución normal).
Distribución leptocúrtica: presenta un elevado grado de
concentración alrededor de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de
concentración alrededor de los valores centrales de la variable.
El Coeficiente de Curtosis viene definido por la siguiente
fórmula:
Los resultados pueden ser los siguientes:
g2 = 0 (distribución mesocúrtica)
.
g2 > 0 (distribución leptocúrtica)
.
g2 < 0 (distribución platicúrtica
Cuando medimos la curtosis de una distribución,
estamos midiendo su grado de agudeza.
Platicúrtica
8481787572696663605754514845
Fre
cu
en
cia
160
140
120
100
80
60
40
Mesocúrtica
99
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
32
27
Fre
cu
en
cia
300
200
100
0
Leptocúrtica
138
108
102
97
92
87
82
77
72
67
62
57
52
47
42
37
32
27
16
3
Fre
cu
en
cia
400
300
200
100
0
Los gráficos poseen la misma media y desviación
típica, pero diferente grado de apuntamiento o
curtosis.
Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la
media, la mediana o la moda como medidas de tendencia central. Las distribuciones
simétricas que sólo contienen una moda, siempre tienen el mismo valor para la media, la
mediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central,
pues ya está hecha la selección.
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda
todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la
derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la
mediana.
En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la
distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más
a la izquierda de la moda y la mediana.
Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana
resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la media.
La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor
como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la
media.
¿Cómo seleccionar una medida de tendencia que represente los datos?
Resumiendo