Modulo 5 medidas descriptivas

Módulo 3

Medidas Descriptivas

A las medidas de tendencia central se les conocen así, ya quepueden condensar en un solo valor central alrededor del cualtodos los datos se distribuyen

Variabilidad o dispersión: se refiere a la extensión de los datos de una distribución, es decir el grado en que las observaciones se distribuyenForma o Sesgo: las curvas que representan los puntos de un conjunto de datos pueden ser sesgadas o simétricas.

En una curva simétrica una línea vertical que pase por el punto más alto de la curva divide el área en dos partes iguales.

En una curva sesgada los valores de su distribución de frecuencias están concentrados en el extremo inferior o en el superior de la escalad e medición horizontal

Para condensar y describir los datos se utilizan las medidas deTendencia central , las medidas de dispersión y las medidas deAsimetría y forma.


Tendencia Central

Y Posición

Variabilidad Forma

• Media

• Mediana

• Moda

• Cuartiles

• Deciles

• Percentiles

• Rango

• Desviación Típica

•Varianza

• Coeficiente de

Variación

• Sesgo

• Curtosis

• Simetría

Las medidas de tendencia central son valores numéricos que señalan un tipo de centro de un conjunto de datos, centro que se utiliza para representar el conjunto.

Tendencia Central o de Posición

Las medidas de posición facilitan información sobre la serie de datos que se está analizando.

Estas medidas permiten conocer diversas características de una serie de datos.

Las medidas de posición son de dos tipos:

•Medidas de posición central:

Informan sobre los valores medios de la serie de datos.

Son medidas que buscan posiciones (valores) con respecto a losque los datos muestran tendencia a agruparse.

•Medidas de posición no centrales:

•Informan de como se distribuye el resto de los valores de la serie.

Permiten conocer otros puntos característicos de la distribución

que no son los valores centrales.

Medidas de posición central

Media

Mediana

Moda

Medidas de posición no centrales

Cuartiles

Deciles

Percentiles

CUANTILES

MediaEs el valor medio ponderado de la serie de datos. Se

pueden calcular diversos tipos de media, siendo las

más utilizadas:

Media aritmética

Media geométrica

Media armónica

Media Aritmética o Promedio

• Es la media aritmética de los valores de una

variable.

• Es la suma de los valores dividido por el tamaño

muestral.

• Conveniente cuando los datos se concentran

simétricamente con respecto a ese valor.

• Muy sensible a valores extremos.

• Es el centro de gravedad de un conjunto de

datos.

ESTADISTICAS

DESCRIPTIVAS

POBLACION MUESTRA

MEDIA ARITMETICA x

SIMBOLOGIA

Para un conjunto de datos X1 ………XN, de una población, en su

forma no agrupada, la media aritmética se obtiene sumando todas

las observaciones del conjunto de datos y se divide por el número

total de observaciones de la población , tal como se expresa en la

ecuación:

Media Aritmética Para Datos No agrupados

)(1 PoblaciónN

N

iiX

Para un conjunto de datos x1 ………xn, de una muestra, en su

forma no agrupada, la media aritmética se obtiene sumando todas

las observaciones del conjunto de datos y se divide por el número

total de observaciones de la muestra :

)(1 Muestran

n

iix

x

Un conjunto de datos no agrupados se

convierten en un conjunto de datos agrupados

cuando éstos son organizados en una distribución

de frecuencias de clase.

Recordando el concepto de datos agrupados…..

CLASES MC (Xi) fi (Xi)(fi)

1 X1 f1 (X1)(f1)

2 X2 f2 (X2)(f2)

3 X3 f3 (X3)(f3)

4 X4 f4 (X4)(f4)

. . . .

. . . .

. . . .

. . . .

. . . .

m Xm fm (Xm)(fm)

m

i

if1

i

m

i

i fX1

TOTALES

Media Aritmética Para Datos Agrupados D

I

S

T

R

I

B

U

C

I

O

N

D

E

F

R

E

C

U

E

N

C

I

A

m

i

i

m

i

ii

f

fX

1

1

m

i

i

m

i

ii

f

fX

X

1

1

Para la población

Para la muestra

Nota: El cálculo es el mismo, solo cambia la simbología utilizada

La media armónica resulta poco influida por la existencia de

determinados valores mucho más grandes que el conjunto de los

otros, siendo en cambio sensible a valores mucho más pequeños

que el conjunto.

La media armónica no está definida en el caso de la existencia en el

conjunto de valores nulos.

La media armónica, representada por H, de una cantidad finita de

números es igual al recíproco, o inverso, de la media aritmética de

los recíprocos de dichos números

Así, dados los números a1,a2, ... , an, (NO AGRUPADOS) la media

armónica será igual a:

m

ii

i

m

i

i

fX

f

ArmónicaM

1

1

*1

.

)........(*)(*)( 221

mi fm

ff XXXaMGeometric

OTROS TIPOS DE MEDIA

Media geométrica (no agrupados)

Se eleva cada valor al número de veces que se ha repetido

Se multiplican todo estos resultados y al producto final se le

calcula la raíz "n" (siendo "n" el total de datos de la muestra).

nn

n

nnn nXXXXX1

321 )........( 321

Por ejemplo, la media geométrica de 2 y 18 es

Otro ejemplo, la media de 1, 3 y 9 seria

Sólo es relevante la media geométrica si todos los números son

positivos. Si uno de ellos es 0, entonces el resultado es 0. Si hay

un número negativo (o una cantidad impar de ellos) entonces la

media geométrica es, o bien negativa o bien inexistente en los

números reales.

En muchas ocasiones se utiliza su trasformación en el manejo

estadístico de variables con distribución no normal.

La media geométrica es relevante cuando varias cantidades son

sumadas para producir un total.

Ventajas:

Se trata de un concepto familiar para la mayoría de las

personas y es intuitivamente claro.

Cada conjunto de datos tiene una media, es una medida que

puede calcularse y es única debido a que cada conjunto

de datos posee una y sólo una media.

Es útil para llevar a cabo procedimientos estadísticos como

la comparación de medias de varios conjuntos de datos.

Desventajas:

Puede verse afectada por valores extremos que no son

representativos del resto de los datos.

Resulta tedioso calcular la media debido a que se utilizan

cada uno de los puntos de datos en su cálculo.

No se puede calcular la media para un conjunto de datos

que tiene clases de extremo abierto, ya sea en el inferior

o en el superior de la escala.

MEDIA

ARITMETICA

Según el tipo de datos que se analice será más apropiado utilizar la

media aritmética o la media geométrica:

• La media geométrica se suele utilizar en series de datos como tipos

de interés anuales, inflación, etc., donde el valor de cada año tiene un

efecto multiplicativo sobre el de los años anteriores.

• En todo caso, la media aritmética es la medida de posición central

más utilizada.

• Lo más positivo de la media es que en su cálculo se utilizan todos

los valores de la serie, por lo que no se pierde ninguna información.

• Sin embargo, presenta el problema de que su valor (tanto en el caso

de la media aritmética como geométrica) se puede ver muy influido

por valores extremos, que se aparten en exceso del resto de la serie.

Estos valores anómalos podrían condicionar en gran medida el valor

de la media, perdiendo ésta representatividad.

Se denomina media (aritmética) ponderada de un conjunto de números

al resultado de multiplicar cada uno de los números por un valor

particular para cada uno de ellos, llamado su peso, obteniendo a

continuación la suma de estos productos, y dividiendo el resultado de

esta suma de productos entre la suma de los pesos.

Este "peso" depende de la importancia o significancia de cada uno de

los valores.

O dicho de otro modo es un promedio en el que cada valor de

observación se pondera con algún índice de acuerdo a su importancia.

Para una serie de datos

X = { x1, x2, ..., xn}

a la que corresponden los pesos

W = { w1, w2, ..., wn}

la media ponderada se calcula como:

o:

Un ejemplo es la obtención de la media ponderada de las notas de una

materia en la que se asigna distinta importancia (peso) a cada una de las

pruebas de que consta la evaluación.

La Media Pesada ó ponderada: permite calcular el

promedio que toma en cuenta la importancia de cada

valor con respecto al total.

X p= Σ (wx)/ Σw

Donde w es el peso asignado a cada observación

Mediana

• Es el valor de la serie de datos ordenados que se sitúa justamente en el centro de la

muestra (un 50% de valores son inferiores y otro 50% son superiores)

• Es conveniente cuando los datos son asimétricos.

• No presentan el problema de estar influido por los valores extremos, pero en cambio

no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor

por el número de veces que se ha repetido).

Es el valor del elemento central, cuando los datos están dispuestos en

orden ascendente o descendente.

Para Datos No agrupados

• Con un número impar de

observaciones:

. Se ordenan las observaciones por orden

de magnitud.

. Se ubica la observación que está en el

medio del conjunto de datos.

• Con un número par de observaciones:

. Se ordenan las observaciones por

magnitud.

. Se calcula el promedio de las dos

observaciones centrales.

Para Datos Agrupados

• Se ubica hasta que

intervalo hay 50% de las

observaciones.

• Se aplica la fórmula con los

datos de la distribución de

frecuencias.

CALCULO DE LA MEDIANA

Fórmula para el Cálculo de la

Mediana de un Conjunto de Datos

Agrupados

LRI: límite real inferior de la clase mediana

n: frecuencia total

: frecuencia acumulada anterior

al intervalo donde esta localizada la mediana

: frecuencia del intervalo donde está localizada

la mediana

Cr: ancho real del intervalo

rn

cme

nterioracumuladaa

f

fLRIMe

2/)1(

nterioracumuladaaf

mef

Moda

Es el valor que ocurre con mayor frecuencia en un conjunto

de datos

Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.


• Es el valor que se repite con

mayor frecuencia

• Si hay dos valores que se

repiten con mayor frecuencia

entonces existen dos modas


• Se ubica el intervalo con lafrecuencia mayor

• Se aplica la fórmula

correspondiente para

encontrar la moda

Fórmula para el cálculo de la Moda de un conjunto

de Datos Agrupados

LRI: Límite real inferior de la clase modal

d1: frecuencia de la clase modal menos la frecuencia de la clase

que se encuentra inmediatamente por debajo de ella.

d2: frecuencia de la clase modal menos la frecuencia de la clase

que está por encima de ella

Cr: ancho del intervalo modal

rcdd

dLRIMo *

( 21

1

De acuerdo al número de modas de un conjunto

de datos se pueden dar los siguientes casos:

UNIMODAL

BIMODAL

MULTIMODAL

Ventajas y desventajas de la moda:

•La moda, al igual que la mediana, se puede utilizar como una posición central para datos

tanto cualitativos como cuantitativos.

•También, al igual que la mediana, la moda no se ve mayormente afectada por los valores

extremos. Incluso si los valores extremos son muy altos o muy bajos, se escoge el valor

más frecuente del conjunto de datos como el valor modal.

•Se puede utilizar la moda sin importar qué tan grandes o qué tan pequeños sean los

valores del conjunto de datos, e independientemente de cuál sea su dispersión.

•Se puede utilizar aun cuando una o más clases sean de extremo abierto.

•Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene

valores que se presenten más de una vez.

•En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo

número de veces.

Cuando los datos contienen dos, tres o más modas, resultan difíciles de

• interpretar y comparar.

¿Cuál medida de tendencia central se debe utilizar?

• La media aritmética debe utilizarse cuando el conjunto de datos es

homogéneo.

• En una distribución simétrica las tres medidas coinciden, por lo cual se

puede utilizar cualquiera.

• Cuando los datos no son homogéneos se debe utilizar la mediana, ya que

esta no es sensible a los valores extremos, y además no se ve altamente

influida por la frecuencia de aparición de un solo valor.

• Cuando la población está sesgada ya sea positiva o negativamente la

mediana resulta ser la mejor medida de posición.

• La moda se utiliza más que todo para datos categóricos.

Los cuantiles son medidas de posición que se determinan

mediante un método que determina la ubicación de los valores

que dividen un conjunto de observaciones en partes iguales.

Son los valores de la distribución que la dividen en partes iguales,

es decir, en intervalos que comprenden el mismo número de valores.

Cuando la distribución contiene un número alto de intervalos

o de marcas y se requiere obtener un promedio de una parte de ella,

se puede dividir la distribución en cuatro, en diez o en cien partes.

Medidas de Posición no centrales

Estadísticos de posición

• Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.

• Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Cuartiles: son 3 valores que distribuyen la serie de datos,

ordenada de forma creciente o decreciente, en cuatro tramos

iguales, en los que cada uno de ellos concentra el 25% de los

resultados. Dividen el conjunto de datos en 4 partes iguales

Deciles: son 9 valores que distribuyen la serie de datos,

ordenada de forma creciente o decreciente, en diez tramos


resultados. Dividen el conjunto de datos en 10 partes

iguales

Percentiles: son 99 valores que distribuyen la serie de datos,

ordenada de forma creciente o decreciente, en cien tramos


resultados. Dividen el conjunto de datos en 100 partes

iguales

Cuartiles, Deciles y Percentiles

• Percentil de orden k = cuantil de orden k/100

– La mediana es el percentil 50.

– El percentil de orden 15 deja por debajo al 15% de las

observaciones. Por encima queda el 85%.

• Cuartiles: Dividen a la muestra en 4 grupos con frecuencias

similares.

– Primer cuartil = Percentil 25 = Cuantil 0,25.

– Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana.

– Tercer cuartil = Percentil 75 = cuantil 0,75.

– Ejemplos: El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?

• Percentil 5 o cuantil 0,05.

– ¿Qué peso es superado sólo por el 25% de los individuos?

• Percentil 75.

– El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales. ¿Entre qué valores se encuentran los individuos normales?

• Entre el percentil 5 y el 95.

– ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población?

• Entre el cuartil 1º y 3º.

Los cuartiles son los tres valores que dividen al conjunto de datos

ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil

es precisamente la mediana. El primer cuartil, es el valor en el cual o por

debajo del cual queda un cuarto (25%) de todos los valores de la

sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo

del cual quedan las tres cuartas partes (75%) de los datos.

Los deciles son ciertos números que dividen la sucesión de datos

ordenados en diez partes porcentualmente iguales. Son los nueve

valores que dividen al conjunto de datos ordenados en diez partes

iguales, son también un caso particular de los percentiles. Los deciles

se denotan D1, D2,..., D9, que se leen primer decil, segundo decil,

etc.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para

fijar el aprovechamiento académico.

Los percentiles son, tal vez, las medidas más utilizadas para

propósitos de ubicación o clasificación de las personas

cuando atienden características tales como peso, estatura, etc.

Los percentiles son ciertos números que dividen la sucesión

de datos ordenados en cien partes porcentualmente iguales.

Estos son los 99 valores que dividen en cien partes iguales el

conjunto de datos ordenados. Los percentiles (P1, P2,... P99),

leídos primer percentil,..., percentil 99.

Cálculo de los Cuantiles


• Se ordenan las observaciones

por magnitud

• Se divide el conjunto de datos

en 4 partes iguales, o 10 partes

iguales o 100 partes iguales

• Luego se localizan los

valores de los cuantiles


• Se ubica hasta que

intervalo están el 25% ó el

10% de las observaciones

• Se aplica la fórmula

Fórmula General para los Cuantiles

Datos Agrupados

Me = LRI + [( k(n+1)/p – faca)/ fmp] * Cr

LRI: límite real inferior del cuantil

n : frecuencia total

faca: frecuencia acumulada anterior al intervalo donde está localizado

el cuantil

fmp: frecuencia del intervalo donde está localizado el cuantil

Cr: ancho real del intervalo

Si se desean calcular los cuartiles p =4

Si se desea calcular los deciles p= 10

Si se desea calcular los percentiles p= 100


Tendencia Central

Y Posición

Variabilidad Forma

• Media

• Mediana

• Moda

• Cuartiles

• Deciles

• Percentiles

• Rango


•Varianza

• Coeficiente de

Variación

• Sesgo

• Curtosis

• Simetría

Medidas de Variabilidad

Se refiere a la extensión de los datos de una distribución, es

decir el grado en que las observaciones se distribuyen

• Rango


• Varianza

• Coeficiente de Variación

Importancia de la dispersión

Proporciona información adicional que permite juzgar la

confiabilidad de la medida de tendencia central. Si los datos se

encuentran ampliamente dispersos, la posición central es menos

representativa de los datos.

Ya que existen problemas característicos para datos

ampliamente dispersos, debemos ser capaces de distinguir que

presentan esa dispersión antes de abordar esos problemas.

Quizá se desee comparar las dispersiones de diferentes

muestras. Si no se desea tener una amplia dispersión de valores

con respecto al centro de distribución o ésto presenta riesgos

inaceptables, necesitamos tener habilidad de reconocerlo y

evitar escoger distribuciones que tengan las dispersiones más

grandes.

Ejemplo pg 71lind marchal wathen

Rango : mide la amplitud de los valores de la población o de

una muestra

Es la diferencia entre el valor mayor y el valor menor de un

conjunto de datos

Medidas De Variabilidad

menormayor VVR

ervaloprimerervaloultimo LRILRSloR intint

Datos no

agrupados

Datos agrupados

Varianza :

Mide la distancia existente entre los valores de la serie y la

media.

Se calcula como la sumatoria de las diferencias al cuadrado

entre cada valor y la media, multiplicadas por el número de

veces que se ha repetido cada valor.

Es la dispersión de los datos alrededor de la media.

Es un indicador de la variabilidad expresado en unidades

cuadradas.

Desviación Típica ó estándar

Es la raíz cuadrada de la sumatoria de los cuadrados de las

desviaciones respecto a la media.

Es un indicador de la variabilidad expresado en unidades

absolutas.

1

)(1

2

2

2 1

2)(

n

XXN

i

i

S

N

iXN

i

Calculo de Varianza para Datos No Agrupados

Población

Muestra

1

)(

)(

1

2

1

2

n

XX

S

N

X

N

i

i

N

i

i

Cálculo de Desviación Estándar Datos No Agrupados

Población

Muestra

Ecuaciones para el cálculo de la

varianza y la desviación estándar para

datos agrupados

ESTADISTICAS

DESCRIPTIVAS

POBLACION MUESTRA

VARIANZA

DESVIACION

STANDARD

2

S

2

S

SIMBOLOGIA

CLASES MC (Xi) fi

1 X1 f1

2 X2 f2

3 X3 f3

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

m Xm fm . .

Totales

2)( iX ii fX 2)(

m

i

if1

i

m

i

i fX 2

1

)(

2

1 )( X1

2

1 )( fX 2

2 )( X2

3 )( X 3

2

3 )( fX

2

2

2 )( fX

Para un conjunto de datos de una población que se agrupa en una distribución de frecuencias

m

f i

fi

i

m

i iX

1

1

2

2)(

DE LOS DATOS DE LA TABLA ANTERIOR SE

OBTIENE EL CALCULO DE LA VARIANZA DE LA

POBLACION POR LA EXPRESION:

m

if i

fi

m

i iX

1

1

2)(

CALCULO DE LA DESVIACION ESTANDAR

DE LA POBLACION

CLASES MC (Xi) fi

1 X1 f1

2 X2 f2

3 X3 f3

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

m Xm fm . .

Totales

2)( XX i ii fXX 2)(

m

i

if1

i

m

i

i fXX 2

1

)(

2

1 )( XX 1

2

1 )( fXX 2

2 )( XX 2

3 )( XX 3

2

3 )( fXX

2

2

2 )( fXX

Para una muestra

11

1

2

1

)(2

n

m

f i

fi

i

m

ixix

S

CALCULO DE LA VARIANZA DE LA MUESTRA

¿Por qué utilizamos n – 1 como denominador en lugar de n? Los especialistas en

estadística pueden demostrar que si tomamos muchas muestras de una población dada, si

encontramos la varianza de la muestra para cada muestra y promediamos los resultados,

entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos

que tomemos n – 1 como denominador de los cálculos.

m

f i

fi

i

m

ixix

S

1

1

1

2)(

CALCULO DE LA DESVIACION ESTANDAR

DE LA MUESTRA

Usos de la desviación estándar

Teorema de Chebyshev

La desviación estándar nos permite determinar, con un buen

grado de precisión, dónde están localizados los valores de una

distribución de frecuencias con relación a la media. El

teorema de Chebyshev dice que no importa qué forma tenga la

distribución, al menos 75% de los valores caen dentro de + 2

desviaciones estándar a partir de la media de la distribución, y

al menos 89% de los valores caen dentro de + 3 desviaciones

estándar a partir de la media.

Pgs 81 y 82 lind marchalwatten

Para distribuciones simétricas:

Teorema de la Normal

Aproximadamente 68% de los valores de la población cae

dentro de + 1 desviación estándar a partir de la media.

Aproximadamente 95% de los valores estará dentro de + 2

desviaciones estándar a partir de la media.

Aproximadamente 99% de los valores estará en el intervalo

que va desde tres desviaciones estándar por debajo de la

media hasta tres desviaciones estándar por arriba de la media.

Coeficiente de Variación

Es una medida relativa de dispersión, en la cual se expresa la

desviación estándar como un porcentaje de la media.

Resulta útil al comparar la cantidad de variación en grupos de

datos que posean medias diferentes.

Se calcula como cociente entre la desviación típica y la media.

El interés del coeficiente de variación es que al ser un

porcentaje permite comparar el nivel de dispersión de dos

muestras. Esto no ocurre con la desviación típica, ya que viene

expresada en las mismas unidades que los datos de la serie.

Por ejemplo, para comparar el nivel de dispersión de una serie

de datos de la altura de los alumnos de una clase y otra serie

con el peso de dichos alumnos, no se puede utilizar las

desviaciones típicas (una viene expresada en cm y la otra en

kg). En cambio, sus coeficientes de variación son ambos

porcentajes, por lo que sí se pueden comparar.

La desviación estándar es una medida absoluta de la dispersión que expresa la

variación en las mismas unidades que los datos originales.

La desviación estándar no puede ser la única base para la comparación de dos

distribuciones. Si tenemos una desviación estándar de 10 y una media de 5, los

valores varían en una cantidad que es el doble de la media misma. Si, por otro lado,

tenemos una desviación estándar de 10 y una media de 5.000, la variación con

respecto a la media es insignificante. En consecuencia, no podemos conocer la

dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su

media y cómo se compara la desviación estándar con respecto a la media.

Lo que necesitamos es una medida relativa que nos proporcione una estimación de la

magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de

variación es una de estas medidas relativas de dispersión. Se relaciona la desviación

estándar y la media, expresando la desviación estándar como porcentaje de la media.

Coeficiente de variación

Coeficiente de variación • Es la razón entre la desviación típica y la media.

– Mide la desviación típica en forma de“qué tamaño tiene con respecto a la media”

– También se la denomina variabilidad relativa.

– Es frecuente mostrarla en porcentajes• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%

(variabilidad relativa)

• Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.

– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.

• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.

– Por ejemplo 0ºC ≠ 0ºF

x

SCV

X

Scv

CV

PARA LA POBLACION

PARA LA MUESTRA

ESTADISTICAS

DESCRIPTIVAS

POBLACION MUESTRA

MEDIA

VARIANZA

DESVIACION

STANDARD

2

x

S2

S

COEFICIENTE DE VARIACION CV cv

• Miden el grado de dispersión (variabilidad)

de los datos, independientemente de su causa.

• Amplitud o Rango („range‟): La diferencia entre las

observaciones extremas.– 2,1,4,3,8,4. El rango es 8-1=7

– Es muy sensible a los valores

extremos.

• Rango intercuartílico („interquartile range‟):– Es la distancia entre el primer y tercer cuartil.

• Rango intercuartílico = P75 - P25

– Parecida al rango, pero eliminando las observaciones más extremas

inferiores y superiores.

– No es tan sensible a valores extremos.

Otras Medidas de Dispersión

x

Fr

1

0.75

0.5

0.25

0

P25 P50 P75

Q1 Q2 Q3

mediana

Recorrido o rango

intercuartílico

Medidas de forma: Grado de concentración

Las medidas de forma permiten conocer que forma tiene la curva que representa la

serie de datos de la muestra. Forma es el patrón de distribución de los valores de los

datos a través del rango de todos los valores.

La distribución puede ser simétrica cuando los valores pequeños y grandes se equilibran

entre si. Puede ser asimétrica cuando muestra un desequilibrio entre los valores

pequeños y grandes.

En concreto, podemos estudiar las siguientes características de la curva:

Concentración: mide si los valores de la variable están más o menos uniformemente

repartidos a lo largo de la muestra.

Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de

la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda

son similares.

Curtosis: mide si los valores de la distribución están más o menos concentrados

alrededor de los valores medios de la muestra.

Para medir el nivel de concentración de una distribución de

frecuencia se pueden utilizar distintos indicadores, entre

ellos el Indice de Gini.

Este índice se calcula aplicando la siguiente fórmula:

En donde los valores de la fórmula se basan en las

proporciones acumuladas de las dos variables que se analizan.

El Indice Gini (IG) puede tomar valores entre 0 y 1:

IG = 0 : concentración mínima. La muestra está

uniformemente repartida a lo largo de todo su rango.

IG = 1 : concentración máxima. Un sólo valor de la

muestra acumula el 100% de los resultados.

Asimetría

El concepto de asimetría se refiere a si la curva que forman los

valores de la serie presenta la misma forma a izquierda y derecha

de un valor central (media aritmética)

Para medir el nivel de asimetría se utiliza el llamado Coeficiente

de Asimetría de Fisher, que viene definido:

Los resultados pueden ser los siguientes:

g1 = 0 (distribución simétrica; existe la misma

concentración de valores a la derecha y a la

izquierda de la media)

g1 > 0 (distribución asimétrica positiva; existe

mayor concentración de valores a la izquierda de la

media que a su derecha)

g1 < 0 (distribución asimétrica negativa; existe

mayor concentración de valores a la derecha de la

media que a su izquierda)

Asimetría o sesgo

• Una distribución es simétrica si la mitad izquierda de su distribución es la imagenespecular de su mitad derecha.

• En las distribuciones simétricas la media y la mediana coinciden. Si sólo hay unamoda también coincide.

• La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de ladistribución.

• La media tiende a desplazarse hacia las valores extremos (colas).

Media < mediana asimétrica negativa o sesgo negativo

La mayoría de los valores están en la parte inferior de la distribución. La distorsión

hacia la izquierda es provocada por algunos valores muy pequeños.

Media = mediana simétrica o asimetría cero

.

Media > mediana asimétrica o positiva o sesgo derecho

La mayoría de los valores están en la parte superior de la distribución. La distorsión

hacia la derecha es provocada por algunos valores muy grandes.

• Las discrepancias entre las medidas de centralización son indicación de asimetría.

Las curvas que representan los puntos de datos de un conjunto de datos pueden

ser simétricas o sesgadas.

Las curvas simétricas, tienen una forma tal que una línea vertical que pase por

el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada

parte es una imagen espejo de la otra.

En las curvas sesgadas, los valores de su distribución de frecuencias están

concentrados en el extremo inferior o en el superior de la escala de medición

del eje horizontal. Los valores no están igualmente distribuidos.

Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) o

sesgadas hacia la izquierda (negativamente sesgadas).

El Coeficiente de Curtosis analiza el grado de concentración

que presentan los valores alrededor de la zona central de la

distribución. La curtosis nos indica el grado de apuntamiento

(aplastamiento) de una distribución con respecto a la

distribución normal o gaussiana. Es adimensional.

Se definen 3 tipos de distribuciones según su grado de

curtosis:

Distribución mesocúrtica: presenta un grado de

concentración medio alrededor de los valores centrales de la

variable (el mismo que presenta una distribución normal).

Distribución leptocúrtica: presenta un elevado grado de

concentración alrededor de los valores centrales de la variable.

Distribución platicúrtica: presenta un reducido grado de

concentración alrededor de los valores centrales de la variable.

El Coeficiente de Curtosis viene definido por la siguiente

fórmula:

Los resultados pueden ser los siguientes:

g2 = 0 (distribución mesocúrtica)

.

g2 > 0 (distribución leptocúrtica)

.

g2 < 0 (distribución platicúrtica

Cuando medimos la curtosis de una distribución,

estamos midiendo su grado de agudeza.

Platicúrtica

8481787572696663605754514845

Fre

cu

en

cia

160

140

120

100

80

60

40

Mesocúrtica

99

93

89

85

81

77

73

69

65

61

57

53

49

45

41

37

32

27

Fre

cu

en

cia

300

200

100

0

Leptocúrtica

138

108

102

97

92

87

82

77

72

67

62

57

52

47

42

37

32

27

16

3

Fre

cu

en

cia

400

300

200

100

0

Los gráficos poseen la misma media y desviación

típica, pero diferente grado de apuntamiento o

curtosis.

Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la

media, la mediana o la moda como medidas de tendencia central. Las distribuciones

simétricas que sólo contienen una moda, siempre tienen el mismo valor para la media, la

mediana y la moda. En tales casos, no es necesario escoger la medida de tendencia central,

pues ya está hecha la selección.

En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda

todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la

derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la

mediana.

En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la

distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más

a la izquierda de la moda y la mediana.

Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana

resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la media.

La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor

como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la

media.

¿Cómo seleccionar una medida de tendencia que represente los datos?

Resumiendo

Education

Modulo 5 medidas descriptivas