View
365
Download
4
Category
Preview:
Citation preview
Prof. Ingº MSc. Carmen Lugo Delgado
UNEFM. CIENCIAS VETERINARIAS
I UNIDAD: ESTADISTICA DESCRIPTIVA
BIOESTADÍSTICA
TEMA 3: MEDIDAS DESCRIPTIVAS
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
TEMA 3: Medidas Descriptivas:
Medidas de Posición:
Medidas de Dispersión.
Medidas de Forma.
Cuando se procesa la información recopilada en el desarrollo de un estudio,
generalmente se dispone de una gran cantidad de datos. Si bien es cierto que las
tablas de frecuencia y los gráficos ayudan a resumir toda la información recopilada,
de manera que pueda apreciarse con más facilidad las características
fundamentales, muchas veces es necesario disponer de otras mediciones que
sinteticen aun mas las características básicas de la serie de datos. Es conveniente
por ejemplo, poder disponer de dos mediciones básicas: a) una medida que
simplifique y represente apropiadamente a toda la serie; b) una medida que indique
que tan variable o que tan dispersos son los datos con respecto a una valor de
referencia.
● Medidas de Posición:
Las medidas de posición son valores de la variable alrededor de los cuales tienden a
concentrarse o ubicarse los restantes valores que conforman la serie de datos.
Corresponden a las mediciones más representativas de conjunto de datos. Las
medidas de posición pueden ser:
a) Medidas de Posición Central: Para una serie de datos, es un valor único que
corresponden al valor medio de la serie. Las medidas centradas más utilizadas
son: la Media Aritmética, la Moda y la Mediana.
b) Medidas de Posición no Centrales: Para la serie de datos una vez dispuestos los
valores en orden de magnitud, corresponden a unos cuantos valores que indican
determinadas posiciones. Las mas utilizadas son: Los Cuartiles, los Deciles y los
Centiles.
Medidas de Posición Central:
Media Aritmética:
Para una serie de datos la Media Aritmética corresponde a la sumatoria de todos los
valores registrados entre el número total de datos.
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Cuando los datos se encuentran sin agrupar, la media aritmética se calcula:
Población: N
xi Media aritmética
xi x1, x2, x3, …. xn N Número total de datos.
Muestra: n
xix x Media aritmética
xi x1, x2, x3, …. xn n Número total de datos
Para datos agrupados, la media se calcula:
Población:
ni Frecuencia absoluta ni Número total de datos
Muestra:
Mediana (Me):
Para una serie de datos ordenada en forma creciente, la mediana corresponde al
valor central, es decir el valor medio que divide a la serie de datos en dos grupos con
exactamente la misma cantidad de observaciones. El 50% de los datos serán
inferiores a la mediana y el restante 50% serán superiores.
Para el cálculo de la mediana se debe considerar el número total de datos. Si este es
impar, la mediana corresponde al valor central. Cuando en número total de datos es
par, la mediana corresponde a la media aritmética de los dos valores centrales.
ni
nixi *
ni
nixix
*
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Cuando los datos se encuentran agrupados en intervalos de clase, es necesario
estimar la mediana, para ello se puede utilizar la formula siguiente:
IAfa
FAANLiMeMe .
2/
Donde:
Me Mediana.
LiMe Límite inferior de la clase que contiene a la Mediana.
2/N Número total de datos 2 (Indica la clase que contiene a la
Mediana).
FAA Frecuencia Absoluta Acumulada hasta la clase anterior a la clase
que contiene a la Mediana.
fa Frecuencia absoluta de la clase que contiene a la Mediana.
Moda (Mo):
Para una serie de datos, la Moda (Mo) corresponde a la clase o valor que se repite
con mayor frecuencia. Una serie de datos puede presentar más de una moda. Si dos
valores de la serie presentan frecuencias similares, se dice que la serie es bimodal.
Si tres valores presentan similares frecuencias, se dice que es trimodal, etc.
Las variables cuantitativas continuas no presentan moda. Sin embargo, si los datos
resultantes de este tipo de variables se han agrupado en intervalos de clase, la moda
se puede estimar a través de la formula:
IAdd
dLiMoMo .
21
1
Donde:
Mo Moda
LiMo Límite inferir de la clase que contiene a la Moda (intervalo de clase con la
mayor frecuencia absoluta).
1d Diferencia entre la frecuencia absoluta del intervalo de clase que contiene
a la moda y la frecuencia del intervalo anterior.
2d Diferencia entre la frecuencia absoluta del intervalo de clase que contiene
a la moda y la frecuencia del intervalo siguiente.
..IA Amplitud del intervalo.
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Cálculo de las Medidas de Posición Central para Datos no Agrupados:
Ejemplo Nº 5. En una granja porcina se seleccionó una muestra conformada por 10
hembras de primera gestación y se contabilizó el número de
lechones nacidos de cada una de ellas.
8 12 13 16 8 12 10 8 8 10
Arreglo de Datos:
8 8 8 8 10 10 12 12 13 16
Para este ejemplo, cada madre tuvo en promedio 10,5 lechones.
Este resultado indica que el 50 % de las madres tuvieron 10 lechones o menos.
Mediana:
N=10 (Par) La mediana es el valor que ocupa la posición: N/2 10/2= 5
Me= Promedio de los valores ubicados en las posiciones nº 5 y 6
Me= (10+10) / 2
Me 10 lechones
Media Aritmética: n
xix
10
1613121210108888x
5,1010
105x Lechones/madre
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Cálculo de las Medidas de Posición Central para Datos Agrupados:
Para ilustrar el cálculo de las medidas de posición central para datos agrupados se
hará uso de los ejemplos 2 y 4.
Ejemplo Nº 2. Número de cuartos de ubre afectados por mastitis en un rebaño de
vacas mestizas ¾ Holteins. Municipio Federación. Falcón. Venezuela.
2009.
Nº CUARTOS ni
0 1 2 3 4
13 8 5 3 1
30
La media aritmética indica que cada vaca en producción de este rebaño tiene 1,03
cuartos de ubre afectados por mastitis.
Media Aritmética: ni
nixix
*
135813
)14()33()52()81()130(x
03,130
31x Cuartos/vaca
Moda:
Camadas con 8 lechones se observan 4 veces.
Mo 8 lechones
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
El 50 % de estas vacas tiene uno o ninguno de los cuartos afectados, el restante 50%
tiene uno a mas cuartos afectados por mastitis.
En este caso se puede considerar que existen dos modas, por lo que la serie es
bimodal.
Datos Agrupados en intervalos de clase:
Ejemplo Nº 4. Valores de glicemia registrados en caninos de compañía atendidos
en La Clínica Veterinaria Santa Ana, Coro. Estado Falcón durante
Diciembre de 2009.
Li Ls P.M ni Ni
52 62 72 82 92
102 112
62 72 82 92
102 112 122
57 67 77 87 97
107 117
5 7
11 11 7 6 3
5 12 23 34 41 47 50
Moda:
0 se repite 13 veces Mo 0 (Moda absoluta)
1 se repite 8 veces Mo 1 (Moda relativa)
Mo 0
Mo 1
Mediana:
N=30 (par) La mediana es el valor que ocupa la posición N/2 30/2= 15
Me= Promedio de los valores ubicados en las posiciones nº 15 y 16
Me= (1+1) /2
Me 1 Cuarto
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Para el cálculo de la mediana se debe considerar:
LiMe Límite inferior del intervalo que contiene a la mediana, se localiza dividiendo
el número total de datos entre 2. En este caso: N/2= 50/2= 25.
La observación nº 25 se localiza en el intervalo de clase: 82 – 92.
N/2= 50/2= 25
FAA La frecuencia acumulada hasta el intervalo anterior al que contiene a al
mediana es 23.
fa La frecuencia absoluta del intervalo que contiene a la mediana es 11.
..IA La amplitud del intervalo que contiene a la mediana es 92 – 82= 10.
Mediana: ..2/
IAfa
FAANLiMeMe
1011
232582Me
82,83Me mg/dl
Media Aritmética: ni
nixix
367111175
)3117()6107()797()1187()1177()767()557(x
6,8450
4230x mg/dl
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Para el cálculo de la moda se debe considerar:
LiMo Límite inferior del intervalo con la más alta frecuencia: 72 – 82.
1d Diferencia entre la frecuencia absoluta del intervalo que contiene a la moda
y la frecuencia del intervalo anterior.
2d Diferencia entre la frecuencia absoluta del intervalo que contiene a la moda
y la frecuencia del intervalo siguiente.
..IA La amplitud del intervalo que contiene a la mediana es 82 –72= 10.
En este ejemplo referido a los valores de glicemia de caninos de compañía atendidos
en una clínica veterinaria, se puede considerar que el valor promedio de glicemia es
de 84,6 mg/dl.. La mediana indica que el 50% de los caninos presenta valore s de
glicemia iguales o inferiores a 83,82 mg/dl.. El cálculo de la moda indica que 82 mg/dl
debería ser el valor con la mayor frecuencia.
Moda: ..21
1IA
dd
dLiMoMo
10)1111(711
71172Mo
Mo 82 mg/dl
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Medidas de Posición No Central:
Cuartiles:
Son los tres (3) valores que dividen la serie de datos previamente ordenada creciente o decrecientemente, en cuatro partes iguales, cada una de ellas con el 25% de los datos.
Para datos sin agrupar los cuartiles se calculan:
Q1= N ¼ Q2= N ½ Q3= N ¾
Cuando los datos se encuentran agrupados en intervalos de clase, para estimar el
valor correspondiente a los cuartiles, es necesario emplear una fórmula similar a la
empleada para estimar la mediana.
..4/1
11 IAfa
FAANLiQQ
..2/1
22 IAfa
FAANLiQQ
..4/3
33 IAfa
FAANLiQQ
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Deciles:
Son los nueve (9) valores que dividen la serie de datos previamente ordenada en forma creciente o decreciente, en diez partes iguales, cada una de ellas contiene el
10% de los datos.
Para datos sin agrupar los deciles se calculan de manera similar a los cuartiles:
D1= N 1/10 D3= N 3/10 D9= N 9/10
Cuando los datos se encuentran agrupados en intervalos de clase los deciles se
calculan con una fórmula similar a la empleada para estimar los cuartiles, así por
ejemplo para estimar el tercer decil:
..10/3
33 IAfa
FAANLiDD
Centiles o Percentiles:
Son los noventa y nueve (99) valores que dividen la serie de datos una vez ordenada en forma creciente o decreciente, en cien partes iguales, cada una de ellas contiene el 1% de los datos. Para determinar los centiles de una serie de datos se debe proceder de manera similar que para el cálculo de cuartiles y deciles, solo que el divisor es la centena. Así por ejemplo si se deseara estimar el centil 45:
Datos no agrupados: C45= N 45/100
Datos agrupados: ..100/45
4545 IAfa
FAANLiCC
D1 D2 D3 D4 D5 D6 D7 D8 D9
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Cálculo de las Medidas de Posición no Central para Datos Agrupados en intervalos de clase:
Ejemplo Nº 4. Valores de glicemia registrados en caninos de compañía atendidos
en la Clínica Veterinaria Santa Ana. Coro. Estado Falcón durante
diciembre de 2009.
Li Ls P.M ni Ni
52 62 72 82 92
102 112
62 72 82 92
102 112 122
57 67 77 87 97
107 117
5 7
11 11 7 6 3
5 12 23 34 41 47 50
Cuartiles:
Cuartil 2: ..2/1
22 IAfa
FAANLiQQ
Mediana
1011
2325822Q
82,832Q mg/dl
Cuartil 1: ..4/1
11 IAfa
FAANLiQQ
1011
125,12721Q
45,721Q mg/dl
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Al estimar los valores correspondientes a los cuartiles mediante la fórmula para datos
agrupados se tiene que:
El 25 % de los caninos atendidos en esta clínica presentan valores de
glicemia menores o iguales a 72,45 mg/dl.
El 50 % presenta valores menores o iguales a 83,82 mg/dl.
Un 25% presentaría valores de glicemia superiores a 97,0 mg/dl
Deciles:
El 40% de los caninos presentan valores de glicemia menores o iguales a 79,3
mg/dl.
Decil 4: ..10/4
44 IAfa
FAANLiDD
10
11
1220724D
3,794D mg/dl
Cuartil 3: ..4/3
33 IAfa
FAANLiQQ
107
345,37923Q
0,973Q mg/dl
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Medidas de Variabilidad o de Dispersión:
Una medida de variabilidad es un valor numérico que permiten medir las variaciones
que presentan los datos de una serie, cuando se agrupan alrededor de alguna
medida de tendencia central. Generalmente cuando se esta en presencia de series
de datos homogéneas (datos parecidos) la variabilidad es pequeña, mientras que
series de datos heterogéneas (datos poco parecidos entre si) presentan una
variabilidad mas alta. Las medidas mas utilizados son:
Amplitud de Variación:
Es la diferencia que existe entre el valor menor y el mayor de una serie de datos. Es
una medida fácil de calcular, indica cuanta diferencia existe entre los valores
extremos de un conjunto de datos, pero tiene el inconveniente que no proporciona
información acerca de la forma de la distribución. Se calcula como:
A.V.= Valor Mayor – Valor Menor
Varianza:
Para una serie de datos la varianza es el promedio de las desviaciones al cuadrado
desde la media aritmética.
Cuando los datos se encuentran sin agrupar, la varianza se calcula:
Población: N
xi 2
2)(
Muestra: 1
)( 2
2
n
xxis 1n grados de libertad
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Para su cálculo se debe:
a) Tomar cada valor individual y restarle la media aritmética.
b) Elevar al cuadrado cada desviación, para obtener los cuadrados de las
desviaciones..
c) Sumar todos los cuadrados de las desviaciones.
d) Dividir la anterior suma de cuadrados entre N (si se trabaja con toda la
población) o entre n-1 (cuando se trabaja con muestras).
Cuando se trabaja con datos agrupados, en el cálculo de la varianza se debe
considerar la frecuencia con que ocurren los valores.
Población: ni
nixi 2
2)(
Nni
Muestra: 1
)( 2
2
ni
nixxis
En este caso para el cálculo de la varianza se debe:
a) Tomar cada valor y restarle la media aritmética.
b) Elevar al cuadrado cada desviación.
c) Multiplicar cada cuadrado de la desviación por su frecuencia.
d) Sumar todos los resultados obtenidos.
e) Dividir la anterior suma entre N (si se trabaja con toda la población) o entre
n-1 (cuando se trabaja con muestras).
Los resultados obtenidos con las fórmulas de varianza se expresan en unidades al
cuadrado (kg2, cm2, etc.). Para obtener nuevamente las unidades originales es
necesario extraerle al resultado de la varianza la raíz cuadrada. De esta manera se
obtiene la desviación típica o estándar.
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Desviación Típica o Estándar:
Corresponde a la raíz cuadrada de la varianza. Es un valor numérico que indica
cuanta dispersión en promedio presentan los datos con respecto a la media
aritmética. Cuando este número es pequeño indica que los datos son mas
homogéneos, es decir que son cercanos entre si. Cuando el resultado de la
desviación es un valor alto, indica que los datos presentan menor homogeneidad.
La desviación estándar se calcula como:
Población: N
xi 2
2)(
Muestra: 1
)( 2
2
n
xxiss
Coeficiente de Variación:
Es una medida de dispersión relativa que permite expresar la desviación estándar de
una serie de datos como un porcentaje de la media aritmética. Se calcula como:
Población: %100..VC
Muestra: %100..x
sVC
El coeficiente de variación permite comparar dos o más series de datos, sin importar
las unidades en que fueron medidas. Así por ejemplo es posible comparar una serie
de datos donde la variable de interés se media en centímetros, con otra serie de
datos donde la variable correspondía a mediciones de kilogramos.
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Cálculo de las Medidas de Variabilidad o de Dispersión para Datos no
Agrupados:
Ejemplo Nº 5. En una granja porcina se seleccionó una muestra conformada por 10
hembras de primera gestación y se contabilizó el número de
lechones nacidos de cada una de ellas.
Arreglo de Datos:
8 8 8 8 10 10 12 12 13 16
Media Aritmética: 5,10x lechones/madre
Para este ejemplo, la diferencia entre la camada con mayor cantidad de lechones y la
de menor cantidad es de 8 lechones.
Varianza: 1
)( 2
2
n
xxis
110
)5,1016(....)5,108()5,108()5,108( 22222s
9
5,662s
39,72s lechones2
Amplitud de Variación: A.V.= Valor Mayor-Valor Menor
A.V.= 16 - 8
A.V.= 8 Lechones
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
. Medidas de Forma: Asimetría y Curtosis: Los coeficientes de asimetría y curtosis comparan la distribución de la serie de datos
con la distribución normal.
El coeficiente de asimetría indica como se encuentran distribuidos los datos
alrededor de la media aritmética. Cuando los datos se distribuyen de forma
homogénea a ambos lados de la media, la curva es simétrica, por lo que su
coeficiente de asimetría será cero. Este valor es difícil de observar por lo que
generalmente se acepta los valores que son cercanos a cero ya sean positivos o
negativos (± 0.5).
Coeficiente de Variación: %100..x
sVC
%1005,10
72,2..VC
%90,25..VC
Desviación Típica o Estándar: 2ss
239,7 lechoness
lechoness 72,2
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
El coeficiente de asimetría puede ser positivo o negativo. Será positivo cuando la
serie de datos presenta valores extremos y estos son mayores que la media
aritmética. En este tipo de distribuciones se observa que los valores que presentan
mayor frecuencia, son aquellos menores a la media aritmética.
El coeficiente de asimetría será negativo cuando los valores extremos son menores
que la media aritmética y los valores que presentan la mayor frecuencia son los
mayores a la media.
El coeficiente de curtosis indica como es la concentración de los datos alredor de la
media. Según esta concentración se pueden distinguir tres tipos de distribuciones:
Distribuciones leptocúrticas: presenta una alta concentración de datos alrededor de los valores centrales de la serie. Presentan coeficientes de curtosis positivos.
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Distribuciones mesocúrticas: presenta una concentración equilibrada de datos
alrededor de los valores centrales similar a una distribución normal. Presentan
coeficientes de curtosis iguales a cero.
Distribuciones platicúrticas: presenta una baja concentración de datos alrededor
de los valores centrales de la variable. Presentan coeficientes de curtosis negativos.
Es difícil de observar series de datos que presenten coeficientes de asimetria y
curtosis iguales a cero, por lo que generalmente se acepta como distribución
normal, aquellas distribuciones cuyos coeficientes son cercanos a cero ya sean
positivos o negativos (± 0.5).
El coeficiente de asimetría se puede calcular mediante el “Coeficiente de Asimetría
de Fisher”:
2
3
1
2
3
1
*)(1
*)(1
nxxn
nxxng
i
ii
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
También pudieran emplearse aunque menos precisas, alguna de las siguientes
expresiones:
s
MoxAs1
s
MexAs
)(32
13
1223 )()(
QQQQAsq
El coeficiente de curtosis se calcula mediante:
3
*)(1
*)(1
2
1
2
4
2
nxxn
nxxng
i
ii
También pudiera calcularse mediante:
263,0
)(2
1
19
13
DD
Kurt
Coef. As. < 0: Asim.Negativa Coef. As. = 0: Simétrica Coef. As. > 0= Asim. Positiva
Coef. Kurt. < 0: Kurt. Negativa Coef. Kurt. = 0 Coef. Kurt .> 0: Kurt. Positiva
Autor: Ingº MSc Prof. Ingº MSc. Carmen Lugo Delgado
Bibliografía
DANIEL, W. Base para el Análisis de las Ciencias de la Salud. Editorial Limusa,
México. 2002.
DI RIENZO, J. et al. Estadística para las Ciencias Agropecuarias. Cuarta Edición.
Argentina. 2001.
PARDO M., A., y RUIZ D., M. SPSS 11. Guía para el Análisis de Datos. Mc Graw Hill.
Madrid. 2002.
QUESADA, V., ISIDORO, A., y LOPEZ, L. Curso y Ejercicios de Estadística.
Aplicación a las Ciencias Biológicas, Médicas y Sociales. Alambra
Universidad. Madrid. 2002.
STEEL, R. y TORRIE, J. Bioestadística: Principios y Procedimientos. McGraw Hill.
Colombia. 1985.
VISAUTA VINACUA, B,. Análisis Estadístico con SPSS para Windows. Estadística
Básica. Mc Graw Hill. Madrid. 1997.
http://www.bioestadistica.uma.es/libro/
http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
Recommended