Upload
trantu
View
215
Download
0
Embed Size (px)
Citation preview
M. Carmen Carollo Limeres Profesora Titular de la USC. Unidad de Bioestadística. Facultad de Medicina [email protected] Octubre de 2011
Explorando los datos. ¿Cómo resumir la información de
tipo cuantitativo? Variables cuantitativas
3
Índice
1. Introducción 2. Clasificación de variables 3. Estadística descriptiva
– Frecuencias
– Representaciones gráficas
– Medidas resumen
4. Resumen 5. Software 6. Bibliografía
4
Introducción
1. Introducción
5
1. Introducción
Gran cantidad de datos
Técnicas que permitan organizar y resumir
los datos
Los datos contienen
información
Base de datos “ais”: Los datos corresponden a 102 hombres y a 100 mujeres deportistas colegiados en el Instituto Australiano de Deportes
6
Clasificación de variables
2. Clasificación de variables
7
2. Clasificación de variables
FEGAS
Variables
Cuantitativas
Continuas
-Altura -IMC -Hcto -Hb
Discretas
-Nº de días concentración
Cualitativas
Ordinales
IMC (Cole et al.)
Categóricas
Sexo Tipo deporte,
8
Estadística descriptiva
3. Estadística descriptiva
9
3. Estadística descriptiva
La Estadística descriptiva se ocupa de: clasificar y resumir
la información contenida en los datos a través de técnicas numéricas y técnicas gráficas.
En esta presentación veremos cómo resumir la información relacionada con datos cuantitativos
10
3. Estadística descriptiva
FEGAS
Estadística descriptiva
Distribuciones de frecuencias
Representaciones gráficas
Medidas resumen
11
3. 1 Distribuciones de frecuencias
3. Estadística Descriptiva Frecuencias
Representaciones Gráficas Medidas resumen
12
3. 1 Distribuciones de frecuencias
• Frecuencia Absoluta (ni) : es el número de veces que ocurre cada resultado (xi).
• Frecuencia Relativa (fi ): Es la frecuencia absoluta dividida por el número de observaciones.
• Frecuencia Absoluta Acumulada (Ni ): Es el número
de veces que se ha observado un resultado ≤ xi .
• Frecuencia Relativa Acumulada (Fi): Es la frecuencia absoluta acumulada dividida por el número total de observaciones.
FEGAS
13
3. 1 Distribuciones de frecuencias. Datos discretos
Nº DE DÍAS (Xi)
Frecuencias Absolutas
(ni)
Frecuencias relativas
(fi)
Frecuencias acumuladas Absolutas
(Ni)
Frecuencias acumuladas relativas
(Fi) 20 42 0,21 42 0,21
21 32 0,16 74 0,37
22 29 0,14 103 0,51
23 34 0,17 137 0,68
24 28 0,14 165 0,82
25 37 0,18 202 1,00
202
1,00
FEGAS
14
3. 1 Distribuciones de frecuencias. Datos continuos
© 2010.NETEX
Para datos continuos el resumen anterior es poco práctico. Agrupar los datos en intervalos de clase (representados por la marca de clase) [ )[ )[ )[ )… [ )[ )[ ) Frecuencias = Número de observaciones por intervalo Intervalos: Cuantos más intervalos, más información pero menos manejable.
Cuantos menos intervalos, menos información pero es más manejable.
Número de intervalos a considerar: El entero más próximo a ,n= nº de datos (como máximo 10 intervalos)
n
iX
in
15
3. 1 Distribuciones de frecuencias. Datos continuos
Hcto
Intervalos
Marcas de
Clase (Xi)
Frec. Absolutas
(ni)
Frec. relativas
(fi)
Frec. acumuladas Absolutas
(Ni)
Frec. acumuladas relativas
(Fi) [35-40) 37,5 46 0,228 46 0,228
[40-45) 42,5 88 0,435 134 0,663
[45-50) 47,5 65 0,322 199 0,985
[50-55) 52,5 2 0,010 201 0,995
[55-60) 57,5 1 0,005 202 1,000
202
1,000
FEGAS
16
3.2 Representaciones gráficas
3. Estadística Descriptiva Frecuencias
Representaciones Gráficas Medidas resumen
17
3.2 Representaciones gráficas
Tipo de variable
Cuantitativas
Continuas
Histograma Diagrama de cajas
Discretas
Diagrama de barras
Diagrama de sectores
Cualitativas
Diagrama de barras
Diagrama de
sectores
18
3.2 Representaciones gráficas. Datos discretos
Nº DEDÍAS
Frecuencias absolutas
20 42
21 32
22 29
23 34
24 28
25 37
Nº días concentración
19
3.2 Representaciones gráficas. Datos discretos
Nº DEDÍAS
Frecuencias absolutas
20 42
21 32
22 29
23 34
24 28
25 37
¡Atención! Representación útil sólo si la variable tiene pocos valores
20
3.2 Representaciones gráficas. Datos continuos
FEGAS
Hcto
Hcto
Intervalos
Marcasde
Clase(Xi)
Frec.Absolutas
(ni)
[35-40) 37,5 46
[40-45) 42,5 88
[45-50) 47,5 65
[50-55) 52,5 2
[55-60) 57,5 1
21
3.2 Representaciones gráficas. Datos continuos
Hcto Hcto
22
3.2 Representaciones gráficas. Datos continuos
Primer cuartil: primer valor que acumula el 25 % de las observaciones
Segundo cuartil o mediana: primer valor que acumula el 50 % de las observaciones
Tercer cuartil: primer valor que acumula el 75 % de las observaciones
FEGAS
23
3.2 Representaciones gráficas. Datos continuos
FEGAS
Hcto
Dato atípico
Cuartil 3º
Mediana
Cuartil 1º
Bigotes
24
3.2 Representaciones gráficas. Datos continuos
FEGAS
25
3.2 Representaciones gráficas. Datos continuos por datos categóricos
FEGAS
Hct
o
Hcto por sexo
¿El hematocrito depende del sexo?
26
Representaciones gráficas. Datos continuos por datos continuos
FEGAS
Hcto
Hb
¿Existe alguna relación entre el Hcto y la Hb?
27
3.2 Representaciones gráficas. Datos continuos por datos continuos
FEGAS
Hct
o
IMC
¿Existe alguna relación entre el IMC y el Hcto?
28
Clasificación-Representaciones gráficas
FEGAS
IDEA GLOBAL DE
CONJUNTO
Clasificación de Datos
Distribuciones de frecuencias
Representaciones gráficas
29
3.3 Medidas resumen
3. Estadística Descriptiva Frecuencias
Representaciones Gráficas Medidas resumen
30
3.3 Medidas resumen
Medidas
resumen
Posición Dispersión Forma
FEGAS
31
3.3 Medidas resumen de posición
FEGAS
Tendencia central
• Media
• Mediana
• Moda
Tendencia no central
• Rango
• Cuartiles
• Percentiles
32
3.3 Medidas resumen de posición
• Medidas de posición de tendencia central
FEGAS
Media: Suma de valores dividido entre el nº de datos
Mediana: Primer valor que acumula el 50% de los datos
Moda: Valor/valores que más se repiten
1i
iX X
n= ∑
33
Medidas resumen de posición
Ejemplo: nº de días de concentración 3 3 3 4 5 5 15
Media: (3+3+3+4+5+5+15)/7 = 5,43
• Moda: 3
Mediana: 3 3 3 4 5 5 15
34
Medidas resumen de posición
• Propiedades de la media:
– Es única.
– Sólo tiene sentido para datos numéricos.
– Su valor está comprendido entre el mínimo y el
máximo de los datos.
– Es el “centro de gravedad” de los datos.
– Está afectada por cada valor. Valores extremos
pueden distorsionarla.
FEGAS
35
Medidas descriptivas de posición
• Propiedades de la mediana: • Es única. • Los datos deben ser al menos de tipo ordinal. • Su valor está comprendido entre el mínimo y el máximo
de los datos. • Los valores extremos no tienen efectos importantes
sobre ella.
FEGAS
Ejemplo nº de días de concentración: 3 3 3 4 5 5 15 Media = 5,43 Mediana = 4
36
3.3 Medidas resumen de posición
• Medidas de posición de tendencia no central
FEGAS
Rango: diferencia entre la mayor y la menor de las observaciones
Cuartiles: tres observaciones que dividen el rango en cuatro partes iguales (25%, 50%,75%)
Percentiles: 99 observaciones que dividen el rango en cien partes iguales
37
Medidas resumen de posición
Ejemplo: nº de días de concentración 3 3 3 4 5 5 15
Rango: 15 – 3= 12
Cuartiles: cuartil 1º cuartil 2º cuartil 3º 3 4 5
Percentiles: 10% 25% 50% 90% 3 3 4 15
38
3.3 Medidas resumen de dispersión
• La dispersión de un conjunto de datos se refiere a la variabilidad que muestran.
FEGAS
Rango
Varianza
Coeficiente de variación
Más concentrada
Más dispersa
39
3.3 Medidas resumen de dispersión
• Medidas de dispersión
FEGAS
Varianza:
Coeficiente de variación:
Rango: diferencia entre la mayor y la menor de las observaciones
( )2
2
1
1 k
ii
S X Xn =
= −∑
SCVX
=
CVhombres=0,079 CVmujeres=0,081
40
Medidas resumen de dispersión
Ejemplo: nº de días de concentración 3, 3, 3, 4, 5, 5, 15
Rango: R=15 – 3= 12
Varianza:
Coeficiente de variación: CV= 3,99/5,43 = 0,73
( ) ( ) ( ) ( )
( ) ( ) ( )
2 2 2 22
2 2 2
1 [ 3 5,43 3 5,43 3 5, 43 4 5, 437
5 5,43 5 5,43 15 5,4 5,] 63 1 9
s = − + − + − + − +
+ − + − + − =
41
3.3 Medidas resumen de forma
Medidas de forma
Asimetría Apuntamiento
FEGAS
42
3.3 Medidas resumen de forma. Asimetría
FEGAS
( )3
31
1k
S ii
CA x Xns=
= −∑
CA = 0
CA < 0 CA > 0
43
3.3 Medidas resumen de forma. Apuntamiento
FEGAS
Apuntamiento < 0
Apuntamiento = 0
Apuntamiento > 0
El coeficiente de apuntamiento mide el grado de concentración de los datos, en la región central de la distribución, comparado con el de la “distribución normal”. 4
4 3pmCAs
= −
44
Conclusión
4. Conclusión/Resumen
45
4. Conclusión
• Es imprescindible organizar y resumir los datos de forma correcta:
Identificar el tipo de dato ¿Es cualitativo? ¿Es cuantitativo?
Utilizar la técnica adecuada de Estadística descriptiva
Interpretar correctamente los resultados
46
5. Software
Software
47
5. Software
© 2010.NETEX
• Epidat 4.0:
• Excel:
http://www.sergas.es/MostrarContidos_N3_T01.aspx?IdPaxina=62713
• R:
http://www.r-project.org/
• SPSS:
48
Bibliografía
6. Referencias/Bibliografía
49
6. Bibliografía
• Álvarez Cáceres, R. (2007) “Estadística Aplicada a las Ciencias de la Salud”. Editorial Diaz de Santos.
• Daniel, W.W. (2006) “Bioestadística. Base para el análisis de las ciencias de la salud”. (2ª ed). Editorial LIMUSA.Wiley.
• Douglas G. Altman (1997) “Practical Statistics for Medical Research”. Ed. Chapman & Hall.
• Martín Andrés, A.; Luna del Castillo, J. (1994) “Bioestadística para las ciencias de la salud”. (4ª ed). Ediciones Norma.
• Martínez González, M.A, Almudena Sánchez y Javier Faulin. (2006). “Bioestadística amigable”. 2ª ed. Editorial Diaz de Santos.
• Milton, J.S. (1994) “Estadística para biología y ciencias de la salud”. (2ª ed). Ed. Interamericana, McGraw-Hill.
• Quesada, V. y otros (1982) “Curso de ejercicios de estadística”. (2ª ed). Editorial Alambra.
• Rosner, B. (2000) “Fundamentals of biostatistics”. (5ª ed). Wadsworth Publishing Company. Duxbury Press.
¡¡¡MUCHAS GRACIAS!!!