Upload
severo-marina
View
5
Download
0
Embed Size (px)
Citation preview
David Cao CarreñoPrimer Premio de Fotografía (Libre)S.A.E.M. THALES SEVILLACONCURSO DE FOTOGRAFÍA Y MATEMÁTICAS E IMÁGENES MATEMÁTICAS
Epidemiología Clínica y Estadística Aplicada
Revisión de conceptos básicos en Estadística I.
Juan José de la Cruz Troca
BIOESTADISTICA
“Ciencia que estudia la obtención y condiciones de
aplicación de determinados procedimientos que
resuelvan científicamente el problema de la recogida,
organización y análisis de datos que
provienen de la observación de los fenómenos
biológicos”
Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
CONCEPTO COMO CIENCIA
Por sus procedimientos es una ciencia matemática.
Por su naturaleza es un ciencia aplicada.
Por su objetivo es un ciencia metodológica.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Estadística(Bioestadística)
Investigación(en ciencias de la Vida)
•Formulación de Hipótesis•Análisis de Resultados•Conclusiones
Reglas para
Herramienta para
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Análisis de Resultados y Conclusiones
1. Estadística descriptiva
1. Estadística univariante
1. Estadística multivarianteJuan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
INTRODUCCIÓN A LA ESTADÍSTICA
CONCEPTOS BÁSICOS:
Población diana: Conjunto de referencia sobre el que se recogen las observaciones, pueden ser finitas o infinitas, dependiendo de la cantidad de elementos que la compongan. N=Tamaño de la población
Unidad muestral o elemento: Cada uno de los componentes de una población.
Muestra: Subconjunto de la población total. n=Tamaño de la muestra
Carácter (Variable): Cada una de las cualidades que poseen los individuos de la población y que permiten su descripción. Cualitativo o cuantitativo. Ej. Altura, peso, color...
Modalidad (categoría): Cada uno de los posibles valores numéricos o descriptivos de un carácter.Ej. color de pelo: moreno, rubio, pelirrojo...
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Tomamos una población y queremos estudiar una determinada característica, para ello seleccionamos una muestra y estudiamos la característica X, después extrapolamos las conclusiones a la población usando estimadores (inferencia estadística).
POBLACIÓN MUESTRA
Representativa de la población en la característica de estudio
Media poblacional (μ) Varianza poblacional (σ2)
Media muestral x Varianza muestral S2
n
Cuasivarianza muestral S2n-1
Estimación puntual
CONSIDERACIONES GENERALES SOBRE MUESTREO
Generalizar
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
TIPOS DE VARIABLES Y SUS REPRESENTACIONES GRÁFICAS
Cualitativas. Describen cualidades de los elementos de la muestra.
Nominales. Categorías excluyentes y sin orden. Ej. Sexo
Ordinales. Categorías con cierto orden. Ej. Clase Social
Diagrama de Barras Gráfico de Sectores (Tartas o quesitos)
0
10
20
30
40
50 n
Alta Media Baja
Clase Social
Mujeres55%
Varones45%
ESTADÍSTICA DESCRIPTIVALa estadística descriptiva se encarga de estructurar la información referente al fenómeno o experimento estudiado.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
TIPOS DE VARIABLES Y SUS REPRESENTACIONES GRÁFICAS (II)
Cuantitativas (numéricas). Devuelven valores numéricos para cada caso.
Continuas. Existe un valor intermedio entre dos valores.
Ej. Talla
Discretas. Toma solo valores determinados.
Ej. Nº de hijos
Histograma y polígono de frecuencias Polígono de frecuencias acumuladas
00,10,20,30,40,50,60,70,80,9
1
140 150 160 170 180 190 200
Talla (cm)
Fre
cuen
cias
rel
ativ
as a
cum
ulad
as
0
5
10
15
20
25
Talla (cm)
n
Fi
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
PICTOGRAMAS
Tabla de frecuencias de una variable cualitativa o cuantitativa discreta.
Variable xi
ni fi F% Ni Fi
Frecuencia absoluta (ni):
Número de veces que aparece cada modalidad de la variable.
Frecuencia relativa (fi= ni/n):
Cociente entre frecuencia absoluta y tamaño muestral.
Frecuencia porcentual (F%= fi*100)
Frecuencia absoluta acumulada (Ni):
Suma de frecuencias absolutas de las modalidades inferiores o iguales a x i.
Frecuencia relativa acumulada (Fi):
Suma de frecuencias relativas de las modalidades inferiores o iguales a x i.
k
iinn
1
k
iif
1
1
Razón o cociente: Expresa una relación cuando las magnitudes son independientes. Ej. Razón entre varones y mujeres R=V/M.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Personas Enfermas Número Familias
Xi ni fi F%i Ni Fi F%acu.
1 16 16/50 32% 16 16/50 32%
2 20 20/50 40% 36 36/50 72%
3 9 9/50 18% 45 45/50 90%
≥4 5 5/50 10% 50 50/50 100%
Total 50
* EJEMPLO: Cualitativas y Cuantitativas Discretas.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Variable: Nº de personas con gripe en familias de 5 ó más miembros
Estadísticos Resumen de Variables Cuantitativas.
Medidas de Tendencia Central: Valor al que tienden a agruparse los datos
Media Aritmética (X). Suma de valores entre nº de casos.
Mediana (Me). Valor Observado que, ordenados los valores de forma creciente, divide el número de casos en dos partes iguales.
50% Me 50%
Moda (Mo). Valor observado que tiene mayor ni. (que más se repite)
n
xx
n
ii
1
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Estadísticos Resumen de Variables Cuantitativas.
Medidas de Dispersión: Miden la variabilidad o dispersión de los datos.
Rango ó Amplitud (R). Diferencia entre el valor máximo observado y
el valor mínimo en la muestra. R=Máx-Mín.
Cuartiles (Q1, Q2, Q3). Rango intercuartílico (Q3-Q1). Percentiles
(Pi).
Varianza (2). Mide la distancia entre los valores y la media estimada.
Desviación Típica (). Es la raíz cuadrada de la Varianza.
Coeficiente de Variación (CV). Se usa para comparar distribuciones.
Suele expresarse en %.
n
iix x
nS
1
222 )(1
2sS
xCV
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Medidas de forma: Permiten la descripción de la gráfica de la
distribución de frecuencias.
Medidas de simetría. Para saber si los valores de la variable
se concentran en una determinada zona.
Coeficiente de Asimetría de Pearson
Coeficiente de Asimetría de Fisher
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
As<0 As=0 As>0
Asimetría Negativa a la Izquierda
Simétrica
Asimetría Positiva a la Derecha.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Medidas de aplastamiento. El Coeficiente de Curtosis analiza el
grado de concentración que presentan los valores alrededor de la zona central
de la distribución. Se definen 3 tipos de distribuciones según su grado de
curtosis:
Coeficiente de Curtosis:
g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica).g2 < 0 (distribución platicúrtica).
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, por ejemplo, el peso de niños recién nacidos, talla de jóvenes de 18 años en una determinada región, son continuas y se distribuyen según una función de densidad , que tiene la siguiente expresión analítica :
Donde μ es la media de la variable aleatoria y σ es su desviación típica. Este tipo de variables se dice que se distribuye normalmente. El área bajo la función de densidad es 1.
La función de densidad, en el caso de la distribución Normal, tiene forma de campana :
DISTRIBUCIÓN NORMAL
2
2
1
2
1)( e
x
xf
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Estimación de Parámetros.
Error Muestral (Error estándar) (ET). Mide la dispersión de los estadísticos de todas las posibles muestras de la población.
Intervalos de Confianza (IC). Valores entre los cuáles se encuentra el valor de la población con una probabilidad p.
Muestras grandes. Se calcula a partir del ET.
Variables Cuantitativas. Si definimos el ET como ET=/n.
Calculamos el IC de la Media según el valor p.
Para p=0,95 (95%). IC=X 1,96.ET
Para p=0,99 (99%). IC=X 2,6.ET
ESTADÍSTICA BÁSICA Y BIVARIANTE
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Estimación de Parámetros.
Variables Cualitativas. Si definimos el ET como ET=p(1-p)/n.
Calculamos el IC del porcentaje según el valor p.
Para p=0,95 (95%). IC=% 1,96.ET
Para p=0,99 (99%). IC=% 2,6.ET
Muestras pequeñas (n<30, n<100).
Variables Cuantitativas.
Según la tabla de la t de Student.
Variables Cualitativas.
Según la tabla de la Binomial
ESTADÍSTICA BÁSICA Y BIVARIANTE
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
ESTADÍSTICA BÁSICA Y BIVARIANTE Tipos de Hipótesis y Errores.
Tipos de Hipótesis.
Hipótesis Nula (H0). Cualquier Diferencia que observemos al azar.
Hipótesis Alternativa (H1). Difiere de H0, y es la diferencia excesiva no atribuible al azar.
Tipos de Error.
Error Tipo I (Error ).- Riesgo de equivocarse al rechazar H0
Error Tipo II (Error).- Riesgo de rechazar H1 siendo cierta.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Situaciones entre Hipótesis y Error.
H0 Cierta H1 Cierta
Rechazo H0 Error Tipo I Decisión correctap= (0,05) p=1- (poder o
potencia)
No rechazo H0 Decisión correcta Error Tipo II
p=1- p= (0,2)
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Tests Estadísticos utilizados con mayor frecuencia entre
variables cualitativas.
Para medir la posible asociación entre dos variables cualitativas se
emplea el test ji-cuadrado de Pearson.
Si tenemos un 20 % de casillas con una frecuencia esperada menor
de 5 se aplica la corrección de Yates.
H0 %x = %y .
H1 %x %y .
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Debemos decidir si existe evidencia significativa de que los porcentajes
de cada categoría en cada variable son iguales (aceptamos H0).
Si rechazamos H0 entonces aceptamos H1
Calculamos el valor 2Pearson = |Oi-Ei|2/Ei donde Oi es
el valor de frecuencias observadas y Ei el valor esperado en cada celda. A partir
de este valor estan tabulados los valores “p” asociados a cada uno de ellos y se
decide si se rechaza Ho.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Observadas Esperadas
x1 x2 x1 x2
y1 a b ny1 y1 a’ b’ ny1
y2 c d ny2 y2 c’ d’ ny2
nx1 nx2 N nx1 nx2 N
xi= Categoría variable 1, yi=Categoría variable2
ni=nº de casos marginales, N=Muestra total
a=número de casos de la categoría x1 de la variable 1 y con la categoría y1 de la 2.
b=número de casos de la categoría x2 de la variable 1 y con la categoría y1 de la 2.
c=número de casos de la categoría x1 de la variable 1 y con la categoría y2 de la 2.
d=número de casos de la categoría x2 de la variable 1 y con la categoría y2 de la 2.
a’=(nx1. ny1)/N; b’=(nx2 . ny1)/N; c’=(nx1. ny2)/N; d’=(nx2 . ny2)/N
Tablas de Frecuencia
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
2Pearson = |Oi-Ei|2/Ei = ((a-a’)2/a’) + ((b-b’)2/b’) + ((c-c’)2/c’) + ((d-d’)2/d’)
Miramos en la tabla 2 Li< 2
<Ls y obtenemos la p asociada o error tipo I.
La corrección de Yates es:
2Yates = (|Oi-Ei|-1/2)2/Ei = ((|a-a’|-0,5)2/a’) + ((|b-b’|-0,5)2/b’) + ((|c-c’|-0,5)2/c’)
+ ((|d-d’|-0,5)2/d’)
Como medida de Asociación usamos el valor “Odds Ratio” (OR).
OR = (a.c)/(b.d)
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Test Exacto de Fisher
El contraste de homogeneidad mediante la prueba Chi-Cuadrado entre dos variables cualitativas (o también llamado contraste de independencia entre dos variables cualitativas) se basa en la comparación de las frecuencias obtenidas con las frecuencias esperadas.
La prueba exacta de Fisher está basada en la distribución exacta de los datos y no en aproximaciones asintóticas, y presupone que los marginales de la tabla de contingencia están fijos.
En general, cuando las frecuencias absolutas esperadas, en la gran mayoría de casillas o celdas son relativamente grandes (más de 5), se utiliza el estadístico Chi-Cuadrado para realizar el contraste mencionado.
•Cuando en un 20% de las casillas el valor esperado no es superior a 5, el estadístico anterior no es válido y generalmente se utiliza la prueba exacta de Fisher.•Habitualmente, la prueba exacta de Fisher es más conservadora que la prueba Chi-Cuadrado.•La prueba exacta de Fisher se aplica a variables dicotómicas
A continuación, se construyen todas las tablas de contingencia 2x2 posibles con celdas a’, b’, c’, d’, siendo 0 < a’ < mín{c1 , f1}, b’ = f1 –a’, c’ = c1 – a’ y d’ = f2 – c’. A partir de dichas tablas se calcula:
aa
ap'
'
Donde X! indica el factorial de X que se calcula como x·(x-1)·(x-2)·…·2·1,por ejemplo, 5!=5·4·3·2·1=120.
Test Exacto de Fisher
Para calcular el estadístico de contraste, se construye en primer lugar la tabla de contingencia de dimensiones 2x2 con las frecuencias absolutas observadas, con la notación siguiente:
B + - A
+ a b f1
- c d f2
c1 c2 n
El p-valor unilateral-izquierda es =
el p-valor unilateral-derecha es =
!'!'!'!'!
!!!! 2121' dcban
ccffpa
aa
ap'
'
y el p-valor bilateral resultante es:
aa pp
ap'
'
1720,0!18!19!4!1!42
!22!20!37!5'1
ap
0310,0!21!16!1!0!42
!22!20!37!5'0
ap
Ejemplo: A partir de la tablaF1 F2
C1 4 1 5C2 16 21 37
20 22 42
Calcular el valor p correspondiente al Test de Fisher:
1º Calculamos la tabla para a=0
entonces
2ºº Calculamos la tabla para a=1
entonces
F1 F2C1 0 5 5C2 20 17 37
20 22 42
F1 F2C1 1 4 5C2 19 18 37
20 22 42
3096,0!20!17!2!3!42
!22!20!37!5'3
ap
3440,0!19!18!3!2!42
!22!20!37!5'2
ap
3º Calculamos la tabla para a=2
entonces
4º Calculamos la tabla para a=3
Entonces
Para a=4 pa4=0,1253
Para a=5 pa5=0,0182
F1 F2C1 2 3 5C2 18 19 37
20 22 42
F1 F2C1 3 2 5C2 17 20 37
20 22 42
9818,01253,03096,03440,01720,00310,0'
' aa
ap
a’ Pa’0 0.03101 0.17202 0.34403 0.30964 0.12535 0.0182
Los valores de P para cada a’
1745,00310,00182,01253,0'
' aa pp
ap
El valor p unil-izq.es:
El valor p bilateral es
1435,00182,01253,0'
' aa
apEl valor p unil-der.es:
Prueba Test de Mc Nemar
Prueba no paramétrica para dos variables dicotómicas relacionadas.
Contrasta los cambios en las respuestas utilizando la distribución de chi-cuadrado.
Es útil para detectar cambios en las respuestas debidas a la intervención experimental en los diseños del tipo "antes-después“ o para comparar dos tipos de tratamiento.
Típicamente, un valor de significación menor que 0,05 se considera significativo, pero podemos establecer un nivel de significación distinto (0,01; 0,1….)
Matemáticamente el Estadístico de Mc Nemar se define por :cb
cbMN
22 )1(
En una tabla de contingencia:
B + - A
+ a b- c d
Nota: Para el valor p, se utiliza la Tabla de con 1 grado de libertad2
Ejemplo 1Se ejecutó la intervención educativa “Salud bucal” para modificar los conocimientos sobre higiene bucal en alumnos de tercer grado durante el primer semestre de 1998.
La tabla muestra los resultados obtenidos en conocimientos generales:Despues Inadecuado Adecuado
AntesInadecuado 14 102Adecuado 0 7
85120
10201
0120
)10102()1( 222
cb
cbMN
001,083,10852 pMN
Tabla de Pruebas para variables cualitativas
Variable 1 Variable 2 Muestra “Grande” Muestra “pequeña”
Cualita. (2 cat.) Cualita. (2 cat.) 2 de Pearson Test de Fisher
Cualita. (2 ó más cat) Cualita. (2 ó más cat) 2 de Pearson Correción de Yates
Muestras RelacionadasDiseños del tipo "antes-después“ o para comparar dos tipos de tratamiento.
Cualita. (2 cat.) Cualita. (2 cat.) Test de Mc Nemar
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Si hay más de un 20% de celdas con frecuencia esperada < 5 ó algún valor 0, muestra pequeña.
Test Estadístico utilizado con mayor frecuencia entre variables cualitativas y cuantitativas.
Para medir la posible asociación entre una variable cualitativa y una variable cuantitativa, decidimos si existe diferencia de medias en la variable cuantitativa según el grupo de la variable cualitativa.
Empleamos el test de la t de Student si la variable cualitativa es dicotómica (tiene dos categorías) y el ANOVA si tiene más de 2 categorías. En ambos casos la distribución de la cuantitativa se asume como “Normal”.
Veamos el caso de la T-student
H0 1 = 2 .
H1 1 2.
Si S2=((n1-1).S12) + ((n2-1).S2
2) / (n1 + n2 -2). S= S2
t= (1 + 1 )/ (S. (1/ n1) + (1/ n2).
Miramos en las tablas de la distribución t el valor “p” asociado: Si es < de 0,05 rechazo H0 (diferencia de medias estadísticamente significativa). Si > de 0,05 rechazo H0 (no encontramos evidencia de que exista diferencia de medias).
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Tipos de Pruebas Estadísticas.
Paramétricas. Para variables cuantitativas “normales”.
No Paramétricas. Para variables cuantitativas “no normales”.
TCL (Teorema Central del Límite).
Si n>30 Distribución Normal.
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Variable 1 Variable 2 Test Paramétrico Test No Paramétrico
Cualita. (2 cat.) Cuantitativa t de Student U de Mann Whitney
Cualita. (2 ó más cat) Cuantitativa ANOVA Kruskal-Wallis
Cuantitativa Cuantitativa Correlación/ Regresión Rho (r) de Spearman
Regresión. r de Pearson
Tabla de Pruebas para variables cuantitativas
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
23
38 39
22
70
8
0
10
20
30
40
50
60
70
80
FumadorActual
No Fumador Ex-Fumador
%
Varones
Mujeres
390
400
410
420
Varones Mujeres
Co
lest
ero
l
Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Juan José de la Cruz Troca.
Epidemiología Clínica y Estadística Aplicada
Teorema original de Pitágoras. (Distancias euclídeas)
Epidemiología Clínica y Estadística Aplicada