David Cao Carreño Primer Premio de Fotografía (Libre) S.A.E.M. THALES SEVILLA CONCURSO DE FOTOGRAFÍA Y MATEMÁTICAS E IMÁGENES MATEMÁTICAS Epidemiología

David Cao CarreñoPrimer Premio de Fotografía (Libre)S.A.E.M. THALES SEVILLACONCURSO DE FOTOGRAFÍA Y MATEMÁTICAS E IMÁGENES MATEMÁTICAS

Epidemiología Clínica y Estadística Aplicada

Revisión de conceptos básicos en Estadística I.

Juan José de la Cruz Troca

BIOESTADISTICA

“Ciencia que estudia la obtención y condiciones de

aplicación de determinados procedimientos que

resuelvan científicamente el problema de la recogida,

organización y análisis de datos que

provienen de la observación de los fenómenos

biológicos”


Juan José de la Cruz Troca.

CONCEPTO COMO CIENCIA

Por sus procedimientos es una ciencia matemática.

Por su naturaleza es un ciencia aplicada.

Por su objetivo es un ciencia metodológica.



Estadística(Bioestadística)

Investigación(en ciencias de la Vida)

•Formulación de Hipótesis•Análisis de Resultados•Conclusiones

Reglas para

Herramienta para



Análisis de Resultados y Conclusiones

1. Estadística descriptiva

1. Estadística univariante

1. Estadística multivarianteJuan José de la Cruz Troca.


INTRODUCCIÓN A LA ESTADÍSTICA

CONCEPTOS BÁSICOS:

Población diana: Conjunto de referencia sobre el que se recogen las observaciones, pueden ser finitas o infinitas, dependiendo de la cantidad de elementos que la compongan. N=Tamaño de la población

Unidad muestral o elemento: Cada uno de los componentes de una población.

Muestra: Subconjunto de la población total. n=Tamaño de la muestra

Carácter (Variable): Cada una de las cualidades que poseen los individuos de la población y que permiten su descripción. Cualitativo o cuantitativo. Ej. Altura, peso, color...

Modalidad (categoría): Cada uno de los posibles valores numéricos o descriptivos de un carácter.Ej. color de pelo: moreno, rubio, pelirrojo...



Tomamos una población y queremos estudiar una determinada característica, para ello seleccionamos una muestra y estudiamos la característica X, después extrapolamos las conclusiones a la población usando estimadores (inferencia estadística).

POBLACIÓN MUESTRA

Representativa de la población en la característica de estudio

Media poblacional (μ) Varianza poblacional (σ2)

Media muestral x Varianza muestral S2

n

Cuasivarianza muestral S2n-1

Estimación puntual

CONSIDERACIONES GENERALES SOBRE MUESTREO

Generalizar



TIPOS DE VARIABLES Y SUS REPRESENTACIONES GRÁFICAS

Cualitativas. Describen cualidades de los elementos de la muestra.

Nominales. Categorías excluyentes y sin orden. Ej. Sexo

Ordinales. Categorías con cierto orden. Ej. Clase Social

Diagrama de Barras Gráfico de Sectores (Tartas o quesitos)

0

10

20

30

40

50 n

Alta Media Baja

Clase Social

Mujeres55%

Varones45%

ESTADÍSTICA DESCRIPTIVALa estadística descriptiva se encarga de estructurar la información referente al fenómeno o experimento estudiado.



TIPOS DE VARIABLES Y SUS REPRESENTACIONES GRÁFICAS (II)

Cuantitativas (numéricas). Devuelven valores numéricos para cada caso.

Continuas. Existe un valor intermedio entre dos valores.

Ej. Talla

Discretas. Toma solo valores determinados.

Ej. Nº de hijos

Histograma y polígono de frecuencias Polígono de frecuencias acumuladas

00,10,20,30,40,50,60,70,80,9

1

140 150 160 170 180 190 200

Talla (cm)

Fre

cuen

cias

rel

ativ

as a

cum

ulad

as

0

5

10

15

20

25

Talla (cm)

n

Fi





PICTOGRAMAS

Tabla de frecuencias de una variable cualitativa o cuantitativa discreta.

Variable xi

ni fi F% Ni Fi

Frecuencia absoluta (ni):

Número de veces que aparece cada modalidad de la variable.

Frecuencia relativa (fi= ni/n):

Cociente entre frecuencia absoluta y tamaño muestral.

Frecuencia porcentual (F%= fi*100)

Frecuencia absoluta acumulada (Ni):

Suma de frecuencias absolutas de las modalidades inferiores o iguales a x i.

Frecuencia relativa acumulada (Fi):

Suma de frecuencias relativas de las modalidades inferiores o iguales a x i.

k

iinn

1

k

iif

1

1

Razón o cociente: Expresa una relación cuando las magnitudes son independientes. Ej. Razón entre varones y mujeres R=V/M.



Personas Enfermas Número Familias

Xi ni fi F%i Ni Fi F%acu.

1 16 16/50 32% 16 16/50 32%

2 20 20/50 40% 36 36/50 72%

3 9 9/50 18% 45 45/50 90%

≥4 5 5/50 10% 50 50/50 100%

Total 50

* EJEMPLO: Cualitativas y Cuantitativas Discretas.



Variable: Nº de personas con gripe en familias de 5 ó más miembros

Estadísticos Resumen de Variables Cuantitativas.

Medidas de Tendencia Central: Valor al que tienden a agruparse los datos

Media Aritmética (X). Suma de valores entre nº de casos.

Mediana (Me). Valor Observado que, ordenados los valores de forma creciente, divide el número de casos en dos partes iguales.

50% Me 50%

Moda (Mo). Valor observado que tiene mayor ni. (que más se repite)

n

xx

n

ii

1



Estadísticos Resumen de Variables Cuantitativas.

Medidas de Dispersión: Miden la variabilidad o dispersión de los datos.

Rango ó Amplitud (R). Diferencia entre el valor máximo observado y

el valor mínimo en la muestra. R=Máx-Mín.

Cuartiles (Q1, Q2, Q3). Rango intercuartílico (Q3-Q1). Percentiles

(Pi).

Varianza (2). Mide la distancia entre los valores y la media estimada.

Desviación Típica (). Es la raíz cuadrada de la Varianza.

Coeficiente de Variación (CV). Se usa para comparar distribuciones.

Suele expresarse en %.

n

iix x

nS

1

222 )(1

2sS

xCV



Medidas de forma: Permiten la descripción de la gráfica de la

distribución de frecuencias.

Medidas de simetría. Para saber si los valores de la variable

se concentran en una determinada zona.

Coeficiente de Asimetría de Pearson

Coeficiente de Asimetría de Fisher



As<0 As=0 As>0

Asimetría Negativa a la Izquierda

Simétrica

Asimetría Positiva a la Derecha.



Medidas de aplastamiento. El Coeficiente de Curtosis analiza el

grado de concentración que presentan los valores alrededor de la zona central

de la distribución. Se definen 3 tipos de distribuciones según su grado de

curtosis:

Coeficiente de Curtosis:

g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica).g2 < 0 (distribución platicúrtica).



La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, por ejemplo, el peso de niños recién nacidos, talla de jóvenes de 18 años en una determinada región, son continuas y se distribuyen según una función de densidad , que tiene la siguiente expresión analítica :

Donde μ es la media de la variable aleatoria y σ es su desviación típica. Este tipo de variables se dice que se distribuye normalmente. El área bajo la función de densidad es 1.

La función de densidad, en el caso de la distribución Normal, tiene forma de campana :

DISTRIBUCIÓN NORMAL

2

2

1

2

1)( e

x

xf





Estimación de Parámetros.

Error Muestral (Error estándar) (ET). Mide la dispersión de los estadísticos de todas las posibles muestras de la población.

Intervalos de Confianza (IC). Valores entre los cuáles se encuentra el valor de la población con una probabilidad p.

Muestras grandes. Se calcula a partir del ET.

Variables Cuantitativas. Si definimos el ET como ET=/n.

Calculamos el IC de la Media según el valor p.

Para p=0,95 (95%). IC=X 1,96.ET

Para p=0,99 (99%). IC=X 2,6.ET

ESTADÍSTICA BÁSICA Y BIVARIANTE



Estimación de Parámetros.

Variables Cualitativas. Si definimos el ET como ET=p(1-p)/n.

Calculamos el IC del porcentaje según el valor p.

Para p=0,95 (95%). IC=% 1,96.ET

Para p=0,99 (99%). IC=% 2,6.ET

Muestras pequeñas (n<30, n<100).

Variables Cuantitativas.

Según la tabla de la t de Student.

Variables Cualitativas.

Según la tabla de la Binomial

ESTADÍSTICA BÁSICA Y BIVARIANTE



ESTADÍSTICA BÁSICA Y BIVARIANTE Tipos de Hipótesis y Errores.

Tipos de Hipótesis.

Hipótesis Nula (H0). Cualquier Diferencia que observemos al azar.

Hipótesis Alternativa (H1). Difiere de H0, y es la diferencia excesiva no atribuible al azar.

Tipos de Error.

Error Tipo I (Error ).- Riesgo de equivocarse al rechazar H0

Error Tipo II (Error).- Riesgo de rechazar H1 siendo cierta.



Situaciones entre Hipótesis y Error.

H0 Cierta H1 Cierta

Rechazo H0 Error Tipo I Decisión correctap= (0,05) p=1- (poder o

potencia)

No rechazo H0 Decisión correcta Error Tipo II

p=1- p= (0,2)



Tests Estadísticos utilizados con mayor frecuencia entre

variables cualitativas.

Para medir la posible asociación entre dos variables cualitativas se

emplea el test ji-cuadrado de Pearson.

Si tenemos un 20 % de casillas con una frecuencia esperada menor

de 5 se aplica la corrección de Yates.

H0 %x = %y .

H1 %x %y .



Debemos decidir si existe evidencia significativa de que los porcentajes

de cada categoría en cada variable son iguales (aceptamos H0).

Si rechazamos H0 entonces aceptamos H1

Calculamos el valor 2Pearson = |Oi-Ei|2/Ei donde Oi es

el valor de frecuencias observadas y Ei el valor esperado en cada celda. A partir

de este valor estan tabulados los valores “p” asociados a cada uno de ellos y se

decide si se rechaza Ho.



Observadas Esperadas

x1 x2 x1 x2

y1 a b ny1 y1 a’ b’ ny1

y2 c d ny2 y2 c’ d’ ny2

nx1 nx2 N nx1 nx2 N

xi= Categoría variable 1, yi=Categoría variable2

ni=nº de casos marginales, N=Muestra total

a=número de casos de la categoría x1 de la variable 1 y con la categoría y1 de la 2.

b=número de casos de la categoría x2 de la variable 1 y con la categoría y1 de la 2.

c=número de casos de la categoría x1 de la variable 1 y con la categoría y2 de la 2.

d=número de casos de la categoría x2 de la variable 1 y con la categoría y2 de la 2.

a’=(nx1. ny1)/N; b’=(nx2 . ny1)/N; c’=(nx1. ny2)/N; d’=(nx2 . ny2)/N

Tablas de Frecuencia



2Pearson = |Oi-Ei|2/Ei = ((a-a’)2/a’) + ((b-b’)2/b’) + ((c-c’)2/c’) + ((d-d’)2/d’)

Miramos en la tabla 2 Li< 2

<Ls y obtenemos la p asociada o error tipo I.

La corrección de Yates es:

2Yates = (|Oi-Ei|-1/2)2/Ei = ((|a-a’|-0,5)2/a’) + ((|b-b’|-0,5)2/b’) + ((|c-c’|-0,5)2/c’)

+ ((|d-d’|-0,5)2/d’)

Como medida de Asociación usamos el valor “Odds Ratio” (OR).

OR = (a.c)/(b.d)



Test Exacto de Fisher

El contraste de homogeneidad mediante la prueba Chi-Cuadrado entre dos variables cualitativas (o también llamado contraste de independencia entre dos variables cualitativas) se basa en la comparación de las frecuencias obtenidas con las frecuencias esperadas.

La prueba exacta de Fisher está basada en la distribución exacta de los datos y no en aproximaciones asintóticas, y presupone que los marginales de la tabla de contingencia están fijos.

En general, cuando las frecuencias absolutas esperadas, en la gran mayoría de casillas o celdas son relativamente grandes (más de 5), se utiliza el estadístico Chi-Cuadrado para realizar el contraste mencionado.

•Cuando en un 20% de las casillas el valor esperado no es superior a 5, el estadístico anterior no es válido y generalmente se utiliza la prueba exacta de Fisher.•Habitualmente, la prueba exacta de Fisher es más conservadora que la prueba Chi-Cuadrado.•La prueba exacta de Fisher se aplica a variables dicotómicas

A continuación, se construyen todas las tablas de contingencia 2x2 posibles con celdas a’, b’, c’, d’, siendo 0 < a’ < mín{c1 , f1}, b’ = f1 –a’, c’ = c1 – a’ y d’ = f2 – c’. A partir de dichas tablas se calcula:

aa

ap'

'

Donde X! indica el factorial de X que se calcula como x·(x-1)·(x-2)·…·2·1,por ejemplo, 5!=5·4·3·2·1=120.

Test Exacto de Fisher

Para calcular el estadístico de contraste, se construye en primer lugar la tabla de contingencia de dimensiones 2x2 con las frecuencias absolutas observadas, con la notación siguiente:

B + - A

+ a b f1

- c d f2

c1 c2 n

El p-valor unilateral-izquierda es =

el p-valor unilateral-derecha es =

!'!'!'!'!

!!!! 2121' dcban

ccffpa

aa

ap'

'

y el p-valor bilateral resultante es:

aa pp

ap'

'

1720,0!18!19!4!1!42

!22!20!37!5'1

ap

0310,0!21!16!1!0!42

!22!20!37!5'0

ap

Ejemplo: A partir de la tablaF1 F2

C1 4 1 5C2 16 21 37

20 22 42

Calcular el valor p correspondiente al Test de Fisher:

1º Calculamos la tabla para a=0

entonces

2ºº Calculamos la tabla para a=1

entonces

F1 F2C1 0 5 5C2 20 17 37

20 22 42

F1 F2C1 1 4 5C2 19 18 37

20 22 42

3096,0!20!17!2!3!42

!22!20!37!5'3

ap

3440,0!19!18!3!2!42

!22!20!37!5'2

ap


entonces


Entonces

Para a=4 pa4=0,1253

Para a=5 pa5=0,0182

F1 F2C1 2 3 5C2 18 19 37

20 22 42

F1 F2C1 3 2 5C2 17 20 37

20 22 42

9818,01253,03096,03440,01720,00310,0'

' aa

ap

a’ Pa’0 0.03101 0.17202 0.34403 0.30964 0.12535 0.0182

Los valores de P para cada a’

1745,00310,00182,01253,0'

' aa pp

ap

El valor p unil-izq.es:

El valor p bilateral es

1435,00182,01253,0'

' aa

apEl valor p unil-der.es:

Prueba Test de Mc Nemar

Prueba no paramétrica para dos variables dicotómicas relacionadas.

Contrasta los cambios en las respuestas utilizando la distribución de chi-cuadrado.

Es útil para detectar cambios en las respuestas debidas a la intervención experimental en los diseños del tipo "antes-después“ o para comparar dos tipos de tratamiento.

Típicamente, un valor de significación menor que 0,05 se considera significativo, pero podemos establecer un nivel de significación distinto (0,01; 0,1….)

Matemáticamente el Estadístico de Mc Nemar se define por :cb

cbMN

22 )1(

En una tabla de contingencia:

B + - A

+ a b- c d

Nota: Para el valor p, se utiliza la Tabla de con 1 grado de libertad2

Ejemplo 1Se ejecutó la intervención educativa “Salud bucal” para modificar los conocimientos sobre higiene bucal en alumnos de tercer grado durante el primer semestre de 1998.

La tabla muestra los resultados obtenidos en conocimientos generales:Despues Inadecuado Adecuado

AntesInadecuado 14 102Adecuado 0 7

85120

10201

0120

)10102()1( 222

cb

cbMN

001,083,10852 pMN

Tabla de Pruebas para variables cualitativas

Variable 1 Variable 2 Muestra “Grande” Muestra “pequeña”

Cualita. (2 cat.) Cualita. (2 cat.) 2 de Pearson Test de Fisher

Cualita. (2 ó más cat) Cualita. (2 ó más cat) 2 de Pearson Correción de Yates

Muestras RelacionadasDiseños del tipo "antes-después“ o para comparar dos tipos de tratamiento.

Cualita. (2 cat.) Cualita. (2 cat.) Test de Mc Nemar



Si hay más de un 20% de celdas con frecuencia esperada < 5 ó algún valor 0, muestra pequeña.

Test Estadístico utilizado con mayor frecuencia entre variables cualitativas y cuantitativas.

Para medir la posible asociación entre una variable cualitativa y una variable cuantitativa, decidimos si existe diferencia de medias en la variable cuantitativa según el grupo de la variable cualitativa.

Empleamos el test de la t de Student si la variable cualitativa es dicotómica (tiene dos categorías) y el ANOVA si tiene más de 2 categorías. En ambos casos la distribución de la cuantitativa se asume como “Normal”.

Veamos el caso de la T-student

H0 1 = 2 .

H1 1 2.

Si S2=((n1-1).S12) + ((n2-1).S2

2) / (n1 + n2 -2). S= S2

t= (1 + 1 )/ (S. (1/ n1) + (1/ n2).

Miramos en las tablas de la distribución t el valor “p” asociado: Si es < de 0,05 rechazo H0 (diferencia de medias estadísticamente significativa). Si > de 0,05 rechazo H0 (no encontramos evidencia de que exista diferencia de medias).



Tipos de Pruebas Estadísticas.

Paramétricas. Para variables cuantitativas “normales”.

No Paramétricas. Para variables cuantitativas “no normales”.

TCL (Teorema Central del Límite).

Si n>30 Distribución Normal.



Variable 1 Variable 2 Test Paramétrico Test No Paramétrico

Cualita. (2 cat.) Cuantitativa t de Student U de Mann Whitney

Cualita. (2 ó más cat) Cuantitativa ANOVA Kruskal-Wallis

Cuantitativa Cuantitativa Correlación/ Regresión Rho (r) de Spearman

Regresión. r de Pearson

Tabla de Pruebas para variables cuantitativas



23

38 39

22

70

8

0

10

20

30

40

50

60

70

80

FumadorActual

No Fumador Ex-Fumador

%

Varones

Mujeres

390

400

410

420

Varones Mujeres

Co

lest

ero

l






Teorema original de Pitágoras. (Distancias euclídeas)


Documents

David Cao Carreño Primer Premio de Fotografía (Libre) S.A.E.M. THALES SEVILLA CONCURSO DE FOTOGRAFÍA Y MATEMÁTICAS E IMÁGENES MATEMÁTICAS Epidemiología