Curso de BioestadísticaParte 9
Comparación de dos medias
Dr. en C. Nicolás Padilla RaygozaDepartamento de Enfermería y ObstetriciaDivisión Ciencias de la Salud e Ingenierías
Campus Celaya-SalvatierraUniversidad de Guanajuato México
Presentación
Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina
Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic
International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic
International University. Profesor Asociado B, Departamento de Enfermería y
Obstetricia, División de ciencias de la Salud e ingenierías, Campus Celaya Salvatierra, Universidad de Guanajuato.
Competencias
Aplicará prueba de Z para obtener inferencias de la comparación de dos medias pareadas.
Aplicará prueba de Z para obtener inferencias de dos medias independientes.
Aplicará prueba de t para dos medias pareadas en una muestra pequeña.
Aplicará prueba de t para dos medias independientes en una muestra pequeña.
Obtendrá el intervalo de confianza para dos medias pareadas e independientes.
Introducción
Con frecuencia queremos hacer comparaciones de dos grupos.
Los métodos estadísticos usados para la comparación de dos medias dependen de cómo las dos medias fueron obtenidas. Los datos pueden ser obtenidos de muestras pareadas o no pareadas.
Datos pareados
¿Cómo obtenemos datos pareados? Muestras pareadas ocurren cuando las
observaciones individuales en la primera muestra son pareadas a las observaciones individuales de la segunda muestra.
Para datos cuantitativos usualmente ocurre cuando hay mediciones repetidas en la misma persona.
Ejemplo
En un estudio para determinar si las mediciones de peso al nacer son adecuadas, se comparó el peso al nacer de recién nacidos de un hospital en Celaya, Gto.
Las mediciones fueron realizadas por diferentes personas, para controlar el sesgo de medición, estando un observador cegado a la medición del otro observador.
Datos no pareados
¿Cómo obtenemos datos no pareados? Obtenemos datos no pareados cuando
observaciones individuales en una muestra son independientes de las observaciones individuales de la segunda.
Ejemplo
Para estudiar los efectos de un nuevo medicamento para tratar la carga parasitaria de Ascaris lumbricoides, los pacientes fueron aleatorizados para recibir nitazoxanida (grupo A) y albendazol (grupo B).
El efecto del medicamento en cada grupo fue medido y comparado.
En el análisis de datos pareados calculamos la diferencia entre la primera y la segunda medición. Esto nos da una muestra de diferencias, para luego aplicar los métodos de análisis para datos cuantitativos de una muestra.
Análisis de datos cuantitativos pareados Cuando analizamos datos pareados, lo primero es calcular la
diferencia entre las dos observaciones individuales en cada par. Se midieron los pesos al nacer del recién nacidos en Celaya,
por dos observadores.Paciente Observador 1 (g) Observador 2 (g) Diferencia
(d)
1 2970 3010 - 40
2 3525 3650 -125
3 3100 3125 - 25
4 2750 2550 200
5 4000 4050 - 50
6 3200 3300 -200
7 3000 3000 0
8 2500 2700 -200
9 3200 3400 -200
10 3900 3700 200
Análisis de datos cuantitativos pareados Para evaluar la diferencia en mediciones pareadas podemos calcular la
media de las diferencias y su intervalo de confianza; también podemos calcular si la media de las diferencias es significativamente diferente de 0.
La notación que usamos para indicar la media de las diferencias y desviación estándar en la muestra y la población se muestran:
Población Muestra
Media de las
diferencias
_
δ
_
d
Desviación estándar
_
σ
_
s
Intervalo de confianza
Si no hay diferencia entre las mediciones pareadas, la media de las diferencias será 0.
Para calcular el intervalo de confianza de la media de las diferencias de la muestra y probar la hipótesis de que es igual a 0, necesitamos conocer: La media de las diferencias La desviación estándar de las diferencias El error estándar de la media de las
diferencias
Intervalo de confianza
Podemos calcular el intervalo de confianza alrededor de la media de las diferencias de la muestra en la misma forma que los hicimos para la media de una muestra.
El intervalo de confianza al 95% nos dice que tenemos 95% de confianza de que la verdadera media de la población está entre el intervalo de confianza al 95% a los lados de la media de la muestra.
Intervalo de confianza
La fórmula general para el intervalo de confianza al 95% es: Estimación de la muestra ±1.96 x ES de la estimación
de la muestra Entonces el intervalo de confianza al 95% para la
media de las diferencias es: δ±1.96 x (s(δ)/√n)
δ es la media de las diferencias. 1.96 es el multiplicador que usamos al calcular el
intervalo de confianza al 95%. Si lo calculamos al 90% usamos 1.64 como
multiplicador.
Ejemplo
Intervalo de confianza al 95% d de pesos al nacer = -34.0 s= 140.94 ES= 140.94/√10=44.52 -34±1.96 (44.52) = -121.42 a 53.42
Ejemplo
Intervalo de confianza al 90% d de pesos al nacer = -34.0 s= 140.94 ES= 140.94/√10=44.52 -34±1.64 (44.52) = -107.14 a 39.4
Prueba de hipótesis para una media de diferencias Un intervalo de confianza al 95% nos da un
rango de valores a los lados de la media de las diferencias que estamos confiados en un 95% que incluye la media de diferencias en la población.
También podemos calcular la probabilidad de que, en promedio, no hay diferencia entre las observaciones pareadas en la población, usando una prueba de hipótesis.
Prueba de hipótesis para una media de diferencias La hipótesis nula es que la media de las
diferencias en la población es cero:Ho: δ = 0
Esto es equivalente a decir que la distribución de la media de las diferencias de la muestra es Normal, con media 0 y un error estándar que depende de la desviación estándar de la diferencia en la población.
La hipótesis alternativa es que la media de la diferencia en la población no es cero: HA: δ ≠ 0
Prueba de hipótesis para una media de diferencias La prueba de hipótesis:
Para probar la hipótesis nula calculamos la prueba Z
Media de las diferencias de la muestra –
media de las diferencias de la hipótesis d - 0
z = ----------------------------------------------------- = ------------
error estándar de la diferencia de ES(d)
medias de la muestra Donde la media de las diferencias de la hipótesis es cero.
Prueba de hipótesis para una media de diferencias Calcular el valor de z en la prueba de
hipótesis, nos dice a cuantos errores estándar de la media observada está el centro de la distribución, definida por la hipótesis nula.
δ - 0
Z= -----------------
S(δ) /√n
Ejemplo
Hemos visto que la media de la diferencia de peso en 10 recién nacidos fue de -34, con s=140.9 e intervalos de confianza al 95% de -121.42 a 53.42 gr.
Queremos encontrar si las mediciones tomadas por los dos observadores fueron realmente diferentes.
Ejemplo
Debemos señalar la hipótesis nula: “En promedio, todas las mediciones posibles
tomadas por los dos observadores son idénticas”, o
La media de las diferencias en la población es cero.
La hipótesis alternativa será: la media de la diferencia en la población no es cero.
Ejemplo
-34 – 0Para probar la hipótesis calculamos z = ----------- = - 0.76 44.52
Asumiendo que la media de las diferencias está Normalmente distribuida con media de cero, el resultado de la prueba dice que la media de las diferencias estimada está a -0.76 errores estándar del centro de la distribución.
Refiriendo el valor de z de -0.76 a las tablas de dos colas de la distribución Normal estándar el valor de p es 0.44.
La conclusión es que aceptamos la hipótesis nula y decimos la variación de muestreo es una probable explicación para las diferencias en las medias.
Como obtener el valor de p
En la tabla de la distribución Normal o Z, buscamos en la columna Z el valor que obtuvimos con nuestra prueba y vemos en la columna p el valor que corresponde.
Esta tabla se puede encontrar en libros de texto de Bioestadística.
Muestras pareadas pequeñas
Cuando el tamaño de muestra es pequeño, la distribución de las muestras no es exactamente Normal, pero sigue la distribución t.
Por este motivo, si el tamaño de muestra es pequeños (menos de 50) usamos los valores de la distribución t, para el cálculo del intervalo de confianza y prueba de hipótesis.
Intervalo de confianza para muestras pareadas pequeñas La fórmula para el intervalo de confianza al 95% es
estimación ± t0.05 (ES)
Donde estimación es la media de las diferencias t0.05 es el valor de la distribución t a 0.05 de p con n-1
grados de libertad. La primera columna de la distribución t es grados de
libertad que corresponde a n-1. Vamos a la derecha hasta donde cruce el valor que corresponda con p 0.05 y ese es el multiplicador que usamos para el intervalo de confianza.
Prueba de hipótesis para muestras pareadas pequeñas La fórmula para la prueba de hipótesis es:
t = media de diferencias – 0 /ES La fórmula es similar que la prueba de Z, sólo
que el resultado, para obtener el valor de p, se busca en la tabla de la distribución t.
La primer columna es grados de libertad (n-1) y se busca a la derecha el valor de t que obtuvimos y en la columna se comprueba el valor de p.
Análisis de muestras independientes
Difiere del análisis de datos pareados, ya que observamos la diferencia entre dos medias independientes en lugar de la media de las diferencias de dos observaciones pareadas.
Ejemplos ¿Los fumadores tienen diferente presión arterial que
los no fumadores? En una muestra de fumadores y no fumadores:
La presión arterial sistólica fue en promedio de 148 y entre no fumadores de 138.
La diferencia en medias es 148-138 =10.
Análisis de muestras independientes
Notación: Ya que estamos observando dos poblaciones
independientes y dos muestras son necesarias, necesitamos notaciones adicionales. Que se muestran en la tabla de abajo:
Recuerde que usamos letras griegas para parámetros de la población y letras latinas para estimaciones de la muestra:
Los números inferiores nos sirven para diferenciar entre la muestra 1 y la muestra 2, y entre las poblaciones 1 y 2.
Población Muestra 1 2 1 2
_ _Media μ1 μ2 X1 X2
Desviación estándar σ1 σ2 s1 s2
Distribución de muestreo para dos muestras independientes La distribución de muestreo de la diferencia entre
dos medias independientes es encontrada usando los mismos procedimientos usados para una sola muestra.
Tomamos repetidamente muestras aleatorias de tamaño n1 y de tamaño n2 de una segunda población y cada vez calculamos las medias (x1,x2) y las desviaciones estándar (s1, s2) en ambas poblaciones y luego medimos la diferencia entre las medias para cada par de muestras.
El resultado es una distribución de muestreo de diferencias entre las dos medias independientes.
Distribución de muestreo para dos muestras independientes Generando esta distribución podemos ver que:1.- La media de la distribución de muestreo es el valor de la
población, que es la diferencia entre las dos medias de la población.
2.- La desviación estándar de la distribución de muestreo depende de n1 y n2, que son los tamaños de muestra.
3.- La forma de la distribución se vuelve más parecida a la Normal cuando n1 y n2, se incrementan.
Sabemos que la distribución de muestreo de cualquier estimación de la muestra puede ser inferida de los datos reunidos de sólo una muestra.
Los mismos principios aplican en este caso: la distribución de muestreo de la diferencia de medias puede ser inferida de sólo un grupo de dos muestras. Para realizar esto, necesitamos: La diferencia entre las dos medias de las muestras El error estándar de la diferencia entre las dos medias de las muestras
Error estándar para la distribución de la diferencia de medias El error estándar de la diferencia entre dos medias
independientes es la combinación de los errores estándar de las dos distribuciones de muestreo independiente.
Sabemos que el error estándar de una media de la muestra es:
s
ES = --------
√ n Varianza de la media es el cuadrado del error
estándar: Varianza = σ2 / n
Error estándar para la distribución de la diferencia de medias Se puede mostrar que la varianza de dos medias independientes es
igual a la suma de las varianzas de las dos medias de las muestras, ya que:
σ1 σ2ES (X1) = ------- ES (X2) = -------- n n _ _ σ21 σ22Varianza (X1 –X2) = varianza de X1 + varianza de X2 = --------- + ------- n n Las varianzas son sumadas debido a que cada una de las muestras
contribuye al error de muestreo de la distribución de las diferencias. Entonces, el error estándar de la diferencia entre dos muestras
independientes es dado por:
σ21 σ2
2 ES (X1 – X2) = √ ------- + ------ n1 n2
Error estándar para la distribución de la diferencia de medias En la mayoría de las situaciones no
conocemos las desviaciones estándar de la población (σ1 y σ2); en la práctica comúnmente, usamos las desviaciones estándar de la muestra (s1 y s2), por lo que:
s21 s2
1
ES(X1 – X2) = √ ------- + ---------
n1 n2
Intervalo de confianza para la diferencia de dos medias Asumiendo que la distribución de muestreo
de (X1 – X2) es Normal, podemos calcular el intervalo de confianza para la diferencia entre dos medias usando la fórmula general:
Diferencia en medias ± 1.96 (ES (X1 –X2)) Para un intervalo de confianza al 95%,
asumiendo distribución Normal:
_ _
(X1 – X2) ± 1.96 [√(s21 / n1) + (s2
1 / n2)]
Ejemplo
En un estudio para evaluar la eficacia de la solución de rehidratación oral (SRO) en niños con diarrea aguda, 40 niños estuvieron en el grupo de tratamiento y 40 en el grupo control. Se midió la duración media en horas de la diarrea y la desviación estándar.
Grupo n Media de duración de diarrea s
Tratamiento 40 72 10
Control 40 120 12
Ejemplo
Para calcular el intervalo de confianza al 95% para la diferencia en medias de muestras independientes, necesitamos primero calcular la diferencia en medias y el error estándar:
_ _ X1 – X2 = 72 – 120 = - 48 horas
s21 s2
2 102 122
ES(X1 – X2) = √ -----+ ----- = √------ + ---- =√2.5+3.6 = 2.47 n1 n2 40 4095% IC = -48 ± 1.96 (2.47)= - 52.8 a – 43.16
Ejemplo
La diferencia en medias fue de -48 horas con un error estándar de 2.47.
Los intervalos de confianza al 95% nos dicen que tenemos 95% de confianza en que la diferencia en las medias de la duración de diarrea en toda la población está entre – 52.8 horas y -43.16 horas.
Como no incluye la unidad, puedo adelantar que las diferencias en las medias son estadísticamente significativas.
Prueba de hipótesis para dos medias independientes Para calcular la probabilidad (valor de p) de que las dos medias
son iguales, usamos la prueba de hipótesis. Usamos la prueba de z en la misma forma, que lo hicimos para
la media de diferencias de muestras pareadas: La hipótesis nula es que las dos medias son iguales: Ho:
μ1 – μ2 = 0 La hipótesis alternativa es: H1: μ1 - μ2 ≠ 0 Así, la fórmula para la prueba de z es:
_ _ (X1 – X2) - 0z = ------------------
ES(X1 –X2)
ES (X1 –X2) = √(s21 /n1) + (s2
1 /n2)
Ejemplo Apliquemos la prueba de hipótesis para el estudio de solución de
rehidratación oral, de que la duración de la diarrea es en promedio la misma para ambos grupos. La diferencia de medias es – 48 horas. El error estándar es 2.47.
- 48 - 0 Z = ----------- = - 19.43 2.47
Esto nos dice que la diferencia observada es -19.43 errores estándar del centro de la distribución (0).
El valor de p, para z = - 19.43 es <0.0001 Si no hubiera diferencia en la duración de la diarrea entre los dos
grupos, debería haber una pequeña oportunidad (p<0.0001) de observar una diferencia tan extrema como la observamos.
Podemos decir que es más probable que la diferencia entre las dos medias sea diferentes, o sea, que la diferencia en el promedio del grupo con SRO con el control, son estadísticamente diferentes.
Muestras pequeñas con dos medias independientes Cuando comparamos dos muestras independientes
que son pequeñas, usamos la distribución t en lugar de la distribución Normal para calcular los intervalos de confianza y para probar hipótesis.
El procedimiento es similar al que hemos usado para datos de una muestra, con una excepción: el cálculo del error estándar.
La varianza común: Con muestras pequeñas estimamos una varianza
común usando los datos de dos muestras independientes. Es el promedio de las dos varianzas:
(n1 – 1)s21 + (n2 -1)s2
1 S2 = --------------------------- (n1 – 1) + (n2 -1)
Muestras pequeñas con dos medias independientes El error estándar de la diferencia entre la
media de la muestra es:
ES(X1-X2) = s x √1/n1 + 1/n2
Ejemplo
En un estudio para el tratamiento de anemia por deficiencia de hierro, con dos tipos diferentes de hierro, se aleatorizaron los escolares de un pueblo, para recibir uno u otro tratamiento.
Al inicio, los niveles de hemoglobina (HB) en g/Dl. eran similares en ambos grupos.
Después de 3 meses de tratamiento se midieron los niveles de HB.
Ejemplo
Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5Hierro B 13 12.1 1.1Intervalo de confianza al 95% = diferencia de
medias ± multiplicador t0.05 x ES
Multiplicador t0.05 con n-2 grados de libertad = 2.056
S2 = (15-1)0.52 + (13 -1)1.12 /15-1 + 13-1 =3.5 +14.52/26 = 18/26 =0.69
Ejemplo
Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5Hierro B 13 12.1 1.1Intervalo de confianza al 95% = 14.8 - 12.1 ±
2.056 x 1.21ES = s √1/n1 + 1/n2 = √0.69 x√1/15 + 1/13=0.83 x 0.379 = 0.32 IC95% = 2.7± 0.66 = 2.04 a 3.36
Ejemplo
Hemoglobina n Media (g/Dl.) s Hierro A 15 14.8 0.5Hierro B 13 12.1 1.1
Ho: µ1=µ2 o µ1-µ2= 0
HA: µ1≠µ2 o µ1-µ2≠ 0t= (14.8 - 12.1)-0 / 0.32 = 8.44gl n-2 = 26 p<0.05
Bibliografía
1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173.
2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4.
3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.