12
!"# $% ! & ’ ( $ 2 )) !"# $% & ’$ ( )! & *($$+% ( & * $ !" " ! ," ($" $ - (.$ !- " " & +% ./ $$ & ,-, $ ," . -% # ," 0 # $ ! 01 " 2 3 ( .4 $ 4$ " " ($" $ - . # !/ " . " " ($ "$% $ (.$ 2.3 !- - *. 5 .+% $ !"$ ," $ (.$ 263 *7. 5 "4+% # ,"8 . . 9 $ $ .$- $ ," 7 68 $ "% $ ," $ % $ !" :7# ; - . 7. # "4< $ 8 $ 7 "% ," $ ;"= $ - $ (.$ $ >! >$( *>>+ ? @ " ,"($% $ > *>+ &4 $ !! ("$= $ ! 0 A # "- $= $ 9$ !! *# $;+ 0 B # 01 C 1) Introducción Vamos a trabajar con el ejemplo de un estudio de obesidad e hipertensión. En esta base de datos, la variable “obesidad” es categórica (obeso / no obeso) y querríamos saber si está relacionada con el “sexo” (otra variable categórica con dos posibles valores, hombre / mujer); esto es, responder a la pregunta ¿hay diferente proporción de obesos entre hombres y mujeres? La tabla de datos: "PRESION ARTERIAL Y OBESIDAD.xls", está disponible en el aula virtual de fabis y se muestra en el Anexo I de este documento. Se trata de un pequeño estudio transversal (n = 50) en el que se han recogido cinco variables: Edad: v. cuantitativa medida en años cumplidos Sexo: v. cualitativa dicotómica (1=hombre; 2=mujer) Tensión diastólica (PAD): v. cuantitativa medida en mm de Hg Tensión sistólica (PAS): v. cuantitativa medida en mm de Hg Obesidad: v. cualitativa dicotómica (1=obeso; 2=No obeso)

˘ ˇ ˆ - · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

Embed Size (px)

Citation preview

Page 1: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

���������������������������� � �������� �

� ��� ����

������� �����

���� ��� ������

����� ������� � ���� �� ����� ��� ���������� ��� � ������ ��������� ���� ������� �� ��������������� ���� �������� ����� !"#�$�%�!����������������������&�������'���������������(���������$�2))�

�!"�#� ����$�% &������

'�����$ ��(������� )�!�� &������ *��($$�+% ���(� �� &���� ��������

*������

�$ ���������� � ��!"� "���� ���!���� ,"� �(�$"�� $� ����-� ����� ��� (���.$�� ���!-��� �� �����"� "�� ��&��������+�����% ���./� $$����� ��&��,-, �� �$ ��� �� ,"� ��.�� ���� ���-���% # ,"� �� �0�� # �� �$ ���!���� �0���1 �� ����� ��� ������������ ���� ��� �� ���� ��"����� 2���� � ����3 (���� � ���.�4�� �� �$ �4���$� �� "� ���"�� ����� ����������� �(�$"�� $� ����-� ����� �.����� # !/���� �� "�� .��� �� ����� �� "� ���"�� �����(����$ ��"$���% ����� $� (���.$� 2�.�����3 �� ���!-�� ���-�� *�.��� 5 �� �.���+% �$ !"�$ ,"� $� (���.$� 2��6�3 *7��.�� 5 �"4��+% # ,"���8���� ��.�� � ��.�� ���9� ��$������� �� $� ��.$�-� �� $� ,"� �� 7� �6���8�� $� �"�����% � $� ,"� �� $� ����% ��������� � $� ���!"��� :7�# �;������ ������-� �� �.���� ����� 7��.��� # �"4����< �$ �����8��� �� �������� �� $� �7 "������% ������� ,"� $� ����� �� ;"��=� �� $� ����-� ����� $�� ��� (���.$�� �� �$ >��!� >�$��(� *>>+ ?���������������������� �������������������������������������������������������������@ � �" �,"(�$����% $� ���� >��� *�>+� &���4������ $�� ����� ����!��!���� � ��(�"�$=���� �� �$ ���!���� �0�� ���� ����A� # � ����"�-� ���$=������ �$ ��9$�� �� ����� �!��!���� *#� $��;����+ �� �0����� B�� # �� �0���1 �C�

1) Introducción Vamos a trabajar con el ejemplo de un estudio de obesidad e hipertensión. En esta base de datos, la variable “obesidad” es categórica (obeso / no obeso) y querríamos saber si está relacionada con el “sexo” (otra variable categórica con dos posibles valores, hombre / mujer); esto es, responder a la pregunta ¿hay diferente proporción de obesos entre hombres y mujeres? La tabla de datos: "PRESION ARTERIAL Y OBESIDAD.xls", está disponible en el aula virtual de fabis y se muestra en el Anexo I de este documento. Se trata de un pequeño estudio transversal (n = 50) en el que se han recogido cinco variables:

• Edad: v. cuantitativa medida en años cumplidos

• Sexo: v. cualitativa dicotómica (1=hombre; 2=mujer)

• Tensión diastólica (PAD): v. cuantitativa medida en mm de Hg

• Tensión sistólica (PAS): v. cuantitativa medida en mm de Hg

• Obesidad: v. cualitativa dicotómica (1=obeso; 2=No obeso)

Page 2: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�!"�#� ����$�% &����� ��"��. ;�.����!

����������� ���� � ��� ����

2) Operaciones en el programa SPSS: Con la base de datos abierta (ya sea porque se ha importado desde Excel ya sea porque se han tecleado directamente los valores de las variables en el SPSS) en la ventana de datos del SPSS, activamos la secuencia:

Analizar > Estadísticos descriptivos > Tablas de contingencia.

Por consenso en los estudios epidemiológicos, colocamos en la ventana "Filas" la variable que consideremos como independiente (criterio o exposición), y en la ventana "Columnas" la variable dependiente (resultado, efecto, outcome). En otros casos dará igual, porque no hay direccionalidad en la relación, como en nuestro ejemplo, donde al tratarse de un estudio transversal éste aspecto no está considerado.. Es interesante señalar la celdilla de "Mostrar los gráficos de barras agrupadas".

En la pestaña "Estadísticos..." vamos a marcar Chi cuadrado y Riesgo.

El resultado que se obtiene en la ventana de resultados del SPSS es el siguiente:

Page 3: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�-�� ���$=�� D���� � ����D "� �������� �� 7�-���� �� �0�� ���� ����A� # �$������(������ �� �0����� # �0���1� *�+ ����-� ����� ��� (���.$�� ���!-��� #

���� �7@"������ *E�+�

;�.����!% ����

����������� ���� � ��� ����

Tablas de contingencia Resumen del procesamiento de los casos

Casos

Válidos Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

GENERO * PRESENCIA DE OBESIDAD

50 100,0% 0 ,0% 50 100,0%

Esta primera tabla explica el total de casos analizados y si hubo casos perdidos (individuos que no tuvieran un valor recogido en alguna de las dos variables analizadas en el contraste). Luego aparece la tabla de contingencia, que en este caso concreto es una tabla 2x2. Si previamente habíamos señalado la casilla correspondiente (filas) en la pestaña "Casillas..." se nos mostrarán los recuentos en cada celda y sus porcentajes respecto a la fila: Tabla de contingencia GENERO * PRESENCIA DE OBESIDAD

PRESENCIA DE OBESIDAD

obeso no obeso Total

Recuento 22 6 28 hombre

% de GENERO

78,6% 21,4% 100,0%

Recuento 11 11 22

GENERO

mujer

% de GENERO

50,0% 50,0% 100,0%

Recuento 33 17 50 Total

% de GENERO

66,0% 34,0% 100,0%

E inmediatamente aparece la ventana con el contraste Chi cuadrado. SPSS realiza la Chi cuadrado y aporta también la corrección por continuidad (corrección de Yates), la razón de verosimilitud, el test exacto de Fisher y otro contraste que se llama Asociación Lineal por Lineal. Pruebas de chi-cuadrado

Valor gl Sig. asintótica

(bilateral) Sig. exacta (bilateral)

Sig. exacta (unilateral)

Chi-cuadrado de Pearson 4,482(b) 1 ,034

Corrección por continuidad(a) 3,299 1 ,069

Razón de verosimilitud 4,509 1 ,034

Estadístico exacto de Fisher ,042 ,035

Asociación lineal por lineal 4,392 1 ,036

N de casos válidos 50

a. Calculado sólo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 7,48.

Por último, el programa SPSS -si se lo hemos indicado marcando “Riesgo”- nos hace una evaluación de la fuerza que asocia (o no) a ambas variables, calculando OR y RR. En la siguiente salida vemos que la OR que ha calculado es 3,667 (hombre/mujer), que se lee: "los hombres tienen un riesgo 3,7 veces el de las mujeres para tener obesidad".

Page 4: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�!"�#� ����$�% &����� ��"��. ;�.����!

����������� ���� � ��� ����

Si recordáis, la OR se calcula como el producto cruzado (a x c) / (b x d) en la tabla 2x2. Efectivamente, en este ejemplo tenemos que OR = 22 x 11 / 6 x 11= 3,66666...

Obeso No obeso Hombre 22 6 Mujer 11 11

También nos aporta el IC95% para la OR, que se sitúa entre 1,072 y 12,547. Con ello sabemos dos cosas: primero que el contraste de hipótesis debe ser significativo, esto es, que se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1 (el riesgo de obesidad sería el mismo entre hombres y mujeres, y por tanto no habría relación entre género y obesidad); segundo que el intervalo de confianza es muy ancho y, por tanto, la estimación que hacemos de la verdadera OR (en la población) muy imprecisa, llegando a concluir que el riesgo de obesidad es superior en hombres que en mujeres, pero con un rango de incremento del riesgo que podría ir desde el 7% al 1.155%, o lo que es lo mismo, que el riesgo de obesidad en hombres es entre 1,07 y 12,5 veces el de las mujeres. Estimación de riesgo

Intervalo de confianza al 95%

Valor Inferior Superior

Razón de las ventajas para GENERO (hombre / mujer) 3,667 1,072 12,547

Para la cohorte PRESENCIA DE OBESIDAD = obeso

1,571 ,992 2,490

Para la cohorte PRESENCIA DE OBESIDAD = no obeso

,429 ,188 ,976

N de casos válidos 50

Por último podemos ver el gráfico de barras agrupadas para cada categoría de la variable dependiente (en nuestro caso obesidad). A simple vista se aprecia la mayor proporción de obesos entre los hombres.

hombre mujer

GENERO

0

5

10

15

20

25

Re

cu

en

to

PRESENCIA DE OBESIDAD

obeso

no obeso

Gráfico de barras

3) Operaciones con el programa EPI-INFO:

Si tenemos datos agrupados o clasificados por dos variables categóricas, es posible recurrir

Page 5: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�-�� ���$=�� D���� � ����D "� �������� �� 7�-���� �� �0�� ���� ����A� # �$������(������ �� �0����� # �0���1� *�+ ����-� ����� ��� (���.$�� ���!-��� #

���� �7@"������ *E�+�

;�.����!% ����

����������� ���� � ��� ����

en el programa EPIINFO a evaluar si hay diferencias en las proporciones de “resultados” según los grupos formados por la variable “independiente”, ya sea a través del cálculo de los intervalos de confianza de cada proporción, la comparación de las dos proporciones o directamente mediante el contraste de hipótesis Chi cuadrado en una tabla 2x2. Veremos los tres métodos o procedimientos:

b.1. Cálculo de los INTERVALOS DE CONFIANZA DE UNA PROPORCIÓN.

En el programa EPI-INFO 6.0, se selecciona la calculadora EPITABLE:

Y ya en EPITABLE se activa la opción Describe > Proportion > Simple random sampling.

Deben calcularse los intervalos de confianza de la proporción de obesos en cada grupo o estrato establecido por la variable criterio “sexo” (hombres y mujeres). En las correspondientes casillas hay que introducir: Numerator (numerador): individuos del grupo que tienen obesidad (en nuestro caso 22).

Page 6: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�!"�#� ����$�% &����� ��"��. ;�.����!

����������� ���� � ��� ����

Total Observations (denominador): total de individuos del grupo evaluado (en nuestro caso 28 hombres) Así, la proporción (Proportion) de obesos entre los hombres es de 22 / 28 = 78,57%.

Vemos como para esta estimación puntual (78,57%) el programa EPIINFO calcula unos intervalos de confianza (95% CI), por tres métodos. El más adecuado para muestras pequeñas es el método exacto por la distribución binomial (Exact binomial 95% CI), que en este caso da un valor entre 59,05% y 91,7%. Ahora debe hacerse lo mismo en el grupo de mujeres. Abandonas (Quit) y vuelves a entrar, para calcular la proporción de obesidad entre las mujeres, que es de 11 / 22 = 50%

Vemos que EPI-INFO calcula un IC95% para esta proporción que va de 28,22% a 71,78%. Estos dos intervalos de confianza son muy grandes, por los pocos casos que hay en la muestra analizada, y se superponen en un pequeño rango de valores (el que va desde

Page 7: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�-�� ���$=�� D���� � ����D "� �������� �� 7�-���� �� �0�� ���� ����A� # �$������(������ �� �0����� # �0���1� *�+ ����-� ����� ��� (���.$�� ���!-��� #

���� �7@"������ *E�+�

;�.����!% ����

����������� ���� � ��� ����

59,05% a 71,78%), siendo muy difícil tomar una decisión con estos datos. La estimación de la proporción verdadera de obesidad en la población de la que procede nuestra muestra es muy imprecisa, por lo que aun siendo la estimación puntual muy diferente en el grupo de hombres y de mujeres (78,6% versus 50%) no es posible asegurar con un bajo error a equivocarse de que dicha diferencia no se deba al azar.

b.2. Comparar dos proporciones con EPI-INFO. La segunda opción es la tradicional, con el contraste de hipótesis que nos permite adoptar una decisión sobre la no-desigualdad (hipótesis nula) de dos proporciones. Entramos en EPITABLE y activamos sucesivamente Compare > Proportion > Percentages

Y una vez dentro, debes seleccionar 2 en la pregunta ¿How many samples?, ya que queremos comparar proporciones en dos grupos, los establecidos por la variable dicotómica “sexo”. En el siguiente cuadro de diálogo debes introducir los porcentajes puntuales de obesos en cada muestra (muestra 1 = hombres; muestra 2 = mujeres), y el número total de observaciones en cada una de ellas. EPI-INFO calcula el test Chi cuadrado correspondiente, que, como puedes comprobar, arroja idéntico resultado al obtenido con SPSS en la tabla de contingencia.

b.3. Tablas de contingencia con EPI-INFO.

El subprograma para este análisis es la calculadora STACALC de EPIINFO. En ella debemos introducir los datos brutos (recuentos o frecuencias absolutas) en las correspondientes celdillas de una tabla de doble entrada.

Page 8: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�!"�#� ����$�% &����� ��"��. ;�.����!

����������� ���� � ��� ����

Y ahora se selecciona tablas (2 x 2, 2 x n):

En esta calculadora hemos de introducir nosotros directamente los valores de cada celdilla de la tabla de contingencia, dándole a la tecla <enter> para pasar a la celdilla siguiente, y finalmente a la tecla de función <F4> para calcular. Nos va a proporcionar tanto las medidas de asociación (Odds ratio y Riesgo relativo) como sus intervalos de confianza (Límites de Confianza), así como el test de hipótesis Chi cuadrado (Valor-Chi y Valor-P), con sus correspondientes correcciones (de Mantel-Haenszel y de Yates).

Page 9: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�-�� ���$=�� D���� � ����D "� �������� �� 7�-���� �� �0�� ���� ����A� # �$������(������ �� �0����� # �0���1� *�+ ����-� ����� ��� (���.$�� ���!-��� #

���� �7@"������ *E�+�

;�.����!% ����

����������� ���� � ��� ����

Como puede verse se ha calculado la OR (y un intervalo de confianza al 95%, que llama de Cornfield, y que es algo más grande que el que proporciona SPSS), y el RR (que lógicamente no tiene sentido si se trata de un estudio de casos y controles o de un diseño transversal). Inmediatamente después nos muestra el contraste Chi cuadrado, sin corrección (p = 0,0342…) y con corrección de Yates (p = 0,0693…).

4) Operaciones con el programa EPIDAT 3.1. De forma parecida a como se procede en EPIINFO cuando se tienen datos agrupados, el programa EPIDAT permite el análisis de tablas 2x2: Métodos > Tablas de contingencia > Tablas 2x2 > Simples

Enseguida se nos abre una pantalla que se titula “Tablas de contingencia: Tablas 2x2 simples”, donde debemos cumplimentar una serie de apartados: Tipo de estudio ante el que estamos. En nuestro ejemplo seleccionamos Transversal.

Page 10: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�!"�#� ����$�% &����� ��"��. ;�.����!

����������� ���� � ���� ����

Nivel de confianza: por defecto 95,0%, pero podemos cambiarlo. Y las cuatro celdillas de la tabla, inicialmente vacías, donde vemos como en columnas están los resultados, la Enfermedad, esto es, los efectos o variable dependiente, clasificados muy “epidemiológicamente” como Enfermos y Sanos (en nuestro casos Obesos y No Obesos); y en las filas el Factor de riesgo, la variable criterio o independiente, clasificados en Expuestos y No expuestos (en nuestro caso se trataría de la variable “sexo”, y podríamos considerar expuestos a los hombres y no expuestos a las mujeres, simplemente porque hay más proporción de obesos entre los hombres y así la medida de asociación saldrá mayor de 1, estaremos ante un factor de riesgo, y se leerá e interpretará mejor que si saliera menor de 1). Colocamos los recuentos que ya conocemos: 22, 6, 11, 11

Para que el programa realice los cálculos tenemos que recurrir al botón que simula una pequeña calculadora de bolsillo en la barra de herramientas superior, y que ahora aparecerá resaltada. Al pulsar sobre ella se abre la ventana de resultados, obteniéndose el siguiente listado de texto:

Page 11: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�-�� ���$=�� D���� � ����D "� �������� �� 7�-���� �� �0�� ���� ����A� # �$������(������ �� �0����� # �0���1� *�+ ����-� ����� ��� (���.$�� ���!-��� #

���� �7@"������ *E�+�

;�.����!% ����

����������� ���� � ���� ����

Tablas de contingencia: Tablas 2x2 simples

Tipo de estudio : Transversal

Nivel de confianza: 95,0%

Tabla

Enfermos Sanos Total

------------ -------- -------- --------

Expuestos 22 6 28

No expuestos 11 11 22

------------ -------- -------- --------

Total 33 17 50

Prevalencia de la enfermedad Estimación IC(95,0%)

---------------------------------------- ---------- --------- ---------

En expuestos 0,785714 - -

En no expuestos 0,500000 - -

Razón de prevalencias 1,571429 0,991555 2,490418

---------------------------------------- ---------- --------- ---------

Prevalencia de exposición Estimación IC(95,0%)

---------------------------------------- ---------- --------- ---------

En enfermos 0,666667 - -

En no enfermos 0,352941 - -

Razón de prevalencias 1,888889 0,949915 3,756020

---------------------------------------- ---------- --------- ---------

OR IC(95,0%)

--------- --------- ---------

3,666667 1,071564 12,546558 (Woolf)

1,097069 12,220558 (Cornfield)

Prueba Ji-cuadrado de asociación Estadístico Valor p

---------------------------------------- --------------- ---------

Sin corrección 4,4818 0,0343

Corrección de Yates 3,2990 0,0693

Prueba exacta de Fisher Valor p

---------------------------------------- ---------

Unilateral 0,0346

Bilateral 0,0418

Page 12: ˘ ˇ ˆ -  · PDF fileque se rechazará la hipótesis nula de la "no-asociación entre las dos variables", ya que la OR no contiene el valor 1

�!"�#� ����$�% &����� ��"��. ;�.����!

����������� ���� � ���� ����

ANEXO I Tabla de datos “Bajo peso al nacer.xls”

���������������� ������������ ������������ ���������������� ��������������������������������

�� � �

� ��

� �� �

� �� �� �

� �� �� �

� � ��

� �� � � �

� �� �

� �� �� �

� � ��

� ��

� �� �

� �� ��

� �� ��

�� �� �

�� ��

�� �� � �

� �� �

�� �� � �

� � � � �

� �� �� � �

� �� �� �

� �� � � �

� � �

� �� ��

� �� �� � �

�� � �

�� �� � �

�� �� �� �

�� �� ��

� �� ��

�� �� �� �

�� �� � �

�� �� �� � �

�� �� ��

�� �� � �

�� � �

�� � � �

�� � �� � �

� �� �� �

� �� ��

� �� ��

� �� �� � �

�� �� ��

� �� �

� �� �

� �� �� �

� �� �� � �

�� �� ��

�� �� �� �

� ������ � �����

�� ����� �� �� �����