14
193 UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3 ARTÍCULOS ORIGINALES Aplicación de las pruebas de hipótesis en la investigación en salud: ¿estamos en lo correcto? PEDRO MONTERREY 1 CARLOS GÓMEZ-RESTREPO 2 1 Ph.D. en Matemáticas, especialización en Epidemiología Nutricional; profesor asociado, Departamento de Epidemiología Clínica y Bioestadística, Pontificia Universidad Javeriana, Bogotá, D. C., Colombia 2 Médico psiquiatra, psicoanalista, M.Sc. en Epidemiología Clínica; profesor asociado, Departamento de Epidemiología Clínica y Bioestadística y del Departamento de Psiquiatría y Salud Mental, Pontificia Universidad Javeriana, Bogotá, D. C., Colombia Recibido: abril 16/2007. Revisado: julio 14/2007. Aceptado: julio 31/2007. Resumen Introducción. Las pruebas de hipótesis son comúnmente utilizadas en medicina. No obstante, por lo general, no se conoce la historia de su desarrollo ni cómo se han generado a partir de posiciones filosóficas antagónicas que, en ocasiones, combinamos inconscien- temente. Objetivo. Describir la historia de las pruebas de hipótesis y profundizar en el manejo del valor de P y los intervalos de confianza. Método. Se hace la revisión histórica y la aplicación estadística en algunos ejemplos clínicos. Resultados. Se describe la historia de las pruebas de hipótesis con los planteamientos de Fisher contrarios a los de Neyman y Pearson. Se esbozan algunos ejemplos en que se observa la importancia de tener en cuenta cómo se analizan los datos y la información complementaria que provee el valor de P y los intervalos de confianza. Conclusión. La presentación explícita de los valores de P, su uso combinado con los intervalos de confianza y la valoración de los resultados a la luz de su plausibilidad biológica, son los componentes centrales en el uso adecuado de las pruebas de hipótesis. Palabras clave Pruebas de hipótesis, valor de P, intervalos de confianza, plausibilidad biológica.

t studen prueba de muestreo

Embed Size (px)

Citation preview

Page 1: t studen prueba de muestreo

193

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

ARTÍCULOS ORIGINALES

Aplicación de las pruebas de hipótesisen la investigación en salud:

¿estamos en lo correcto?

PEDRO MONTERREY1

CARLOS GÓMEZ-RESTREPO2

1 Ph.D. en Matemáticas, especialización en Epidemiología Nutricional; profesor asociado, Departamentode Epidemiología Clínica y Bioestadística, Pontificia Universidad Javeriana, Bogotá, D. C., Colombia

2 Médico psiquiatra, psicoanalista, M.Sc. en Epidemiología Clínica; profesor asociado, Departamento deEpidemiología Clínica y Bioestadística y del Departamento de Psiquiatría y Salud Mental, PontificiaUniversidad Javeriana, Bogotá, D. C., Colombia

Recibido: abril 16/2007. Revisado: julio 14/2007. Aceptado: julio 31/2007.

Resumen

Introducción . Las pruebas de hipótesis son comúnmente utilizadas en medicina. Noobstante, por lo general, no se conoce la historia de su desarrollo ni cómo se han generadoa partir de posiciones filosóficas antagónicas que, en ocasiones, combinamos inconscien-temente.

Objetivo. Describir la historia de las pruebas de hipótesis y profundizar en el manejo delvalor de P y los intervalos de confianza.

Método. Se hace la revisión histórica y la aplicación estadística en algunos ejemplosclínicos.

Resultados. Se describe la historia de las pruebas de hipótesis con los planteamientos deFisher contrarios a los de Neyman y Pearson. Se esbozan algunos ejemplos en que seobserva la importancia de tener en cuenta cómo se analizan los datos y la informacióncomplementaria que provee el valor de P y los intervalos de confianza.

Conclusión. La presentación explícita de los valores de P, su uso combinado con losintervalos de confianza y la valoración de los resultados a la luz de su plausibilidadbiológica, son los componentes centrales en el uso adecuado de las pruebas de hipótesis.

Palabras clave

Pruebas de hipótesis, valor de P, intervalos de confianza, plausibilidad biológica.

Page 2: t studen prueba de muestreo

194

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

Introducción

Desde el siglo XIX y hasta principiosdel siglo XX las publicaciones cientí-ficas estaban plagadas de presentacio-nes de casos y análisis que se traducíanen juicios subjetivos los que, en mu-chos casos, no eran relevantes y pro-ducían confusiones que entorpecían el

avance de las diferentes disciplinascientíficas. Esta situación ocurría por-que no existía una formalización en elmanejo de los datos, ni procedimien-tos de análisis que introdujeran un cri-terio de objetividad en las decisionesque se tomaban. Ante estas necesida-des científicas y editoriales surgieronlas pruebas de hipótesis estadísticas.

Las pruebas de hipótesis fueroncreadas en el período entre 1915 y1933 como resultado de la labor dedos grupos o tendencias: por un lado,Ronald Fisher (1890-1962) y, el porotro, Jerzy Neyman (1894-1981) enconjunto con Egon Pearson (1895-1980). Ambas tendencias tuvieroncomo antecedente la famosa prueba deji al cuadrado de Karl Pearson (1857-1936). Los procedimientos de Fishery Neyman-Pearson se desarrollaron apartir de posiciones filosóficas anta-gónicas, por lo que la historia de laspruebas de hipótesis no ha estadoexenta de controversias, desacuerdoscientíficos y agrias disputas persona-les que lamentablemente se reflejan enla actualidad y han conducido a difi-cultades en su aplicación y acepta-ción[1-3]. Al aplicar las pruebas dehipótesis muchos investigadores com-binan de manera ecléctica, elementosde los dos enfoques antagónicos:“…las pruebas de hipótesis estadísti-cas son presentadas en los artículos delas revistas siguiendo normalmente aNeyman-Pearson pero según la guíapráctica de Fisher…”[3]. Este trata-

Abstract

Introduction : Hypothesis testing tools arecommonly used in medicine. Despite this, in gene-ral, there is no knowledge about how these toolswere developed and how their generation hassurged out of opposing philosophical positions thatwe commonly combine in an unconscious fashion.

Objective: To describe the history of hypothesistesting tools and to gain a stronger insight into thehandling of the P value and confidence intervals.

Methods: Historical review and statisticalapplication to some of the clinical examplesmentioned.

Results: The history of hypothesis tests aredescribed along with the opposing postulations ofFisher in regards to those of Neyman and Pearson.Some examples that show the importance of havingin mind how data is analyzed and the additionalinformation that p values and confidence intervalsbring, are outlined.

Conclusion: The explicit presentation of P values,its combined use along with confidence intervals,and the analysis of the results having into accountits biological plausibility are key components inthe proper use of hypothesis testing.

Key words

Hypothesis testing, p value, confidence intervals,biological plausibility.

Page 3: t studen prueba de muestreo

195

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

miento ecléctico es consecuencia delo que aparece explicado en muchoslibros de texto y que se refleja en laenseñanza de la estadística, tanto enel posgrado como en el pregrado.

Independientemente de la visiónteórica y las opiniones o la posicióncientífica de quien las analice, laspruebas de hipótesis estadísticas sehan convertido, para muchos, en uninstrumento fundamental del análi-sis de los datos y, para otros, en laúnica técnica para realizarlo, algo asícomo la piedra filosofal del conoci-miento científico, cuyo uso invalidao glorifica un resultado. El papel pre-ponderante de las pruebas de hipó-tesis, como criterio de validez de unanálisis y de la calidad de un reportecientífico, ha conducido al uso yabuso de la técnica. Su uso desme-dido y en ocasiones indiscriminadoha producido errores, ha conducidoa la obtención de conclusiones erró-neas en algunas investigaciones, loque ha determinado que para algu-nos esa técnica sea indeseable, su-perficial, prescindible e, incluso,peligrosa por la posibilidad de ge-nerar errores y conclusiones equivo-cadas, por no decir absurdas o tontas.A esta confusa situación han contri-buido, infortunadamente, los siste-mas computacionales para el análisisestadístico, los libros de texto y lospropios criterios de enseñanza de laestadística[2-4].

Los sistemas de computación, enlugar de cumplir la loable función deponer la técnica al alcance de todos,han simplificado y vulgarizado su usoal permitir la generalización de la filo-sofía de “la caja negra” para el análi-sis, en la que el investigador manejatécnicas y conceptos que no compren-de bien pero cuya ejecución deja al“sistema de computación” y despuésreduce la decisión a un simple, por nodecir simplista o ingenuo, procedi-miento dicotómico que reduce su pro-blema de análisis y decisión a unsimple sí/no, según un “místico” va-lor de P.

Esta situación ha sido favorecida,por no decir propiciada, por los pro-gramas docentes de estadística y loslibros de texto, los que han ayudadoa que esto ocurra al promover unmecanicismo ingenuo en los análisisque conducen a que el investigador,paradójicamente, realice el análisis desus datos sin mirar los datos: “sólodecide sí/no, según el valor de P”.Esta filosofía ha conducido a algu-nos a no considerar la plausibilidadbiológica y la lógica de los resulta-dos que van obteniendo, lo que se hatraducido en la publicación de con-clusiones erróneas (4,5). Por otra par-te, el valor P se convirtió en unaespecie de “dios” cuando muchoseditores de revistas y pares favorecíanla publicación de aquellos estudioscon un P significativo. Esto llegó a

Page 4: t studen prueba de muestreo

196

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

ser tan significativo que se introdujoel famoso sesgo de publicación que,hoy en día, tiende a ser de menormagnitud.

En los últimos tiempos, las revistascientíficas dedicadas a la epidemiolo-gía y la bioestadística han reflejado unprofundo conflicto entre defensores ypartidarios del uso de las pruebas dehipótesis. Monterrey et al.[5] presen-tan un análisis de esa situación, suscausas y consecuencias. Para que setenga una idea de la magnitud e im-portancia del asunto, basta citar el si-guiente párrafo que aparece en lasnormas de Vancouver que, como sesabe, rigen la elaboración de publica-ciones en el área de la salud y son se-guidas por las revistas más prestigiosasdel área:

“… Describir los métodos esta-dísticos con suficiente detalle,para permitir a un lector conoce-dor, con acceso a los datos origi-nales, la verificación de losresultados que se presentan.Cuando sea posible, se debencuantificar los hallazgos y pre-sentarlos con los correspondien-tes indicadores de los errores demedición e incertidumbre (talescomo intervalos de confianza).Evite depender exclusivamentede las pruebas de hipótesis esta-dísticas, y del uso de valores deP, los que fallan cuando se pre-tende transmitir información im-

portante acerca de la medida deun efecto”[6].

Como se puede apreciar, las nor-mas de Vancouver no recomiendan eluso único de las pruebas de hipótesis;sin embargo, en la literatura biomédicase han presentado situaciones másextremas que han conducido a no con-siderar estos métodos, como puedeverse en los trabajo de Walter[7] y deGardner y Altman[8]; éste último, porejemplo, se utiliza como paradigmapara la presentación de datos en la re-vista British Medical Journal.

Una breve lectura a cualquier tex-to básico de estadística permite verque en su mayoría está dedicado a laspruebas de hipótesis y, por tanto, loscursos de estadística mayoritariamentese dedican a enseñar pruebas de hipó-tesis, Además, es un hecho que la ma-yoría de los artículos científicos quese publican basan sus análisis en laaplicación de las pruebas de hipóte-sis; sin embargo, existen prohibicio-nes y barreras para su uso. Existenopiniones encontradas, pero muchosconsideran aún válido el uso de laspruebas de hipótesis, claro que ha-ciendo modificaciones en la forma deaplicarlas actualmente. La inmensamayoría de los artículos sobre el temason difíciles de leer para aquéllos queno conozcan en profundidad la técni-ca o no tengan una formación básicaen la teoría de probabilidades. Dadasestas dificultades, el objetivo del pre-

Page 5: t studen prueba de muestreo

197

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

sente artículo es mostrar cómo utilizarlas pruebas de hipótesis en un contex-to teórico coherente, analizando laplausibilidad biológica de los resulta-dos, y presentar los alcances, posibili-dades y limitaciones de esa técnica.

Fundamentos para la aplicaciónde las pruebas de hipótesis

Para comprender lo que son las prue-bas de hipótesis estadísticas hay quepartir del concepto de hipótesis de in-vestigación y establecer sus diferen-cias con las hipótesis estadísticas.

La hipótesis de investigación es unenunciado que representa la posiblerespuesta a la pregunta de investiga-ción[9]; como tal, tiene dos “valoresde verdad”: verdadero o falso, lo quedetermina las correspondientes res-puestas a las preguntas de investiga-ción. La investigación se realiza paradeterminar el valor de verdad que co-rresponde a la hipótesis de investiga-ción, es decir, se realiza un estudiocomo resultado del cual se obtienendatos que contienen la informaciónnecesaria para dar respuesta a la pre-gunta de investigación al decidir si lahipótesis de investigación es verda-dera o falsa. El reto de la estadísticacomo disciplina es desarrollar méto-dos para obtener la información con-tenida en los datos y analizar esasevidencias para tomar tal decisión.Las pruebas de hipótesis son uno de

tales instrumentos, pero no el único,aun cuando sea el más conocido y uti-lizado.

Las hipótesis estadísticas son enun-ciados que, en términos de conceptosestadísticos, representan o caracterizanla información contenida en los datos.Para decidir acerca de la validez deuna hipótesis de investigación, pudie-ra ser necesario trabajar con varias hi-pótesis estadísticas; por ejemplo, en unestudio para determinar si la prácticade deportes tiene influencia sobre elperfil lipídico de los adultos varones,la hipótesis de investigación pudieraser: la práctica diaria de ejercicios fí-sicos modula los valores del perfillipídico de los adultos varones. Paradecidir si esta hipótesis es verdaderao falsa, se realiza un estudio en el quese toman dos grupos de individuos,uno que practica diariamente depor-tes (grupo A) y otro sedentario (grupoB), y se comparan las variables delperfil lipídico; en este caso, la deci-sión se tomaría considerando variashipótesis estadísticas referidas a los va-lores medios (promedio) de cada unade las variables del perfil lipídico.

El enfoque teórico de Fisher paraabordar un problema de prueba de hi-pótesis se fundamenta en la realiza-ción de una inferencia inductiva;consiste en plantear una hipótesis deinterés, que en el ejemplo pudiera serH

0: µ

A=µ

B, es decir, el valor medio del

colesterol total es igual entre los gru-

Page 6: t studen prueba de muestreo

198

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

pos A y B y, una vez obtenidos losdatos, calcular un valor, que se identi-fica con la letra p, que es una medidade la evidencia que arrojan los datoscontra la hipótesis cuya validez se de-sea comprobar. En este caso lo impor-tante es saber si la hipótesis es cierta ose rechaza. Este es el valor de p quecalculan todos los sistemas computa-cionales para el análisis estadístico;“…uno de los errores más comunes alinterpretar el valor P es considerarlocomo la probabilidad de que la hipó-tesis nula sea cierta…” (4).

Ante la ausencia de una hipótesisalternativa en el proceso de análisis deFisher, Neyman y Pearson plantearonun proceso de decisión de tipo deduc-tivo, diseñado a priori sobre la basede los datos, que consideraba una hi-pótesis o decisión alternativa a H

0 (hi-

pótesis nula) y las dos tasas de errorque se desea cometer en el proceso dedecisión: los errores de tipo I (α) y II(β). En el ejemplo, las alternativas pu-dieran ser, por ejemplo, H

A: µ

A≠µ

B o

HA: µ

A<µ

B.

En el criterio de Fisher, el valor deP se establece a posteriori, es decir,sobre la base de los datos; en el deNeyman y Pearson, los datos se obtie-nen con una confiabilidad dada apriori por los errores (α y β).

Lamentablemente y de forma in-cierta, pero muy extendida, ambosenfoques se han fusionado en el pro-

cedimiento que aplican los investiga-dores en la actualidad y que se enseñaen muchos cursos de estadística.Hubbard y Bayarri[2] señalan al res-pecto:

“…Los libros de texto actualessobre el análisis estadístico eneconomía, ciencias sociales obioestadística, ya sea en el nivelposgraduado o de pregrado, pre-sentan usualmente el tema de laspruebas de hipótesis como si fue-ran el evangelio: una teoría úni-ca, unificada y sin controversias.Es muy infrecuente que esos tex-tos mencionen, menos aún quediscutan teóricamente, que esateoría que presentan es un híbri-do anónimo entre las ideas deFisher, por un lado, y de Neymany Pearson, por el otro...”.

El enfoque de Fisher parece ser másrazonable para la investigación en sa-lud que el de Neyman-Pearson.Parafraseando a Fisher: “…el proce-dimiento de Neyman-Pearson es másapropiado para problemas de controlestadístico de la calidad…”[ 4] .

Siguiendo el enfoque de Fisher ysus consideraciones sobre el uso de losvalores de P, es aconsejable procedersegún los siguientes tres pasos al apli-car las pruebas de hipótesis:

Paso 1. Identificar el tipo de pruebaque corresponde al problema y la hi-pótesis nula.

Page 7: t studen prueba de muestreo

199

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

Paso 2. Obtención del valor de P.

Este valor de P es parte de la infor-mación que brindan los sistemas decómputo. Todas las pruebas de hipó-tesis descansan en la identificación deun estadígrafo, que es conocido comoel estadígrafo de la prueba. El valorde P refleja la posición del valor ob-servado del estadígrafo en las colas desu distribución si H

0 fuera cierta y res-

ponde a la pregunta de cuán extremoes el valor observado en la distribu-ción del estadígrafo empleado; porello, el valor de P refleja o cuantificala evidencia que contienen los datoscontra la hipótesis nula.

Paso 3. Publicación explicita del valorde P junto con los valores descriptivosdel proceso, es decir, junto con la me-dia, la desviación estándar, la moda, etc.

La interpretación del valor de Pdescansa en el hecho de que los valo-

res pequeños son evidencias contra lavalidez de la hipótesis nula[5]. Usual-mente el investigador prefija el errorde tipo I (α), casi siempre lo identificacomo 0,05 y, cuando P<0,05, deciderechazar H

0. Esta forma de proceder

es inadecuada pues mezcla las ideasde Fisher con las de Neyman yPearson al comparar α, una tasa deerror (a priori), con P, una medida deevidencia (a posteriori)[2-4]; de estamanera, se pierde el sentido del valorde P como evidencia a posteriori con-tra H0 y predomina la lógica deNeyman-Pearson pero de forma in-completa pues, en general, no se con-trola el error de tipo II.

Divulgar explícitamente el valor deP permite a los diferentes lectores ha-cerse una idea clara y personalizadade la evidencia encontrada; para suinterpretación es aconsejable utilizarlos criterios de Sterne y Smith[4] quese resumen en el cuadro 1. Es por esto

Cuadro 1Criterios para la interpretación de los valores de P

Valor P Criterio de análisis del valor P

0,1<P<1,0 Débil evidencia contra la hipótesis nula

0,01<P<0,1 A medida que P disminuye, aumenta la

0,001<P<0,01 evidencia contra la hipótesis nula

0,0001<P<0,001 A medida que P disminuye, hay

P<0,0001 fuerte evidencia contra la hipótesis

nula

Page 8: t studen prueba de muestreo

200

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

que no es recomendable publicar el re-sultado de los análisis estadísticos, uti-lizando pruebas de hipótesis, consímbolos como **, NS, P<0,05, etc.;lo importante es escribir el valor de Pobtenido para que el lector pueda en-juiciar la fuerza de la evidencia contraH

0 que se obtuvo en el estudio. La

publicación explícita del valor de P esimportante, fundamental para los ejer-cicios de integración de resultadosconocidos como metaanálisis; de he-cho, la evidencia a favor o en contrade H

0 surge de la combinación de di-

ferentes estudios.

El valor de P cambia entre estudiosy este cambio obedece a las leyes dela probabilidad; por ejemplo, si H

0 es

cierta, el valor P queda determinadopor realizaciones de una variablealeatoria con distribución uniforme[3],por lo que la probabilidad de encon-trar estudios con p<0,05, cuando H

0

es cierta, es de 0,05; es decir, el 5% delas investigaciones deben rechazar H

0

siendo cierta, si se sigue la regla de re-chazarla cuando p<0,05. Por eso, esimportante publicar tanto los hallazgospositivos como los negativos; lamen-tablemente “…la literatura médicamuestra una fuerte tendencia a acen-tuar lo positivo, los resultados positi-vos son reportados más frecuentementeque los nulos…”[4]. Por otra parte, elpublicar el valor de P obtenido en elestudio permite al lector pensar en unsinnúmero de opciones y tomar su pro-pia posición respeto al hallazgo que

se reporta. No es lo mismo, en un ex-perimento clínico que compara dosmedicamentos, obtener un resultadocon un valor P de 0,00001, que unode 0,045, de 0,06, o una P de 0,10 o0,5.

Como la evidencia contra H0 que-

da determinada por valores pequeñosde P, Fisher propuso utilizar 1:20(0,05) como una buena medida, perorápidamente alertó que esa no es unaregla inflexible y que el valor debíaadecuarse a las características del pro-blema. El umbral de aceptación pue-de y debe cambiar; sería una buenaayuda tomar como punto de partidalos valores que pudieran ser relevan-tes para el error de tipo I de Neyman-Pearson. En ningún caso es válido nicorrecto considerar universalmente elumbral 0,05, como se hace usualmen-te; este valor fue popularizado porFisher al ser empleado, junto a 0,01,en su famoso libro Statistical methodsfor research workers, pero estos valo-res fueron escogidos ante la imposibi-lidad de publicar tablas con valoresmás generales que se encontraban pro-tegidas por los derechos de autor dela revista Biometrika. Tanto Fisher,como Neyman y Pearson, recomenda-ron flexibilidad en la determinación delos umbrales o las tasas de error, se-gún el caso. En general, la determina-ción de un valor de umbral dependedel problema y sus características; porejemplo, no sería necesario tener unvalor de P del 5% si estamos investi-

Page 9: t studen prueba de muestreo

201

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

gando una droga curativa para laesquizofrenia que, como sabemos, noexiste; en este caso, posiblemente conun 10% podríamos sentirnos satisfe-chos. Sin embargo, para un medica-mento que combata los síntomas de laesquizofrenia, dado que existen otrosque lo hacen, podríamos estar satisfe-chos con un 5% o menos.

Papel de los intervalos deconfianza en los problemas dedecisión: consideraciones parasu uso

Existe una tendencia a desechar laspruebas de hipótesis y sustituirlas porintervalos de confianza[8,10]. La pro-puesta es bastante conocida pero, talvez, no del todo comprendida por al-gunos en su real significado.

Un intervalo de confianza es un in-tervalo que se construye a partir de losdatos, es decir, sus extremos sonaleatorios y cambian de muestra enmuestra. Al depender de la muestra,tienen un componente aleatorio deter-minado por el muestreo; por ello, seestudian en el marco de sus propieda-des probabilísticas. Concretamente, losintervalos de confianza se construyenprefijando la probabilidad de que con-tengan el verdadero valor delparámetro que se va a estimar. Estaafirmación es difícil de entender y hagenerado malas interpretaciones.Cuando se trata de estimar la estatura

promedio de los adultos varones sedice, por ejemplo, que debe estar en-tre 170 y 175 cm, con un nivel de con-fianza de 95%. Es un error entenderesta afirmación en el sentido de que,con probabilidad del 95%, la mediaestá entre 170 y 175; significa en rea-lidad que este intervalo fue construi-do a partir de un “procedimiento” queen el 95% de las veces arroja un inter-valo que contiene al parámetro. Esaes la confianza que se tiene en la esti-mación que se presenta y, por ello, esuna medida de su calidad. La mejormanera de leerlo o interpretarlo seríaque si yo repitiera el estudio de la es-tatura en adultos varones en 100 oca-siones, 95 de los 100 intervalos deconfianza obtenidos contendrían elvalor real del parámetro (media).

Los intervalos de confianza sonutilizados como alternativas en el pro-ceso de decisión de Neyman yPearson. Para ello se toma el valor delparámetro que establece H

0 y se deci-

de acerca de la validez o no de esahipótesis según si el valor contenidoen ella se encuentra o no en el inter-valo. De esa forma, si en la situaciónanterior H

0 establece que µ=177, como

177 no pertenece al intervalo se con-cluiría que H

0 es falsa pues el valor de

ì debe ser uno de los del intervalo,entre 170 y 175, lo que excluye laposibilidad de que pueda ser 177. Elerror de muchos está en pensar queen esto consiste la sustitución de laspruebas de hipótesis por el análisis con

Page 10: t studen prueba de muestreo

202

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

intervalos de confianza. Un poco dehistoria basta para comprender la fa-lacia. Los intervalos de confianza fue-ron introducidos por Neyman en 1937como parte integrante de su teoría delas pruebas de hipótesis: “… los valo-res p y los intervalos de confianza sonesencialmente recíprocos…”[ 11]. Ymás allá, posiblemente provean infor-mación complementaría el uno al otro.Otro ejemplo, en un estudio sobre efi-cacia de un medicamento nuevo parala depresión, se puede decir que elmedicamento obtuvo un riesgo relati-vo de 2 y un valor de P de 0,04; estoes significativo para lo que se propo-nía, pero se reafirma más la certeza enla evidencia y sus niveles de incerti-dumbre al decir que se obtuvo lo an-terior descrito más un intervalo del95% de (1,2 - 2,1). Este último datoaporta mayor información que presen-tar solamente el primero.

La mejor postura debe ser unir enlos análisis el valor de P con los inter-valos de confianza pues, analizadoscorrectamente, ambos dan informacio-nes complementarias. El valor de P tie-ne la virtud de dar un valor objetivo,independiente del investigador, quepermite caracterizar si la asociación esreal siguiendo criterios establecidos apriori o si no lo es[12]. Por otra parte,la amplitud o diámetro del intervalode confianza refleja la variabilidad delestudio, los niveles de incertidumbreque el diseño de muestreo o los pro-pios errores no lograron corregir, “…el

ancho de los intervalos de confianzada una clara indicación de cuán pocoinformativo es el estudio…”[13]. Espor ello que el intervalo de confianzada un ángulo del problema comple-mentario a las pruebas de hipótesis,además de que, al brindar informaciónsobre el posible valor del parámetro,permite tomar una posición respectoal significado biológico de los resul-tados obtenidos y proponer otro tipode modelos causales.

Algunos ejemplos sobre cómoutilizar las pruebas de hipótesis

A continuación se identificará un pro-blema de investigación y, tomándolocomo referencia, se presentarán variassituaciones alternativas de cómo po-dría presentarse el análisis de los da-tos utilizando las pruebas de hipótesis.

La depresión mayor constituyeuno de los problemas más importan-tes en salud pública en nuestro país yen el mundo. Se calcula que la de-presión será la primera o la segundacausa en aportar a los años de vidaajustados por discapacidad (DALY oAVAD) en el mundo, para el año 2010.En este contexto los estudios clínicospara el análisis de la eficacia de dife-rentes tratamientos resultan especial-mente importantes. Se toma comoproblema de referencia un experi-mento clínico aleatorio para analizarla efectividad de un nuevo tratamien-

Page 11: t studen prueba de muestreo

203

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

tura se analizan tres publicaciones cu-yos valores de P, resultantes de apli-car la prueba estadística para lacomparación de medias de dos pobla-ciones independientes, se presentan enel cuadro 2.

Si se toma un umbral de 1:20 = 0,05para identificar valores de P pequeñosy mantenerse en un error de tipo 1 deesa cuantía y utilizando como elementocentral para la interpretación de la evi-dencia obtenida en cada una de las pu-blicaciones el criterio de Sterne ySmith[4], que aparece resumido en elcuadro 1, se tiene lo siguiente.

(1) El estudio A, con P=0,000000,presenta un valor P pequeño, loque es una fuerte evidencia con-tra H0 .

(2) El estudio B, con P=0,04500 pre-senta un valor P relativamente pe-queño, pero no muy pequeño,por lo que la evidencia que arro-ja contra H0 no es muy fuerte.

(3) El estudio C, con P=0,882301,presenta un valor P elevado (re-

Cuadro 2Resultados de tres publicaciones hipotéticas

Estudio Valor de P

A 0,000000

B 0,045000

C 0,882301

to no farmacológico (tratamiento A),que se compara con un procedimien-to tradicional de probada eficiencia(tratamiento B); como criterios dediagnóstico se consideran la entrevistaestructurada de CIDI para depresióny la evaluación del puntaje y cambiode la depresión mediante el puntajeobtenido en la escala de Hamilton. Elinterés en el análisis de los datos delensayo clínico sería determinar si enpromedio los puntajes en la escala deHamilton para depresión de los indi-viduos sometidos al tratamiento A (µ

A)

son diferentes, más precisamentemenores, que los puntajes de los so-metidos al tratamiento B (µ

B), en

cuyo caso se podría afirmar que losdatos del estudio arrojan evidencia afavor de la mayor eficacia del trata-miento A. En la terminología de laspruebas de hipótesis, en la formula-ción de Neyman y Pearson, el pro-blema consistiría en decidir acerca dela validez de H

0:µ

A=µ

B o de H

A:µ

A≠µ

B,

tomando como base los resultadosexperimentales.

Situación 1. En un estudio de inte-gración de los resultados de la litera-

Page 12: t studen prueba de muestreo

204

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

cuerde que los valores P oscilanentre 0 y 1), por lo que la eviden-cia contra la hipótesis nula es muydébil.

Los datos para el análisis de las si-tuaciones siguientes se presentan enel cuadro 3.

Situación 2. El valor P=0,0000 in-dica una fuerte evidencia contra H

0,

lo que es confirmado por el intervalode confianza que estima que la dife-rencia entre las medias de los dos tra-tamientos es un número entre -11,2 y-8,2. El radio del intervalo

El valor obtenido, 1,5 unidades de laprueba, muestra que el nivel de errores bajo y, como una diferencia depuntajes de mínimo 8 unidades es re-levante como índice de depresión,queda confirmada la relevancia de la

disminución de la depresión que selogra al aplicar el tratamiento A.

Situación 3. El valor P=0,0149 esun valor P relativamente pequeño, perono muy pequeño, por lo que la evi-dencia que arroja contra H

0 no es muy

fuerte. El intervalo de confianza paraestimar la diferencia de las mediasentre los tratamientos (A y B) oscilaentre -17,9 y -2,0, y tiene una ampli-tud muy grande, por lo que el nivel deimprecisión en la estimación de la di-ferencia de medias es elevado y, porconsiguiente, el análisis que se hagaacá es impreciso. Por ello, sus conclu-siones deben tomarse cautelosamentey, como muestran los valores numéri-cos, no son evidencias fuertes a favorde que existan diferencias.

En una situación como está debevalorarse si el tamaño de muestra uti-lizado es adecuado y analizar todas lasfases de diseño y conducción del es-tudio en busca de posibles sesgos.

= = 1.511.2 - 8.2 3 2 2

Cuadro 3Resultados hipotéticos de tres estudios (situaciones)

Page 13: t studen prueba de muestreo

205

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3

Situación 4. El valor P=0,0000 in-dica una fuerte evidencia contra H

0, es

decir, se puede aceptar que hay dife-rencias en el puntaje de los individuossegún el tratamiento; los del tratamien-to A son los que obtienen una me-dia[22] menor que la de los que recibenel tratamiento B[23]. Eso es un hecho,pero una observación del intervalo deconfianza muestra una informaciónadicional: que la diferencia entre lasmedias es un número que se estima enmáximo 1,3, es decir, que la media deltratamiento A es a lo sumo 1,3 unida-des mayor que la del tratamiento B. Di-ferencias de esta cuantía no sonrelevantes clínicamente desde el puntode vista de la presencia de depresión,así que, aunque existen diferencias en-tre los tratamientos que se comparan,estas diferencias no son clínicamenterelevantes. Esta decisión es muy impor-tante pues la sustitución del tratamien-to usual (B) sólo se justifica si el nuevotratamiento es más eficiente clínicamen-te o si tiene una mejor relación costo-beneficio.

Conclusiones

En este escrito se presentan datos so-bre la importancia de conocer los orí-genes de la prueba de hipótesis y delas posiciones antagónicas que tienesus representantes máximos, Fisher,por un lado, y Newman con Pearson,por el otro. Se esboza cómo el plan-teamiento de Fisher podría ser másútil para las ciencias de la salud. Sinembargo, es prioritario poder pensaren la necesidad de tener un valor pespecificado y divulgarlo explícita-mente en las publicaciones; no pre-sentarlo de forma aproximada en laspublicaciones resaltando la decisiónque toma con él el autor del estudio;esta forma de proceder aporta másinformación al lector. Es fundamen-tal complementar las pruebas de hi-pótesis con los intervalos deconfianza y valorar las conclusio-nes en el marco del significado delas mediciones y la plausibilidad bio-lógica de las conclusiones a que searriba.

1. Lehman E. The Fisher, Neyman-Pearson theories of testing hypothesis: one theory ortwo? J Am Stat Assoc 1993; 88: 122-49.

2. Hubbard R, Bayarri M. Confusion over measures of evidence (p´s) versus errors (a s) inclassical statistical testing. Am Stat 2003; 57): 171-82.

3. Moran JL. A farewell to P values? Criti Care Resusc 2004; 6: 130-7.

4. Sterne JA, Smith GD. Sifting the evidence-what´s wrong with significance tests? BrMed J. 2001; 322: 226-31.

5. Monterrey PA, Cortés LY, Días ME. Utilidad y limitaciones de las pruebas de hipótesisen epidemiología nutricional. ¿Cómo proceder frente a un problema? Perspectivas enNutrición Humana. 2003; 9: 72-87.

Bibliografía

Page 14: t studen prueba de muestreo

206

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

6. http: //www.rbccv.org.br/english/normsOfVancouver.asp

7. Walker AM. Cómo presentar los resultados en los estudios epidemiológicos. Bol OfSanit Panam. 1993; 115): 148-54.

8. Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation ratherthan hypothesis testing. Br Med J 1986; 292: 746-50.

9. Polit DF, Hungler BP. Investigación científica en ciencias de la salud. Principios ymétodos. McGraw-Hill Interamericana, HealthCare Group; 2000.

10. Goodman SN. Toward evidence-based medical statistics. 1. The P value fallacy. AnnIntern Med 1999; 130: 995-1004.

11. Feinstein AR. P-values and confidence intervals: two sides of the same unsatisfactorycoin. J Clin Epidemiol 1998; 51: 355-60.

12. Fleiss JL. Confidence intervals vs. significance tests: quantitative interpretation. Am JPublic Health 1986; 76: 587-8.

13. Thompson WD. Statistical criteria in the interpretation of epidemiologic data. Am JPublic Health. 1987; 77: 191-4.