25
Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular 73 V. RESOLUCIÓN ESTADÍSTICA DEL DISEÑO EXPERIMENTAL Según Kerlinger, la estadística es la teoría y el método para analizar datos cuantitativos obtenidos de muestras de observaciones para estudiar y comparar fuentes de varianza de fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar relaciones hipotéticas entre los fenómenos y ayudar a hacer inferencias fidedignas de observaciones empíricas‖. Para López González, estadística es la ciencia que recoge, ordena y analiza las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con base en éstas y en el cálculo de probabilidades, se encarga de hacer averiguaciones (inferencias) acerca de las correspondientes poblaciones‖. A la hora de decidir si una hipótesis concreta ha de ser aceptada o rechazada, el investigador necesita contar con un criterio objetivo y universal. Después de elaborar sus hipótesis y de llevar a cabo la fase experimental de un Proyecto de Investigación, el científico ha de analizar sus resultados y compararlos con las hipótesis iniciales para tomar una decisión en uno u otro sentido (en el sentido de las hipótesis planteadas o en el contrario). En ocasiones, los resultados son muy claros, mostrando enormes diferencias entre los distintos criterios utilizados y confirmando las hipótesis iniciales de forma evidente. Otras veces, las diferencias son muy sutiles o no existen en absoluto. En este abanico de posibilidades, y para evitar interpretaciones subjetivas que restarían valor a los resultados, es necesario utilizar criterios matemáticos previamente validados y aceptados por la comunidad científica universal. Estos criterios son lo que hoy denominamos estadística o, más concretamente, estadística inferencial. Las pruebas estadísticas cumplen aquí un doble cometido. Por un lado, indican la probabilidad que tiene un resultado determinado de ser explicado por las variaciones del azar y, por otro, al fijar convencionalmente unos coeficientes de riesgo, proveen de un criterio objetivo para decidir sobre la aceptación o el rechazo de las hipótesis de investigación.

Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

73

V. RESOLUCIÓN ESTADÍSTICA DEL DISEÑO EXPERIMENTAL

Según Kerlinger, la estadística es ―la teoría y el método para analizar datos cuantitativos

obtenidos de muestras de observaciones para estudiar y comparar fuentes de varianza

de fenómenos, ayudar a tomar decisiones sobre aceptar o rechazar relaciones hipotéticas

entre los fenómenos y ayudar a hacer inferencias fidedignas de observaciones

empíricas‖. Para López González, estadística es ―la ciencia que recoge, ordena y analiza

las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con base en

éstas y en el cálculo de probabilidades, se encarga de hacer averiguaciones (inferencias)

acerca de las correspondientes poblaciones‖.

A la hora de decidir si una hipótesis concreta ha de ser aceptada o rechazada, el

investigador necesita contar con un criterio objetivo y universal. Después de elaborar sus

hipótesis y de llevar a cabo la fase experimental de un Proyecto de Investigación, el

científico ha de analizar sus resultados y compararlos con las hipótesis iniciales para

tomar una decisión en uno u otro sentido (en el sentido de las hipótesis planteadas o en

el contrario).

En ocasiones, los resultados son muy claros, mostrando enormes diferencias entre los

distintos criterios utilizados y confirmando las hipótesis iniciales de forma evidente. Otras

veces, las diferencias son muy sutiles o no existen en absoluto. En este abanico de

posibilidades, y para evitar interpretaciones subjetivas que restarían valor a los

resultados, es necesario utilizar criterios matemáticos previamente validados y aceptados

por la comunidad científica universal. Estos criterios son lo que hoy denominamos

estadística o, más concretamente, estadística inferencial. Las pruebas estadísticas

cumplen aquí un doble cometido. Por un lado, indican la probabilidad que tiene un

resultado determinado de ser explicado por las variaciones del azar y, por otro, al fijar

convencionalmente unos coeficientes de riesgo, proveen de un criterio objetivo para

decidir sobre la aceptación o el rechazo de las hipótesis de investigación.

Page 2: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

74

Por otro lado, algunos diseños de investigación, como hemos visto en los apartados

anteriores de este Proyecto de Investigación, pueden resultar enormemente complejos y

muy difíciles de abordar si no se cuenta con las estrategias de análisis múltiple que nos

ofrece la estadística (por ejemplo, el análisis factorial o el de covarianza).

Todo lo anterior indica que las pruebas estadísticas son un instrumento valioso en el

contraste de hipótesis. Normalmente existe más de una prueba estadística para cada tipo

de diseño, por lo que el investigador puede seleccionar una u otra. Pero esta elección no

es gratuita, sino que obedece, entre otros, a cuatro factores que estudiaremos a

continuación: el nivel de medición, el modelo estadístico, la potencia de la prueba y la

potencia-eficiencia.

Page 3: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

75

A.- EL NIVEL DE MEDICIÓN

Medir es asignar números a los objetos de acuerdo con ciertas reglas. Cuando un físico

mide la temperatura de fusión de ciertos metales y las compara, obtiene informaciones de

los objetos que mide. Y es que la relación entre lo que observa y los números es tan

directa, que mediante la manipulación de éstos es fácil generar nueva información.

En ocasiones tendemos a extrapolar los métodos y técnicas que utilizan las ciencias

experimentales más controladas, como pueden ser las ciencias físicas, a cualquier

modelo experimental como puede ser el de la Histología Humana. Sin embargo, cuando

tomamos la física como modelo, podemos caer en errores al intentar medir variables

humanas complejas, asignándoles numerales y realizar con éstos operaciones que

presuponen la correspondencia isomórfica entre la estructura de las observaciones y la de

los números. Y es que dentro de la teoría de la medición existen diferentes niveles de

medida que comportan distintos tipos de relaciones y, en consecuencia, distintas

operaciones de los datos. Los más conocidos son: nominal, ordinal, de intervalo y de

razón (Tabla 1):

1. En la escala nominal los números y símbolos se utilizan para distinguir entre

sí los grupos a que pertenecen varios objetos. Se clasifican los sujetos y las

clases se numeran. La relación es la de equivalencia. Esto es, los objetos o

miembros de cualquier clase deben ser equivalentes en la propiedad medida.

En el campo de la Histología, podemos encontrar numerosos ejemplos de

distribuciones de escala nominal. Un caso concreto sería el tipo de epitelios

encontrados en el organismo humano (simple, estratificado,

pseudoestratificado, etc.).

Algunas pruebas estadísticas que utilizan o pueden utilizar datos nominales son

la binomial, la 2 y la de McNemar, por ejemplo. En estas pruebas, los datos

son meras agrupaciones de frecuencias obtenidas según cierta clasificación.

Page 4: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

76

2. La escala ordinal se diferencia de la anterior fundamentalmente porque a la

relación de equivalencia incorpora la de mayor a menor. Es decir, en ella los

números asignados a los objetos reflejan la cuantía de los atributos que los

objetos o sujetos poseen sin que ello signifique que a diferencias iguales entre

los números correspondan diferencias iguales en la cuantía de los atributos. Por

ejemplo, si medimos la responsabilidad con que los alumnos de la asignatura

de Histología Bucodental Humana acatan la disciplina académica universitaria,

tendremos una medida ordinal. En cualquier caso, podrían arbitrarse

instrumentos que indicarán que A la acata con más responsabilidad que B, éste

con más responsabilidad que C, y así sucesivamente. Si a A, B, C, etc., le

asignamos números que reflejen de mayor a menor el grado de

responsabilidad, tenemos datos ordinales. Así, le asignaríamos el 1 a A, el 2 a

B, el 3 a C, etc. Lo que no significa que entre el 1 y el 2 exista la misma

diferencia en responsabilidad que entre el 2 y el 3.

La mayor parte de las pruebas que se denominan no paramétricas y que

describiremos más adelante, utilizan este tipo de datos. Alguna de ellas, como

la prueba de los signos, requiere que los datos tengan como base una

distribución continua, aunque se midan en categorías discretas.

3. En la escala de intervalo la unidad de medida permite que los sujetos no

sólo puedan ser ordenados, sino asignados a números reales, de tal manera

que unas diferencias iguales entre los números asignados a dichos sujetos

reflejan diferencias idénticas en la cuantía de los atributos medidos. El punto

cero de la escala es arbitrario y no indica ausencia del atributo, siendo también

arbitraria la unidad de medida. A las relaciones de equivalencia y de mayor a

menor, se añade la de proporción conocida entre dos intervalos cualesquiera.

Gran número de pruebas estadísticas de uso muy frecuente utilizan este tipo de

datos. El problema es que en ciertos tipos de experimentos es difícil lograr

medidas de intervalo, por no hablar de la posible discusión acerca de la

naturaleza exacta de algunas distribuciones que, para algunos, son

consideradas de intervalo, siendo de cuasintervalo para otros y ordinales para

otros.

Page 5: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

77

4. Por último, la escala de razón o de proporción tiene todas las caracte-

rísticas de la escala de intervalo y cuenta además con un punto cero real que

indica ausencia del atributo medido. En ella, los números asignados a los

objetos son numerosos "verdaderos" con un verdadero cero, y lo único arbi-

trario es la unidad de medida. En cambio, un cero en una prueba de inteligencia

no significa ausencia de inteligencia sino cero puntos en una prueba

determinada.

Así, si en esta escala se determina la longitud de dos objetos diferentes en

centímetros y en metros, la proporción de las dos longitudes en centímetros es

la misma que la de las dos longitudes en metros. Con este tipo de medida se

puede usar cualquier prueba estadística.

Tipo de escala Conclusiones acerca de …

Transformación admisible

Ejemplos

Nominal Relaciones del tipo

―igual que‖ o ―distinto que‖

Cualquiera que preserve la

igualdad/desigualdad

Sexo, raza, estado civil, diagnóstico

clínico

Ordinal Relaciones del tipo

―mayor que‖, ―menor que‖, ―igual que‖

Cualquiera que preserve el orden o grado de magnitud

de los objetos

Dureza minerales, prestigio social,

ubicación ideológica

Intervalo Igualdad de diferencias

a + bx (b>0) Calendario, temperatura, inteligencia

Razón Igualdad o

desigualdad de razones

bx (b>0) Longitud, masa,

tiempo

Tabla 1. Principales tipos de escalas de medida disponibles en investigación

científica.

Page 6: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

78

B.- EL MODELO ESTADÍSTICO

Un modelo es una analogía en la que un conjunto de datos representa a otro conjunto por

ser isomórficos. Dos conjuntos se consideran isomórficos cuando en ellos existe

correspondencia entre todos y cada uno de los elementos de uno y otro conjunto y

cuando poseen entre sí ciertas estructuras semejantes (García Hoz, 1981). Para aclarar

este concepto, utilizaremos el siguiente ejemplo:

Supongamos una población celular correspondiente a un cultivo primario de

queratinocitos de la piel humana. Supongamos también que algunos estudios previos

sugieren que las muestras de piel sólo son capaces de generar cultivos primarios de

queratinocitos en el 40% de los casos. Para aumentar ese porcentaje de éxito, el

investigador plantea un estudio en el que utiliza factor de crecimiento epidérmico (EGF)

en la generación de cultivos primarios de queratinocitos, manteniendo las condiciones

normales de cultivo en un grupo de muestras que utiliza como controles.

En este momento, el investigador plantea la siguiente hipótesis: las muestras de piel

humana en las que se utiliza EGF generan cultivos primarios de queratinocitos con mayor

probabilidad que las muestras control. Supongamos que el investigador elige un nivel de

significación del 5 %.

A continuación, el investigador utiliza dos muestras de piel humana y las procesa en

presencia de EGF para generar cultivos primarios de queratinocitos. El resultado es

positivo en ambos casos, generándose cultivos primarios viables a partir de las dos

muestras utilizadas (éxito del 100%). Aunque se trata tan sólo de dos muestras

individuales, ante estos resultados caben plantearse las siguientes preguntas: ¿Cuál es

la probabilidad de que un porcentaje del 100 % de resultados positivos se haya producido

por azar? ¿Qué deducciones se pueden hacer acerca de la hipótesis?

Lo primero es determinar la estructura matemática de los datos. Desde el punto de vista

matemático el problema tiene las siguientes características: 1) se tienen dos opciones:

generación de cultivos primarios de queratinocitos o no; 2) por los datos anteriores

sabemos que lo habitual es que el 40 por ciento de las muestras sea capaz de generar

cultivos primarios, mientras que el 60 por ciento no los genera; 3) las dos opciones son

inclusivas, 40 por ciento más 60 por ciento dan el 100 por ciento; y 4) hay tres resultados

posibles para la muestra: ambas muestras generan cultivos primarios de queratinocitos;

Page 7: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

79

ninguna muestra genera dichos cultivos o una muestra genera cultivos primarios y la otra

no.

Determinada la estructura matemática, se procede en segundo lugar a buscar una

función matemática que le sirva de modelo. Una función que sirve para problemas de

este tipo es el desarrollo del binomio (X + Y)n, que tiene asimismo cuatro características:

1) hay dos términos o resultados X e Y; 2) cada término tiene una probabilidad de

ocurrencia determinada; 3) X e Y cumplen la propiedad de la inclusión, ya que la suma de

sus respectivas probabilidades es igual a 1; y 4) el universo de X e Y se muestra n veces.

En nuestro ejemplo, n = 2; luego si desarrollamos (X + Y)2, tenemos: X2 + 2XY + Y2.

Si se aplica este modelo a los datos del ejemplo, tenemos que X representa a las

muestras que son capaces de generar cultivos primarios de queratinocitos e Y a las que

no son capaces de ello. De este modo, el modelo es análogo con respecto a los datos.

Asi, X2 representa una muestra formada por dos biopsias de piel que sí son capaces de

generar cultivos primarios; el segundo término, 2XY, representa a una biopsia que será

cultivada con éxito y a otra que no, y el tercer término Y2, representa a dos biopsias de

piel que no generarán cultivos primarios. Como los datos se ajustan a las características

del modelo, podemos utilizarlo para conocer la probabilidad de ocurrencia de unos

resultados como los del ejemplo, es decir, un 100 por cien de cultivos con éxito. A esto se

le llama contrastar la hipótesis.

Con los resultados de la población formemos la distribución de probabilidad

correspondiente al desarrollo del binomio:

Conclusión de la investigación Término en el modelo Probabilidad (P) P %

Dos cultivos primarios (++) X2 0,42 0,16 16

Un cultivo primario (+-) 2XY 2 (0,4) (0,6) 0,48 48

Ningún cultivo primario (--) Y2 0,62 0,36 36

Total 1,00 100

Page 8: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

80

Con esta distribución de probabilidad a la vista, el investigador puede saber ahora que su

100 por cien de éxitos en los cultivos primarios no es significativamente distinto a la

probabilidad original de 0,40. Es decir, aunque la probabilidad de cultivar los

queratinocitos con éxito siguiera siendo de 0,40, habría un 16 por ciento de probabilidad

de encontrar dos alumnos que aspirasen a ello. Como esta probabilidad es muy superior

al nivel de significación elegido, 5 por ciento, tiene que rechazar su hipótesis de que las

condiciones de cultivo especiales han producido cambios.

Este ejemplo nos indica varias cosas. En primer lugar, que es posible construir una tabla

de probabilidades binominales para todas las combinaciones posibles de X e Y (es decir,

X = 0,01 e Y = 0,99; X = 0,02 e Y = 0,98, etc.) y para distintos tamaños de muestra (n

puede valer 2, 3, 4, etc.). Por supuesto, esta tabla (denominada tabla de probabilidades

binomiales) y la de otros modelos matemáticos, ya han sido elaboradas por diferentes

investigadores que han dedicado su tiempo al campo de la estadística durante los últimos

años. En segundo lugar, nuestro ejemplo indica que con una muestra de dos biopsias de

piel y un nivel de significación del 5 por ciento, nunca se podría probar la hipótesis de

investigación, ya que para ello, este modelo exige una muestra de mayor tamaño. La

consulta a la tabla de probabilidades binomiales se lo hubiera advertido, lo que significa

que los modelos tienen también sus exigencias. Por último, indica que los modelos

matemáticos son construcciones lógicas que guardan estrecha relación con los datos a

los que se aplican.

En resumen, la elección del modelo requiere determinar las características de los datos y

conocer los modelos disponibles y los supuestos subyacentes a cada modelo. Como

veremos a continuación, en el campo de las Ciencias Experimentales, se han

desarrollado dos tipos de modelos: los parámetricos, llamados así porque especifican

ciertas condiciones acerca de los parámetros de la población de la que se ha obtenido la

muestra, y los no parámetricos, que no parten de ningún supuesto relativo a los

parámetros de la población o en todo caso, son supuestos menores.

1. Pruebas paramétricas

Estas pruebas son las más poderosas, siempre que se cumplan los supuestos de los que

parte el modelo. Los tres supuestos más corrientes son: 1) que las características que se

estudian existan en la población; 2) que en ella están distribuidas normalmente, y 3) que

el estadístico muestral da una estimación del parámetro.

Page 9: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

81

Si se está estudiando el contenido intracelular de calcio en un grupo de células, por

ejemplo, se podría utilizar una prueba paramétrica siempre que pueda suponerse que la

concentración de calcio existe en la población celular, que esta concentración se

distribuye entre las células siguiendo el modelo de la curva normal y, por último, que la

media de la muestra de células escogidas es una estimación del parámetro (valor medio

de calcio en la población general de células). El segundo supuesto incluye un cuarto: la

necesidad de contar con medidas de intervalo. De ahí que "los métodos paramétricos

están limitados al contraste de hipótesis en las que intervienen estadísticos del sistema

de momentos, como medias, varianzas y correlaciones producto-momento" (Jiménez

Fernández, 2000).

Las pruebas paramétricas más conocidas por la mayoría de los investigadores son las

denominadas pruebas t y F. Ambas son consideradas pruebas muy potentes, pero parten

de los supuestos anteriores, lo cual restringe su uso. La prueba t de Student es quizás la

prueba estadística más utilizada en el campo de las ciencias básicas, pues puede

aplicarse a datos experimentales, siempre que éstos reúnan los requisitos de:

- Independencia. Lo que significa que al elegir la muestra, la elección de un

caso cualquiera de la población no afecta a la elección de ningún otro caso y que

la puntuación asignada a un sujeto no influye en la puntuación asignada a

ningún otro. Este requisito afecta también a los modelos no paramétricos.

Naturalmente, en los grupos relacionados no se pide este requisito como es el

caso de los diseños de medidas repetidas en el que los mismos sujetos se

miden dos o más veces.

- Normalidad. Las observaciones registradas en el experimento deben proceder

de poblaciones distribuidas normalmente, esto es, que sigan una distribución

similar a una campana de Gauss. En la mayor parte de los experimentos, el

investigador no se preocupa en verificar este supuesto, sino que se asume que

los datos de las variables observadas obedecen a una distribución normal.

- Homoscedasticidad. Lo que quiere decir que los grupos en estudio proceden

de una misma población o de poblaciones con igual varianza. Es, quizá, el único

requisito que suele probarse antes de llevar a cabo el análisis estadístico

mediante la t de Student, porque su violación puede ser grave en determinadas

condiciones.

Page 10: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

82

- Medida de intervalo. La variable dependiente o variable de análisis debe

haber sido medida, como mínimo, en una escala de intervalo para poder aplicar

las operaciones aritméticas a los datos (como veremos al final de este capítulo

dedicado al análisis estadístico).

- Linealidad. Las medidas de estas poblaciones normales y homoscedásticas

deben ser combinaciones lineales de los efectos atribuidos a las columnas y a

las filas o a ambos. Es decir, que la relación atribuida a tales efectos debe ser

aditiva y no multiplicativa. Este quinto requisito sólo es necesario cuando se

utiliza la prueba F (análisis de varianza).

Cuando se puede suponer razonablemente que los datos a analizar cumplen estas

condiciones, la elección de una de estas pruebas es excelente, porque la prueba

paramétrica será más poderosa que la no paramétrica a la hora de rechazar H0 cuando

ésta realmente deba ser rechazada. Es decir, "cuando los datos de la investigación

pueden ser analizados adecuadamente por una prueba paramétrica, será el medio más

poderoso para rechazar una hipótesis falsa" (Siegel y Castellán, 1995).

Pero cuando estas condiciones no son satisfechas (debido, por ejemplo, a que la

población no se distribuye normalmente, a que la medida no es tan fuerte como la escala

de intervalo o a que las poblaciones tienen distinta varianza), hay que acudir a las

pruebas no paramétricas.

Algunos autores como Arnau (1981), Welkowitz et al. (1981), Glass y Stanley (1980),

entre otros, sostienen que una ligera violación de estos supuestos no afecta radicalmente

la probabilidad obtenida en las pruebas paramétricas. Sin embargo, Siegel argumenta en

contra diciendo que "no hay hasta ahora acuerdo general en cuanto a lo que se entiende

por 'una ligera' desviación" y que, en cambio, cuando ésta ocurre "es difícil, si no

imposible, medir la potencia de la prueba. Incluso es difícil estimar el significado de una

aseveración de probabilidad acerca de la hipótesis en cuestión cuando la aseveración

proviene de aplicaciones inaceptables de una prueba" (Siegel y Castellán, 1995). En todo

caso, cuando existen poderosas razones para dudar del cumplimiento de los supuestos

el investigador no tiene otra alternativa que el recurso de las pruebas estadísticas no

paramétricas.

Page 11: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

83

2. Pruebas no paramétricas

Las pruebas no paramétricas son aquéllas cuyo modelo estadístico no parte de

supuestos acerca de la población o éstos son muy débiles. Asimismo, estas pruebas

pueden operar incluso con datos ordinales y hasta nominales. Los dos supuestos

asociados a la mayoría de estas pruebas son la independencia de las observaciones y la

continuidad básica de la variable, supuestos mucho menos restrictivos que los estudiados

en el punto anterior.

Como indicamos anteriormente, las pruebas no paramétricas deben aplicarse siempre

que: a) los datos estén recogidos en escala nominal u ordinal, y b) cuando los datos,

aunque estén medidos en escala de intervalo, no permiten hacer suposiciones acerca de

la forma de la distribución de la población ni de la homoscedasticidad de las poblaciones.

Las ventajas de este tipo de pruebas son:

- Permiten hacer afirmaciones exactas de probabilidad. Independientemente de

la forma de la distribución de donde se obtuvo la muestra, las probabilidades

obtenidas con la mayoría de estas pruebas son probabilidades exactas, con un

determinado nivel de significación. En consecuencia, se pueden hacer a partir

de ellas inferencias probabilísticas conociendo los riesgos de error.

- Permiten trabajar con muestras de pequeño tamaño. Si se trabaja con

muestras muy pequeñas, como n = 4, 5 ó 6, por ejemplo, no pueden aplicarse

pruebas paramétricas, salvo que se conozca exactamente la naturaleza de la

distribución poblacional.

- Con observaciones obtenidas de poblaciones diferentes, la única alternativa

válida son las pruebas no paramétricas.

- Estas pruebas son aplicables tanto para datos inherentes a los rangos como

para datos cuyas puntuaciones aparentemente numéricas tienen fuerza de

rangos.

- Si los datos de un estudio son simplemente clasifícatenos, esto es, están

medidos en una escala nominal, sólo pueden aplicarse pruebas no

paramétricas.

- Son más fáciles y rápidas de aplicar que las pruebas paramétricas.

Page 12: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

84

Sin embargo, los inconvenientes de este tipo de pruebas son los siguientes (Jiménez

Fernández, 2000):

- El despilfarro de datos o sujetos que con ellas se cometen si se aplican a

datos que reúnen los requisitos exigidos por las pruebas paramétricas. El grado

de despilfarro se expresa por la potencia-eficacia de la prueba no paramétrica,

esto es, dicha prueba precisaría un mayor número de sujetos que la

paramétrica para ser tan potente como ésta.

- Otro inconveniente que se cita es que las pruebas y sus tablas de

probabilidades se hallan dispersas en distintas publicaciones. Actualmente

puede considerarse superado al contar con algunas obras que las recopilan,

como la de Siegel y Castellán (1995) o algunos libros de estadística aplicada.

En resumen, la elección de una prueba estadística adecuada a los datos concretos de

una investigación se rige, entre otros, por los siguientes principios:

1) Si el nivel de medida logrado es nominal u ordinal, se ha de elegir

necesariamente una prueba no paramétrica.

2) Como suelen existir varios tipos de pruebas no paramétricas, siempre que

los datos lo permitan, se elegirá aquella que utilice el nivel de medida más alto

ya que es más potente al utilizar más información.

3) Si se ha logrado una medida de intervalo, se elegirá una prueba

paramétrica siempre que los datos cumplan con los requisitos asociados a

ella.

4) Habrá casos en que a pesar de contar con datos medidos en intervalos, se

usará una prueba no paramétrica debido al tipo de hipótesis en estudio.

Page 13: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

85

C.- POTENCIA DE UNA PRUEBA ESTADÍSTICA

Potencia estadística es la probabilidad de que el efecto que se pretende encontrar sea

detectado por el investigador, suponiendo que este efecto esté presente. La potencia de

un análisis estadístico es en parte una función de la prueba estadística empleada. La

potencia de una prueba se define como la probabilidad que existe de rechazar H0 cuando

ésta es realmente falsa. Matemáticamente, la potencia se representa como la

complementaria del error tipo II o error β (1 – β), siendo β la probabilidad de aceptar H0

cuando ésta es falsa (y, por tanto, H1 es cierta).

En situaciones comparables, las pruebas paramétricas son más potentes que las no

paramétricas. Esto se comprende fácilmente si consideramos que las pruebas

paramétricas necesitan datos medidos al menos en escala de intervalos. Estos datos

pueden reducirse a una escala inferior, de orden, y emplear así una prueba no

paramétrica. Pero observamos en seguida que se produce una pérdida de información,

pues la escala ordinal considera sólo el orden de las observaciones, y no la cuantía de su

separación.

Veamos un ejemplo sencillo. Supongamos que hemos determinado el número de

mitocondrias que existe en un determinado compartimiento celular en cuatro células

endoteliales humanas. Los resultados que hemos obtenido son los siguientes, medidos a

nivel de intervalo: 4, 6, 7 y 9. Una prueba paramétrica considera el orden y la cuantía de

separación que existe entre ellas. Así el 9 está por encima del 7, pero separado de éste

exactamente 2 unidades; el 7 ocupa un orden superior al 6, del que le separan 1 unidad,

etc. De este modo la prueba paramétrica recoge toda la información que contienen los

datos. Para su equivalente no paramétrica, el alumno que obtuvo 9 puntos ocupa también

el primer lugar; el que obtuvo 7, el segundo; el de 6, el tercero, etc., pero no considera

que entre estos órdenes existe una distancia distinta. Así, ignora que entre el primer y el

segundo alumno la distancia es de 2 puntos; de sólo 1 entre el segundo y el tercero, etc.

Al utilizar menos información son menos potentes para datos comparables, lo que en

términos prácticos significa que, aunque para la mayoría de los datos los dos tipos de

pruebas llevarán a la misma conclusión, habrá ciertos datos para los que la prueba no

paramétrica llevaría a aceptar H0 mientras que la correspondiente paramétrica llevaría a

rechazarla.

Page 14: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

86

Habitualmente, la mayoría de los investigadores desean rechazar las hipótesis de nulidad

que plantearon al inicio de su proyecto. Por ello, lo que más les interesa es utilizar una

prueba estadística con una potencia más bien alta. Sin embargo, se le ha prestado poca

atención a este punto y con frecuencia se realizan experimentos en lo que existen

muchas probabilidades de cometer errores de tipo II, sin saberlo el investigador, y se

abandonan líneas de investigación que pueden ser prometedoras. El análisis de la

potencia de la prueba aclararía este error.

Para Welkowitz (1981), la potencia de una prueba depende de tres factores

fundamentales: α, n y . Como veremos a continuación, el nivel de significación α está

fijado convencionalmente en 0,05 ó 0,01 para la mayoría de los casos, aunque el

investigador puede cambiarla, mientras que el tamaño de muestra n suele ser fijado de

antemano por el investigador. Desafortunadamente, suele quedar casi siempre fuera del

control del investigador. La falta de control sobre suele ser el verdadero problema para

el cálculo de la potencia de una prueba estadística.

Tabla 2. Tabla resumen de los principales conceptos relacionados con la potencia

y los errores estadísticos.

Error tipo I Consiste en llegar a la conclusión de que existe una relación entre las

variables cuando ésta no existe. La probabilidad de cometerlo es α

Nivel de confianza

Indica la probabilidad de acertar cuando no se rechaza una hipótesis nula que es, efectivamente cierta (complementaria de α)

Error de tipo II Cuando no se detecta una relación entre variables que en realidad sí

existe en la población. Probabilidad se llama β

Potencia Capacidad de una prueba estadística para detectar una relación entre

variables. Probabilidad 1 – β (complementaria de β)

Page 15: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

87

1. El nivel de significación α

El nivel de significación α de una prueba estadística representa la probabilidad de

rechazar la hipótesis nula H0 cuando ésta es verdadera, es decir, la probabilidad de que

las diferencias halladas en nuestros resultados se deban puramente al azar. Por

supuesto, cuanto más baja sea esa probabilidad de error (denominado error tipo I o error

α), más fiables serán los resultados y el investigador podrá confiar en mayor medida en

que las diferencias observadas sean diferencias reales y no diferencias debidas al azar.

De hecho, y si los demás factores se mantienen constantes, cuanto más alto sea el nivel

de significación, más difícil será rechazar H0 cuando ésta es verdadera.

Sin embargo, todo aumento del nivel de significación se asocia a una disminución de la

potencia del test estadístico utilizado y, por tanto, a un aumento de la probabilidad de

error β. Por ejemplo, si el investigador decide utilizar un nivel de significación α de 0,05

en lugar de un nivel α de 0,01, la potencia aumenta. El problema es que la manipulación

de α no suele ser una técnica eficaz porque, para unos datos determinados, dicha

manipulación suele tener efectos opuestos en los dos tipos de errores α y β. Por ese

motivo, la mayoría de los investigadores utilizan niveles de significación estándar fijados

en 0,05 (o lo que es lo mismo, 5%) o en 0,01 (1%). Estos conceptos se muestran de

forma sintética en la Tabla 2.

Un ejemplo de este efecto de α sobre β y de β sobre α se muestra en la Figura 3. En

dicha figura, se ilustra la interacción que se produce entre α y β, al analizar los datos de

un diseño pretest-postest de grupo único. Supongamos que se está investigando un

nuevo procedimiento pedagógico para la enseñanza universitaria de la Histología

Bucodental Humana. La media del grupo en el pretest (antes de utilizar el nuevo

procedimiento) es de 5 puntos y el contraste es de tipo unilateral derecho, ya que el

investigador afirma en su hipótesis que la media del postest (tras el nuevo procedimiento)

será superior a 5. En el primer par de figuras, la curva bajo la hipótesis de nulidad indica

el valor de µ = 5 y el valor crítico de 7,06 para α = 5 %. La zona rayada de las curvas

alternativas indica la probabilidad de un error de tipo II, β, cuando la hipótesis alternativa

especifica que el valor de la media es de 6,5 puntos.

En el ejemplo B de la Figura 3, el nivel de significación se ha elevado. Del 5 % se ha

pasado al 1 %, con lo que el valor crítico se ha elevado también. Ahora ha disminuido la

probabilidad de un error de tipo I pero ha aumentado la de un error de tipo II. Las dos

últimas figuras ilustran la situación típica de querer reducir el riesgo de error de tipo II

bajando el nivel de significación. En este caso se ha fijado en 0,08 pero al descender el

Page 16: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

88

valor crítico, el riesgo de error de tipo I ha aumentado considerablemente bajo la

hipótesis alternativa.

Estas figuras ilustran que el descenso o aumento del nivel de significación no puede

expresarse en una regla matemática que indique que a un aumento o descenso

determinado del mismo corresponde un descenso o aumento concreto en el riesgo de

error de tipo II. Lo único que se puede afirmar es, pues, que ambos tipos de errores se

relacionan inversamente. Por ello es más interesante manipular el tamaño de la muestra.

Figura 3. Ilustración del poder del contraste de H0: µ= 5 comparado con H1: µ.= 6,5

para distintos valores de α.

A

B

C

A

B

C

Page 17: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

89

2. El tamaño de la muestra n

Cuando todos los demás factores se mantienen constantes, el investigador puede

aumentar el poder del contraste de H0 aumentando el tamaño de muestra n. El motivo

de ello es que la exactitud de la mayoría de los valores estadísticos depende del tamaño

de n, pues casi todos estos valores tienen alguna función de n en el denominador. Al

aumentar n disminuye el error y se incrementa la potencia del test. Por ello, en principio,

cuanto mayor sea el tamaño de muestra escogido, mayor será la potencia del test

estadístico y menor la probabilidad de error.

Este fenómeno se puede apreciar esquemáticamente en la Figura 4, que muestra cómo

aumenta la potencia del test al aumentar el tamaño de la muestra. Estas muestras se

tomaron de poblaciones normales con varianza σ2.

Figura 4. Curvas de potencia de una prueba de dos colas con α= 0,05 y distintos

valores de n.

n=100 n=50

Page 18: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

90

3. El grado de discrepancia entre H0 Y H1

Otro factor del cual depende la potencia de un test estadístico es la proximidad o lejanía

de los valores postulados por la hipótesis nula y la hipótesis alternativa. En realidad,

cuando se dice que una hipótesis nula es falsa, esta hipótesis puede ser falsa en mayor

o menor grado, aumentando su grado de falsedad en la medida en que supone un valor

más extremo del parámetro. Para valores fijos de α y n, el poder del contraste aumenta

a medida que el parámetro se aparta del valor supuesto para él en H0.

En estadística, es una medida general del grado de falsedad de la hipótesis nula o de

la magnitud del "efecto" en la población estudiada. Por ejemplo, dado n = 200 y α =

0,05, el poder de contraste de H0: ρ = 0 es mayor para ρ1 = 0,20 que para ρ1 = 0,10.

Por ello, en el contraste de hipótesis, puede considerarse como un valor especifico

que constituye una alternativa para H0.

Para Glass y Stanley (1980), la probabilidad de rechazar H0 a un determinado nivel de

significación aumenta a medida que aumentan los valores específicos de H1. El poder

del contraste tiende a 1 a medida que ρ difiere de cero.

4. Determinación de la potencia

Las hipótesis alternativas específicas son las que hacen posible el análisis de la

potencia de una prueba. Generalmente, la hipótesis de nulidad es simple, esto es,

especifica y concreta un valor del parámetro. Por el contrario, la hipótesis alternativa

suele ser compuesta y contiene dos o más elementos o estados del conjunto de

parámetros.

Ejemplos de hipótesis simples son: µ = 120; ρ = 0,3; σ = 12. Ejemplos de hipótesis

compuestas son: µ ≠ 120; ρ ≠ 0,3; σ ≠ 12.

La hipótesis compuesta está constituida por todas las hipótesis simples compatibles con

ella. Cuando H1 es compuesta, la potencia de la prueba dependerá de los valores

asignados al parámetro bajo la hipótesis alternativa. Además, H1 puede ser direccional o

no direccional, pudiendo existir diversas hipótesis alternativas para una hipótesis de

nulidad simple.

Page 19: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

91

La potencia de una prueba es fácil de calcular, ya que existen tablas que recogen las

probabilidades de 1 - β para distintos niveles de significación.

Por ejemplo: Supongamos que un investigador quiere probar que el nivel de expresión

del gen KSR1 en células de endotelio corneal difiere 3 puntos del nivel de expresión en

la población general de células humanas, que se ha estimado en 100 copias de ARNm

por célula. Dicho investigador toma una muestra aleatoria de 64 células endoteliales

corneales y fija un nivel de significación α de 0,05. Supongamos que conoce la varianza

de la población de células del organismo humano para este gen, que es de 100 y que

los datos obedecen a una distribución normal. Tenemos lo siguiente:

H0 : µ0 = 100

α =0,05

σ2 = 100

H1 : µ1 = 103 ó 97

n = 64

La media X es el estimador muestral. Bajo H0 se tiene una distribución muestral de

medias como la representada en la parte superior de la Figura 5. Si H1 : µ1 = 103 es la

verdadera, la distribución muestral de medias es como la representada en la parte

central de la figura. Las dos distribuciones muestrales difieren sólo en el valor de µ y

tienen el mismo error típico. Utilizando la curva normal se aceptará H0 siendo falsa si se

observa una media muestral (valor crítico) inferior a 1,96 expresada en puntuaciones

típicas z (z0,975 = 1,96). Se conoce por tipificación al proceso de restar la media y dividir

por su desviación típica a una variable X. De este modo se obtiene una nueva variable z

= (x – X)/s de media y desviación típica Sz = 1, que denominamos variable

tipificada.

Page 20: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

92

Figura 5. Poder del contraste H0 : µ0 = 100 y H1 : µ1 = 103 ó 97 (n = 64 y α = 0,05).

Para calcular la potencia del ejemplo propuesto, procederemos del siguiente modo:

1. Calculamos el error típico de la media: σ/√n = 10/√64 = 1,25

2. Calculamos la media "crítica", es decir, el valor de la media que divide la

curva normal en dos partes, la de aceptación y rechazo de H0: Xc = 1,96 ×

1,25 + 100 = 102,45

3. Determinamos la puntuación típica que corresponde a este valor de 102,45

bajo H1, es decir, cuando H1, es verdadera: z1 = (102,45 – 103)/1,25 = -0,44

4. Utilizando cualquier tabla estadística de áreas de la curva normal, hallamos

el porcentaje del área de la curva normal que se encuentra a la derecha de z1

= -0,44. Su valor es de 67 por cien (50% + 17%). Esta es la potencia de la

prueba ó 1 - β y el valor de β es de 33%, esto es, el riesgo de un error de tipo

II es de 0,33. Lo que esto significa es que cuando H1 es verdadera (µ = 103),

el 67% de las medias muestrales que se pueden obtener serían significativas

por ser mayores que 102,45. Así, la probabilidad de rechazar H0 cuando µ =

103 es de 0,67 y ésta es la potencia de la prueba.

Page 21: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

93

En el caso de que µ fuera igual a 97, el mismo contraste de hipótesis correría el mismo

riesgo de un error de tipo II y tendría el mismo poder (0,67), puesto que la prueba es

bilateral y el análisis simétrico. Bajo estas condiciones, puede concluirse que si µ = 97 ó

103 la probabilidad de rechazar H0 es de 0,67.

Si la hipótesis alternativa especificara un valor menos distante de H0, como por ejemplo,

H1 : µ1 = 101, el poder del contraste disminuye. De igual modo, el poder de contraste

también disminuye si se baja a 0,01 ó 0,001 el nivel de significación, y sería igual a la

unidad si H0 es tan errónea que virtualmente no existe probabilidad de un error de tipo II.

Ello no significa que el experimento sea necesariamente bueno, pues se puede estar

comprobando algo tan evidente que resultara inútil. Por ejemplo, que el nivel medio de

expresión de KSR1 en células corneales es de 10000 (valor demasiado alto para ser

mínimamente probable).

Cuando se trabaja con hipótesis unilaterales, el procedimiento es el mismo, sólo que en

tales casos varía el valor de las puntuaciones típicas correspondientes a los distintos

niveles de significación.

Una vez que hemos visto el concepto y las peculiaridades del análisis de la potencia,

veamos cómo puede calcularse esta potencia recurriendo a una tabla de probabilidades.

Al mismo tiempo, veremos cómo se puede determinar el tamaño de la muestra. Por ello,

a continuación se va a determinar la potencia y el tamaño de n para la media de una

población cualquiera (Doménech i Massons, 1980):

Para la determinación de la potencia, hemos de calcular la probabilidad de obtener un

resultado significativo y de rechazar H0 a partir de los datos de nuestra distribución

muestral. Para ello, los pasos a seguir son los siguientes:

1. Calcular el valor de . Dicho valor debe expresarse en términos de z.

2. Calcular el valor de δ. El valor δ corresponde a veces n, y se puede

calcular como δ = f(n)

3. Consultar una tabla estadística de potencias en función de δ y de . Estas

tablas nos darán la probabilidad de rechazar H0 para distintos valores de µ.

Page 22: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

94

Para la determinación del tamaño de la muestra hay que decidir previamente qué

potencia se desea. Cada investigador puede fijar el valor más oportuno para su estudio,

pero si se quiere un valor convencional, Welkowitz recomienda el de 0,80, que fija en

0,20 la probabilidad de un error de tipo II. El sugerir una probabilidad mayor para los

errores de tipo II que para los de tipo I se debe a que en la mayoría de los problemas que

se investigan resultan menos perjudiciales los falsos negativos (aceptar H0 cuando es

falsa o error de tipo II) que los falsos positivos (rechazar H0 cuando es verdadera o error

de tipo I). Por otra parte, si se fija convencionalmente una potencia de 0,95 ó 0,99 la

muestra resultante no estará al alcance de muchos investigadores (Jiménez Fernández,

2000).

Para finalizar lo relativo al análisis de la potencia, sólo nos queda insistir en los puntos

siguientes:

1. Dicho análisis requiere que se formulen hipótesis alternativas específicas,

es decir, que concreten un valor numérico para la población.

2. El análisis de la potencia se relaciona totalmente con valores de la

población y no con los resultados observados o por observar en las muestras.

3. Puede hacerse antes de realizar el experimento para determinar cuál será

la potencia con los valores de , n y especificados, o después de realizado

para determinar la potencia que tenía la prueba, dados , n y . Si se realiza

después y la potencia resulta ser muy baja, los resultados obtenidos, si no son

estadísticamente significativos, no pueden tomarse como concluyentes.

4. Normalmente, el problema radica en formular valores específicos para la

hipótesis alternativa que sean suposiciones razonables del parámetro y sin los

cuales es imposible calcular la potencia. Cuando esto ocurre, Welcowitz

recomienda especificar valores convencionales para y que si bien son

arbitrarios, sean tan razonables como lo es la regla de decisión del 0,05 ó

0,01. Para cada prueba recomienda tres valores, según que se sospeche que

la magnitud del efecto en la población, esto es, y, sea pequeño, mediano o

grande. Los valores que recomienda son los siguientes:

Page 23: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

95

a) Para la prueba de la media de una población y para la prueba de la

diferencia entre dos medias independientes, y puede fijarse en 0,2; 0,5 y 0,8

respectivamente.

b) Para la prueba de la proporción de una población y para la de un

coeficiente de correlación de Pearson los valores recomendados son de 0,10,

0,30 y 0,50, según que se postulen efectos pequeños, medianos o grandes

respectivamente.

Page 24: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

96

D.- LA POTENCIA-EFICIENCIA

En este Proyecto de Investigación hemos estudiado tres criterios que conviene considerar

en la resolución estadística de los diseños. En primer lugar, hemos hablado de los

niveles de medición de las variables. A continuación, hemos estudiado el modelo

estadístico, que nos indica que existen dos tipos de pruebas, las paramétricas y las no

paramétricas, analizando las exigencias de ambas. En tercer lugar, hemos tratado el

concepto de potencia, que indica que, en igualdad de condiciones, las pruebas

paramétricas son más potentes. Analicemos ahora un cuarto criterio: el de la potencia-

eficiencia.

Este concepto hace referencia al incremento de n necesario para hacer que la prueba

estadística B sea tan poderosa como la A. Dada una potencia, compara el tamaño de la

muestra necesario para una prueba, B, con el tamaño requerido por una segunda, A, que

actúa como término de comparación. Ambas pruebas se aplicarían bajo las mismas

condiciones. Así, dadas una hipótesis de nulidad, una hipótesis alternativa, la potencia, el

nivel de significación y el tipo de contraste, la potencia-eficiencia del estadístico de

contraste B con respecto a otro A es A/B o como escribe Siegel (1995):

Donde na es el número de sujetos de la prueba A para una potencia dada y nb es el

tamaño de la muestra de la prueba B necesario para tener la misma potencia que A. Sea

na = 20 y nb = 25. La prueba B tiene una potencia-eficiencia de: 20/25 × 100 = 80%

Lo que significa que son necesarios 100 casos de B por cada 80 casos de A, siempre que

se cumplan todos los supuestos que subyacen a la aplicación de ambas pruebas y

cuando la prueba A es más poderosa.

Potencia-eficiencia de la prueba B = na/nb por ciento

Page 25: Grupo de Investigación de Ingeniería Tisular Máster en ...histologia.ugr.es/pdf/Metodologia_V.pdf · las muestras extraídas de ciertas poblaciones o conjuntos de elementos, con

Grupo de Investigación de Ingeniería Tisular Máster en Ingeniería Tisular

97

Ya se ha dicho que a medida que son menores o más débiles los supuestos de un

modelo particular, más generales son las conclusiones obtenidas tras la aplicación de la

prueba estadística asociada con el modelo, pero menos poderosa es aquella para

rechazar la hipótesis de nulidad. La forma de conjugar potencia y generalidad es elegir

una prueba estadística de amplia generalidad e incrementar su potencia hasta un nivel

dado, aumentando el tamaño de la muestra. Por ejemplo, si tenemos un diseño de dos

grupos relacionados en el que podemos elegir entre la prueba t (paramétrica) y la prueba

de McNemar para la significación de los cambios (no paramétrica), si nos inclinamos por

la segunda, es necesario aumentar el tamaño de n para que ésta tenga la misma potencia

que aquélla. Es decir, la prueba t es más potente pero requiere datos que cumplan con

los requisitos de independencia, normalidad, homoscedasticidad y medida de intervalo,

mientras que la segunda posee mayor generalidad, pues sólo le afecta el primer requisito.

Su potencia puede aumentar hasta la que tendría la prueba t incrementando el tamaño de

la muestra. Respecto a ésta, su eficacia relativa oscila entre el 63 y el 95 por cien,

dependiendo de la distribución y tamaño de los datos a analizar.

En resumen, cuando se cumplen los requisitos de las pruebas paramétricas éstas tienen

más eficiencia relativa que las no paramétricas, pero pueden equipararse siempre que en

las segundas se incremente el tamaño de n hasta donde lo requiere la potencia de sus

equivalentes paramétricas. Este dato puede ser de interés práctico ya que con frecuencia

es difícil calcular la eficiencia relativa de dos pruebas, ya sean éstas paramétrica o no

paramétricas, ya sean ambas no paramétricas.