Al Método y Metodología Estadística de La

INTRODUCCIÓN AL MÉTODO Y METODOLOGÍA ESTADÍSTICA DE LA

PSICOMETRÍA

Melissa Judith Ortiz Barrero

Mg. Psicología

La conexión entre la psicometría y la psicología matemática, permite considerar el

método de la Psicometría desde una doble vertiente: por un lado, en tanto que la

teoría psicométrica se refiera a contenidos empíricos, el método no es otro que el

método científico propio de toda ciencia empírica; y por otro lado, el componente

matemático de los modelos formales de medición, sujeta a la teoría psicométrica,

como a la psicología matemática, a los criterios formales de las matemáticas (Meliá,

1990).

Muchos campos de la Psicometría la utilizan como técnica de obtención de datos,

cuando el problema de investigación hace imposible contrastar el modelo con datos

empíricos. Este es el caso cuando se pretende descubrir las propiedades y

características de índices estadísticos, métodos de estimación, potencia de

contrastes, etc. Además, la simulación preserva también el estatus de método en

cuanto generadora de conocimiento.

El análisis del método no puede obviar el papel instrumental de la Psicometría

como herramienta metodológica para la contrastación empírica de las teorías

psicológicas. La aplicación del método científico en psicología obliga a que la

Psicometría desempeñe un papel activo en diferentes momentos del proceso.

Arnau (1989) articula las relaciones entre el plano teórico y empírico del método

científico en tres niveles: el nivel teórico-conceptual, que abarca desde el

planteamiento del problema hasta la formulación de hipótesis empíricamente

contrastables; el nivel técnico-metodológico que abarca el plan de investigación y la

estrategia de recogida de datos; y el nivel estadístico-analítico, donde se realiza la

modelización estadística de los datos y las inferencias sobre las hipótesis

sometidas a contrastación. La generalización de los resultados hace retornar la

aplicación del método al nivel teórico-conceptual con lo que se cierra el ciclo. La

Psicometría acompaña a la aplicación del método en cada uno de los tres niveles.

Los contenidos de la Psicometría

Hay un consenso amplio en la disciplina sobre cuáles son los contenidos propios de la

Psicometría. Si se unen las diferentes versiones de la teoría de los tests bajo una

denominación común, se obtiene la división en tres grandes grupos de los

contenidos psicométricos: teoría de la medición, escalamiento y teoría de los tests.

- La teoría de los tests

La teoría de los tests puede verse como un esquema conceptual formalizado para

hacer inferencias a partir de las puntuaciones de las personas en los tests y permitir la

toma de decisiones que impliquen el constructo objeto de la medición. La teoría de

los tests proporciona los fundamentos para la elaboración y uso de los tests,

aportando además las herramientas para examinar las propiedades métricas de las

mediciones obtenidas con ellos.

La definición de “test” no ha variado de forma significativa conforme evolucionaba la

teoría de los tests. un test psicológico es esencialmente una medida objetiva y

tipificada de una muestra de conducta; es un procedimiento estandarizado que busca

mostrar la índole o grado de instrucción, aptitud o manera de ser de un sujeto.

Otras características definitorias de un test psicológico son que los tests deben

permitir la cuantificación objetiva de acuerdo con unas reglas establecidas y que los

autores de los tests deben aportar información técnica sobre la precisión y

relevancia para el objetivo de la evaluación de las mediciones aportadas por el test.

Se han elaborado diversas clasificaciones de los tests utilizando diferentes criterios.

Crocker y Algina (1986) ofrecen una clasificación útil de los tests atendiendo al

carácter general de la tarea que deben realizar las personas: tests de ejecución

óptima, en los que se instruye a la persona para que conteste lo mejor que pueda

(incluiría los tests de inteligencia, aptitudes y rendimiento); y tests de ejecución típica,

que demandan de la persona información sobre sus actitudes, sentimientos,

intereses, etc., donde se incluirían los cuestionarios e inventarios de personalidad.

Crocker y Algina (1986) enumeran los problemas por los que la medida

psicológica está contaminada por el error:

• Ausencia de aproximaciones únicas a la medición de la mayoría de los

constructos.

• Muestreo limitado del comportamiento (muestreo reducido de situaciones y

momentos temporales).

• Presencia inevitable de los errores de medida.

• Evolución de las teorías psicológicas (el significado de las mediciones siempre

estará sujeto a la evolución de la teoría de la que forma parte).

La finalidad de la teoría de los tests es aportar soluciones para minimizar el impacto

de estos problemas sobre la medición psicológica (Martínez-Arias, 1995).

La imposibilidad de observar de forma directa la mayoría de las variables psicológicas

obliga a considerar la teoría de los tests como una maquinaria conceptual para la

inferencia psicométrica. El papel de los ítems es el de provocar que las respuestas de

las personas en una situación estandarizada, reflejen la conductas que en situaciones

“espontáneas”, se considerarían los indicadores conductuales del constructo. La

cuantificación se produce cuando a través de un procedimiento de escalamiento se

asignan valores cuantitativos a los patrones de repuesta de las personas en el test.

El objetivo principal de la teoría de los tests es estudiar el proceso de inferencia y

aportar procedimientos para realizarla (Crocker y Algina, 1986). Este objetivo ha

hecho que bajo la denominación “teoría de los tests” tengan cabida contenidos tan

diversos como: construcción de tests, elaboración de ítems, análisis de ítems,

métodos de puntuación e interpretación de las puntuaciones y, de forma

preponderante, el análisis de la fiabilidad y validez de las medidas aportadas por los

tests.

La teoría de los tests suele dividirse en dos grandes ramas: la teoría clásica de los

tests (parte de la concepción de que la puntuación observada en el test está

compuesta de un componente verdadero y otro de error) y la teoría de respuesta a los

ítems (o teoría del rasgo latente).

Criterios de calidad en la construcción de test

Utilice como guía la siguiente página web: http://www.uned.es/psico-3-psicometria/ En

ella encontrará la explicación de conceptos y técnicas importantes para la

construcción de pruebas tales como los de Validez y Confiabilidad (fiabilidad), que se

encuentran a continuación. Además encontrará ejercicios (plantillas) que podrá

resolver.

Confiabilidad

Criterio de calidad relacionado con la precisión de las medidas obtenidas con un test

y que proporciona información acerca de:

• La estabilidad temporal de las puntuaciones obtenidas con el test (test-retest y

formas paralelas)

• La consistencia interna del test (alpha y dos mitades)

Validez

Criterio de calidad relacionado con la adecuación de las puntuaciones del test

para el objetivo que suscitó su aplicación.

http://www.uned.es/psico-3-psicometria/

Conceptos estadísticos, normas y estandarización

Por lo general, el resultado inicial de las pruebas es una puntuación natural como el

número total de afirmaciones de personalidad refrendadas en una dirección en

particular o el número total de problemas resueltos correctamente, esta puntuación

inicial es inútil en sí misma, los examinadores deben ser capaces de convertir la

puntuación inicial a alguna forma de puntuación derivada que se base en la

comparación con un grupo normativo o de estandarización. Se compara la puntuación

del examinado con la distribución de puntuaciones obtenidas por la muestra de

estandarización. Así, se determina, a partir de las normas, si una puntuación obtenida

es baja, promedio o alta

Un grupo normativo consiste en una muestra de personas examinadas que son

representativas de la población hacia la cual se dirige la prueba. El objetivo esencial

de la estandarización de una prueba consiste en determinar la distribución de las

puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan la

prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas como

normas.

Las normas indican la posición que tiene un individuo dentro de la prueba, en relación

con el desempeño de otras personas de la misma edad, grado escolar, sexo y otras

variables. Dichas normas pueden volverse anticuadas en sólo unos cuantos años, de

modo que la regla, más que la excepción, debe ser el establecimiento periódico de

nuevas normas.

La gran parte de las pruebas psicológicas se interpreta a través de la consulta de

normas; como ya se señaló, estos instrumentos se denominan pruebas referidas a la

norma. Sin embargo, existen otros tipos de instrumentos; las pruebas referidas a

criterio que ayudan a determinar si una persona puede alcanzar un criterio

objetivamente. En el caso de las pruebas referidas a criterio, las normas no son

esenciales.

Existen diferentes tipos de normas, pero éstas tienen una característica en común:

cada una incorpora un resumen estadístico de un enorme conjunto de puntuaciones.

Así, para comprenderlas, el lector necesita dominar la estadística descriptiva

elemental.

Ejemplo:

La prueba es un cuestionario de opción múltiple con 30 palabras difíciles como

firmamento, paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa

correcta para 17 de las 30 palabras. Pregunta cómo se compara su calificación con

otras personas con el mismo nivel académico. ¿Cómo podría responderse a su

pregunta?

Una manera de responder a la interrogante consistiría en darle una lista de las

puntuaciones naturales de la muestra preliminar de estandarización con 100

profesores representativos de su universidad. Cuando se nos confronta con un

conjunto de datos cuantitativos, la tendencia humana natural es la de resumir y

organizar dichos datos en patrones significativos. Por ejemplo, en la evaluación del

significado de la puntuación de vocabulario de la profesora, se podría calcular la

puntuación promedio de toda la muestra o establecer la posición relativa de la

puntuación de la profesora.

- Distribución de frecuencias

Una manera simple y útil de resumir los datos consiste en tabular una distribución de

frecuencias, la cual se prepara al especificar un pequeño número de intervalos de

clase de igual tamaño y después determinar cuántas puntuaciones caen dentro de

cada intervalo. La suma de las frecuencias de todos los intervalos será igual a N, el

número total de puntuaciones en la muestra. No existe una regla simple para

determinar el tamaño de los intervalos; éste, obviamente, depende del número de

intervalos deseado. Es común que la distribución de frecuencias tenga entre 5 y 15

intervalos de clase.

Ejemplo:

Tabla 1. Distribución de frecuencia de las puntuaciones de 100 profesores en una

prueba de vocabulario (Tomado de Gregory, 2001)

Intervalo de clase Frecuencia

4-6 1 7-9 8

10-12 12 13-15 21

16-18 24

19-21 21 22-24 7 25-27 5

28-30 1

W=100

- Medidas de tendencia central

¿Se puede establecer una sola puntuación representativa de las 100 puntuaciones de

vocabulario en nuestra muestra? La media (X) o promedio aritmético es una de dichas

puntuaciones. Se calcula sumando todas las puntuaciones y dividiéndolas entre N, el

número de puntuaciones. Otro índice útil de tendencia central es la mediana, la

puntuación que se encuentra a la mitad cuando se han ordenado todas las

puntuaciones. Si el número de puntuaciones es par, la mediana es el promedio de las

dos puntuaciones a la mitad. En cualquier caso, la mediana es el punto que divide en

dos la distribución, de modo que la mitad de los casos se encuentren por encima de

ella y la mitad por debajo. Por último, la moda es simplemente la puntuación que

ocurre con mayor frecuencia. Si dos puntuaciones tienen la mayor frecuencia de

ocurrencia, se dice que la distribución es bimodal. La media es sensible a los valores

extremos y puede ser engañosa si una distribución tiene pocas puntuaciones

inusualmente altas o bajas. Considérese el caso extremo donde nueve personas

ganan $10 000.00 y una décima persona gana $910 000.00. El ingreso promedio para

este grupo de personas sería de $100 000; sin embargo, este nivel de ingresos no es

típico de nadie dentro del grupo. La mediana del ingreso, colocada en $10 000, es

mucho más representativa. Por supuesto, éste es un ejemplo extremo, pero ilustra un

punto en general: si una distribución está sesgada (es decir, es asimétrica), la

mediana es un mejor índice de la tendencia central que la medía.

- Medidas de variabilidad

Dos o más distribuciones de puntuaciones de prueba pueden tener la misma media y,

sin embargo, es posible que difieran en gran medida en el grado de dispersión de las

puntuaciones con respecto a la media. Para describir el grado de dispersión, es

necesario un índice estadístico que exprese la variabilidad de las puntuaciones en una

distribución.

El índice estadístico de variabilidad que se utiliza con mayor frecuencia en un grupo

de puntuaciones es la desviación estándar (DE). Desde un punto de vista conceptual,

el lector necesita saber que la DE refleja el grado de dispersión en un grupo de

puntuaciones. De hecho, en el caso extremo donde todas las puntuaciones son

idénticas, la DE es exactamente cero. A medida que un grupo de puntuaciones se

dispersa más, la DE se vuelve más grande.

La varianza es otra medida de variabilidad, pero en general, los psicólogos prefieren

informar la desviación estándar, que se calcula obteniendo la raíz cuadrada de la

varianza.

- Distribución normal

Los psicólogos prefieren una distribución normal de puntuaciones de prueba, aun

cuando muchas otras distribuciones son teóricamente posibles. Por ejemplo, una

mayor proporción de personas obtendría puntuaciones en el rango superior si las

pruebas psicológicas se conformaran a una distribución rectangular de puntuaciones,

en vez de a una distribución normal.

Figura 1. Distribución normal (Tomada de Gregory, 2001)

Una razón por la que los psicólogos prefieren las distribuciones normales es que la

curva normal tiene características matemáticas útiles que forman la base para varios

tipos de investigación estadística. Así, a fin de facilitar el uso de estadísticas

inferenciales, los psicólogos prefieren que las puntuaciones de prueba en la población

normal sigan una distribución normal o casi normal, otra propiedad útil de las

distribuciones normales es que el porcentaje de casos que caen dentro de un cierto

rango o más allá de un cierto valor se conoce de manera exacta.

- Transformación de las puntuaciones naturales

Darle sentido a los resultados de prueba es, en gran medida, una cuestión de

transformar las puntuaciones naturales en formas más interpretables y útiles de

información.

Percentiles y rangos percentiles: Un percentil expresa el porcentaje de personas

dentro de la muestra de estandarización que obtuvieron puntuaciones por debajo de

una puntuación natural específica. Un percentil indica sólo cómo se compara a un

individuo con la muestra de estandarización y no transmite el porcentaje de preguntas

respondidas de manera correcta. Los percentiles también pueden concebirse como

látigos en un grupo de 100 sujetos representativos, donde 1 es el rango inferior y 100

el superior.

Puntuación estándar o puntuación z: Una puntuación estándar utiliza la desviación

estándar de la distribución total de puntuaciones naturales como la unidad

fundamental de medida. La puntuación estándar expresa la distancia de la media en

unidades de desviación estándar. Por ejemplo, una puntuación natural que se

encuentra exactamente a una desviación estándar por encima de la media se

convierte en una puntuación estándar de +1.00. Una puntuación estándar no sólo

expresa la magnitud de la desviación con respecto a la media, sino también la

dirección de esa desviación (positiva o negativa). El cálculo de la puntuación estándar

de un individuo es sencillo: se resta la puntuación natural de la persona examinada a

la media del grupo normativo y después se divide esta diferencia entre la desviación

estándar del grupo normativo.

Puntuaciones T y otras puntuaciones estandarizadas: Desde un punto de vista

conceptual, las puntuaciones estandarizadas son idénticas a las puntuaciones

estándar. La relación entre las puntuaciones estándar y estandarizadas siempre se

traza como una línea recta, sin embargo, las puntuaciones estandarizadas siempre se

expresan como números enteros positivos (no existen fracciones decimales ni signos

negativos), de modo que muchos usuarios de prueba prefieren representar los

resultados en esta forma. El punto importante acerca de las puntuaciones

estandarizadas es que se puede transformar cualquier distribución a una escala

preferida con media y desviación estándar predeterminadas.

Un tipo muy conocido de puntuación estandarizada es la puntuación T, que tiene una

media de 50 y desviación estándar de 10. Las escalas en puntuación T son

especialmente comunes en las pruebas de personalidad. Por ejemplo, en el MMPI,

cada escala clínica (como Depresión, Paranoia) se convierte a una medida común,

donde 50 es la puntuación promedio y 10 es la desviación estándar de la muestra

normativa.

- Selección de un grupo normativo

Cuando se elige un grupo normativo, quienes desarrollan pruebas se esfuerzan por

obtener una muestra representativa de la población para la cual se diseñó la prueba

(Gregory, 2001). Considérese una prueba de rendimiento escolar diseñada para niños

de quinto de primaria en Colombia, la población serian todos los niños en quinto grado

del país. Se puede obtener una muestra representativa de estos individuos

potenciales a través de un muestreo aleatorio por computadora de 10 000 niños, entre

los millones de niños elegibles. Cada uno tendría igual probabilidad de ser elegido

para realizar la prueba; es decir, la estrategia de selección sería un muestreo

aleatorio.

En el mundo real, obtener muestras normativas nunca es tan sencillo y definitivo como

el caso hipotético anterior; los investigadores no tienen una lista completa de todos los

niños en el país. Para ayudar a asegurar que los grupos normativos de menor tamaño

sean verdaderamente representativos de la población para la cual se diseñó la

prueba, los autores de la misma utilizan un muestreo aleatorio estratificado. Este

enfoque consiste en estratificar, o clasificar, a la población blanco en cuanto a

variables antecedentes (como edad, sexo, raza, clase social, nivel educativo) y

después seleccionar al azar un porcentaje apropiado de personas dentro de cada

estrato. Pero lo que es más típico es un esfuerzo de buena fe por elegir una muestra

diversa y representativa de escuelas fuertes y débiles; vecindarios minoritarios y

blancos; ciudades grandes y pequeñas y comunidades del norte, este, centro y sur. Si

esta muestra engloba entonces aproximadamente el mismo porcentaje de minorías,

habitantes de las ciudades, familias de clase alta y baja que el censo nacional,

entonces los autores de la prueba se sienten seguros de que el grupo es

representativo.

Construcción de pruebas

Las pruebas válidas surgen de manera lenta de un proceso evolutivo. En esta sección

se enfatiza en los aspectos básicos del desarrollo de pruebas. Así, la construcción de

pruebas consta de seis etapas entrelazadas:

- Definición de la prueba.

- Selección de un método de escalamiento.

- Construcción de los reactivos.

- Examen de los reactivos.

- Revisión de la prueba.

- Publicación de la prueba.

La definición de la prueba consiste en la delimitación de su alcance y propósito, lo cual

debe saberse antes de que el autor pueda proseguir con su construcción. La selección

de un método de escalamiento es un proceso en el que se establecen las reglas

mediante las cuales se asignan números a los resultados de la prueba. La

construcción de los reactivos es tanto un arte como una ciencia y es aquí donde

puede requerirse la habilidad del autor.

Una vez que se tiene disponible una versión preliminar de la prueba, los autores en

general la aplican a una muestra de tamaño modesto de individuos (pilotaje), a fin de

reunir los datos iníciales sobre las características de los reactivos. El examen de éstos

implica una variedad de procedimientos estadísticos conocidos como análisis de

reactivos, cuyo propósito consiste en determinar cuáles reactivos deben conservarse,

revisarse o eliminarse. Con base en el análisis de reactivos y en otras fuentes de

información, se revisa la prueba. Si las revisiones son sustanciales, es posible que se

requieran nuevos reactivos y prepruebas adicionales con nuevos individuos.

Así, la construcción de pruebas implica un circuito de realimentación donde se podrían

producir varios borradores de un instrumento. La publicación de la prueba es el paso

final. Además de difundir los materiales de una prueba, el autor debe producir un

manual fácil de comprender para el psicólogo que vaya a aplicarla.

- Construcción de Reactivos

Construir los reactivos de una prueba es un procedimiento intenso y cuidadoso que

impone demandas a la creatividad de los autores de pruebas. Quien los redacta se

enfrenta con varias preguntas iníciales:

¿El contenido de los reactivos debe ser homogéneo o variado?

¿Qué rango de dificultad deberían cubrir los reactivos?

¿Cuántos reactivos iníciales deberían construirse?

¿Qué procesos cognitivos y dominios del reactivo deberían cubrirse?

¿Qué tipos de reactivos de prueba deberían utilizarse?

- Pautas para la redacción de reactivos de opción múltiple

o Elija palabras que tengan significados precisos.

o Evite la sintaxis compleja o extraña.

o Incluya toda la información necesaria para la selección de la respuesta.

o Incluya lo más posible de la pregunta dentro del planteamiento.

o No tome los planteamientos al pie de la letra de los libros de texto.

o Utilice opciones de igual extensión y fraseo paralelo.

o Utilice "ninguna de las anteriores" y "todas las anteriores" en raras

ocasiones.

o Reduzca al mínimo el empleo de negativos como no.

o Evite la utilización de palabras no funcionales.

o Evite la especificidad innecesaria en el planteamiento.

o Evite indicios innecesarios de la respuesta correcta.

o Presente los reactivos a otras personas para escrutinio editorial.

Las Pruebas y su Proceso de Aplicación

El procedimiento estandarizado es una característica esencial de cualquier prueba

psicológica. Se considera que una prueba está estandarizada si los procedimientos

para su aplicación son uniformes de un examinador a otro y de un ambiente a otro.

Por supuesto, la estandarización depende, en cierto grado, de la capacidad del

examinador. Incluso la mejor prueba puede resultar inútil en manos de un evaluador

descuidado, con entrenamiento deficiente o mal informado. Sin embargo, la mayoría

de los examinadores son competentes. Por tanto, la estandarización depende en gran

medida de las disposiciones de aplicación que se encuentran en el manual de

instrucciones que por lo común acompaña a una prueba.

La formulación de las instrucciones es un paso esencial para la estandarización de

una prueba. A fin de garantizar procedimientos uniformes de aplicación, quien

desarrolla una prueba debe proporcionar materiales estímulo comparables para todos

los examinados, debe especificar con una precisión considerable las instrucciones

verbales para cada reactivo o subprueba y debe aconsejarle al examinador cómo ha

de manejar una diversidad de dudas por parte de la persona evaluada.

Quien desarrolla una prueba puede incluso llegar hasta el punto de recomendar el

comportamiento deseado en el examinador, como mantener una expresión facial

neutra cuando se registra la respuesta de un sujeto. Estas influencias aparentemente

sutiles pueden tener un serio impacto sobre la uniformidad de los procedimientos de

prueba. Por ejemplo, un examinador que se sonríe con displicencia cuando registra

las respuestas podría provocar que el sujeto se sienta ansioso y falle en una tarea

fácil.

Una prueba psicológica también es una muestra limitada de conducta. Ni el sujeto ni el

examinador tienen el tiempo suficiente para una prueba realmente amplia, incluso

cuando ésta se dirige a un dominio conductual bien definido y finito. Sin embargo, la

muestra de conducta es de interés sólo en la medida que permita que el examinador

realice inferencias acerca del dominio total de conductas relacionadas, la predicción

exitosa es una cuestión empírica que se resuelve a través de la investigación

apropiada.

Una prueba psicológica también debe permitir la derivación de puntuaciones o catego-

rías; toda prueba suministra una o más puntuaciones o proporciona evidencia de que

una persona pertenece a una categoría y no a otra. En pocas palabras, las pruebas

psicológicas resumen la ejecución en números o clasificaciones. Las pruebas miden

las diferencias individuales, se supone que todas las personas poseen el rasgo o

característica medida, aunque en diferentes cantidades. El propósito de la prueba con-

siste en estimar la cantidad del rasgo o cualidad que posee un individuo.

En este contexto, se deben hacer dos advertencias. Primero, toda puntuación de prue-

ba siempre reflejará cierto grado de error de medición. La imprecisión de las pruebas

es simplemente inevitable: éstas deben depender de una muestra externa de

conducta para estimar la característica no observable y, por tanto, inferida. Con

frecuencia, los psicómetras expresan este punto fundamental con la ecuación:

X = T + e

donde “X” es la puntuación observada, “T” la puntuación verdadera y “e” el

componente de error positivo o negativo. Lo mejor que puede hacer quien desarrolla

una prueba es procurar que “e” sea muy pequeño.

Una prueba psicológica también debe poseer normas o estándares. En general, la

puntuación de prueba de una persona se interpreta al compararla con las

puntuaciones obtenidas por otros individuos en la misma prueba. Las normas no sólo

establecen un desempeño promedio, sino que también sirven para indicar la

frecuencia con la que se obtienen diferentes puntuaciones altas y bajas Así, las nor-

mas permiten que el examinador determine el grado al que se desvía una puntuación

con respecto a las expectativas. Tal información puede ser muy importante en la

predicción de la conducta externa a la prueba del individuo examinado. Las normas

tienen tal importancia trascendental en la interpretación de pruebas, que después se

les considerará con amplitud en una sección independiente dentro de este texto.

Tipos y usos de las pruebas

Las pruebas pueden agruparse de manera amplia en dos bandos: pruebas grupales y

pruebas individuales. Las pruebas grupales son medidas principalmente de lápiz y

papel, adecuadas para examinar a grandes grupos de personas a un mismo tiempo.

Las pruebas individuales son instrumentos que, por su diseño y propósito, deben

aplicarse a una sola persona. Una ventaja importante de estas últimas es que el exa-

minador puede estimar el nivel de motivación del sujeto y evaluar la relevancia de

otros factores (p. ej., impulsividad o ansiedad) sobre los resultados de prueba.

Por conveniencia, las pruebas se clasificarán en ocho categorías representadas en;

cada una de ellas contiene pruebas referidas a la norma, referidas a criterio, indi-

viduales y grupales. El lector observará que cualquier tipología de las pruebas es una

determinación puramente arbitraria. Por ejemplo, podría postularse incluso otra

dicotomía: pruebas que buscan medir el desempeño máximo (p. ej., una prueba de

inteligencia) contra las que buscan estimar una respuesta típica (p. ej., un inventario

de personalidad).

- Principales tipos de pruebas psicológicas:

Pruebas de inteligencia: miden la capacidad de un individuo en áreas

relativamente globales como comprensión verbal, organización perceptual o

razonamiento y, por tanto, ayudan a determinar el potencial para el trabajo

escolar o para ciertas ocupaciones.

Pruebas de aptitud: miden la capacidad para una tarea o tipo de habilidad

relativamente específica; en efecto, las pruebas de aptitud son una forma

estrecha de prueba de capacidad.

Pruebas de aprovechamiento: miden el grado de aprendizaje, éxito o logro de

una persona en un tema o tarea.

Pruebas de creatividad: evalúan el pensamiento novedoso y original y la

capacidad para encontrar soluciones poco comunes o inesperadas, en

especial, para problemas definidos de manera vaga.

Pruebas de personalidad: miden los rasgos, cualidades o conductas que

determinan la individualidad de una persona; dichas pruebas incluyen listas de

verificación, inventarios y técnicas proyectivas.

Inventarios de intereses: miden la preferencia de un individuo por ciertas

actividades o temas y, por tanto, ayudan a determinar la elección de carrera.

Procedimientos conductuales: describen de manera objetiva una conducta y

estiman su frecuencia, identificando los antecedentes y consecuencias de la

conducta.

Pruebas neuropsicológicas: miden el desempeño cognoscitivo, sensorial,

perceptual y motor para determinar el grado, localización y consecuencias

conductuales del daño cerebral

En un sentido estricto, existen cientos de tipos diferentes de pruebas, cada una de las

cuales mide un aspecto ligeramente diferente del individuo.

Procesos de aplicación deseables

Se analizarán primero las pruebas individuales y después se enumerarán de manera

breve algunos puntos importantes acerca de los procedimientos deseables en las

pruebas con grupos.

- Procedimientos deseables con pruebas individuales

Un componente esencial de las pruebas individuales es que los examinadores deben

familiarizarse íntimamente con los materiales e instrucciones antes de comenzar con

la aplicación. En su mayoría, esto implica extensos ensayos y anticipación de las

circunstancias poco comunes y de la respuesta apropiada. Un examinador bien

preparado tiene memorizados los elementos clave de las instrucciones verbales y está

listo para manejar lo inesperado. La atención apropiada a los detalles de aplicación es

esencial para obtener resultados válidos.

Otro ingrediente importante de la aplicación válida de una prueba es la sensibilidad a

las discapacidades de la persona evaluada. Las discapacidades en audición, visión,

habla o control motor pueden distorsionar gravemente los resultados de prueba. Si el

examinador no reconoce la discapacidad física responsable del desempeño deficiente

en la prueba, puede clasificarse al sujeto como discapacitado a nivel intelectual o

emocional cuando, de hecho, el problema esencial es una discapacidad sensorial o

motora.

Las pruebas válidas con sujetos que tienen discapacidades auditivas requieren antes

que nada que el examinador ¡detecte la existencia de la discapacidad! Con frecuencia

esto es más difícil de lo que parece. Las indicaciones de una posible dificultad auditiva

incluyen falta de respuesta normal ante el sonido, falta de atención, dificultades para

obedecer instrucciones orales, observación intensa de los labios del hablante y

articulación deficiente En el caso de personas con una pérdida auditiva leve, es

esencial que el examinador se coloque de frente al sujeto, hable más fuerte y repita

las instrucciones lentamente. En contraste con los individuos que tienen alteraciones

auditivas, las personas con discapacidades visuales generalmente atienden bien a los

materiales de prueba presentados de modo verbal. La persona con alteraciones

visuales introduce un tipo diferente de reto para el examinador; delectar la existencia

de una alteración visual y después, asegurarse de que el sujeto puede ver bien los

materiales de prueba.

En general, es tan común que los niños requieran anteojos correctores, que los

examinadores deben estar alertas a un problema de visión en cualquier sujeto joven

que no utilice anteojos y que no haya pasado por un examen reciente de la visión.

Las alteraciones del habla representan otro problema para quienes deben hacer un

diagnóstico. Las respuestas verbales de las personas con alteraciones del habla son

difíciles de descifrar. Debido a la incapacidad del examinador para entender las

respuestas, los sujetos pueden recibir un menor crédito del que merecen

- Procedimientos deseables con pruebas de grupo

Conducir una prueba grupal requiere tanto refinamiento como aplicar una prueba

individual. Sin duda, la más grande fuente de error en la aplicación de una prueba

grupal tiene que ver con tomar de manera inadecuada el tiempo en las pruebas

cronometradas. Los examinadores deben conceder el tiempo suficiente para el pro-

ceso completo de prueba: organización, lectura de las instrucciones en voz alta y

presentación de la prueba en sí por parte de los sujetos. Conceder el tiempo suficiente

requiere previsión en la programación. Por supuesto, reducir el tiempo en una prueba

causa que las normas sean completamente inválidas y con toda probabilidad reduce la

puntuación de la mayoría de los sujetos en el grupo. Conceder demasiado tiempo para

una prueba puede constituir también un tremendo error.

Una segunda fuente de error en la aplicación de pruebas grupales es la falta de

claridad en las instrucciones para los examinados. Los examinadores deben leer las

instrucciones con lentitud, con una voz clara y fuerte que atraiga la atención de los

sujetos. Las instrucciones no deben parafrasearse. Cuando el manual lo permite, los

examinadores deben detenerse en la lectura y aclarar las dudas de los individuos que

tienen alguna confusión.

Las variaciones en las condiciones físicas de aplicación de prueba constituyen una

tercera fuente de error potencial en la conducción de una prueba grupal. Los

examinadores deben asegurarse de que la habitación de examen esté bien iluminada

y, de ser necesario, que tenga calefacción o aire acondicionado para controlar las

variaciones extremas en cuanto a temperatura y humedad. La importancia de la

superficie de escritura se aumenta por la tendencia actual a utilizar hojas separadas

de respuesta. Los sujetos necesitan de un espacio más amplio de escritorio cuando

emplean hojas separadas de respuesta que bajo otras condiciones. Aunque pocos

editores de prueba lo señalan, sería bueno especificar en los manuales de prueba las

variaciones admisibles en cuanto a superficie de escritura que de todos modos

permiten resultados comparables de prueba.

- La importancia del rapport

Los editores de pruebas instan a los examinadores a establecer un rapport; una

atmósfera cómoda y cálida que sirva para motivar a los examinandos y que produzca

la cooperación. Dar lugar a un ambiente cordial para la prueba es un aspecto crucial

de una prueba válida. Un examinador que no establece rapport puede provocar que

una persona reaccione con ansiedad, falta de cooperación de naturaleza pasivo-

agresiva u hostilidad abierta. El fracaso para establecer el rapport distorsiona los datos

de la prueba: se subestima la capacidad y se hace un juicio inadecuado de la

personalidad. El rapport es de particular importancia en las pruebas individuales y en

particular cuando se evalúa a niños.

- Ansiedad ante la prueba

La ansiedad ante la prueba se refiere a aquellas respuestas fenomenológicas,

fisiológicas y conductuales que acompañan a la preocupación acerca del posible

fracaso en una prueba. No hay duda de que los sujetos experimentan diferentes

niveles de ansiedad ante la prueba, que van desde una actitud despreocupada, hasta

un temor incapacitante ante el prospecto de que se les someta a prueba.

Entonces…

Los contenidos de la psicometría se articulan, fundamentalmente, en dos grandes

bloques: teoría de los test, que hace referencia a la construcción, validación y

aplicación de los test, y escalamiento, que incluye los métodos para la elaboración de

escalas psicofísicas y psicológicas. A su vez, la teoría de los test se divide en dos

http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_de_los_test&action=edit

http://es.wikipedia.org/w/index.php?title=Escalamiento&action=edit

ramas: la teoría clásica de los tests y la más reciente teoría de respuesta a los ítems.

Los conceptos clave de la teoría clásica de los tests son: confiabilidad y validez.

"confiabilidad" es medir algo de forma consistente; mientras que "validez" es medir lo

que realmente se pretende medir. Ambas propiedades admiten un tratamiento

matemático.

La consistencia interna puede calcularse por correlación entre distintos tests. Los

métodos más conocidos se denominan: método de las formas paralelas, método

del test-retest y método de las dos mitades.

La validez puede calcularse correlacionando las mediciones con las de una medida

patrón aceptada como válida. Se distinguen los siguientes aspectos: validez de

contenido, validez predictiva y validez de constructo.

Con frecuencia, el estudiante de evaluación inexperto supone que los procedimientos

de examen son tan sencillos y simples que una sola lectura rápida del manual será

suficiente como preparación para la prueba. Aunque algunas pruebas individuales son

sumamente rudimentarias y poco complicadas, muchas de ellas tienen aspectos

complejos de aplicación que, si no se toman en cuenta, pueden causar que el

individuo examinado falle de manera innecesaria en los reactivos.

Ya sea que una prueba grupal utilice o no una corrección para la puntuación, el punto

importante reside en enfatizar en este contexto que quien aplica la prueba debe seguir

el procedimiento estandarizado y nunca ofrecer consejo adicional acerca de adivinar

las respuestas. En las pruebas grupales, las desviaciones con respecto al manual de

instrucciones son simplemente inaceptables.

Referencias

Arnau, J. (1989). Metodología de la investigación y diseño. En J. Arnau y H. Carpintero (Eds.). Historia, teoría y método. Madrid: Alhambra Universidad.

Crocker, L. y Algina, J. (1986). Introduction to classical and modern test theory. New

http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_cl%C3%A1sica_de_los_tests&action=edit

http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_de_respuesta_a_los_%C3%ADtems&action=edit

http://es.wikipedia.org/w/index.php?title=Teor%C3%ADa_de_respuesta_a_los_%C3%ADtems&action=edit

http://es.wikipedia.org/w/index.php?title=Validez_%28psicometr%C3%ADa%29&action=edit

http://es.wikipedia.org/wiki/Matem%C3%A1tico

http://es.wikipedia.org/wiki/Matem%C3%A1tico

http://es.wikipedia.org/w/index.php?title=M%C3%A9todo_de_las_formas_paralelas&action=edit

http://es.wikipedia.org/w/index.php?title=M%C3%A9todo_del_test-retest&action=edit

http://es.wikipedia.org/w/index.php?title=M%C3%A9todo_del_test-retest&action=edit

http://es.wikipedia.org/w/index.php?title=Validez_de_contenido&action=edit

http://es.wikipedia.org/w/index.php?title=Validez_predictiva&action=edit

http://es.wikipedia.org/w/index.php?title=Validez_de_constructo&action=edit

York: Holt, Rinehart and Winston. Gregory, R. (2001). Evaluación psicológica: Historia, principios y aplicaciones. México:

Manual Moderno Martínez-Arias, R (1995). Psicometría: Teoría de los tests psicológicos y

educativos. Madrid: Síntesis.

Meliá, J.L. (1990). La construcción de la Psicometría coma ciencia teórica y

aplicada. Valencia: Cristóbal Serrano.

Documents

Al Método y Metodología Estadística de La