17
1 A lo largo de los temas precedentes, se ha visto cómo llevar a cabo la construcción de los instrumentos de medición psicológica y, desde el marco de la Teoría Clásica de los Test (TCT), se han planteado diferentes procedimientos para evaluar la fiabilidad de las puntuaciones obtenidas al aplicarlos y estimar la puntuación verdadera de los sujetos en la característica medida. Los tests construidos y evaluados con los procedimientos descritos, se denominan: Test referidos a la norma, ya que el rendimiento de los sujetos, se evalúa en referencia a otros sujetos que forman el grupo normativo. Este enfoque de los tests referidos a normas, no proporciona, en ocasiones, una información adecuada de la habilidad real de un sujeto, sino de su posición relativa, respecto a otros sujetos. Supongamos que un sujeto puntúa por encima del 80% de sus compañeros en un determinado test. Si deseamos saber la posición relativa de dicho sujeto respecto al rasgo evaluado, tenemos que tener información acerca del grado de representatividad de esa muestra. Si estamos hablando de que un sujeto se encuentra en un percentil 80 respecto a una prueba de resolución de problemas, podemos plantearnos cuestiones como: qué tipo de problemas es capaz de resolver, qué tipo de resolución requieren dichos problemas, cuál es el límite de capacidad de resolución de problemas de dicho sujeto… Este tipo de cuestiones, puede ser abordado cuando la evaluación de un sujeto no se realiza en función de un grupo normativo, sino cuando tiene lugar en función del número de objetivos logrados por dicho sujeto, en dicho test, hablando en este caso de Tests referidos al criterio. En este tema, vamos a desarrollar dos aproximaciones básicas a la estimación de la fiabilidad de los tests referidos al criterio. Los modelos aquí presentados, son adecuados para aquellas situaciones en las que la decisión de clasificar a un sujeto dentro o no de un grupo de maestría, está en función de si ha alcanzado o no una determinada puntuación en el test, denominada puntuación de corte (índices de acuerdo, que requieren dos aplicaciones o una sola aplicación del test) Los Tests Referidos al Criterio (TRC): tienen sus orígenes en los trabajos de Flanagan y Nedelsky, que introdujeron el concepto de estándar absoluto y relativo respecto a las puntuaciones obtenidas en los tests. La denominación de Tests Referido al Criterio, se debe a Ebel, y su diferenciación respecto a los Tests Normativos, fue establecida por Glaser estable la diferenciación con los tests normativos. Según Hambleton las principales causas que generan su aparición son: la necesidad de conocer la eficacia de los programas educativos, el interés por evaluar el nivel de habilidades básicas alcanzado por los sujetos y el clima contrario al uso de los tests, que caracteriza la situación de la sociedad americana, en la década de los años 60. Durante esta

Psicometria TEMA 5

Embed Size (px)

DESCRIPTION

Psicometria:la fiabilidad en los test referidos al criterio

Citation preview

Page 1: Psicometria TEMA 5

1

A lo largo de los temas precedentes, se ha visto cómo llevar a cabo la construcción de los

instrumentos de medición psicológica y, desde el marco de la Teoría Clásica de los Test (TCT), se han planteado diferentes procedimientos para evaluar la fiabilidad de las puntuaciones obtenidas al aplicarlos y estimar la puntuación verdadera de los sujetos en la característica medida.

Los tests construidos y evaluados con los procedimientos descritos, se denominan: Test

referidos a la norma, ya que el rendimiento de los sujetos, se evalúa en referencia a otros sujetos que forman el grupo normativo. Este enfoque de los tests referidos a normas, no proporciona, en ocasiones, una información adecuada de la habilidad real de un sujeto, sino de su posición relativa, respecto a otros sujetos. Supongamos que un sujeto puntúa por encima del 80% de sus compañeros en un determinado test. Si deseamos saber la posición relativa de dicho sujeto respecto al rasgo evaluado, tenemos que tener información acerca del grado de representatividad de esa muestra. Si estamos hablando de que un sujeto se encuentra en un percentil 80 respecto a una prueba de resolución de problemas, podemos plantearnos cuestiones como: qué tipo de problemas es capaz de resolver, qué tipo de resolución requieren dichos problemas, cuál es el límite de capacidad de resolución de problemas de dicho sujeto…

Este tipo de cuestiones, puede ser abordado cuando la evaluación de un sujeto no se

realiza en función de un grupo normativo, sino cuando tiene lugar en función del número de objetivos logrados por dicho sujeto, en dicho test, hablando en este caso de Tests referidos al criterio.

En este tema, vamos a desarrollar dos aproximaciones básicas a la estimación de la fiabilidad de los tests referidos al criterio. Los modelos aquí presentados, son adecuados para aquellas situaciones en las que la decisión de clasificar a un sujeto dentro o no de un grupo de maestría, está en función de si ha alcanzado o no una determinada puntuación en el test, denominada puntuación de corte (índices de acuerdo, que requieren dos aplicaciones o una sola aplicación del test)

Los Tests Referidos al Criterio (TRC): tienen sus orígenes en los trabajos de Flanagan y

Nedelsky, que introdujeron el concepto de estándar absoluto y relativo respecto a las puntuaciones obtenidas en los tests. La denominación de Tests Referido al Criterio, se debe a Ebel, y su diferenciación respecto a los Tests Normativos, fue establecida por Glaser → estable la diferenciación con los tests normativos.

Según Hambleton → las principales causas que generan su aparición son: la necesidad de conocer la eficacia de los programas educativos, el interés por evaluar el nivel de habilidades básicas alcanzado por los sujetos y el clima contrario al uso de los tests, que caracteriza la situación de la sociedad americana, en la década de los años 60. Durante esta

Page 2: Psicometria TEMA 5

2

década, se produce una escasez de investigaciones en este campo; merece destacar, sin embargo, el artículo en 1969 de Popham y Husek, en el que se reaviva el tema y se amplían las distinciones entre tests referidos a normas y tests referidos al criterio.

Posteriormente, en la década de los 70, se incrementó notablemente el número de artículos, monografías, libros y revistas en los que se introducen nuevos términos y modalidades de tests. Todos los autores, presentan unanimidad al considerar un TRC, como aquél que intenta establecer, el estatus de un sujeto respecto al dominio definido. Destaca el trabajo de Millman (1974), en el que realiza la primera recopilación e integración de los avances en esta temática.

Hacia la 2ª mitad de los años 80, se produjo una disminución significativa en la producción de publicaciones dedicadas a esta perspectiva, debido a la irrupción en el contexto educativo del nuevo enfoque denominado “medición auténtica” o “evaluación de la ejecución” aunque se considera que ambos términos, son simplemente, términos alternativos de la “medición referida a criterio”. Hoy en día, es un tema de gran relevancia en el terreno de la medición psicológica y educativa.

Se han propuesto numerosas definiciones para hacer referencia a este tipo de tests, siendo la más aceptada la propuesta de Popham: un TRC se utiliza para evaluar el status absoluto del sujeto, con respecto a algún dominio de conductas bien definido. Teniendo en cuenta esta definición, los TRC, no constituyen un nuevo marco teórico en la Teoría de los Tests, sino un nuevo enfoque, que responde a preguntas y necesidades distintas de los Tests referidos a las Normas (TRN).

En los TRN, la finalidad es describir al sujeto en el continuo de algún rasgo, haciendo

hincapié en las diferencias individuales y expresando su posición relativa respecto al grupo de sujetos denominado grupo normativo.

Desde la perspectiva de los TRC, el objetivo es construir y evaluar tests, que permitan

interpretar las puntuaciones en sentido absoluto, sin referencia a ningún grupo, y describir con mayor precisión los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos.

TEST REFERIDOS A NORMAS (TRN)

TEST REFERIDOS A CRITERIO (TRC)

FINALIDAD Describe al sujeto en el continuo de algún rasgo, haciendo hincapié en las diferencias individuales y expresando su posición relativa respecto al grupo normativo.

Permiten interpretar las puntuaciones en sentido absoluto (sin referencia), y describir con mayor precisión los conocimientos, habilidades y destrezas de los sujetos en un dominio concreto de contenidos.

Construcción del test

Los ítems suelen derivarse de alguna teoría de rasgos, y no se hace tanto hincapié en la especificación clara del

Se delimitan claramente el dominio de contenidos o conductas, y el uso pretendido del test. Se presta mucha atención a las

Page 3: Psicometria TEMA 5

3

dominio de contenidos. especificaciones de contenido (dominio de contenido) y a la elaboración y análisis cualitativo de los ítems. Así mismo, la validez de contenido, como veremos en el tema siguiente, es fundamental en este tipo de test, ya que su esencia, es la relevancia y representatividad de los ítems, respecto al dominio específico.

Criterios de selección de

ítems del test

En este tipo de tests, el objetivo es maximizar las diferencias individuales, por lo que se eligen ítems de dificultad media y alto índice de discriminación, para incrementar el poder discriminativo del test.

La selección de los ítems, se basa en los objetivos del test y en el propósito y la finalidad del mismo. Los TRC, se pueden utilizar para 2 tipos de objetivos: Test referido a dominio: se denominan

así, los tests cuyo objetivo es la estimación de la puntuación dominio de los sujetos → se utilizan para describir lo que una persona puede hacer en un área de contenido específico.

Test de maestría: se denomina así, los tests cuyo objetivo es establecer estándares mediante puntos de corte y es útil para clasificar a los sujetos, en una de las posibles categorías de clasificación, excluyentes entre sí, como: éxito-fracaso, apto-no apto….

Según sea el objetivo que se pretenda, la estimación de la fiabilidad de las

puntuaciones, se realizará de manera diferente. En este caso, (en los TRC) los métodos de la Teoría Clásica para la estimación de la fiabilidad para tests normativos no son apropiados, porque:

No permiten describir la precisión de las puntuaciones individuales, ni la

consistencia de las decisiones tomadas a partir de ellas, por lo que nuevos procedimientos han sido necesarios para alcanzar los objetivos de estos tests

Por otro lado, el establecimiento de estándares, lleva consigo la determinación de los puntos de corte que delimitan los estándares. La ubicación de estos puntos de corte, ha motivado numerosas investigaciones, dada la gran trascendencia que tienen las decisiones que se toman para los sujetos. En el tema 9, revisaremos algunos métodos para el establecimiento de los puntos de corte.

Además de la fiabilidad de las clasificaciones y la adecuada ubicación de los puntos de corte, otro aspecto relevante de los tests de maestría, es la obtención de evidencias acerca de la validez de las decisiones de la clasificación, como veremos en el tema 7. El estudio de este tipo de evidencias, se lleva a cabo mediante el análisis de la correspondencia entre las clasificaciones realizadas por el test, y las de un criterio de clasificación externo alternativo. Para ello, se realiza un proceso de validación referido a un criterio, en el que se calcula el coeficiente de validez mediante índices de acuerdo, y se determinan los índices de sensibilidad y especificidad, que complementan la información sobre la validez de las decisiones tomadas por el test. Trabajos recientes en esta

Page 4: Psicometria TEMA 5

4

temática, proponen la aplicación de la Teoría de la Detección de Señales, y más concretamente, las Curvas de ROC, para el estudio de la validez de las decisiones de las clasificaciones.

Por último, en lo que respecta a la evaluación de los sujetos, encontramos también diferencias entre ambos enfoques, el normativo y el criterial, en el significado e interpretación de las puntuaciones de los tests.

En los TRN: la puntuación obtenida por los sujetos, se considera un indicador de su puntuación verdadera en un rasgo latente y sólo tiene significado en relación a los resultados del grupo normativo.

En los TRC: la puntuación, representa el estimador muestral del rendimiento del sujeto en el dominio y tiene significado en términos absolutos. En este enfoque, para la estimación de la puntuación en el dominio, se puede utilizar la proporción de respuestas correctas.

El determinar la longitud del test, o el número de ítems que van a evaluar cada uno de los objetivos incluidos en el test, constituye un problema crucial, ya que de ello va a depender la utilidad de las puntuaciones obtenidas en dicho test. Si el número de ítems es pequeño: la interpretación que hagamos de las puntuaciones

obtenidas, tiene un valor limitado, por lo que se debería ser cautos a la hora de emplear dichas puntuaciones para llevar a cabo cualquier tipo de decisión que implique, por ejemplo, una selección. Así mismo, la estimación del dominio será imprecisa y dará lugar a clasificaciones que, o bien son inconsistentes a lo largo de varias presentaciones de formas paralelas, o no son indicativas del verdadero nivel de maestría de un sujeto, es decir, se obtendrán clasificaciones poco fiables. Si el propósito que se persigue, es establecer el grado de maestría de un sujeto: la determinación de la longitud del test, está directamente relacionada con el número de errores de clasificación tolerables.

Si el número de elementos del test es elevado: se pueden asegurar valores de probabilidad de clasificación incorrecta mínimos. Un excesivo número de ítems tampoco es lo más adecuado, debido a limitaciones de tiempo, economía, etc.

Se pueden considerar 2 maneras de reducir el número de errores sin aumentar la longitud del test:

Modelos bayesianos y Métodos basados en tests computarizados.

Vamos a presentar el Modelo propuesto por Millman: basado en el modelo binomial; considera la proporción esperada de ítems que un sujeto puede contestar correctamente para ser considerado como apto, de la población de ítems definidos, así como el error máximo que se está dispuesto a tolerar Dicho modelo, parte de los siguientes supuestos: El test está compuesto por una muestra aleatoria de ítems dicotómicos. La probabilidad de una respuesta correcta por parte de un sujeto, es constante para

todos los ítems Las respuestas dadas a los ítems del test, son independientes unas de otras. Los errores se ajustan al modelo binomial.

𝑃𝑟𝑜𝑏�𝑥 𝑝� � = 𝑝𝑥𝑞𝑛−𝑥 = ��𝑛!

𝑥! (𝑛 − 𝑥)!� 𝑝𝑥𝑞𝑛−𝑥

Page 5: Psicometria TEMA 5

5

Pr ( )ob x p =Probabilidad de que un sujeto con una puntuación p, conteste correctamente x ítems de un test que tiene n ítems. A partir de esta ecuación, podemos calcular la Longitud del Test, supuesta una determinada proporción de aciertos:

𝐧 =𝒑𝒄 (𝟏 − 𝒑𝒄)

𝒆𝟐

Dónde: n= número de ítems del test Pc= proporción de aciertos para ser considerado apto e2= error máximo admisible.

: Para un determinado test, se ha establecido la proporción de aciertos para ser

considerado apto en 0.85 (pc). Se desea saber cuál es la longitud del test (n), si estamos dispuestos a admitir un error máximo (e) de 0.05 y 0.02.

n = 0.85(1−0.85)0.052

=51; En este caso, en el que estamos dispuestos a admitir un error máximo de 0.05, tendríamos 51 ítems y admitiríamos un margen de aciertos entre 0.80 y 0.90 (0.85±0.05)

n= 0.85�1-0.85�0.022 =318.75≈319; En este caso, en el que estamos dispuestos a admitir un

error máximo de 0.02, tendríamos 319 ítems y admitiríamos un margen de aciertos entre 0.83 y 0.87 (0.85±0.02)

Como ya sabemos, los TRC se pueden utilizar para 2 tipos de objetivos:

• La estimación de la puntuación de dominio de los sujetos (tests referidos al dominio) • Establecimiento de estándares mediante puntos de corte (tests de maestría). Este

segundo enfoque, es el más utilizado y el que ha dado lugar a un mayor número de procedimientos para abordar el problema de la fiabilidad. Es desde este contexto desde donde abordaremos el estudio de la fiabilidad de los tests referidos al criterio.

Desde este segundo enfoque, se considera un test fiable, si tras su aplicación a los mismos sujetos en distintas ocasiones o la aplicación de dos formas paralelas, se clasifica a los sujetos siempre en la misma categoría. Los métodos que se presentan a continuación para el cálculo de la fiabilidad, se pueden agrupar en dos subgrupos:

Page 6: Psicometria TEMA 5

6

• Métodos basados en dos aplicaciones del test: donde encontramos el Índice de Hambleton y Novick; el Coeficiente Kappa de Cohen y el Índice de Croker y Algina.

• Métodos basados en una sola aplicación del test: que incluye el Método de Huynh, el Método de Subkoviak y el Coeficiente de Livingston.

Tratan en qué medida las clasificaciones hechas por un tests, coinciden con las hechas por

otro en una muestra (2 formas paralelas de test). Estos métodos implican la existencia de una sola muestra de sujetos y dos aplicaciones de

un mismo test o de dos formas paralelas.

Este índice, supone la utilización de la proporción de sujetos que, consistentemente, son clasificados dentro del grupo de maestría o no-maestría, como un índice de la fiabilidad del test. Nos basaremos en un ejemplo, para la mayor comprensión de este procedimiento: supongamos los datos de la siguiente tabla, en la que se presenta la puntuación total obtenida por 20 sujetos en dos tests paralelos, compuesto por 12 ítems, y que un sujeto debe responder correctamente a un mínimo de 7 ítems para ser clasificado dentro del grupo de maestría.

Sujeto Test A Test B sujeto Test A Test B

1 7 6 11 5 3 2 9 8 12 5 5 3 8 6 13 4 4 4 8 7 14 3 3 5 7 5 15 4 3 6 6 7 16 3 4 7 6 6 17 2 2 8 6 6 18 5 2 9 6 6 19 3 1 10 5 4 20 1 1

Estas puntuaciones, pueden agruparse tal y como aparecen en la siguiente MATRIZ, en función de que superen o no la puntuación de corte (en este caso 7), lo que va a permitir clasificarlos en una categoría u otra. Como vemos, los sujetos 2 y 4, son los únicos sujetos que han sido clasificados en el grupo de Maestría en ambos tests. Del 7 al 20, los sujetos están clasificados dentro del grupo No Maestría, tanto en el test A como en el test B. El resto de los sujetos, han sido clasificados de distintas maneras en ambos tests.

Test B Test A Maestría No Maestría Total (Ni) Maestría 2 3 5 No maestría 1 14 15 Total (Ni) 3 17 20=N

La proporción de sujetos consistentemente clasificados en ambos tests, se puede expresar mediante la ecuación:

Page 7: Psicometria TEMA 5

7

𝑝𝑐 = �𝑝𝑖 =𝑛11𝑁

+𝑛22𝑁

+ ⋯+𝑛𝑚𝑚

𝑁

𝑛

1=1

ip =Proporción de sujetos clasificados consistentemente en ambas formas. N = nº total de sujetos.

11 22, ,..... mmn n n = nº de sujetos, en cada casilla de la matriz, en los que ambos tests coinciden al clasificarlos.

A partir de los datos de la matriz de nuestro ejemplo:

𝑝𝑐 = �𝑝𝑖 =2

20+

1420

= 0.80𝑛

1=1

Esto es, el 80% de los sujetos El valor máximo de pc, es 1, valor que se obtendrá, cuando todos los sujetos sean clasificados de la misma forma en los dos tests. El valor mínimo, será igual a la proporción de clasificaciones consistentes, que podemos esperar por azar (pa) valor que viene dado, en función de las Frecuencias Marginales de la matriz (Nj)

𝑝𝑎 = �𝑁𝑗𝑁𝑗𝑁2

𝑚

𝑗=1

Con los datos de nuestro ejemplo:

𝑝𝑎 =5 ∙ 3202

+15 ∙ 17

202= 0.0375 + 0.6375 = 0.675

Ante estos resultados, se puede decir que la utilización de los tests supone una mejora importante en la consistencia de las clasificaciones, y por tanto una fiabilidad de las mismas, con respecto a las realizadas por mero azar. Mientras que por azar obtenemos una fiabilidad de 0.67, el uso de los tests, nos reporta una fiabilidad de 0.80

En 1974, una serie de autores sugieren que: en la estimación de coeficiente de fiabilidad, se elimine del valor de la proporción de sujetos clasificados consistentemente, el valor de la proporción de clasificación consistente esperada por azar, y para ello, recomiendan la utilización del Coeficiente Kappa de Cohen, cuya fórmula es (expresada en proporciones) Si aplicamos el Coeficiente Kappa a los datos del ejemplo anterior, el resultado sería:

𝐾 =𝑝𝑐 − 𝑝𝑎1 − 𝑝𝑎

Page 8: Psicometria TEMA 5

8

𝐾 =0.80− 0.675

1 − 0.675= 𝟎.𝟑𝟖

El valor Kappa proporciona una medida de la consistencia de clasificación de los sujetos independientemente del posible valor esperado por azar. El valor Kappa, oscila entre 1 que indicaría una fiabilidad perfecta y 0 que indicaría que la consistencia observada sería atribuible al azar. El Coeficiente Kappa, también se puede expresar en función de las frecuencias absolutas:

𝐾 =𝐹𝑐 − 𝐹𝑎𝑁 − 𝐹𝑎

Dónde:

cF = Frecuencia observada de clasificaciones coincidentes.

aF =Frecuencia de coincidentes esperada por azar.

N = nº de personas de la muestra. Con la Matriz del ejemplo anterior:

Test B Test A Maestría No Maestría Total (Ni) Maestría 2 3 5 No maestría 1 14 15 Total (Ni) 3 17 20=N

En primer lugar, calculamos las frecuencias de coincidencias esperadas por azar:

3 ∙ 520

= 0.75

17 ∙ 1520

= 12.75

𝐹𝑎 = 0.75 + 12.75 = 𝟏𝟑.𝟓

A continuación, calculamos las frecuencias observadas de clasificación coincidentes: 𝐹𝑐 = 2 + 14 = 𝟏𝟔

Por lo tanto:

𝐾 =𝐹𝑐 − 𝐹𝑎𝑁 − 𝐹𝑎

= 𝟎.𝟑𝟖

Como se puede observar, se obtiene el mismo valor.

Para ver la significación estadística del coeficiente Kappa, Cohen propuso la utilización del error típico de medida de K:

𝑆𝑒 = �𝐹𝑎

𝑁(𝑁 − 𝐹𝑎)

Page 9: Psicometria TEMA 5

9

Si aplicamos la fórmula a nuestros datos, en primer lugar, calculamos el error típico de medida de K

𝑆𝑒 = �13.5

20(20− 13.5) = 0.32

A continuación, calculamos el intervalo confidencial: Si utilizamos un N.C 95%, el intervalo confidencial vendrá dado por:

0.38 ± 1.96 ∙ 0.32; 0.247 ≤ 𝐾 ≤ 1 Dado que el valor K=0, no se encuentra dentro de los límites del intervalo, podemos establecer que el acuerdo entre las clasificaciones, es estadísticamente significativo

Estos autores, proponen el Índice P* como alternativa al Coeficiente Kappa de Cohen. Este índice se basa en que la probabilidad mínima de una decisión consistente es de 0,50. Este mínimo tendrá lugar si las puntuaciones del test, son estadísticamente independientes y el punto de corte, está en la mediana de la distribución conjunta de las puntuaciones obtenidas por los sujetos en las dos aplicaciones. El coeficiente P* viene expresado por la siguiente ecuación:

𝑃∗ =𝑝𝑐 − 0.501 − 0.50

= 2𝑝𝑐 − 1

Siguiendo a estos autores, el valor de P*=1, cuando las decisiones son totalmente consistentes, y P*=0, cuando las decisiones, no son más consistentes, que las que resultarían de utilizar tests estadísticamente independientes, cuyas puntuaciones presentan la misma distribución y un punto de corte igual a la mediana de la distribución común. En nuestro ejemplo: PC= 0.80, por tanto:

𝑃∗ = (2 ∙ 0.80) − 1 = 0.60

Los métodos que se han presentado anteriormente, implican la existencia de una sola muestra y 2 aplicaciones de un mismo tests o de 2 formas paralelas. El método de Huynh, constituye un procedimiento matemático sofisticado, para estimar la consistencia de clasificación, a partir de una sola administración de un test de maestría. Una de las principales ventajas del método de

𝐾 ± 𝑍𝑥 ∙ 𝑆𝑒

Page 10: Psicometria TEMA 5

10

Huynh, es que sólo se precisa un test y una sola aplicación. Estos autores, proponen un método para pronosticar las puntuaciones en un test “B”, conocidas las puntuaciones de una muestra de sujetos, en una primera aplicación (test “A”). Para hacer ese pronóstico, el método propuesto:

o Presupone que la distribución de puntuaciones es aproximadamente normal. Huynh sugiere que este presupuesto es adecuado, cuando el número de ítems es superior a 8 y la razón entre la media de las puntuaciones de los sujetos en el test y el número de ítems oscila entre 0,15 y 0,85.

Los pasos a seguir según este modelo, son los siguientes:

. Calcular la media ( )X , la varianza 2( )xS y el coeficiente de correlación de Kuder-

Richardson 21 (KR21) y especificar el valor del punto de corte sobre las puntuaciones directas (c). En el ejemplo que presentamos, suponemos que en el test A: 𝑋� = 5.15; 𝑆𝑥2 =4.45; 𝐾𝑅21 = 0,37; 𝐶 = 7

. Calcular la puntuación típica ( )xZ del valor del punto de corte, con una corrección de 0,5; y acudiendo a las tablas de la curva normal, se busca el valor de P que deja por debajo a la Z obtenida (su probabilidad).

𝑍𝑥 =(𝐶 − 0.5 − 𝑋�)

𝑆𝑥

Para nuestro ejemplo:

𝑍𝑥 =7 − 0.5 − 5.15

2.109= 0.64 𝑍𝑥 = 0.64 → 𝑝𝑧 = 0.74

. A partir de las tablas de Gupta, obtenemos la probabilidad ( )zzP de que dos variables distribuidas normalmente, con una correlación KR21=0.37, sean menores que Z=0.64 En nuestro ejemplo Pzz=0.58

. Por último, calculamos los valores del coeficiente pc y k

𝑝𝑐 = 1 + 2(𝑃𝑧𝑧 − 𝑃𝑧)

𝐾 =𝑃𝑧𝑧 − 𝑃𝑧2

𝑃𝑧 − 𝑃𝑧2

En nuestro ejemplo:

Page 11: Psicometria TEMA 5

11

𝑃𝑐 = 1 + 2(0.58− 0.74) = 0.68; 𝐾 =0.58− (0.74)2

0.74− (0.74)2 = 0.168

Si el punto de corte se ubica en una zona extrema de la distribución: Pc tiende a aumentar y

K a disminuir.

Este autor, establece un procedimiento con una única aplicación, cuando es imposible establecer una forma paralela de un test. El método, simula las puntuaciones de una segunda forma paralela del test y al igual que el método de Huynh, proporciona una buena estimación de los valores de PC y K. Para la explicación del método, vamos a utilizar los datos del ejemplo desarrollado en el Método de Hambleton y Novick (test de 12 ítems) suponiendo que sólo se pudiese aplicar el test A, y que el coeficiente de fiabilidad del test, es igual a 0.62 (coeficiente α del test)

Sujeto X Test A sujeto X Test A 1 7 11 5 2 9 12 5 3 8 13 4 4 8 14 3 5 7 15 4 6 6 16 3 7 6 17 2 8 6 18 5 9 6 19 3 10 5 20 1

Pasos para confeccionar la tabla:

. Con los datos de las puntuaciones obtenidas por los sujetos, construimos la

distribución de frecuencias de las puntuaciones obtenidas por los 20 sujetos y, una vez obtenida la distribución de frecuencias de las puntuaciones, se calcula la media y el coeficiente α del test, que suponemos igual a 0.62.

X fx �𝒙 ∙ 𝒇𝒙

9 1 9 8 2 16 7 2 14 6 4 24 5 4 20 4 2 8 3 3 9 2 1 2 1 1 1

20 103

Page 12: Psicometria TEMA 5

12

𝑿� =∑𝒙 ∙ 𝒇𝒙𝑵

=𝟏𝟎𝟑𝟐𝟎

= 𝟓.𝟏𝟓; 𝜶 = 𝟎.𝟔𝟐

. A continuación, se estima pX, que es la probabilidad de que una persona con una determinada puntuación X, responda correctamente a cada ítem. Dicha probabilidad, se estima mediante la ecuación: Dónde: 𝜶 = 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝜶 𝑿 = 𝑷𝒖𝒏𝒕𝒖𝒂𝒄𝒊ó𝒏 𝒅𝒊𝒓𝒆𝒄𝒕𝒂 𝒏 = 𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 í𝒕𝒆𝒎𝒔 𝒅𝒆𝒍 𝒕𝒆𝒔𝒕

𝑿� = 𝑴𝒆𝒅𝒊𝒂 𝒅𝒆𝒍 𝒕𝒆𝒔𝒕. Así, para el primer caso de la matriz de frecuencias, es decir, el caso en el que X=9, pX

sería:

𝑝𝑋 = 0.62 �9

12� + (1 − 0.62) �

5.1512

� = 0.628

Siguiendo el mismo procedimiento se calcula el resto de los valores de PX, quedando la columna del siguiente modo:

X fx �𝒙 ∙ 𝒇𝒙 𝒑𝑿

9 1 9 0.628 8 2 16 0.576 7 2 14 0.525 6 4 24 0.473 5 4 20 0.421 4 2 8 0.370 3 3 9 0.318 2 1 2 0.266 1 1 1 0.215

20 103

. En tercer lugar, calculamos Px que es la probabilidad de que una persona, con una determinada puntuación X, y una probabilidad px de acertar cada ítem (calculada en el apartado anterior), respondan correctamente 7 (nuestro punto de corte) o más ítems en el test, y sea clasificado dentro del grupo de maestría. Para ello, puesto que podemos considerar los ítems, como ensayos de un proceso binomial, aplicaremos la Función de Distribución Binomial o se buscarán los valores correspondientes, en las tablas de la distribución binomial, para lo cual, se tendrá en cuenta:

o El número de ítems (n) o El valor del punto de corte (7 en nuestro ejemplo) o La probabilidad de acertar cada ítem, en función de la puntuación obtenida

(pX)

𝑝𝑋 = 𝛼 �𝑋𝑛� + (1 − 𝛼)�

𝑋�𝑛�

Page 13: Psicometria TEMA 5

13

Para calcular Px,

Veamos cuál sería el proceso a seguir, en el caso de un sujeto que ha obtenido una puntuación de 9 en el test y una probabilidad de acertar cada ítem, de 0.628 (recordemos que el punto de corte se estableció en 7)

𝑓(7) = 𝑃𝑟𝑜𝑏(𝑋 = 7) = �127�0.6287 ∙ 0.3725 = 0.21734

𝑓(8) = 𝑃𝑟𝑜𝑏(𝑋 = 8) = �128�0.6288 ∙ 0.3724 = 0.22932

𝑓(9) = 𝑃𝑟𝑜𝑏(𝑋 = 9) = �129�0.6289 ∙ 0.3723 = 0.17206

𝑓(10) = 𝑃𝑟𝑜𝑏(𝑋 = 10) = �1210�0.62810 ∙ 0.3722 = 0.087

𝑓(11) = 𝑃𝑟𝑜𝑏(𝑋 = 11) = �1211�0.62811 ∙ 0.3721 = 0.02675

𝑓(12) = 𝑃𝑟𝑜𝑏(𝑋 = 12) = �1212�0.62812 ∙ 0.3720 = 0.00376

𝑃𝑥 = 𝟎.𝟕𝟑𝟔𝟑 ���������������������������� Por tanto, la probabilidad de acertar 7 o más ítems de 12, es 0.7363, que resulta de la suma de las probabilidades de acertar 7, 8, 9, 10,11 y 12. Si en lugar de hacer estos cálculos, se acude a las tablas de la distribución binomial, habríamos de buscar, la probabilidad de que X≥ 7, para n=12, p=0,628, lo que equivale a buscar 1- la probabilidad de que X≤ 6 Esto mismo, se hace con el resto de puntuaciones y sus correspondientes pX quedando la tabla como sigue:

𝑓(𝑘) = 𝑃𝑟𝑜𝑏(𝑋 ≥ 𝑘) = ��𝑛𝑥�𝑝𝑥𝑥𝑞𝑥𝑛−𝑥

X fx �𝒙 ∙ 𝒇𝒙 𝒑𝑿 𝑷𝒙

9 1 9 0.628 0.7366 8 2 16 0.576 0.6012 7 2 14 0.525 0.4556 6 4 24 0.473 0.3166 5 4 20 0.421 0.1987 4 2 8 0.370 0.1102 3 3 9 0.318 0.0524 2 1 2 0.266 0.0203 1 1 1 0.215 0.0059

20 103

Page 14: Psicometria TEMA 5

14

Una vez calculados todos los valores de Px, se calcula la Probabilidad de clasificación consistente de los sujetos, para lo cual se halla: La probabilidad de que cada sujeto sea consistentemente clasificado en el grupo

de maestría para dos tests independientes; es decir, la probabilidad de que cada persona, sea clasificada en el grupo de maestría en el primer test (Px1), por la probabilidad de que sea clasificado en el grupo de maestría en el segundo test (Px2), lo que será igual a 𝑷𝒙𝟐

La probabilidad de que sea clasificado en el grupo de no maestría en los dos tests, que será igual a:

(1 − 𝑃𝑥1)(1− 𝑃𝑥2) = (1 − 𝑃𝑥)2

Por consiguiente, la probabilidad de clasificación consistente para un sujeto será:

𝑃𝑥2 + (1 − 𝑃𝑥)2 = 1 − 2(𝑃𝑥 − 𝑃𝑥2)

Así, en nuestro ejemplo, tendremos para la primera fila: 1 − 2(0.7366− 0.73662) =𝟎.𝟔𝟏𝟐𝟎 Hacemos el mismo cálculo con el resto de datos, quedando la tabla:

- En la sexta columna, se recoge el número de sujetos que, habiendo obtenido una puntuación X, serán consistentemente clasificados. La forma de obtener estos valores, es multiplicando los valores obtenidos en la quinta columna, por la frecuencia de la columna 2.

𝑓𝑥 ∙ [1 − 2(𝑃𝑥 − 𝑃𝑥2)]

X fx 𝒑𝑿 𝑷𝒙 𝟏 − 𝟐(𝑷𝒙 − 𝑷𝒙𝟐 9 1 0.628 0.7366 0.6120 8 2 0.576 0.6012 0.5205 7 2 0.525 0.4556 0.5039 6 4 0.473 0.3166 0.5672 5 4 0.421 0.1987 0.6816 4 2 0.370 0.1102 0.8039 3 3 0.318 0.0524 0.9007 2 1 0.266 0.0203 0.9602 1 1 0.215 0.0059 0.9882

20

Page 15: Psicometria TEMA 5

15

Así, para nuestro ejemplo, en el primer caso (X=9) sería: 𝟏 ∙ �𝟏 − 𝟐�𝟎.𝟕𝟑𝟔𝟔 − 𝟎.𝟕𝟑𝟔𝟔𝟐�� =𝟎.𝟔𝟏𝟐𝟎; haciendo lo mismo en todos los caso, la tabla quedaría:

- Por último, vamos a obtener el número de sujetos que superarán el punto de corte en ambos tests (∑𝑷𝒙 ∙ 𝒇𝒙) Para ello, multiplicamos los valores obtenidos en la columna 4 (Px), por los de la columna 2 de frecuencias (fx) y los sumamos. La tabla quedaría así:

Con todos estos datos, ya podemos calcular los Coeficientes 𝒑𝒄 𝒚 𝑲𝒂𝒑𝒑𝒂:

El Coeficiente pc Se obtiene dividiendo el valor de la suma del número de sujetos que, para una determinada puntuación, han sido consistentemente clasificados (columna 6), por el número total de sujetos (también la suma de las frecuencias). Esto es:

𝑝𝑐 =∑𝑓𝑥�1 − (𝑃𝑥 − 𝑃𝑥2)�

𝑓𝑥

X fx 𝒑𝑿 𝑷𝒙 𝟏 − 𝟐(𝑷𝒙 − 𝑷𝒙𝟐 𝒇𝒙 ∙ [𝟏 − 𝟐(𝑷𝒙 − 𝑷𝒙𝟐)]

9 1 0.628 0.7366 0.6120 0.6120 8 2 0.576 0.6012 0.5205 1.0409 7 2 0.525 0.4556 0.5039 1.0079 6 4 0.473 0.3166 0.5672 2.2690 5 4 0.421 0.1987 0.6816 2.6273 4 2 0.370 0.1102 0.8039 1.6078 3 3 0.318 0.0524 0.9007 2.7022 2 1 0.266 0.0203 0.9602 0.9602 1 1 0.215 0.0059 0.9882 0.9882

20 13.9145

X fx 𝒑𝑿 𝑷𝒙 𝟏 − 𝟐(𝑷𝒙 − 𝑷𝒙𝟐 𝒇𝒙 ∙ [𝟏 − 𝟐(𝑷𝒙 − 𝑷𝒙𝟐)]

𝒇𝒙 ∙ 𝑷𝒙

9 1 0.628 0.7366 0.6120 0.6120 0.7366 8 2 0.576 0.6012 0.5205 1.0409 1.2023 7 2 0.525 0.4556 0.5039 1.0079 0.9112 6 4 0.473 0.3166 0.5672 2.2690 1.2666 5 4 0.421 0.1987 0.6816 2.6273 0.7948 4 2 0.370 0.1102 0.8039 1.6078 0.2204 3 3 0.318 0.0524 0.9007 2.7022 0.1571 2 1 0.266 0.0203 0.9602 0.9602 0.0203 1 1 0.215 0.0059 0.9882 0.9882 0.0059

20 13.9145 5.3152

Page 16: Psicometria TEMA 5

16

En nuestro ejemplo: 𝒑𝒄 = 𝟏𝟑.𝟗𝟏𝟒𝟓𝟐𝟎

= 𝟎.𝟔𝟗𝟓 (el numerador, representa el número de sujetos correctamente clasificados)

Para calcular el Coeficiente Kappa resulta necesario calcular el valor de la

probabilidad de clasificación consistente por azar (pa). Para ello, empleamos la suma de los datos obtenidos en la columna 7, es decir, la suma del número total estimado de sujetos clasificados en el grupo de maestría, mediante la siguiente ecuación:

𝑝𝑎 = 1 − 2�∑𝑓𝑥 ∙ 𝑃𝑥

𝑛− �

∑𝑓𝑥 ∙ 𝑃𝑥𝑁

�2

En nuestro ejemplo: 𝒑𝒂 = 𝟏 − 𝟐�𝟓,𝟑𝟏𝟓𝟐𝟐𝟎

− �𝟓,𝟑𝟏𝟓𝟐𝟐𝟎

�𝟐� = 𝟎,𝟔𝟎𝟖𝟔

Ahora, ya podemos calcular el Coeficiente Kappa:

𝑲 =𝒑𝒄 − 𝒑𝒂𝟏 − 𝒑𝒂

En nuestro ejemplo: 𝑲 = 𝟎,𝟔𝟗𝟓−𝟎,𝟔𝟎𝟖𝟔

𝟏−𝟎,𝟔𝟎𝟖𝟔= 𝟎.𝟐𝟐𝟎𝟕

Este coeficiente se desarrolla en el contexto de la Teoría Clásica de los Tests. Los métodos que hemos visto hasta el momento para el estudio de la fiabilidad, consideran por igual, tanto los errores cometidos al clasificar a un sujeto perteneciente al grupo de maestría en el grupo de no-maestría, como los que cometemos a la inversa. Sin embargo, el Coeficiente de Livingston, sí tiene en cuenta este tipo de errores, al considerar más importante, los errores de clasificación de los sujetos más distanciados del punto de corte de aquellos que están más cerca del punto de corte. Evidentemente, es más fácil cometer errores de clasificación cuando un sujeto se encuentra muy cercano al punto de corte y será más difícil cometer estos errores de clasificación, cuando el sujeto se encuentra muy alejado del punto de corte. El Coeficiente viene determinado por:

Page 17: Psicometria TEMA 5

17

𝐾𝑥𝑣2 =𝛼 ∙ 𝑆𝑥2 + (𝑋� − 𝐶)2

𝑆𝑥2 + (𝑋� − 𝐶)2

Dónde: 𝜶 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝛼 𝑺𝒙𝟐 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑿� = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑪 =𝑝𝑢𝑛𝑡𝑜 𝑑𝑒 𝑐𝑜𝑟𝑡𝑒

A medida que el punto de corte se distancia del valor de la media del test, aumenta el valor de 2

xvK

Cuando la media del test, coincide con el punto de corte, 2xvK = coeficiente alfa

Cuando alfa es igual a 1, también 2

xvK es igual a 1.

2xvK será siempre ≥ que el coeficiente de fiabilidad alfa.