Doctorado salamanca

Eduardo Gª Cueto

I don’t think so

¿Qué medimos?

– Inteligencia

– Rendimiento

– Personalidad

– Intereses

– Actitudes

– Objetos (Thurstone)

¿A qué nivel medimos?

• Nominal

• Ordinal

• Intervalo

• Razón

–Tests Proyectivos

– Tests Psicométricos

¿Qué utilizamos para medir

la conducta humana?

Tests proyectivos:

• Exploran el conjunto de la personalidad de

una manera global

• Se fundan en la noción de proyección

• Utilizan materiales vagos y poco

estructurados

• Dan lugar a una variedad cuasi-infinita de

respuestas interpretables

La tarea del paciente consiste, no tanto en

describir la lámina, como en contar una

historia en relación con la figura que la

lámina le presenta.

Test de frustración de Rosenzweig

Test de Szondi

Tests psicométricos• La Real Academia Española de la Lengua

define a los tests como exámenes o pruebaspsicológicas para el estudio de alguna función.

• Si se acude a la etimología del término lapalabra test proviene del latín: testis quesignifica testigo y cuyo semantema estápresente en palabras como testimonio, testículo,etc.

• La enciclopedia más consultada del mundo(Wikipedia) dice:

• La Psicometría es la disciplina que se encarga de la medición enpsicología. Medir es asignar un valor numérico a las características de laspersonas, es usada esta función pues es más fácil trabajar y comparar losatributos intra e interpersonales con números y/o datos objetivos. Así, nose usa para medir personas en sí mismas, sino sus diferentes aspectospsicológicos, tales como conocimiento, habilidades, capacidades, opersonalidad.

• La medida de estos aspectos es difícil, y gran parte de la investigación ytécnicas acumuladas en esta disciplina están diseñadas para definirlos demanera fiable antes de cuantificarlos. Los críticos argumentan que talesdefiniciones y cuantificaciones son imposibles y que las mediciones amenudo son tergiversadas.

• Los contenidos de la psicometría se articulan, fundamentalmente, en dosgrandes bloques: teoría de los test, que hace referencia a la construcción,validación y aplicación de los test y escalamiento, que incluye los métodospara la elaboración de escalas psicofísicas y psicológicas.

• A su vez, la teoría de los test se divide en dos ramas: la teoría clásica delos tests y la más reciente teoría de respuesta a los ítems.

• Los conceptos clave de la teoría clásica de los tests son: fiabilidad yvalidez. “Fiabilidad" es medir algo de forma consistente, es decir, que laaplicación de un instrumento dé medidas estables; mientras que "validez"es medir lo que realmente se mide el atributo que el test pretende medir.

• Ambas propiedades, fiabilidad y validez, admiten un tratamientomatemático.

Wikipedia

Tests psicométricos:• Se pueden definir los tests psicométricos como

instrumentos de medida

• Se basan en modelos matemáticos

• Intentan estimar el nivel de habilidad de las personas

en rasgos diferenciados, sus aptitudes, actitudes y su

personalidad.

• Las respuestas dadas a estos tests se valoran y

evalúan cuantitativamente

• La puntuación final obtenida puede interpretarse

basándose en modelos formalizados

• Intentan dar una medida objetiva de múltiples

aspectos de la conducta humana.

Tipo de ítems– Respuesta abierta

– Verdadero falso

– Si - No

– Elección múltiple

– Elección forzada (Ipsativos)

– Tipo “Likert”

– Preguntas de respuesta breve

– Preguntas a desarrollar

– Tareas para realizar

– Preguntas de emparejamiento

– Clasificaciones

– Comparaciones

Respuesta abierta

• ¿Cuál es la capital de Brasil?

• 23 x 2=

• ¿Quién escribió “El sueño de una noche

de verano”?

Verdadero - falso

• 20-(12+9)+1=0 V F

• La media es un estadístico de tendencia central V F

• Me gusta el futbol V F

• Las Capitulaciones de Santa Fe fueron en

a)1.491

b)1.492

c)1.493

Elección múltiple

Si-No• Tengo teléfono móvil SI NO

• En las próximas elecciones votaré al P.P. SI NO

• La fórmula del agua es H2O SI NO

Elección forzadaElija una de las dos opciones, la que mejor

describa su forma de ser:

• Soy una persona

A) Perezosa

B) Desordenada

Tipo Likert• Falto a clase

1) Nunca

2) A veces

3) Normalmente

4) Casi siempre

5) Siempre

Preguntas a desarrollar• Describa la influencia de la superstición en

la literatura española del siglo XIX

Preguntas de respuesta breve

• Defina los siguientes accidentes

geográficos:

– Isla

– Cabo

– Golfo

– Río

– Lago

– Cordillera

Tareas para realizar• Construir un rompecabezas

• Interpretar una pieza de piano

• Ver el número de pulsaciones por minuto

para escribir un texto en un procesador de

textos.

Preguntas de emparejamiento

• Empareja cada persona con su oficio o

profesión:Salvador Dalí Cine

Pablo Picasso Medicina

Antonio Gaudí Psicología

Mario Vargas Llosa Matemáticas

Santiago Ramón y Cajal Física

José Luís Pinillos Arquitectura

Santiago Calatrava Literatura

Eduardo Noriega Pintura

Clasificaciones• Ordene las siguientes actividades según

su preferencia:Leer: __________

Hacer deporte:_________

Escuchar música:_________

Ver televisión:______________

Comparaciones• De cada par subraye la actividad que más

le guste:

– Hacer deporte – Leer

– Ver televisión – Escuchar música

– Leer – Ver televisión

– Escuchar música – Hacer deporte

– Leer – Escuchar música

– Hacer deporte – Ver televisión

12 pasos para la construcción de un test

1. Plan general

• ¿Qué quiero medir?

• ¿Para qué voy a usar los resultados?

• ¿Cómo se interpretarán los resultados?

• ¿Qué formato va a tener el test?

• ¿Cuál va a ser la modalidad de aplicación?

• ¿Qué características tiene la población diana?

• ¿Quién va a elaborar los ítems?

• ¿Quién va a revisar los ítems?


2. Definición del contenido

• Definición operativa del constructo

• Definición del universo de ítems

• Definición de las características del grupo

de expertos que van a valorar la validez de

contenido del test

• Método de valoración de la validez de

contenido


3. Especificaciones sobre el test (El blueprinting)

• Tipo de formato del test

• Número total de ítems

• Modelo teórico en el que se basa

• Tipo de estímulos que puede contener el test

(visuales, auditivos, etc.)

• Normas de puntuación de los ítems

• Si la interpretación va a ser referida a la norma o al

criterio

• Tiempo de aplicación


4. Desarrollo de los ítems

• Asegurar en el constructor de ítems:

La habilidad y los conocimientos psicométricos

de quienes vayan a desarrollar los ítems.

El conocimiento del constructo medido.

Conocimiento sobre el universo de ítems del

constructo


5. Diseño del test

• Ensamblaje de los ítems tiene tal

importancia que se ha demostrado la

relación entre esto y la validez y/o la

fiabilidad del test.


6. “Producción” del test

• Téngase en cuenta que:

Erratas

Forma de presentación

Control de calidad

Facilidad de lectura

Inciden directamente sobre la validez de la prueba


7. Administración del test

• Establecer normas claras de administración.

• Seguir un protocolo establecido

• Unificar las instrucciones en todas las

aplicaciones


8. Puntuaciones del test

• Exactitud de las plantillas

• Adecuación de la puntuación final del test

• Equivalencia entre puntuaciones

observadas y baremos

• Confirmación empírica de la posibilidad de

equiparación de puntuaciones, si esta se

lleva a cabo


9. Puntos de corte

• Cuando los tests exigen tener un punto de

corte o se va a establecer niveles o grados

entre quienes los responden, con

consecuencias importantes para su futuro

es imprescindible probar la validez de los

puntos de cortes para los distintos niveles.


10. Informes de los resultados

• Cualquier error que aparezca en los

informes sobre los resultados de una

aplicación de un tests, aunque sea un error

tipográfico puede servir para degradar todo

el proceso del programa de medida llevado

a cabo. Ese informe siempre será un arma

contra los tests, su validez y la toma de

decisiones seguida de su aplicación


11. El “banco de ítems”

• Tras la elaboración de los ítems y su

aplicación, conviene tener un “almacen”

donde se guarden con todas sus

características. Los mejores siempre cabe la

posibilidad de que pueden ser reutilizados.

Señalar la confidencialidad de los bancos de

ítems es inútil por su obviedad


12. Informe técnico

• Cualquier test ha de ser acompañado de un

exhaustivo informe técnico en donde se de

cuenta de:

Objetivo de la prueba

Definición del constructo

Todos los parámetros psicométricos del test

Una buena idea puede ser utilizar estos doce

pasos como “guión” del informe técnico

Entre las características que pueden ayudar a seleccionar los

mejores ítems para mejorar las propiedades psicométricas del

test, así como para ayudar a conseguir mejor sus objetivos de

evaluación se pueden señalar los siguientes:

-Impacto

-DIF

-Dificultad

-Discriminación

-Homogeneidad

-Distractores

-Azar

-Fiabilidad

-Validez

Principales índices de los ítems

Impacto• Se dice que un ítem tiene impacto cuando

personas de grupos diferentes tienen

probabilidades distintas de acertar el ítem

D.I.F• Un ítem funciona diferencialmente

(presenta DIF) cuando personas de

diferentes grupos tienen distintas

probabilidades de acertar el item en

función del grupo de pertenencia:

• Y = b0 + b1TOTAL + b2SEXO + b3TOTAlxSEXO

)(1

3210 ototalxgrupBgrupoBtotalBBp

pLn

i

i

Dificultad de los ítems

Un ítem será fácil o difícil en función del número de personas que lo acierten

o lo fallen. Los ítems fáciles serán acertados por más personas que los ítems

difíciles. También resulta elemental que, saber simplemente el número de

personas que acierten o fallen un ítem sería inútil por sí mismo. Es decir, si se

dice que un ítem es acertado por 300 personas y otro por 500 no se puede, de

esa información, deducir cuál de los dos ítems es más fácil o más difícil. La

dificultad va a depender, no sólo del número de personas que acierten (o

fallen) el ítem, sino también del número de personas que intenten

responderlo. Cualquiera podría deducir que si ambos ítems fueron aplicados a

muestras con características similares, el primero fue respondido por 600

personas y el segundo por 1.000, ambos ítems son igual de fáciles o difíciles,

ya que la proporción de personas que lo responden adecuadamente es la

misma.

El índice de dificultad del ítem

El índice de dificultad de un ítem es un indicador de la dificultad del mismo.

En este sentido, la dificultad del ítem vendría dada por la proporción de

personas que aciertan el ítem entre todas las que intentan responderlo.

IDA

N

A: Número de personas que aciertan el ítem

N: Número de personas que intentaron resolver o responder al ítem

F: Número de personas que fallan el ítem

k: Número de alternativas del ítem

N

k

FA

ID 1

El índice de dificultad, como indicador de lo difícil que puede ser

acertar o fallar un ítem, sólo tiene sentido calcularlo en los tests donde

existan respuestas correctas o incorrectas, no en los tests de

personalidad o escalas de actitudes.

En este tipo de cuestionarios, la dificultad sólo podría interpretarse

como la probabilidad de dar una respuesta determinada (afirmativa,

negativa, de mayor o menor acuerdo o desacuerdo con la afirmación

del ítem) en función del grado o de la posición relativa de la persona

en el rasgo o actitud que se esté midiendo. Es decir, cuanto más

introvertida sea una persona, más probable es que responda

afirmativamente al ítem:

Me sonrojo si un desconocido me pegunta la hora por la calle

De igual modo, sería muy difícil, que alguien con una fuerte

actitud en contra de cualquier extranjero se mostrara totalmente de

acuerdo con el contenido del siguiente ítem:

Me gustaría que mi hija se casara con un extranjero.

Discriminación de los ítems Una de las finalidades fundamentales de un test es la

de poder discriminar entre todas las personas que lo

responden y ordenarlas, o escalarlas, en función del

atributo que mida el test, la capacidad que puedan, o

no, tener los ítems para discriminar resulta de una

enorme importancia. Efectivamente, cada uno de los

ítems o los elementos que compongan el test deben

de contribuir de forma adecuada a diferenciar entre

aquellas personas que han obtenido en éste una

elevada puntuación y aquellas cuya puntuación ha

sido más baja o peor (según el caso).

Discriminación de los ítems

Un buen ítem, tiene que ser acertado por una

proporción mayor de los individuos que

obtengan mejor puntuación, o puntuación más

elevada en el test, que aquellos con

puntuaciones bajas. Dicho con otras palabras, si

el ítem es “bueno” tenderá a ser acertado por

quienes obtengan buena puntuación en el test y

será fallado (o tenderá a ser fallado) por quienes

obtengan puntuaciones bajas

Índice de discriminaciónSegún este índice, la capacidad de un ítem para discriminar

viene dada por la diferencia entre la proporción de acertantes

entre las mejores y las peores puntuaciones en el test. La muestra

total se divide en dos grupos, siendo el 27% superior y el 27%

inferior lo que configuraran los dos grupos extremos. A esta

forma de estimar el poder de discriminación de un ítem se la

denomina D (discriminación) y su formulación es la siguiente:D p p

Donde:

p+ : Proporción de acertantes al ítem del grupo superior y

p- : Proporción de acertantes del grupo inferior.

Siendo -1 ≤ D ≤ +1.

D p p

Índice de discriminación basado en grupos extremosPor ejemplo, un grupo de 400 personas responden a un test. De las 108 con

mejores puntuaciones en el test (27% superior) 81 aciertan cierto ítem. De las 108

con peores puntuaciones en el test (27% inferior) sólo lo aciertan 27, por

consiguiente:

p 81

1080 75, p

27

1080 25,

Para ayudar a la interpretación de esta forma de estimación de la

discriminación de los ítems, Ebel (1965) propone la siguiente tabla:

Valores Interpretación

≥ 0,40 El ítem discrimina muy bien

Entre 0,30 y 0,39 El ítem discrimina bien

Entre 0,20 y 0,29 El ítem discrimina poco

Entre 0,10 y 0,19 Ítem límite. Se debe mejorar

< 0,10 El ítem carece de utilidad para discriminar

D = 0,75 – 0,25 = 0,50

Índice de discriminación

Es necesario tener en cuenta que para calcular la puntuación total

en el test, el ítem que se está analizando debe ser eliminado. Es

decir, es necesario calcular tantas puntuaciones “totales” como

ítems tenga el test, ya que el ítem analizado no debe de contribuir

a la puntuación total de los individuos en el test, antes de

determinar las personas que forman parte de los grupos extremos.

Índice de homogeneidadNos indica lo homogéneo que es cada ítem en relación a los otros

ítems del test, es decir, en que modo contribuye a medir lo mismo que

mide el test total. Su estima mediante la correlación item-test

Esta correlación se denomina índice de homogeneidad, ya que señala

hasta qué punto el ítem es homogéneo con el test y tiende a medir la

misma variable que el test.

Índice de homogeneidad

Conviene señalar y dejar muy claro que el índice de homogeneidad viene

expresado por la correlación entre dos variables: la puntuación en un

ítem y la puntuación en un test. Se da por supuesto que el ítem analizado,

a la hora de calcular la correlación, es eliminado del test, bien sea

descontándolo antes de calcular la puntuación total, o mediante un

método estadístico apropiado que corrija de forma adecuada los efectos

que sobre el valor de la correlación tiene el hecho de incluir la

puntuación del ítem dentro de la puntuación total del test. Si al calcular la

correlación ítem-test no se descontasen del test las puntuaciones

correspondientes al ítem, se estaría inflando de forma espuria el valor de

la correlación

Índice de homogeneidad

El tipo de correlación que se utilice para el cálculo del índice de

homogeneidad va a depender de las características que tengan las

variables entre las que va a hallarse la correlación, es decir, a las

características de medida que tengan el ítem y el test. En principio el

coeficiente de correlación producto-momento de Pearson permite

calcular este índice. Claro que el cálculo del coeficiente de correlación de

Pearson requiere escalas continuas y distribuciones normales bivariadas.

Recuérdese que el valor máximo empírico del coeficiente de correlación

de Pearson depende de la distribución conjunta de las variables que se

quieran correlacionar.

Índice de homogeneidadLa siguiente tabla puede aclarar qué tipo de

correlación puede ser el más adecuado en cada caso. La

primera columna muestra el nivel de medida del ítem y

la primera fila, el del test. Así si el ítem está

dicotomizado y el test es una variable continua se

utilizaría la correlación biserial.

Ítem Test

Nivel de

medida

Dicotómica Dicotomizada Continua

Dicotómico Correlación Φ Correlación Φ Correlación biserial-

puntual

Dicotomizado Correlación

tetracórica

Correlación biserial

Continuo Correlación de Pearson

Corrección de la correlaciónComo ya se había indicado, si no se ha eliminado el ítem para el

cálculo de la correlación de la puntuación en el test, con la

puntuación en el ítem, debe aplicarse la siguiente fórmula de

corrección para la obtención del índice de discriminación:

I Dr s s

s s r s s

ix x i

x i ix x i

. .

2 2 2

Siendo:

rix: La correlación del ítem con el test.

sx: La desviación típica del test.

si: La desviación típica del ítem.

Análisis de los distractores

Se denominan distractores a las distintas

alternativas falsas o posibilidades de respuesta

incorrectas que tiene un ítem. Todas ellas deberían

resultar igualmente atractivas para las personas

evaluadas que desconocieren la respuesta correcta.

Para comprobarlo, una prueba de independencia

puede ayudar a tomar decisiones sobre la

equiprobabilidad de las alternativas incorrectas

propuestas para cualquier ítem

El índice de fiabilidad de los ítems Este índice se utiliza para estimar la fiabilidad con la que cada ítem mide

la característica o la variable que mide el test total. Es decir, da

información sobre la contribución que el ítem hace para medir lo que el

test total mida

El índice de fiabilidad (IF) del ítem es función del índice de

discriminación y la desviación típica del ítem, es decir:

IF S IDi i

Siendo:

Si: La desviación típica de las puntuaciones en el ítem i

IDi: El índice de discriminación del ítem i. Es decir, la

correlación ítem-test corregida, eliminada la influencia del ítem en la

puntuación total del test.

Índice de validez

Se entiende por índice de validez del ítem al coeficiente de

correlación entre las puntuaciones en el ítem y las

puntuaciones obtenidas en el criterio. Es decir, la correlación

ítem-criterio.

Formalmente podría expresarse: I.V. = rjy

Siendo:

rjy la correlación entre las puntuaciones en el

ítem y las puntuaciones en el criterio externo.

Supuestos básicos de la T.C.T.

V = E(X)

ve 0

e ej k

0

Modelo: X = V + e

Definición de tests paralelos

• Dos tests, j y k, se denominan

paralelos si la varianza de los

errores es la misma en ambos

y cada sujeto obtiene en ellos

la misma puntuación

verdadera

Fiabilidad• En general, se dice que una

medida es fiable cuando está

libre de error.

• Un test es fiable cuando es

constante en su medida

• Un test es fiable si tiene

consistencia interna.

Coeficiente de fiabilidad

• La fiabilidad de un test se expresa

mediante su coeficiente de fiabilidad:

XX

v

x

'

2

2

Coeficiente de fiabilidad 2 2 2

x v e

XX

v

x

x e

x

e

x'

2

2

2 2

2

2

21

Puesto que

No obstante ninguna de las dos fórmulas vale para el calculo del

coeficiente de fiabilidad ya que ni la varianza de los errores ni la de las

puntuaciones verdaderas se puede calcular empíricamente

Índice de fiabilidad• Se denomina índice de fiabilidad de un test a

la correlación entre sus puntuacionesempíricas y sus puntuaciones verdaderas.Matemáticamente es la raíz cuadrada delcoeficiente de fiabilidad:

xv

v

x

Métodos clásicos para la estimación

empírica del coeficiente de fiabilidad

• Test-retest

– Coeficiente de estabilidad

• Formas paralelas

– Coeficiente de equivalencia

• Dos mitades

– Consistencia interna

Estimación de las puntuaciones verdaderas

• Ecuaciones de regresión

– Puntuaciones directas

– Puntuaciones diferenciales:

– Puntuaciones típicas:

V X X Xxx

' ( )

v xxx'

z zv xx x' .

El coeficiente α• El coeficiente α de Conbrach es, sin duda, el método

más conocido y más utilizado para el estudio de la consistencia interna del test como estimación de su fiabilidad.

• Su valor se estima a partir de la siguiente ecuación:

2

1

2

11 x

n

j

j

n

n

Fórmulas basadas en el análisis factorial

• Coeficiente θ de Carmines

– En 1979 Carmines y Zeller propusieron el coeficiente θ

como una aproximación al coeficiente α.

1

11

1

n

n

Donde λ1 es el primer autovalor de la matriz de

datos sometida a análisis factorial


• Coeficiente Ω de Heise y Bohrnstedt

n

jiji

ji

n

i

ihn

1,

1

2

1

Donde h2 es la comunalidad estimada de los ítems del test y

ρ es la correlación entre los ítems del test


• Se puede demostrar que:

α≤θ≤Ω≤ρxx

Fiabilidad de una batería de tests

• Para el cálculo de la fiabilidad de una batería

de tests Yela (1987) propone la siguiente

fórmula:

2

1

'

2

1

2

1x

n

j

jjj

n

j

j

nR

Definición

• Un test, como cualquier otro

instrumento de medida, es

válido si sirve para medir

adecuadamente aquello para

lo que fue pensado como tal

instrumento de medida

Clasificación de la validez

Contenido Criterio Constructo

Aparente CurricularMuestral Predictiva RetrospectivaConcurrenteMultirrasgo-

multimétodoFactorial

Convergente

Divergente

Sesgos

Método

Validez de contenido

• Indica el grado en que los ítems del test

representan una muestra adecuada de las

conductas o capacidades relevantes para

lo que se pretende medir. Requiere un

análisis racional del contenido de los

ítems, no suele expresarse

cuantitativamente, y tiene varias facetas

Validez de contenido• la validez aparente refleja el grado en que

el test parece medir lo que pretende.

• la validez muestral se refiere a la

relevancia de los contenidos del test.

• La validez curricular se refiere a los

contenidos curriculares de un programa

de formación reflejados en el test.

Validez relativa a un criterio• Indica el grado en que las puntuaciones del test tienen

utilidad para predecir otras variables que actúan como criterio.

• Se cuantifica a través del coeficiente de validez, rXY, que es la correlación de Pearson entre el test (X) y el criterio (Y). Según el momento temporal a que se aplique, la validez relativa a un criterio se denomina:– validez concurrente, cuando el criterio representa una variable

que se mide a la vez que se aplica el test;

– validez predictiva, cuando el criterio representa una variable que se medirá en el futuro;

– validez retrospectiva, cuando el criterio representa una variable cuyo valor se conoce con (mucha) anterioridad a la aplicación del test.

Validez de constructo• Indica en qué grado un test mide qué

variable psicológica (constructo).

• Requiere un marco teórico que

especifique qué relaciones guardan unos

constructos con otros y que permita

establecer hipótesis acerca de cómo

deben ser las relaciones con otros

constructos

Matrices multirrasgo-

multimétodo• Validez Convergente

– un test tiene validez convergente cuando presenta correlaciones altas con otros tests que miden el mismo constructo con distinto método

• Validez Divergente o discriminante– un test tiene validez divergente o discriminante

cuando presenta correlaciones bajas con tests que miden otros constructos con el mismo método

• Sesgo debido al método– Se da si las correlaciones entre tests que miden

distintos rasgos con distintos métodos son más bajas que las de los tests que miden distintos rasgos con el mismo método

TEST ENTREVISTA JUECES

Satisfacción Implic. Motiv Satisf. Impl. Mot. Satis. Impl. Mot

1.Test

A. Satisfacción (.95)

B. Implicación .31 (.90)

C. Motivación .28 .20 (.92)

2. Entrevista

A. Satisfacción .86 .10 .57 (.95)

B. Implicación .10 .90 .13 .11 (.92)

C. Motivación .11 .09 .86 .10 .11 (.89)

3. Jueces

A. Satisfacción .73 .10 .06 .87 .05 .06 (.95)

B. Implicación .10 .80 .12 .09 .88 .10 .15 (.93

C. Motivación .09 .08 .80 .12 .17 .85 .07 .02 (.90)

Validez Factorial• Un test tiene validez factorial cuando el

tratamiento de las puntuaciones mediante

análisis factorial revela las dimensiones

relevantes del constructo.

Validez y predicción

• Cálculo empírico del coeficiente de

validez

– El coeficiente de validez del test se define,

según ya se ha dicho, como el coeficiente de

correlación entre el test y un criterio externo

al mismo.

– En general se puede suponer que el test será

una variable continua y «normal», es decir,

que seguirá una distribución gaussiana.

Sin embargo, el criterio, en muchas ocasiones puede ser una

variable discreta. No es raro que si se pide a un grupo de

entrenadores en un programa determinado que evalúen a sus

alumnos estos dicotomicen la evaluación dividiendo al grupo

en dos categorías: rendimiento satisfactorio versus

rendimiento insatisfactorio. Lo mismo puede ocurrir con los

jefes que han de evaluar en rendimiento laboral a sus

subordinados, etc. La medida subyacente a esta evaluación

es en realidad una variable continua, ya que el rendimiento en

un programa de entrenamiento o en una empresa no podrá

definirse como «blanco» o «negro», como sí rendimiento, o

no rendimiento, sino que se rendirá más o menos en un

continuo real de rendimiento y será el evaluador el que

dicotomiza la variable para dar una «calificación» de

rendimiento aceptable o no aceptable.

El coeficiente de correlación adecuado cuando

nos encontramos con una variable continua y

normal (test o instrumento de pronóstico) y una

variable subyacente continua y normal; pero

dicotomizada, es el coeficiente de correlación

biserial, cuya formulación matemática es la

siguiente:

Si el criterio es una variable realmente

dicotómica y el test se sigue considerando

como una variable continua y normal, el

coeficiente de correlación adecuado entre

ambos tipos de variables es la correlación

biserial puntual, y su expresión matemática

es la siguiente:

Si test y criterio se pueden considerar variables

normales, el coeficiente de correlación

adecuado para el cálculo de la validez es el

coeficiente de correlación momento-producto

de Pearson y su expresión matemática puede

escribirse de la siguiente forma:

Relación fiabilidad-validez

x y

x y

x x y y

x x y y

1 1

2 2

1 1 1 1

2 2 2 2

Fórmula general

Relación fiabilidad-validez• Mejora de la fiabilidad del test

x y

x y

x x y y

x x y y

1 1

2 2

1 1 1 1

2 2 2 2

Relación fiabilidad-validez• Mejora de la fiabilidad del criterio

x y

x y

x x y y

x x y y

1 1

2 2

1 1 1 1

2 2 2 2



Límite del coeficiente de validez

• Para un test concreto

• Límite máximo para cualquier test

Coeficiente de validez y longitud del test

• Una forma de mejorar el coeficiente de

validez del test es aumentando su

longitud, puesto que aumentar la longitud

del test es una forma de mejorar su

fiabilidad y tal y como se ha visto, una

forma de mejorar la validez es,

precisamente, mejorando la fiabilidad


• Expresión matemática de la relación

coeficiente de validez-longitud:

xxxx

xy

xy

n

R

1

Siendo: Rxy el coeficiente de validez del test una vez aumentada su longitud

ρxy el coeficiente de validez del test primitivo

ρ xx el coeficiente de fiabilidad del test primitivo

n el número de veces que se aumenta la longitud del test


• Despejando n de la anterior fórmula puede

estimarse el número de veces que habría que

aumentar la longitud del test para conseguir un

determinado coeficiente de validez:

xxxyxy

xyxx

R

Rn

22

2)1(

Coeficiente de validez y homogeneidad de la muestra

• Como es sabido el coeficiente decorrelación de Pearson no esindependiente de la homogeneidad de lamuestra en la que se estime.

• El coeficiente de validez de un test, aligual que ocurría con el de fiabilidad,también depende, obviamente, de lahomogeneidad de la muestra en la que seestime.


• A partir de dos supuestos:

– 1. El error típico de estimación esindependiente de la homogeneidad de lamuestra

– 2. La pendiente de la recta de regresión esindependiente de la homogeneidad de lamuestra

• Se puede deducir la siguiente ecuaciónque pone en relación validez-homogeneidad


2222 )1( xxyxyx

xyx

xy

S

SR

Otros indicativos de la validez

• El coeficiente de validez de un test da

información de hasta qué punto pueden

estimarse las puntuaciones en un criterio,

conocidas las puntuaciones en el test.

Esto puede verse con claridad a partir de:

– El coeficiente de determinación = d

– El coeficiente de alienación = k

– El coeficiente de valor predictivo = e

El coeficiente de determinación

• El coeficiente de determinación d es el cuadrado

del coeficiente de validez del test. Ya que

• Formalmente se define:

dy

y

xy 2

2

'2

Es la proporción de varianza pronosticada que hay en

la varianza total del criterio, o dicho de otra forma, es

la varianza del criterio que es pronosticable a partir del

test

2

.

2

'

2

xyyy

El coeficiente de alienación

• El coeficiente de alienación k indica la proporción

de error que se comete utilizando la recta de

regresión para hacer predicciones.

• Viene expresado por la proporción de error típico

de estimación que hay en la desviación típica de

las puntuaciones en el criterio.

2.1 xy

y

xyk

El coeficiente de valor predictivo

• El coeficiente de valor predictivo, “e”

indica la seguridad en los pronósticos

cuando se utiliza la regresión para

llevarlos a cabo.

• e = 1 – k

• Es el complemento con respecto a 1 del

coeficiente de alienación

Estimación del criterio a partir de un test

• Si la relación existente entre dosvariables, X e Y es una relación lineal,esta relación puede ser expresada bajo laforma de un modelo lineal

• Y = β0 + β1Xi• Siendo β0 y β1 dos valores constantes, X la variable

explicativa, variable control, test, variable endógena,variable independiente o regresor, mientras Y recibe losnombres de variable explicada, respuesta, variableexógena, variable dependiente o criterio

Estimación del criterio a partir de un test

• Ecuaciones de regresión

xxyy

x

y

xy

x

y

xy

zz

Típicas

xy

lesDiferencia

YXXY

Directas

ˆ

ˆ

)(ˆ

Validez y selecciónModelos de selección

- Compensatorio.

- Conjuntivo.

- Disyuntivo.

Validez y selecciónModelo compensatorio

Lleva a cabo una combinación aditiva de las

distintas puntuaciones de los sujetos, dejando a

éstos ordenados según su puntuación globalModelo conjuntivo

Se seleccionan aquellos sujetos que superan en

todos y cada uno de los predictores un cierto

nivel de competencia prefijado

Modelo disyuntivo

Se seleccionan aquellos que superan cierto nivel de

competencia en al menos un predictor, es decir, o

se supera uno o se supera otro, al menos uno

Validez y selecciónA la hora de evaluar la eficacia de una selección no sólo se ha de tener en cuenta

la validez de los predictores, sino que han de contemplarse, además, aspectos

como la razón de seleccíón, la razón de eficacia y la razón de idoneidad.

Se denomina razón de selección a la proporción de personas

seleccionadas del total de aspirantes

La razón de eficacia es la proporción de seleccionados que

efectivamente tíenen éxíto posterior en el criterio.

La razón de idoneidad la proporción de aspirantes

cualificados para tener éxito en el criterio

Taylor y Russell (1939) elaboraron unas tablas, que para un valor

estimado de la razón de idoneidad, y conocida la validez y la razón de

selección, permiten estimar cuál sería la razón de eficacia o probabilidad

de que un sujeto seleccionado bajo esas circunstancias tenga éxito.

Validez y selección

Puntuaciones

normativas del

test

Cocientes Intelectuales Clásicos

El Cociente Intelectual da información sobre la inteligencia de los

sujetos en función de la adecuación entre su edad mental y su edad

cronológica.

Es el tipo de escala utilizada en los primeros Tests de Inteligencia, como el

Binet-Simon, etc. Su cálculo es muy sencillo, basta con conocer la

puntuación esperada para la realización de ciertas tareas de un grupo

normativo de sujetos de una edad determinada. Cualquier sujeto, que para

las mismas pruebas, llegue a alcanzar dicha puntuación, tiene como edad

mental la edad del grupo normativo. La edad cronológica es la edad del

sujeto.

CIEdad Mental

Edad Crono ica

_

_ log100

Cocientes Intelectuales ClásicosVentajas

1. Son de uso universal. La práctica totalidad de la población puede tener una

idea muy aproximada sobre su interpretación.

2. Son fáciles de calcular, no conllevan procedimientos de cálculo

complicados.

Inconvenientes

1. El desarrollo mental, y por lo tanto la edad mental de los individuos, no es

el mismo a lo largo de toda la existencia. No se sigue la misma pauta en el

desarrollo, por ejemplo de los O a los 2 años que de los 16 a los 18. Un retraso

en las primeras edades no significa lo mismo que un retraso en edades más

avanzadas, por eso la interpretación del CI depende de la edad cronológica.

2. No tienen ningún tipo de aplicación en edades adultas cuando ya el

desarrollo mental se ha llevado a cabo de forma prácticamente total.

Escalas centilesLas escalas centiles o percentiles son escalas de tipo ordinal. Un percentil se

interpreta como el porcentaje de sujetos que quedan por debajo de él en el grupo

normativo. Es decir un sujeto con un percentil de 48 deja por debajo de sí al 48 %

de los sujetos de su grupo normativo

Matemáticamente se define como:

siendo:

fai: Frecuencia acumulada por debajo de la

puntuación de interés.

fi: Frecuencia de sujetos con la misma

puntuación que aquella para la que se busca el percentil.

n: Número de sujetos de la muestra.

Escalas centilesLa puntuación en un test se dará redondeada al entero más próximo. No es

tanto lo que las ciencias sociales pueden afinar en el proceso de la medida

como para que se justifique el poder decir que la puntuación centil de un

individuo en extraversión sea de 44,748. Resulta al menos extraño cuando no

petulante.

VentajasAl igual que las anteriores son muy fáciles de calcular y de una interpretación

muy sencilla.

Inconvenientes

1. Son menos estables (y, por lo tanto, menos «fiables») en la parte central de las

distribuciones que en los extremos de las mísmas.

2. No permiten comparaciones interindividuales ni siquiera dentro del mismo test

ya que las distancias no son similares a lo largo de toda la distribución.

3. Para este tipo de escalas no es adecuado el cálculo de ningún tipo de

estadístico para establecer comparaciones entre individuos o entre grupos, tales

como la media, etcétera.

Escalas típicasLas escalas típicas son transformaciones lineales de las

puntuaciones primitivas con media cero y desviación típica 1.

Su definición matemática es:

Ventajas

1. Son fáciles de calcular.

2. Son transformaciones lineales de las puntuaciones primitivas con lo que no se

modifica en absoluto la forma de la distribución de origen.

3. Su unidad de medida es constante con lo que permiten cualquier tipo de

comparación intragrupo entre las puntuaciones de los sujetos.

Inconvenientes

1. El hecho de tener el cero como punto medio origina puntuaciones negativas y

no deja de «sonar» un poco extraño el decirle a alguien que su puntuación en

inteligencia es de - 1.

2. Aunque, en principio, sus límites son ± ∞en general, en la práctica, en un rango

de 6 puntos están comprendidas todas las puntuaciones de una distribución, esto

origina puntuaciones decimales.

Escalas típicas derivadasEl mayor inconveniente de tipo práctico para el uso de las típicas radica en los

signos negativos y números decimales. Para evitarlo, las puntuaciones típicas se

transforman a su vez en otras escalas que evitan estos dos inconvenientes,

denominadas típicas derivadas (D).

Las típicas derivadas se obtienen a partir de las típicas primitivas mediante la

transformación:

Donde:

XD: Media para la nueva escala.

SD: Desviación típica elegida para la

nueva escala.

Zx: Puntuación típica primitiva.

Escalas típicas derivadas

La media y la desviación típica elegidas son

arbitrarias y sólo obedecen a exigencias prácticas.

Son muy populares, por ejemplo, las llamadas

puntuaciones T de McCall, que ubican la media en

50 y la desviación típica en 10, denominándose

así, al parecer, en honor a Terman y Thorndike.

Muchos tests al uso utilizan este tipo de

puntuaciones derivadas; por ejemplo, el MMPI en

50 y 10, siguiendo a McCall.

Escalas típicas normalizadasLas puntuaciones típicas normalizadas son las puntuaciones

típicas que le corresponderían a las puntuaciones originarias de los

sujetos si su distribución fuera normal.

Implican una transformación «no lineal» de la distribución empírica

de las puntuaciones obtenidas por el grupo normativo en el test, a

menos, que estas tuvieran una distribución totalmente normal, lo

cual no suele ocurrir en la práctica, «nunca».

El hecho de tener que transformar de una forma no lineal la

distribución de las puntuaciones empíricas hace que se modifique la

forma de ésta y puede llegarse a falsear totalmente los resultados

obtenidos en el test por los sujetos llegando a ordenarlos de una

forma totalmente artificial en lo que respecta a las distancias

geométricas entre ellos. Por esta razón «nunca» deben

normalizarse distribuciones sin justificar previamente (mediante una

prueba de bondad de ajuste) que su desviación de la distribución

normal no es estadísticamente significativa.

Escalas típicas normalizadasVentajas:

Presentan todas las características que ya se mencionaron

en el caso de las puntuaciones típicas; pero además:

1. Conocida la puntuación típica normalizada basta con

mirar la tabla de la distribución normal para conocer el

percentil.

2. Permite todo tipo de comparaciones de puntuaciones tanto

entre intragrupo como entre distintos grupos de sujetos y con

distintos tests.

Inconvenientes

Estos son los mismos que los ya mencionados en el caso

anterior. Para evitar tanto las puntuaciones negativas como

los decimales, este tipo de escalas pueden transformarse.

Escalas típicas normalizadas y derivadas

EneatiposLos eneatipos o estaninos son puntuaciones típicas

normalizadas y transformadas con media 5 y desviación típica 2.

Su expresión matemática es la siguiente:

Es decir a un sujeto con una puntuación típica

normalizada de 0,58 le corresponde un eneatipo de 6,16.

Como los eneatipos deben expresarse siempre en

puntuaciones enteras, su eneatipo será de 6 puntos. La

escala de eneatipos es una escala de 9 puntos. Sus límites

están entre 1 y 9.

Escalas típicas normalizadas y derivadas

Cocientes Intelectuales TípicosLos «Cocientes Intelectuales Típicos» son escalas típicas

normalizadas y transformadas con media 100 y desviación

típica 15 ó 16. Su expresión matemática es:

C.I.T. = 15Zn + 100

Su límite inferior es 0 y no tiene límite superior. Las

puntuaciones se dan siempre redondeadas al entero más

próximo.

Escalas

THUSRTONE

Ley del Juicio Comparativo

Thurstone fue el primero en mostrar que losmétodos de escalamiento psicofísico se podíanadaptar para la medición de actitudes. Por ejemplo,mostró que era posible ubicar un conjunto de delitosen un continuo psicológico de “gravedad percibida”,pidiéndole a un grupo de jueces que examinarantodas las parejas posibles entre los delitos de unalista (e. g., asesinato y robo; asesinato y violación,etc.). Thurstone también desarrolló procedimientosestadísticos que permitían examinar si los valoresescalares de los estímulos estaban en una escala deintervalos


• La Ley de Thurstone es un sistema de

ecuaciones que permite estimar los

valores escalares de un conjunto de

estímulos, a partir de los juicios

comparativos realizados sobre todas las

parejas posibles de estímulos


Cada test o escala formado

siguiendo el modelo de Thurstone

va a tener ítems

Así pues, con los 4 estímulos

siguientes se puede formar una

escala de 6 ítems

2

)1( nn


Ley del Juicio ComparativoMétodo Comparaciones Binarias ( n=100.)

aula cafet gim biblio teatro

aula - 20 30 35 10

cafet 80 - 30 40 20

gim 70 70 - 45 15

biblio 65 60 55 - 25

teatro 90 80 85 75 -

∑ 305 230 200 195 70

Cada entrada de la matriz indica el número de veces que el

objeto de la columna es preferido sobre el objeto de la fila.

Ley del Juicio ComparativoMatriz de frecuencias ordenadas.

teatrobiblio gim cafet aula

teatro- 75 85 80 90

biblio 25 - 55 60 65

gim 15 45 - 70 70

cafet 20 40 30 - 80

aula 10 35 30 20 -

∑ 70 195 200 230 305


Matriz de proporciones.

teatro biblio gim cafet aula

teatro .50 .75 .85 .80 .90

biblio .25 .50 .55 .60 .65

gim .15 .45 .50 .70 .70

cafet .20 .40 .30 .50 .80

aula .10 .35 .30 .20 .50


Matriz de puntuaciones típicas (Z).

1 2 3 4 5


teatro .00 .67 1.03 .84 1.28

biblio -.67 .00 .13 .25 .38

gim -1.03 -.13 .00 .52 .52

cafet -.84 -.25 -.52 .00 .84

aula -1.28 -.38 -.52 - .84 .00


Matriz de puntuaciones típicas (z).

1 2 3 4 5


teatro .00 .67 1.04 .84 1.28

biblio -.67 .00 .13 .25 .39

gim -1.04 -.13 .00 .52 .52

cafet -.84 -.25 -.52 .00 .84

aula -1.28 -.39 -.52 - .84 .0

__________________________________________

Media -.766 -.018 .026 .154 .604

+.766 = 0 .748 .792 .920 1.370

Método Comparaciones Binarias ( n=100.)

Una representación gráfica de los valores de cada objeto a lo largo del

continuo puede realizarse de la siguiente manera:

teatro biblio

gim cafet aula

0 1 .746 .792

.920 1.370 .5


Objetivos• Proporcionar mediciones

invariantes respecto al instrumento de medida utilizado

• Disponer de instrumentos cuyas propiedades no dependan de los objetos medidos

Diferencias TCT-TRI

TCT TRI

Modelo Lineal No lineal

Supuestos Débiles Fuertes

Invarianza Med. No Sí

Inv.Prop.Psic. No Sí

Escala 0-n -∞ a +∞

Énfasis Test Ítem

Rel. Ítem-Test No especificada CCIs

Ítems ID, IDiscrimin. a, b, c

Error de medida Global FI

Muestra N≥200 N≥500

Comprobación de los modelos

1. Definición rigurosa de la variable

2. Elaboración de los ítems

3. Aplicación de los ítems a una muestra

4. Depurar los ítems de acuerdo a la TCT

5. Comprobar la unidimensionalidad

6. Elegir un modelo de TRI

7. Estimar los parámetros

8. Ajuste del modelo

El rasgo latente• La variable que se desea medir es lo que,

habitualmente, se conoce como el rasgo

latente; pero que se podría denominar,

Inteligencia, Neuroticismo o Personalidad

Autoritaria. Este rasgo latente no es

observable de forma directa; pero puede

estudiarse a través de las respuestas a los

ítems de un test.

La C.C.I.• La probabilidad de cada una de las

respuestas dadas a cualquier ítem esfunción del rasgo latente y de lascaracterísticas del ítem. Estascaracterísticas vienen definidas por losparámetros del ítem. La C. C. I. es lafunción que expresa la relación entrelos valores de la variable que mide elítem y la probabilidad de que dichoítem sea acertado.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

b

Scale Score

PR

OB

(C

orrect)

Metric Type

Normal

Item Response Function and Item Information

Subtest 1: TEST0001; Item 8: 0008

a = 4.03; b = 0.03; c = 0.00;

0

1

2

3

4

5

6

7

8

9

10

11

12

In

fo

rm

atio

n...

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

b

Scale Score

PR

OB

(C

orrect)

Metric Type

Normal



a = 3.46; b = 0.92; c = 0.00;

0

1

2

3

4

5

6

7

8

9

10

11

12

In

fo

rm

atio

n...

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

b

Scale Score

PR

OB

(C

orrect)

Metric Type

Normal



a = 3.19; b = -0.96; c = 0.00;

0

1

2

3

4

5

6

7

8

9

10

11

12

In

fo

rm

atio

n...

• Parámetro a => Discriminación

– Su valor es proporcional a la pendiente de la recta tangente a la CCI en el punto de máxima pendiente.

• Parámetro b => Dificultad

– Valor de θ correspondiente al punto de máxima pendiente de la CCI

• Parámetro c => Azar

– Valor asintótico de la CCI cuando θ →∞

C. C. I.

Modelos de la ojiva normalModelos de 1, 2, 3 y 4 parámetros

P e d

P e d

P c c e d

P c c e d

i

z

z

b

i

z

z

b

i i i

z

z

b

i i i i

z

z

b

i

i

i

i

( ) ( )

( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( / )

( / )

( / )

( / )

1

2

2

1

2

2

1

2

2

1

2

2

2

2

2

2

1

Modelos logísticose=2‟718281828

Pe

Pe

P c ce

P c ce

i D b

i Da b

i i i Da b

i i i i Da b

i

i

i

i

( )

( )

( ) ( )

( ) ( )

( )

( )

( )

( )

1

1

1

1

11

1

1

1

Supuestos del modelo• Unidimensionalidad

– Hattie(1985)=>87 criterios diferentes para la comprobación de la unidimensionalidad.

– El análisis factorial es la técnica más utilizada:• Varianza explicada por el primer factor

• Cociente entre la varianza explicada por el primer factor y la explicada por el segundo

• Gráfico de sedimentación

• Raíz cudrada de la media de los residuales

• Índices de ajuste de distribuciones desconocidas (≥0‟95)

• Χ2

– Los modelos son bastantes robustos a la violación del supuesto de la unidimensionalidad

Supuestos del modelo• Independencia local

P U P Un ii

n

( | ) ( | ) 1

Ajuste al modelo• Técnica basada en χ2

– Nj: Número de sujetos dentro de cada categoría

– P(θj): Valor de la CCI dado por la fórmula del modelo con los parámetros estimados, para la categoría j

– K: Número de categorías en las que se divide θ

– Pe(θj): Proporción de sujetos que, de hecho (empíricamente) superan el ítem para una categoría determinada j

– El estadístico sigue una distribución de χ2 con (k-p) grados de libertad, siendo k el número de categorías en las que se dividió θ y pel número de parámetros del modelo utilizado.

Qn P P

P P

j j e j

j jj

k

[ ( ) ( )]

( )[ ( )]

2

1 1

Invarianza de los parámetros

• Técnicas gráficas y ver el ajuste a una

recta del diagrama de dispersión

• Cálculo del coeficiente de correlación de

Pearson.

– El parámetro c no se ve afectado por el

cambio de la métrica en las estimaciones.

Ejemplo

• Para la creación de un banco de ítems se aplican diez

ítems como ítems de anclaje a dos muestras diferentes.

La tabla muestra el valor del parámetro b de los 10

ítems de anclaje en los dos grupos.

ρxy=1

Ítem Grupo 1 Grupo 2

1 -1,45 -2,66

2 0,5 -0,23

3 1,2 0,65

4 0,25 -0,54

5 0,75 0,09

6 -0,3 -1,23

7 1 0,4

8 -0,5 -1,48

9 -1 -2,1

10 1,25 0,71

Transformaciones admisibles de θ

• P(θ) resulta invariante a cualquier

transformación de θ, si:

•θ„=M(θ)+k

•b„=M(b)+k

•a„=a/M

•c„=c

B. I. L. O. GÍtem Intentos Aciertos I. Dificultad Pearson Biserial

1 89,0 78,0 ,876 ,392 ,632

2 89,0 75,0 ,843 ,558 ,845

3 89,0 69,0 ,775 ,594 ,828

4 89,0 67,0 ,753 ,685 ,935

5 89,0 61,0 ,685 ,705 ,922

6 89,0 59,0 ,663 ,763 ,987

7 89,0 49,0 ,551 ,98 ,99

8 89,0 46,0 ,517 ,865 .97

9 89,0 46,0 ,517 ,865 ,87

10 89,0 42,0 ,472 ,864 ,656

11 89,0 38,0 ,427 ,855 ,987

12 89,0 34,0 ,382 ,837 ,765

13 89,0 30,0 ,337 ,811 ,567

14 89,0 26,0 ,292 ,775 ,989

15 89,0 22,0 ,247 ,729 ,996

16 89,0 18,0 ,202 ,672 ,957

17 89,0 14,0 ,157 ,600 ,909

18 89,0 10,0 ,112 ,511 ,845

19 89,0 6,0 ,067 ,392 ,752

20 89,0 2,0 ,022 ,201 ,548

B. I. L. O. GÍtem a b c

1 0.967 -1.976 0.000

0.192* 0.337* 0.000*

2 2.110 -1.466 0.000

1.883* 0.195* 0.000*

3 1.426 -1.157 0.000

0.245* 0.215* 0.000*

4 3.186 -0.962 0.000

2.735* 0.303* 0.000*

5 1.691 -0.693 0.000

0.331* 0.194* 0.000*

6 2.279 -0.569 0.000

2.019* 0.151* 0.000*

7 1.984 -0.134 0.000

0.361* 0.141* 0.000*

8 4.027 0.032 0.000

2.687* 0.498* 0.000*

9 4.027 0.032 0.000

2.687* 0.498* 0.000*

10 2.820 0.207 0.000

3.187* 0.282* 0.000*

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

b

Scale Score

PR

OB

(C

orr

ect)

Metric Type

Normal

Item Response Function and Item Inform ation


a = 0 .97; b = -1 .98; c = 0 .00;

0

1

2

3

4

5

6

7

8

9

10

11

12

Info

rmatio

n...

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-3 -2 -1 0 1 2 3

b

Scale Score

PR

OB

(C

orr

ect)

Metric Type

Normal

Item Response Function and Item Inform ation


a = 4 .03; b = 0 .03; c = 0 .00;

0

1

2

3

4

5

6

7

8

9

10

11

12

Info

rmatio

n...

C.C.T.

02468

10121416182022242628303234363840

-3 -2 -1 0 1 2 3

Scale Score

Info

rmati

on

Metric Type

Normal

Test Inform ation and Measurem ent Error

Subtest 1: TEST0001

0

1

2

Sta

ndard

Erro

r ...

Education

Doctorado salamanca