CONSTRUCCIÓN DE UNA ESCALA Y DIVERSAS ...ba107952-c112-4db1-ada1...algunos ítems puente o de anclaje y los consiguientes mecanismos de equipara-ción. Por otro lado, el problema

CONSTRUCCIÓN DE UNA ESCALA Y DIVERSAS PUNTUACIONES DERENDIMIENTO EN UNA PRUEBA DE LENGUA INGLESA Y DERIVACIÓN DEPUNTUACIONES PORCENTUALES BASADAS EN LA TEORÍA DE RESPUESTA

AL ÍTEM

GUILLERMO GIL ESCUDERO (*)JUAN CARLOS SUÁREZ FALCÓN (**)

RESUMEN: El presente trabajo de investigación describe la aplicación de un proce-dimiento para la construcción de puntuaciones de los alumnos, basado en la Teoríade la Respuesta al Ítem (TRI), para la prueba de rendimiento en lengua inglesa delEstudio Internacional sobre la Enseñanza y el Aprendizaje de la Lengua Inglesa. Losobjetivos que se perseguían en este trabajo eran dos: en primer lugar, construir unaescala TRI de rendimiento en lengua inglesa que se ajustara al currículum español; yen segundo lugar, derivar una puntuación porcentual de rendimiento, basada tam-bién en la TRI, que facilite una presentación clara y sencilla de los resultados de losalumnos. Con el fin de alcanzar ambos objetivos, se llevaron a cabo dos estudios enlos que se aplicó el método TRI propuesto a la prueba de rendimiento de lengua in-glesa que se había administrado a 4.320 alumnos españoles de educación secundaria.

Los resultados obtenidos señalan que la derivación de puntuaciones de la TRI yajustadas al currículum español no implica una mejora sustancial en la precisión conla que se mide la competencia lingüística, sino más bien supone una mayor validezde dominio y el establecimiento de una escala que puede tener utilidad en el futuro.Asimismo, se pone de manifiesto la posibilidad de obtener puntuaciones porcentua-les basadas en la TRI, las cuales superan las limitaciones métricas de los porcentajesclásicos a la vez que permite la presentación de los resultados de rendimiento para elpúblico general.

INTRODUCCIÓN

En el presente trabajo se informa del méto-do utilizado para construir una escala dereferencia y puntuaciones globales de ren-

dimiento de los alumnos para el EstudioInternacional sobre la Enseñanza y elAprendizaje de la Lengua Inglesa en el ni-vel de la educación secundaria llevada acabo por el Instituto Nacional de Calidad y

(*) Instituto Nacional de Calidad y Evaluación (INCE).(**) Universidad Nacional de Educación a Distancia (UNED).

Revista de Educación, núm. 322 (2000), pp. 325 -340

325Fecha de entrada: 10-06-1999

Fecha de aceptación: 11-02-2000

Evaluación —INCE—. Los resultados com-parativos internacionales se presentaron enla publicación Evaluación Comparada de laEnseñanza y el Aprendizaje de la LenguaInglesa: España, Francia, Suecia (Gil y a-bau, 1997) desde una perspectiva españolay en la publicación correspondiente a cargode la Direction de l'Évaluation et de la Pros-pective (DEP, 1997). Por otro lado, se pu-blicaron las actas del coloquio internacio-nal, celebrado en octubre de 1997 en París,en el que se hicieron públicos por primeravez los resultados comparativos generalesdel estudio (Bonnet, 1997), y en las que seincluyeron diversos trabajos sobre la edu-cación en lenguas extranjeras, los currícu-los, las prácticas y métodos de enseñanza,la formación del profesorado y los meca-nismos de evaluación nacionales en el áreade la lengua inglesa en España, Finlandia,Francia, Portugal y Suecia.

La evaluación de carácter internacio-nal se ha limitado a realizar una compara-ción centrada en los resultados de rendi-miento junto con unas comparacioneslimitadas de algunos aspectos adicionales.Este tipo de análisis de carácter muy gene-ral, en términos porcentuales, viene con-dicionado por las diferentes característicasde las tomas de datos e instrumentos utili-zados en cada país que condicionan y li-mitan la capacidad de análisis de los datosy, por consiguiente, la posibilidad de rea-lizar inferencias. Por ello, en dicho infor-me se presentaron somera y descriptiva-mente los resultados en términos deporcentajes concernientes al rendimientode los alumnos en la prueba de lengua in-glesa, junto con algún dato destacado delos obtenidos a través de los cuestionariosdirigidos a los alumnos y los profesores.

En relación con el análisis de los datosde rendimiento en el nivel nacional deeste estudio, su presentación yr su interpre-tación, se presentan tres problemas de ca-rácter general.

Por un lado, el problema derivado dela generación de una escala y una puntua-

ción basada en la Teoría de la Respuestaal ítem (TRI) (Keeves, 1990; 1992) demodo que se superen los inconvenientes ylimitaciones que implicaría la utilizaciónde un enfoque exclusivamente basado en laTeoría Clásica de los Tests (TCT). Lasventajas e inconvenientes de la TCT yla TRI se han discutido y presentado enmúltiples trabajos, por ejemplo en Beatony Johnson (1992), Beaton y Zwick (1992),Bock, Mislevy y Woodson (1982), Ham-bleton y Cook (1977), Hambleton y Jo-nes (1993), Hambleton y Swaminathan(1985), Hambleton, Swaminathan y Ro-gers (1991), Hulin, Drasgow y Parsons(1983), Martínez Arias (1995) y en Vander Linden y Hambleton (1997). Además,un objetivo complementario consistió endesarrollar una escala y un sistema de pun-tuaciones relacionado que pudiese ser deutilidad en el futuro, bien al aplicarse lamisma prueba a otras muestras de alumnoso bien al aplicar otra prueba similar quemidiese las mismas habilidades, utilizandoalgunos ítems puente o de anclaje y losconsiguientes mecanismos de equipara-ción.

Por otro lado, el problema derivadodel grado de ajuste de la prueba de rendi-miento utilizada, tanto en cuanto a loscontenidos del currículum español comoen cuanto a la importancia que se concedea cada una de las capacidades medidas porla prueba, dado que una de las premisasbase para la realización de este estudioconsistió en utilizar como elemento parala medida del nivel de rendimiento de losalumnos una prueba de rendimiento en lalengua inglesa que ya había sido desarro-llada con anterioridad por la Direction del'Évaluation et de la Prospective (DEP) delMinisterio de Educación Nacional deFrancia, y utilizada en anteriores evalua-ciones en 1984 y 1990 en el ámbito delsistema educativo francés.

El tercer problema planteado es el re-lacionado con la fácil comprensibilidad delos resultados por un público general. Sin

326

duda, es de fácil e intuitiva comprensiónla presentación de los resultados en térmi-nos de porcentajes de respuestas correctasque los sujetos han dado a una prueba de-terminada. Sin embargo, la presentacióntradicional en términos de porcentajes de-rivados de la puntuación directa presen-tan diversos problemas y están sujetos amalinterpretaciones comunes. Por ello,parece conveniente generar puntuacionesporcentuales con base en la TRI que, a lavez que incluyan las ventajas aportadaspor ésta, permitan una presentación de losresultados fácilmente comprensible.

DESCRIPCIÓN DE LA PRUEBA

La prueba de rendimiento en lengua in-glesa está constituida por cinco partes di-rigidas a evaluar diferentes aspectos deldominio de dicha lengua: los conocimien-tos lingüísticos, la comprensión oral, lacomprensión escrita, la expresión escrita ylos conocimientos culturales relacionadoscon la lengua inglesa. Los ítems utilizadosen la prueba se construyeron tomandocomo base una matriz de especificacionesde carácter curricular, es decir, su adscrip-ción a cada escala estaba basada exclusiva-mente en criterios teóricos.

La parte correspondiente a los conoci-mientos lingüísticos consta de 56 ítems, lade comprensión oral de 12, la de com-prensión escrita de 11, la de expresión es-crita de 9 y la de conocimientos culturalesde 3, lo que constituye un total de 91ítems. La prueba no pretende estudiar laexpresión oral debido a la complejidad yel coste que supondría una evaluación in-dividualizada de esta capacidad para undiseño muestral tan amplio como el quese utiliza en este estudio. Este diseño, agrandes rasgos y a excepción de la expre-sión oral, coincide con la importancia quese concede a cada una de estas dimensio-nes en el currículum francés para la ense-

fianza de la lengua inglesa en la educaciónsecundaria.

Un primer paso para conocer las posi-bilidades de aplicación de la prueba en elcontexto del sistema educativo españolfue analizar si los contenidos evaluadospor la prueba formaban parte del currícu-lum establecido por el decreto de ense-ñanzas mínimas para la educación secun-daria obligatoria (Real Decreto 1007/1991, de 14 de junio). El análisis detalla-do de cada una de las preguntas que for-man la prueba mostró que todas ellas esta-ban enmarcadas en algún apartado delcurrículum común de la educación secun-daria. Este hecho puso de manifiesto laadecuación de la prueba desde el punto devista de los contenidos.

Sin embargo, el tamaño concedido acada una de las partes de la prueba, en tér-minos del número de ítems, no resultacoincidente con las intenciones curricula-res actualmente vigentes en España. Laprueba orilinal francesa concede una granimportancia a los conocimientos lingüís-ticos (aproximadamente, un 62% de lositems) mientras que otorga menor impor-tancia a las capacidades comunicativas(aproximadamente, un 35%) de com-prensión oral (13%), comprensión escrita(12%) y de expresión escrita (10%).Como resultado de esta estructura de laprueba, la puntuación directa que se deri-va de la misma refleja en gran medida estadistribución del número de ítems paracada una de las partes de la prueba, es de-cir, los resultados en la parte correspon-diente a los conocimientos lingüísticoscondiciona la mayor parte de la puntua-ción directa mientras que la capacidad deinfluencia sobre la misma es notoriamentemenor para las otras partes de la prueba.Por otro lado, el actual currículum para laeducación secundaria en España enfatizalos aspectos comunicativos del aprendiza-je de las lenguas extranjeras haciendo es-pecial hincapié en la comprensión y en laexpresión en las mismas.

327

Se plantea pues el problema de cons-truir, a partir de una prueba diseñada conunas especificaciones preestablecidas ajus-tadas al currículum francés, una puntua-ción que refleje no solamente el conoci-miento de contenidos considerados en elcurrículum español, sino que refleje la ad-quisición de dominio de la lengua inglesade modo acorde a las intenciones curricu-lares del mismo, es decir, otorgando unamayor importancia e incidencia a los as-pectos comunicativos del aprendizaje dela lengua inglesa.

SUJETOS

La población utilizada en los dos estudiosque se presentan en este trabajo estuvoconstituida por los alumnos que en 1996cursaban el 4.° año de la Enseñanza Se-cundaria Obligatoria (ESO) y los que cur-saban el 2.° año del Bachillerato Unifica-do y Polivalente (BUP), cuyas edadesestaban comprendidas, en su mayoría, en-tre los 15 y 16 años. En consecuencia, lapoblación objeto de estudio se definió enfunción del curso y nivel. Estos alumnoshabían cursado 4 arios de aprendizaje enlenguas extranjeras, aunque bajo organi-zaciones escolares diferentes derivadas dedistintas leyes de enseñanza: la Ley Gene-ral de Educación de 1970 —LGE— y la LeyOrdenación General del Sistema Educati-vo de 1990 —LOGSE.

El diseño muestral utilizado en estaevaluación fue el de un muestreo estratifi-cado, utilizando la técnica de probabili-dad proporcional al tamaño, bietápico,tomando como primer nivel de muestreoal alumno y, como segundo, al centro. Eldiseño y procedimientos de muestreo sebasaron en las especificaciones técnicasutilizadas por la International Associationfor the Evaluation of Educational Achieve-ment —IEA— (Rosier y Ross, 1992; Ross,1991).

El número total de alumnos evalua-dos fue de 4.562 en todo el territorio na-cional, de los que 3.352 estaban cursandosus estudios en 2.° curso de BUP y 1.210lo hacían en 4.° curso de ESO. La pruebade rendimiento fue administrada a 4.320alumnos, 3.209 de centros públicos (un74,3%) y 1.111 de centros privados (un25,7%).

ESTUDIO 1

LA CONSTRUCCIÓN DE UNAESCALA DE PUNTUACIONES TRI

La Teoría de Respuesta al ítem (TRI) pro-porciona el entramado teórico necesariopara poder resolver estos problemas en lapráctica. Las propiedades de las puntua-ciones calculadas con base en los procedi-mientos y supuestos de la TRI hacen posi-ble la creación de escalas de habilidadindependientes de los ítems específicosutilizados para su estimación e indepen-dientes de las muestras utilizadas inicial-mente para la calibración de los elementosque componen dichas escalas, siempreque se cumplan los supuestos básicos querequiere la aplicación de la teoría.

En consecuencia, los objetivos de lametodología desarrollada para la cons-trucción de una escala de rendimientoTRI pueden formularse del siguientemodo:

• Equilibrar el peso de la contribu-ción de cada una de las partes de laprueba original a la puntuacióntotal de modo que dicha contribu-ción refleje la importancia de cadauna de las capacidades (conoci-miento lingüístico, comprensiónoral y escrita, expresión escrita yconocimientos culturales) en elcurrículum español para las len-guas extranjeras en la educaciónsecundaria. Aunque Lord (1980)

328

presentó procedimientos de pon-deración basados en la función deinformación, en este estudio sólose han utilizado para la valoracióndel efecto de diversas ponderacio-nes y comparaciones basadas en lafiabilidad de la TCT.

• Construir una escala de habilidadpara el dominio de la lengua ingle-sa en el marco de la Teoría de laRespuesta al ítem de modo quepueda ser utilizada en trabajos fu-turos, bien con la misma prueba ymuestras diferentes, bien con unaprueba similar que incluya el nú-mero adecuado de ítems puente ode anclaje para llevar a cabo proce-dimientos de equiparación, asícomo similar en cuanto a nivel ydestrezas evaluadas y muestrascomparables de modo relevante.

MÉTODO Y PROCEDIMIENTO

Para alcanzar estos objetivos, se llevaron acabo los siguientes pasos:

• Se analizó la unidimensionalidadde la prueba, como un requisitoprevio a la aplicación de los proce-dimientos de la TRI, y se estudióel ajuste de los modelos de uno,dos y tres parámetros de la TRI alos datos para aplicar los cálculosadecuados a la mejor estimaciónposible de los parámetros a, b y c,y de 0.

• Se estimó una puntuación TRIglobal para cada alumno, basándo-se en el modelo que proporcionaun mejor ajuste a las característicasde los datos, analizándose la simili-tud entre la puntuación directa ori-ginal (PD) y la puntuación globalTRI estimada (PTRI). Asimismo,se generaron puntuaciones TRIpor subescalas para cada alumno.

• Se estableció teóricamente la im-portancia de las subescalas, desa-rrollando diversas fórmulas para laasignación de pesos diferentes acada subescala, y se analizó la inci-dencia de las diferentes combina-ciones lineales de pesos propuestassobre la fiabilidad de la puntuaciónfinal de rendimiento de los sujetos.

• Se calculó la nueva puntuaciónglobal a partir de las puntuacionestipificadas de las subescalas segúnla fórmula elegida y se reescalaronlas puntuaciones obtenidas conbase en una escala de uso interna-cional, analizándose la similitudentre la puntuación directa origi-nal (PD), la puntuación globalTRI (PTRI) y la puntuación globalTRI ponderada (PTRIP) calculadacon los pesos establecidos por lacombinación lineal elegida.

RESULTADOS

Análisis de la unidimensionalidad de laprueba de rendimiento en lengua inglesa ydel ajuste de los modelos logísticos de laTRI a los datos

Como un requisito previo a la aplicaciónde los procedimientos de la TRI, se anali-zó el cumplimiento del supuesto de unidi-mensionalidad de la prueba bajo estudio,para lo que se aplicó un análisis factorialpara variables dicotómicas tomandocomo base la matriz de correlaciones te-tracóricas entre todos los ítems (Bock yAitkin, 1981), utilizando el programaTESTFACT (Wilson, Wood, Kandola yGibbons, 1991). Se verificó la existenciade un único factor predominante, lo queindica que se trata de una prueba de ren-dimiento unidimensional.

En un segundo paso, se analizó elajuste de los modelos de uno, dos y tresparámetros de la TRI a los datos utilizan-do el programa BILOG 3 (Mislevy y

329

Bock, 1990). Los análisis indicaron queel modelo con mejor ajuste resultó ser elde tres parámetros, seguido por el de dosparámetros y siendo el inferior en estacomparación el modelo de un paráme-tro. Asimismo, se calcularon los contras-tes correspondientes para estimar la sig-nificatividad de las diferencias entre losajustes de los diferentes modelos. Los da-tos indican que hay diferencia significati-va entre el modelo de dos parámetros y elde un parámetro (x291. 0,99 = 1071,76;p<.01) aunque no se encontró diferenciasignificativa entre los modelos de dos ytres parámetros (X291, 0.99 = 94,86). Noobstante, se calculó asimismo el número

de ítems que se ajustaban a cada uno delos modelos como un criterio adicionalpara estimar la bondad del ajuste de losmismos. Se encontró que se ajustaban untotal de 62 ítems bajo el modelo de unparámetro, 87 ítems bajo el modelo dedos parámetros y 91 ítems, es decir, la to-talidad de los ítems que componen laprueba, bajo el modelo de tres paráme-tros. Este procedimiento es similar al uti-lizado en otros trabajos sobre la selecciónde modelos logísticos para la construc-ción de pruebas de rendimiento (Gil,Suárez y Martínez Arias, 1999). Los re-sultados obtenidos se presentan en la ta-bla I.

TABLA IResultados de los análisis del ajuste de los datos a los tres modelos logísticos de la TRI

MODELO LOGÍSTICO Grados de Libertad —2 log k

Ll (modelo de un parámetro) 4.228 85781,8614L2 (modelo de dos parámetros) 4.137 84710,1008L3 (modelo de tres parámetros) 4.046 84615,2374

Contrastes: L I -L2 X • 1.071,76 (p<.0 I )

L2-L3 0 „ - 94,86 (p>.05)

A partir de estos resultados, se con-sideró que el modelo de tres parámetrosera el que debía ser considerado para laestimación de los parámetros y la asig-nación de puntuaciones TRI para los su-jetos al ser la mejor opción dado su ma-yor ajuste a la estructura de los datos, yaque 1) su grado de ajuste se diferenciabaclara y significativamente del modelo deun parámetro; 2) tenía un mejor ajusteglobal que el modelo de dos parámetros,a pesar de que la diferencia en el ajusteentre este modelo y el de dos paráme-tros, en términos de la diferencia en x2,no fuese significativa; 3) el número deítems que se ajustaban era mayor, la to-talidad de los ítems, que bajo el modelo

de uno o dos parámetros; y 4) este mo-delo posee una estructura teórica másflexible, general y mejor adaptada a losítems de elección múltiple, siendo losmodelos de uno y dos parámetros sim-plificaciones de éste. Por ello, los cálcu-los subsiguientes en el trabajo se realiza-ron utilizando el modelo de tresparámetros con el programa BILOG yutilizando para la estimación de los pa-rámetros el procedimiento de máximaverosimilitud. marginal.

Análisis de la similitud entre puntuaciones

Tras generar una puntuación TRI globalpara cada alumno (PTRI), se analizó la

330

similitud entre la puntuación directa(PD) y la puntuación global TRI. Paraello, se calculó la correlación existente en-tre ambas puntuaciones resultando unacorrelación extremadamente alta y signifi-cativa (r=.9928, p<.0001). Este resultadoindica que, independientemente de laaportación teórica que incorpora la TRI ylas propiedades que poseen las puntuacio-nes derivadas de la misma, los resultadosque se obtienen, en cuanto a la estimacióndel nivel de habilidad de los sujetos conesta prueba, con la aplicación de la TeoríaClásica de los Tests (TCT) y con la aplica-ción de la TRI son equivalentes en un altí-simo grado.

De modo similar se generaron pun-tuaciones directas y puntuaciones TRIpor subescalas para cada alumno. La ta-bla II presenta la matriz de intercorrela-ciones tanto de las puntuaciones directascomo de las puntuaciones TRI, que resul-taron ser todas ellas estadísticamente sig-nificativas.

Se observa en estas tablas de interco-rrelaciones que la subescala de conoci-mientos lingüísticos presenta, en conjun-to, el nivel más alto de correlación con elresto de las subescalas, especialmente conla de comprensión escrita. Una hipótesisque surge del análisis de estos datos puedeconcretarse en la idea de que el nivel deconocimiento linlüístico (reglas y con-venciones gramaticales, léxico, morfolo-gía, sintaxis, etc.) es un requisito previo, oal menos un elemento facilitador, del de-sarrollo de los aspectos comunicativos y,en especial, de la expresión escrita.

Otro resultado a destacar de estas ta-blas es el hecho de que la subescala de co-nocimientos culturales presente comotérmino medio las correlaciones más ba-jas con el resto de las escalas. Esto puededeberse, probablemente, al hecho de quela subescala de conocimientos culturalesestá formada únicamente por 3 ítems, loque proporciona poca estabilidad en lamedida, aparte de que los conocimientos

TABLA II

Tablas de intercorrelaciones entre las puntuaciones directas de las subescaUs y entre laspuntuaciones TRI de las subesca las

Puntuaciones directas PD-CE PD-CO PD-CC PD-EE

PD-CL .6976 .5871 .3819 .7067

PD-CE .5232 .4128 .5926PD-CO .3770 .5330PD-CC .3438

Puntuaciones TRI TRI-CE TRI-CO TRI-CC TRI-EE

TRI-CL .6605 .5851 .3825 .7290TRI-CE .4969 .4005 .5982TRI-CO .3805 .5334TRI-CC .3585

CL = Conocimientos lingüísticosCE = Comprensión escritaCO = Comprensión oralCC = Conocimientos culturalesNota: todas estas correlaciones p<.001

331

culturales relacionados con una lenguaextranjera no necesariamente están rela-cionados con el aprendizaje de la misma,dado que es obvio que puede tenerse unamplio conocimiento de la cultura, cos-tumbres, situación actual e historia depaíses de lengua extranjera sin tener undominio de dicha lengua.

Adicionalmente, el hecho de que enesta tabla todas las subescalas presentenunas intercorrelaciones positivas y signi-ficativas refleja la propiedad de unidi-mensionalidad de la prueba antes men-cionada.

Se calcularon, asimismo, las correla-ciones entre las puntuaciones directas ori-ginales y las puntuaciones derivadas de laTRI para cada subescala. La correlaciónentre estas puntuaciones para la subescalade conocimientos lingüísticos fue ilual a.9863, para la de comprensión escrita de.9635, para la de comprensión oral de.9953, para la de conocimientos cultura-les de .9943 y para la de expresión escritade .9870, todas ellas con una probabilidadmenor que .001.

La conclusión que se obtiene del aná-lisis de estas correlaciones es similar a lacomentada en cuanto a la correlación en-tre la puntuación directa global y la pun-tuación global TRI para el conjunto de laprueba, volviendo a mostrar estos resulta-dos, como era de esperar, la equivalenciadesde un punto de vista práctico de laasignación de puntuaciones individuales alos alumnos mediante el cálculo de lapuntuación directa derivada de la TCT yasignación de puntuaciones e derivadasde la TRI.

Asignación de pesos a cada subescala yanálisis de su incidencia sobre la fiabilidad

Se estableció teóricamente, con base enla opinión de expertos en la enseñanzadel inglés, la importancia de las subesca-

las según se deriva del análisis del currí-culum de la educación secundaria. Laopinión de los expertos se resume en laidea de que la enseñanza de la lengua in-glesa debe estar orientada de modo quese enfaticen los aspectos comunicativosy, de modo especial, los aspectos decomprensión, siendo clara, en este senti-do, la inadecuación del diseño global dela prueba para el currículum español.Partiendo de la opinión experta, se esta-blecieron diversas fórmulas para la asig-nación de pesos diferentes a cada subes-cala.

Teniendo en cuenta las fiabilida-des originales de cada subescala conside-rada independientemente y estimadasmediante el a de Cronbach (1951)(a=.8781 para la subescala de conoci-mientos lingüísticos, a=.7015 para la decomprensión escrita, a=.6602 para la decomprensión oral, a=.5085 para la deconocimientos culturales y a=.7567para la de comprensión escrita), es de es-perar que las fórmulas que otorguen unmayor peso a las escalas con mayor fiabi-lidad en origen y un menor peso a lassubescalas con una menor fiabilidad enorigen proporcionen una escala ponde-rada con una mayor fiabilidad de con-junto.

Se consideró conveniente no conside-rar la escala de conocimientos culturalespara el cálculo de una puntuación finalTRI por dos razones: en primer lugar, de-bido a su escaso número de ítems y, por lotanto, a su baja fiabilidad como escala in-dependiente y, en segundo lugar, debido asu no necesaria relación teórica con elconjunto de las subescalas que constitu-yen la prueba.

La tabla III muestra los pesos origina-les de cada parte de la prueba según suconstrucción original y según las variaspropuestas derivadas de la opinión de losexpertos. Asimismo, presenta la fiabilidadglobal resultante para cada una de las fór-mulas de ponderación.

332

TABLA IIIPesos originales de cada parte de la prueba según su construcción original y según las fórmulasderivadas de la opinión de los expertos (sobre 100). Fiabilidad resultante para cada una de las

fórmulas de ponderación

FórmulaSubescalas

Fiabilidad aCL CE CO EE

1 63,6364 12,5 13,6364 10,2273 .89952 50 16,6667 16,6667 16,6667 .89923 33,3333 22,2222 22,2222 22,2222 .88314 25 25 25 25 .8687

CL = Conocimien os lingüísticosCE = Comprensión escritaCO = Comprensión oralEE = Expresión escrita

El mecanismo utilizado para la esti-mación de la fiabilidad resultante de laaplicación de las fórmulas de ponderaciónse basa en la idea de considerar al conjun-to de la prueba como una batería de tests yconsiderar a cada subescala como un testindependiente. Para la estimación del coe-ficiente de fiabilidad global a partir de loscoeficientes de fiabilidad, varianzas, coya-rianzas y pesos de las subescalas, se utilizóla siguiente fórmula (Muñiz, 1994).

V" 2 2La i a i + a J acY Jki =1 j=1 k=1,j � k

Vn 2 2

2., a a i Pir 4- lin

donde:

= número de subescalas= varianzas de las subescalas= coeficientes de fiabilidad de las

subescalas= covarianzas entre las subescalas= ponderaciones de las subescalas

La combinación lineal 1 es el resulta-do de considerar la prueba original en sí

misma como una fórmula de pondera-ción, por lo que los pesos en este caso sonsimplemente la traducción en porcentajesdel número de ítems relativo al número deítems de la prueba, una vez excluidos lostres ítems de conocimientos culturales.Lógicamente, la fiabilidad resultante es lapropia fiabilidad de la prueba original. Lafórmula 2 constituye una ligera modifica-ción en relación con la primera al otorgarun peso del 50% a la subescala de conoci-mientos lingüísticos y repartir el 50% res-tante equitativamente entre las subescalasdirigidas a la medida de las capacidadescomunicativas.

La combinación lineal 3 se basa en laidea de otorgar un mayor peso a las subes-calas de competencia comunicativa (un66,67% en su conjunto) distribuido demodo equitativo entre ellas, lo que impli-ca conceder un mayor peso a los aspectosde comprensión sobre los de expresión es-crita, y disminuyendo el peso del compo-nente de conocimientos lingüísticos. Porúltimo, la fórmula 4 plantea la idea deconceder a cada una de las subescalas de laprueba un peso equivalente, otorgandopor tanto un peso del 75% a las capacida-des comunicativas y el 25% restante a losconocimientos lingüísticos.

P>we =

Ia j a k a jkk=1,j � k

n6

1-

aik

ai y ak

333

Se observa en la tabla 3 'que la inci-dencia de la aplicación de las fórmulas es-tudiadas sobre la fiabilidad del conjuntode las subescalas estimada mediante el ade Cronbach es pequeña (dándose la má-xima diferencia entre la fiabilidad originaly la fiabilidad resultante en el caso de lafórmula 4 y siendo ésta igual a .0308). Laescasa variación de la fiabilidad global, apesar de la variación significativa en losporcentajes asignados por las fórmulas, seexplica al existir un considerable grado deintercorrelación entre las subescaIas.

A la vista de los resultados en los quese mantiene un nivel muy alto de fiabili-dad para el conjunto de las subescalas pa-rece posible, pues, utilizar para la asigna-ción de puntuaciones a los alumnos lafórmula que presente teóricamente unmejor ajuste a la importancia que el currí-culum español concede a cada una de lashabilidades medidas por la prueba. Porello, se decidió seleccionar la combina-ción lineal 3, PTRI = (33,33 x CL) +(22,22 x CE) + (22,22 x CO) + (22,22 xEE), dado que desde el punto de vista teó-rico su estructura parece la más adecuaday desde el punto de vista práctico su inci-dencia negativa sobre la fiabilidad se con-sidera mínima al ser igual a .0164.

Análisis de la similitud entre la puntuacióndirecta original, la puntuación global TRI yla puntuación global TRI calculada con lospesos establecidos por la fórmula elegida

Subsiguientemente, se calculó la nuevapuntuación llobal a partir de las puntua-ciones TRI tipificadas para cada subesca-la según la combinación lineal seleccio-nada, resultando por tanto una nuevapuntuación TR1 ponderada (PTR1P), yse reescalaron las puntuaciones obtenidascon base en una escala de uso internacio-nal de media 500 y desviación típica 100(Keeves, 1990, 1992). Se eligió este rees-calamiento al ser el habitualmente utili-zado por la International Association for

the Evaluation of Educational Achievement(IEA) en los estudios internacionales quecoordina (Binkley y Rust, 1994; Elley,1994; IEA Secretariat, 1998; Martin yKelly, 1996).

Las correlaciones entre las nuevaspuntuaciones TRI ponderadas con baseen la combinación lineal y las puntuacio-nes directas originales y la puntuaciónTRI sin ponderar son extremadamente al-tas (.9828 con la puntuación directa origi-nal y.9816 con la puntuación TRI sinponderar) y, por supuesto, notoriamentesignificativas (p<.001). Este resultadopone de manifiesto que el procedimientode ponderación seguido tiene un escasoefecto distorsionador de las puntuacionesoriginales debido al importante grado deintercorrelación entre las escalas.

ESTUDIO 2

LA CONSTRUCCIÓN DE UNAPUNTUACIÓN PORCENTUAL DERENDIMIENTO BASADA EN LATEORÍA DE RESPUESTA AL ÍTEM

Como se señaló en la introducción, al tra-tar del sistema de presentación de los re-sultados, la presentación en términos deporcentajes tiene la ventaja sobre las pun-tuaciones en términos de una escala derendimiento basada en la Teoría de Res-puesta al Ítem (TR1) de ser de más fácil eintuitiva comprensión, además de relacio-nar la puntuación de los sujetos con el nú-mero de cuestiones de la prueba de unmodo relativo. Por ello, se ha desarrolladouna puntuación porcentual de rendi-miento como complemento de la puntua-ción ponderada basada en la TR1 descritaen los apartados anteriores, estimándoseésta también desde el modelo de tres pará-metros de la TR1. Asimismo, se trata deuna puntuación ponderada que se ha cal-culado a partir de las puntuaciones delos sujetos en las cuatro subescalas de la

334

prueba, siendo la ponderación aplicada lamisma que la que se utilizó en la puntua-ción TRI y que responde a la importanciaatribuida al contenido de cada subtest enel currículum español para la enseñanzade la lengua inglesa.

La puntuación TRI expresada en unaescala de media 500 y desviación típica100 permite ordenar a los sujetos con res-pecto a la media y poner en relación elrendimiento del alumno con variables delcontexto a través de análisis estadísticosinferenciales. Sin embargo, esta puntua-ción TRI no informa sobre el porcentajede ítems de la prueba que los alumnos hanrespondido correctamente. Esta limita-ción puede complementarse con unapuntuación porcentual que cumpla dosrequisitos que preserven las característicasimpuestas en la puntuación TRI:

• la estimación de la puntuacióndebe realizarse desde el modelo detres parámetros de la TRI.

• la importancia de cada subescala enel porcentaje global debe ser ponde-rada de modo que refleje los pesosatribuidos a cada subárea en el cu-rrículum español para esta materia.

MÉTODO Y PROCEDIMIENTO

Para la construcción de la puntuación por-centual con las características especificadas,se utilizó el siguiente procedimiento:

• Estimación de los parámetros delos ítems de discriminación, difi-cultad y adivinación al azar en cadauna de las cuatro subescalas por se-parado.

• Estimación del nivel de aptitud decada alumno en cada una de lassubescalas de la prueba.

• Cálculo de la puntuación verdaderade los alumnos en cada ítem a travésde una transformación no lineal delnivel de habilidad estimado en pro-

babilidad de acertar al ítem correc-tamente, la cual corresponde con lapuntuación verdadera en el ítem.Esta transformación del nivel de ap-titud a una escala que se correspon-de con la de la prueba facilita lacomparación de los sujetos y permi-te la obtención de una puntuaciónporcentual desde la TRI. Para latransformación no lineal de la habi-lidad en puntuación verdadera seutilizó el modelo de tres parámetroscon las estimaciones paramétricasde los ítems obtenidas en la calibra-ción de las subescalas.

• Cálculo de la puntuación verdaderaen cada subescala y en el test global.Para ello, se calcularon las puntua-ciones verdaderas obtenidas porcada alumno en cada subescala y, acontinuación, se sumaron las pun-tuaciones de las cuatro subescalasobteniéndose así la puntuación ver-dadera de cada sujeto en la prueba.

• Conversión de las puntuacionesverdaderas de cada subescala enporcentajes y obtención del por-centaje global ponderado con lospesos seleccionados anteriormenteen función del currículum español.Este porcentaje se calculó median-te la siguiente fórmula:

PVP = (0,333 x PorCL) ++ (0,222 x PorCE) ++ (0,222 x PorCO) ++ (0,222 x PorEE)

Siendo PorCL, PorCE, PorCO yPorEE los porcentajes de respues-tas correctas obtenidos a partir delas puntuaciones verdaderas en lassubescalas de conocimientos lin-güísticos, comprensión escrita,comprensión oral y expresión es-crita, respectivamente.Según este porcentaje global ponde-rado (PVP), el porcentaje promedio

335

•••

7.71Fr710.000

de ítems acertados por los sujetos sesitúa en un 50,73%, siendo su des-viación típica S, = 16,11.

• Comparación de los porcentajesponderados y sin ponderar tantode la TRI como de la TCT, calcu-lados estos últimos a partir de lapuntuación directa, con la puntua-ción global TRI ponderada. Te-niendo en cuenta que la única dife-rencia entre la puntuación TRIponderada y el porcentaje globalponderado consiste en una trans-formación de escala, parece lógicoesperar que la correlación de la

puntuación TRI con el porcentajeglobal ponderado sea algo superiorque con el resto de las puntuacio-nes. Asimismo, se esperaba que elporcentaje global ponderado obte-nido con la puntuación directa nose diferenciara significativamentedel porcentaje global ponderadoobtenido con la TRI.

RESULTADOS

En la figura I se muestran los diagramasde dispersión que relacionan las aptitudes

FIGURA 1

Curvas características de las subescalas de Conocimientos Lingüísticos, Comprensión Escrita,Comprensión Oral y Expresión Escrita

VERDCL, VERDCE, VERDCO, VERDEE . Puntuaciones verdaderas en Conocimientos Lingüísticos, Comprensión Escrita, Compren-sión Oral y Expresión Escrita.HABCL HABCE, NARCO, HABEE . Niveles de habilidad estimados en Conocimientos Lingüísticos, Comprensión Escrita, Compren-sión Oral y Expresión Eacrita.

336

estimadas en cada subescala con la co-rrespondiente puntuación verdaderaproducto de la transformación no linealcon el modelo de tres parámetros. Lacurva que relaciona las dos puntuacio-nes de cada subescala, situando en el ejede abscisas la puntuación verdaderadel test y en el eje de coordenadas elnivel de aptitud estimado, se denominaCurva Característica del Test, en estecaso de la subescala. Las correlacioneslineales de Pearson entre las dos puntua-ciones de las escalas CL, CE,CO, y EE

son r=0,996I (po=0,000), r= 0,9897(p=0,000), r=0,9946 (p=0,000) y r=0,9696(p=0,000), respectivamente.

En la tabla IV figuran los estadísticosdescriptivos de las cuatro puntuacionesporcentuales: el porcentaje basado en lapuntuación directa del test (PD), el por-centaje basado en la puntuación verdade-ra del test (PV), el porcentaje basado enlas puntuaciones directas de las subescalasponderadas (PDP) y el porcentaje basadoen las puntuaciones verdaderas de las sub-escalas ponderadas (PVP).

TABLA IV

Estadísticos descriptivos de las cuatro puntuaciones porcentuales

Porcen-taje Media cióDneTsviípai:ca Rango Mínimo Máximo N

PD 57,48 17,60 84,09 14,77 98,86 4.320PV 57,33 15,53 73,36 21,27 94,63 4.320PDP 52,15 18,43 91,07 8,33 99,40 4.143PVP 50,73 16,11 75,38 18,27 93,64 4.320

Como puede apreciarse, la pondera-ción de los porcentajes supone una am-pliación del rango, sobre todo en el casode la puntuación directa, lo que conlleva aun aumento de la variabilidad en las dis-tribuciones ponderadas. Asimismo seaprecia que el porcentaje promedio deítems acertados por los alumnos disminu-ye significativamente cuando se ajusta lapuntuación al currículum español.

Si se comparan los dos porcentajesponderados, se observa que el porcentajebasado en la TRI disminuye ligeramenteel porcentaje promedio de aciertos y la va-riabilidad del porcentaje clásico, disminu-ción que no llega a ser significativa desdeun punto de vista práctico. La diferenciaentre ambos porcentajes radica en el estre-chamiento del rango en el caso de la pun-

tuación basada en la TRI de un 16%aproximadamente, lo que lleva a mejorarel porcentaje promedio de la zona baja dela distribución, y a empeorar el promedioen los valores extremos de la zona alta.

En la figura II se representan a travésde una matriz de diagramas de dispersiónlas relaciones entre los porcentajes obteni-dos entre sí así como con la puntuaciónglobal ponderada TRI que sirve de crite-rio. Todas las relaciones son lineales y concoeficientes de correlación por encima del0,97 en todos los casos. Las correlacionesmás altas se obtienen cuando se analiza laconcordancia entre las puntuaciones noponderadas entre sí (r=0,9933), o los por-centajes ponderados entre sí (r=0,9924).Según este resultado, parece ser que la im-portancia atribuida a cada subescala a

337

FIGURA II

Matriz de diagramas de dispersión de las intercorrelaciones entre la puntuación TRI (PTRI),puntuación directa (PD), la puntuación verdadera estimada (PV), el porcentaje ponderadobasado en la puntuación directa (PDP) y el porcentaje ponderado basado en la puntuación

verdadera (PVP)

PD

di11

../111"

.0

AfrAr

..91

er-

Iii.".

dr'JIFF....

irof

,

PV.41

.ffir P

PDP .1ir

or

_dr

."P.

00r.." PVP

•/

dr."

PTRIP

PD . Puntuación directaPV - Puntuación verdaderaPDP • Porcentaje ponderado basado en la puntuación directaPVP .. Porcentaje ponderado basado en la puntuación verdadera

través de los pesos determina más el gradode relación entre las variables que la pun-tuación original, puntuación directa opuntuación verdadera, en la que se basa elporcentaje.

En cuanto a la relación con la variablecriterio, como era de esperar, con las va-riables ponderadas se obtienen unos coe-ficientes de correlación superiores a loscorrespondientes a las puntuaciones no

ponderadas, siendo ligeramente superiorla correlación de la puntuación porcen-tual basada en la TRI al porcentaje ponde-rado clásico.

Una vez que se dispone de una pun-tuación porcentual de cada alumno, y sa-biendo que dicha puntuación ofreceríaresultados equivalentes a los obtenidosutilizando la puntuación global TRI,pero en una escala más intuitivamente

338

interpretable, se podría estudiar con estavariable dependiente la influencia de di-versas variables independientes, porejemplo, contextuales, socioeconómicas,culturales, etc., sobre el rendimiento delos alumnos.

CONCLUSIONES

El procedimiento seguido para la cons-trucción de una puntuación a partir deuna prueba que no se ajusta en su diseñoglobal a las especificaciones que serían de-seables en cuanto a la importancia de cadauna de las partes que la componen ponede manifiesto la posibilidad de considerara cada una de estas partes como una subes-cala o subtest que forma parte una bateríade test y ponderar su peso en una combi-nación lineal que se utiliza para el cálculode una nueva puntuación. Por otro lado,el caso específico con el que se ejemplificaeste procedimiento, la puntuación de ren-dimiento en el estudio sobre la enseñanzay el aprendizaje de la lengua inglesa revelaque la variación en cuanto a la fiabilidadglobal de la prueba utilizando las puntua-ciones originales, puntuaciones TRI opuntuaciones ponderadas con las combi-naciones lineales analizadas es mínima.Asimismo, se pone de manifiesto la equi-valencia, en términos prácticos, de la asig-nación de las puntuaciones a los sujetosutilizando cualquiera de las tres puntua-ciones antes mencionadas, aunque la ma-yor capacidad explicativa, la mayor flexi-bilidad y generalidad del modelo TRIhace que se considere deseable utilizar laspuntuaciones derivadas del mismo, tantopara la asignación de puntuaciones a lossujetos como para establecer una escalaque pueda tener utilidad en el futuro.

Por último, se ha puesto de manifies-to la posibilidad de generar puntuacionesporcentuales basadas en la TRI derivadasde la estimación de la puntuación verda-dera, pudiendo la utilización de dichas

puntuaciones porcentuales ser de utili-dad, tanto con finalidades descriptivas oinferenciales, para la presentación de losresultados de rendimiento para el públicogeneral.

BIBLIOGRAFÍA

BEATON, A. E.; JOHNSON, E. G. (1992):«Overview of the Scaling MethodologyUsed in the National Assessment», enJournal of Educational Measurement, 29, 2(1992), pp. 163-175.

BEATON, A. E.; ZWICK, R.: «Overview of theNational Assessment of Educational Pro-gress», en Journal of Educational Statistics,17 (1990), pp. 95-109.

BINKLEY, M.; RUST, K. (Eds.): Reading Lite-racy in the United States: Technical Report.Washington, National Center for Educa-tion Statistics: Office of Educational Re-search and Development: U.S. Depart-ment of Education. U.S. GovernmentPrinting Office, 1994.

BOCK, R. D.; AITK1N, M.: «Marginal maxi-mum likelihood estimation of item para-meters: application of an EM algorithm».Psychometrika, 46 (1981), pp. 443-459.

BocK, R. D.; MISI.EVY, R. J.; WOODSON, C.(1982): «The next Stage in EducationalAssessment», en Educational Researcher,11,3 (1982), pp. 4-11.

BONNET, G. (Ed.): The Effectiveness of theTeachingof English in the European Union.Paris, Direction de l'Évaluation et de laProspective (DEP), 1997.

CRONBACH, L. J.: «Coefficient Alpha and theInterna! Structure of Tests», Psychometri-ka, 16 (1951), pp. 297-334.

DIRECTION DE L'ÉVALUATION ET DE LAPROSPECTIVE (DEP): Espagne, France,Suéde: Évaluation des Connaissances etCompétences en Anglais des Él? ves de 15-16Ans. Paris, Ministre de l'Éducation Na-tionale, 1997.

ELLEY, W. B. (Ed.): The IEA Study of ReadingLiteracy: Achievement and Instruction in

339

Thirty-Two School Systems. Oxford, Perga-mon, 1994.

GIL ESCUDERO, G.; ALABAU BALCELLS, I.:Evaluación Comparada de la Enseñanza y elAprendizaje de la Lengua Inglesa: España,Francia, Suecia. Madrid, Ministerio deEducación y Cultura, 1997.

GIL ESCUDERO, G. A.; SUÁREZ FALCÓN, J. C.y MARTINEZ ARIAS, R.: «Aplicación de unprocedimiento iterativo para la selecciónde modelos de la Teoría de la Respuesta alItem a una prueba de rendimiento lector»,en Revista de Educación, 1999.

HAMBLETON, R. K.; COOK, L. L.: «LatentTrait Models and their Use in the Analysisof Educational Test Data», en Journal ofEducational Measurement, 14 (1997),pp. 75-96.

HAMBLETON, R. K.; JONES, R. W.: «Compa-rison of Classical Test Theory and kernResponse Theory and Their Applicationsto Test Development», en EducationalMeasurement: Issues and Practice, 12, 3(1993), pp. 38-47.

HAMBLETON, R. K.; SWAMINATHAN, H.: ítemResponse Theozy: Principies and Applica-tions. Boston, Kluwer-Nijhoff, 1985.

HAMBLETON, R. K.; SWAMINATHAN, H. yROGERS, H. J.: Principies and Applicationsof ítem Response Theoly. Beverly Hills,Sage, 1991.

HULIN, C. L.; DRASGOW, F. y PARSONS, C.K.: ítem Response Theozy: Applications toPsychological Measurement. Homewood,Dow Jones-Irwin, 1983.

IEA SECRETARIA 1: IFA Guidebook: 1998:Activities, Institutions and People. Amster-dam, The International Association forthe Evaluation of Educational Achieve-ment (IEA), 1998.

KEEVES, J. P.: «Scaling Achievement TestScores», en H. J. WALBERG y G. D. HAER-TEL (Eds.): The International Encyclopediaof Educational Evaluation. Oxford, Perga-mon Press, 1990.

KEEVES, J. P.: «Scaling Achievement Test Sco-res», en J. P. KEEVES (Ed.): Methodalogy andMeasurement in Interrzational EducationalSurveys. The International Association forthe Evaluation of Educational Achievement(LEA), The Hague, 1992.

LORD, F. M.: Applications of ítem ResponseTheozy to Practical Testing Problems. Hill-sdale, LEA, 1980.

MARTIN, M. O.; KELLY, D. L. (Eds.): ThirdInternational Mathematics and ScienceStudy: Technical Report. Boston College,Chesnut Hill, 1996.

MARTÍNEZ ARIAS, R.: Psicometría: Teoría delos Tests Psicológicos y Educativos. Madrid,Síntesis, 1995.

MISLEVY, R. J.; BOCK, R. D.: Bilog 3. ítemAnalysis and Test Sco ring with Binaly Logis-tic Models. Mooresville, Scientific Softwa-re Inc., 1990.

MUÑIZ, J.: Teoría Clásica de los Tests. Madrid,Pirámide, 1994.

Real Decreto 1007/1991, de 14 de junio, porel que se establecen las enseñanzas míni-mas correspondientes a la Educación Se-cundaria Obligatoria. ABOE@ número152, de 26 de junio de 1991.

ROSIER, M. J.; Ross, K. N.: «Sampling andAdministration», en J. P. KEEVES (Ed.):The lEA Technical Handbook. The Hague,The International Association for the Eva-luation of Educational Achievement(IEA), 1992.

ROSS, K. N.: Sampling Manual for the lEAReading Literacy Study. Hamburg, Univer-sity of Hamburg, 1991.

VAN DER LINDEN, W. J.; HAMBLETON, R. K.,Handbook of Modern ítem Response Theoly.New York, Springer-Verlag, 1997.

WILSON, D. T.; WOOD, R.; KANDOLA, P.;GIBBONS, R.: Tes«act. Test Scoring. ítemStatistics and ítem Factor Analysis. Moores-ville, Scientific Software Inc., 1991.

340

Documents

CONSTRUCCIÓN DE UNA ESCALA Y DIVERSAS ...ba107952-c112-4db1-ada1...algunos ítems puente o de anclaje y los consiguientes mecanismos de equipara-ción. Por otro lado, el problema