32
Las evaluaciones de diagnóstico en España La Ley Orgánica 2/2006, de 3 de mayo, de Educación (LOE) reconoce en su preám- bulo la importancia de la evaluación del sis- tema educativo como factor de calidad edu- cativa y transparencia del propio sistema. En consonancia con este argumento la LOE in- troduce como novedad la realización de eva- luaciones de diagnóstico de las competen- cias básicas alcanzadas por el alumnado. Ya dentro de su articulado la LOE distingue dos clases de diagnóstico en función de las fina- lidades, el alcance y carácter de la evalua- ción y la responsabilidad de su desarrollo. En el artículo 144 regula la Evaluación General de Diagnóstico. Su finalidad es en- juiciar la situación del sistema educativo es- pañol. Dicha evaluación se llevará a cabo Diseño de cuadernillos para la evaluación de las Competencias Básicas Rubén Fernández-Alonso y José Muñiz* Consejería de Educación y Ciencia del Principado de Asturias, *Universidad de Oviedo El diseño adecuado de los cuadernillos que han de responder los escolares cuando se evalúan sus competencias académicas es una cuestión clave en la construcción de las pruebas. Un diseño po- co equilibrado puede ocasionar una calibración inadecuada de los parámetros de los ítems y, por tanto, generar un sesgo a la hora de estimar el nivel de competencia de la población escolar. El objetivo de este trabajo es mostrar las posibilidades que los constructores de tests tienen a la ho- ra de realizar el diseño de los cuadernillos de evaluación. Se entiende por diseño de cuadernillos la organización, arreglo y distribución de la colección de ítems de acuerdo con unas reglas ex- traídas del diseño experimental. Se revisan los tipos de diseños de cuadernillos que están emple- ando las administraciones educativas en España para la realización sus evaluaciones de diagnós- tico. Se identifican las principales carencias en este ámbito de la construcción de tests y se pre- senta una colección amplia y representativa de diseños de cuadernillos que pueden utilizarse en la construcción de los instrumentos de evaluación de las competencias básicas. Palabras clave: Evaluación de diagnóstico, diseños de cuadernillos, diseños de bloques. Booklet designs for the evaluation of basic skills. A proper design of the booklets that the stu- dents have to answer when assessing their academic skills is a key issue in the development of the tests. Inadequate designs can cause improper calibration of item parameters and therefore ge- nerate a bias when estimating the competence level of the school population. The main goal of this paper is to show the possibilities that tests developers have when making the design of the assessment booklets. The design of booklets is defined as the organization, arrangement and dis- tribution of the items according to the rules of the experimental design. We review the kinds of designs of booklets that are using the education authorities in Spain to perform their diagnostic evaluations. Major gaps in this area of test construction are analyzed, and a representative co- llection of designs of booklets that can be used in the construction of evaluation instruments of basic skills are presented. Keywords: Diagnostic assessment, booklets designs, block designs. Aula Abierta 2011, Vol. 39, núm. 2, pp. 3-34 ICE. Universidad de Oviedo ISSN: 0210-2773 Fecha de recepción: 3-3-2011 • Fecha de aceptación: 13-4-2011 Correspondencia: José Muñiz Facultad de Psicología Universidad de Oviedo Plaza Feijoo, s/n. 33003 Oviedo (Spain) e-mail: [email protected]

Diseño de cuadernillos para la evaluación de las Competencias

  • Upload
    dodieu

  • View
    218

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Diseño de cuadernillos para la evaluación de las Competencias

Las evaluaciones de diagnóstico en España

La Ley Orgánica 2/2006, de 3 de mayo,de Educación (LOE) reconoce en su preám-bulo la importancia de la evaluación del sis-tema educativo como factor de calidad edu-cativa y transparencia del propio sistema. En

consonancia con este argumento la LOE in-troduce como novedad la realización de eva-luaciones de diagnóstico de las competen-cias básicas alcanzadas por el alumnado. Yadentro de su articulado la LOE distingue dosclases de diagnóstico en función de las fina-lidades, el alcance y carácter de la evalua-ción y la responsabilidad de su desarrollo.

En el artículo 144 regula la EvaluaciónGeneral de Diagnóstico. Su finalidad es en-juiciar la situación del sistema educativo es-pañol. Dicha evaluación se llevará a cabo

Diseño de cuadernillos para la evaluación de lasCompetencias Básicas

Rubén Fernández-Alonso y José Muñiz*Consejería de Educación y Ciencia del Principado de Asturias, *Universidad de Oviedo

El diseño adecuado de los cuadernillos que han de responder los escolares cuando se evalúan suscompetencias académicas es una cuestión clave en la construcción de las pruebas. Un diseño po-co equilibrado puede ocasionar una calibración inadecuada de los parámetros de los ítems y, portanto, generar un sesgo a la hora de estimar el nivel de competencia de la población escolar. Elobjetivo de este trabajo es mostrar las posibilidades que los constructores de tests tienen a la ho-ra de realizar el diseño de los cuadernillos de evaluación. Se entiende por diseño de cuadernillosla organización, arreglo y distribución de la colección de ítems de acuerdo con unas reglas ex-traídas del diseño experimental. Se revisan los tipos de diseños de cuadernillos que están emple-ando las administraciones educativas en España para la realización sus evaluaciones de diagnós-tico. Se identifican las principales carencias en este ámbito de la construcción de tests y se pre-senta una colección amplia y representativa de diseños de cuadernillos que pueden utilizarse enla construcción de los instrumentos de evaluación de las competencias básicas.Palabras clave: Evaluación de diagnóstico, diseños de cuadernillos, diseños de bloques.

Booklet designs for the evaluation of basic skills. A proper design of the booklets that the stu-dents have to answer when assessing their academic skills is a key issue in the development ofthe tests. Inadequate designs can cause improper calibration of item parameters and therefore ge-nerate a bias when estimating the competence level of the school population. The main goal ofthis paper is to show the possibilities that tests developers have when making the design of theassessment booklets. The design of booklets is defined as the organization, arrangement and dis-tribution of the items according to the rules of the experimental design. We review the kinds ofdesigns of booklets that are using the education authorities in Spain to perform their diagnosticevaluations. Major gaps in this area of test construction are analyzed, and a representative co-llection of designs of booklets that can be used in the construction of evaluation instruments ofbasic skills are presented.Keywords: Diagnostic assessment, booklets designs, block designs.

Aula Abierta 2011, Vol. 39, núm. 2, pp. 3-34ICE. Universidad de Oviedo

ISSN: 0210-2773

Fecha de recepción: 3-3-2011 • Fecha de aceptación: 13-4-2011Correspondencia: José MuñizFacultad de PsicologíaUniversidad de OviedoPlaza Feijoo, s/n. 33003 Oviedo (Spain)e-mail: [email protected]

Page 2: Diseño de cuadernillos para la evaluación de las Competencias

sobre una muestra representativa de centrosy alumnado, tanto a nivel estatal como au-tonómico, y tendrá un carácter externo paralos centros seleccionados. La responsabili-dad de liderar la evaluación recae sobre elInstituto de Evaluación del Ministerio deEducación. Las demás administracioneseducativas colaborarán en el diagnósticogeneral del sistema mediante la participa-ción en los órganos rectores y comisionesde asesoramiento técnico del Instituto deEvaluación.

La LOE establece en otros dos artículos(el 21 para educación primaria y el 24 parasecundaria obligatoria) la Evaluación deDiagnóstico. Su finalidad es que todos loscentros evalúen de forma periódica y siste-mática las competencias alcanzadas por sualumnado. Se trata pues de una evaluaciónde alcance censal y de carácter interno y for-mativo, es decir, será realizada por y paralos propios centros educativos. Las Comuni-dades Autónomas apoyarán a los centros ensu diagnóstico, facilitándoles los modelosnecesarios para su realización. Por ello, to-das las administraciones educativas han cre-ado unidades e instituciones públicas dedi-cadas a este objetivo. En el anexo I se mues-tran todas ellas.

Para poner en marcha la Evaluación Ge-neral de Diagnóstico el Ministerio de Edu-cación encargó a un grupo de expertos laelaboración del marco de la evaluación (Mi-nisterio de Educación, 2009a). Los puntosque estructuran dicho marco responden a lastareas propias de un programa de estas ca-racterísticas, desde la definición, finalidadesy fundamentos legales, hasta los procedi-mientos de difusión de resultados y conclu-siones. De igual modo, cada ComunidadAutónoma ha comenzado a elaborar su pro-pio marco teórico para fundamentar su Eva-luación de Diagnóstico, de tal forma que yase dispone de un buen número de materialesrelevantes: Comunidad de Madrid (2008),Generalitat de Catalunya (2009a), Gobiernode Aragón (2008), Gobierno de Canarias(2009), Gobierno de La Rioja (2009), Go-vern de les Illes Balears (2009), Gobierno deNavarra (2008), Gobierno del Principado de

Asturias (2007a, 2008), Gobierno Vasco(2009), Junta de Andalucía (2008), Junta deComunidades de Castilla-La Mancha (2009)y Ministerio de Educación (2009b).

La prescripción legal de la evaluaciónde diagnóstico ha tenido como principalconsecuencia que todas las administracioneseducativas hayan creado servicios especiali-zados en el tema. El esfuerzo de los mismosen el último lustro permite disponer ahorade un corpus normativo, teórico y técnicosobre todos los aspectos implicados en losprocesos de evaluación de sistemas educati-vos, tan necesarios a la hora de impulsar unaestrategia nacional de innovación (Arana,2010).

Objetivo del trabajo

Este trabajo se centrará en un aspectomuy concreto de toda evaluación de diag-nóstico: el diseño de los cuadernos de eva-luación, es decir, el modo de organizar y dis-tribuir los ítems dentro de los cuadernillos.

El diseño de los cuadernillos es una ta-rea vital en la evaluación de las competen-cias académicas, puesto que un diseño de-fectuoso puede ocasionar una calibraciónsesgada de los parámetros de los ítems y, portanto, una deriva a la hora de estimar el ni-vel de competencia de la población escolar.El diseño de cuadernillos afecta al corazónmismo de la evaluación de diagnóstico, con-sistente en estimar las competencias alcan-zadas por el alumnado. Un diseño deficien-te puede invalidar las inferencias que se re-alicen sobre el nivel de conocimientos de lapoblación escolar.

Tras revisar los marcos teóricos publica-dos por las distintas administraciones educa-tivas españolas, se puede observar que el di-seño de los cuadernillos es un tema al que seha prestado poca atención, de hecho en lamayoría de los marcos teóricos consultadoslas referencias al diseño de los cuadernillosson prácticamente nulas. Los casos quemencionan el tema se limitan a realizar re-comendaciones generales, sin entrar a consi-derar cómo se realiza verdaderamente el di-seño de los cuadernillos.

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ4

Page 3: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

Recientemente Frey, Hartig, y Rupp(2009) después de revisar las revistas espe-cializadas, los informes técnicos de los gran-des programas de evaluación y los manualesde referencia llegan a la conclusión de queno existe en la actualidad una teoría sobre eldiseño de cuadernos de evaluación, por loque no se dispone de una documentacióntécnica que indique a los constructores detests y pruebas de evaluación cuál es el dise-ño de cuadernillos óptimo para una evalua-ción de diagnóstico concreta.

En suma, el diseño de cuadernillos deevaluación es un campo poco explorado perotambién una decisión técnica de vital impor-tancia, ya que un diseño defectuoso y pocoequilibrado puede llevar a conclusiones ses-gadas e imprecisas sobre el nivel de compe-tencia de la población escolar. Pretendemosaportar algo de luz sobre este punto paraorientar a los constructores de las pruebascuando tengan que decidir sobre este aspecto.

El trabajo se ajusta al siguiente esque-ma. En primer lugar se presentarán los ele-mentos fundamentales en el diseño de loscuadernillos de evaluación. A continuaciónse revisará el “estado de la cuestión” en lasevaluaciones de diagnóstico realizadas porlas administraciones educativas españolas.En el tercer punto se mostrará cómo el dise-ño de los cuadernillos de evaluación siguelas mismas reglas del diseño experimental.Finalmente se mostrará una colección am-plia y representativa de los diseños de cua-dernillos empleados en la evaluación de sis-temas educativos. El trabajo se cierra conunas consideraciones generales sobre laelección de un diseño u otro en función delas ventajas e inconvenientes de cada uno.

Elementos del diseño de cuadernillos

El diseño de cuadernillos es el procedi-miento por el cual los ítems de la evaluaciónse asignan a los cuadernillos con el fin de lo-grar estimaciones insesgadas de los ítems yde la competencia poblacional. Considere-mos, por ejemplo, los programas de evalua-ción educativa más reputados: Programmefor International Student Assessment (PI-

SA), Trends in International Mathematicsand Science Study (TIMSS), Progress in In-ternational Reading Literacy Study (PIRLS)o National Assessment of Educational Pro-gress (NAEP). Todos ellos emplean cientosde ítems, por lo que la arquitectura de suscuadernillos se complejiza bastante e inclu-ye una serie de elementos que van más alládel simple ítem. Estos elementos que verte-bran la organización de los cuadernillos sonlos siguientes: ítem, unidad de evaluación(testlet o también units) , cluster de ítems osimplemente cluster, cuadernillos de eva-luación (booklet o subtest), y colección deítems de la evaluación (item pool).

El ítem es cada una de las preguntas queconforman la evaluación. El conjunto totalde ítems recibe el nombre de colección deítems de la evaluación (item pool). Ahorabien, en las evaluaciones de diagnósticoeducativo es muy frecuente que los ítems noaparezcan aislados, ni se redacten de formaindependiente. Al contrario, los ítems res-ponden al formato de ítems dependientes delcontexto, los cuales están especialmente in-dicados para evaluar procesos complejosmediante grupos de ítems (Muñiz, Hidalgo,García-Cueto, Martínez, y Moreno, 2005).Este tipo de ítems comienza presentando unestímulo (un texto, un gráfico, una tabla ovarios de estos elementos combinados), quedescribe una situación-problema y que vaseguido de una serie de ítems referidos oanidados a dicha situación estimular. Estosítems dependientes del estímulo o contextoresponden fundamentalmente a dos forma-tos: cerrados de elección múltiple y abiertos,ya sean de respuesta corta o de respuestaconstruida. En la literatura especializada elconjunto que conforman un estímulo y losítems dependientes del mismo recibe elnombre de testlet (Frey et al., 2009) o units(OCDE, 2005). En los marcos teóricos delas administraciones educativas se conocentambién como unidades de evaluación (porejemplo, Ministerio de Educación 2009a,2009b). El número de ítems de estas unida-des de evaluación es bastante variable. Así,por ejemplo en PISA 2006 algunas unitscontienen un único ítem (OCDE, 2005),

5

Page 4: Diseño de cuadernillos para la evaluación de las Competencias

mientras que en PIRLS 2006 cada una de laslecturas propuestas va seguida de unos 12ítems de promedio (Martin, Mullis, y Ken-nedy, 2007).

Si se dispone de un número pequeño deunidades de evaluación, éstas pueden tomar-se como la base para organizar el diseño decuadernillos. Sin embargo, cuando la colec-ción de ítems incluye centenares de reacti-vos el número de unidades de evaluación es,por lo general, bastante elevado. Entoncesmanejar un gran número de unidades-pro-blema se vuelve una tarea compleja y labo-riosa, que compromete la consecución de undiseño limpio y equilibrado. La soluciónque ofrece el diseño de cuadernillos llegadoa este punto es agrupar dos o más unidadesde evaluación en clusters de ítems (Frey etal., 2009), también denominadas bloques deítems (blocks) siguiendo la nomenclaturaempleada en los estudios TIMSS y PIRLS(Olson, Martin, y Mullis, 2008). La Figura 1muestra los elementos estructurales en el di-seño de cuadernillos.

En definitiva, en la arquitectura de uncuadernillo los ítems se agrupan en unidadesde evaluación de tamaño variable. Si el nú-mero de unidades es elevado éstas se agru-pan en clusters o bloques de ítems, que sonhomogéneos en cuanto a número de ítems o

al tiempo necesario para responder a cadacluster. Los cuadernillos de evaluación con-tienen dos o más clusters de ítems. Por tan-to, los elementos sobre los que se asienta eldiseño de cuadernillos son los clusters o, ensu defecto, las unidades de evaluación. Encualquier caso los ítems individuales nuncadeben ser tratados como los referentes paraconstruir un buen diseño de cuadernillos enevaluaciones de la envergadura de un diag-nóstico de sistema educativo.

El diseño de cuadernillos en lasevaluaciones de diagnóstico en España

Una vez que se ha determinado el núme-ro y el tamaño de los bloques o clusters deítems es necesario elegir un diseño que per-mita combinar y distribuir los clusters deforma armónica y equilibrada dentro de loscuadernillos. Frey et al. (2009) señalan quela elección del diseño de los cuadernillos es-tá determinada por una serie de condicio-nantes previos, decisiones que generalmentesuperan el ámbito técnico pero que limitanel tipo de diseño a emplear. Aquí se identifi-can cuatro condicionantes: el número decompetencias o áreas curriculares que seevaluarán con los cuadernillos; la relaciónentre el tamaño de la colección de ítems y el

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ6

Figura 1. Elementos estructurales de los cuadernillos de evaluación

Page 5: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

tiempo de evaluación disponible; la necesi-dad de controlar los efectos que pueden ses-gar la estimación de los parámetros de losítems y de la competencia de la población; yla reutilización de ítems en evaluacionesposteriores.

A continuación se revisa cómo las admi-nistraciones educativas dan respuesta a estoscondicionantes en sus cuadernillos de eva-luación. Llegados a este punto es necesariorealizar una advertencia, el formato de apli-cación de la prueba también tiene su impor-tancia en la elección del diseño y, por tanto,puede considerarse un condicionante másdel mismo. Sin embargo, el presente análisisse centra sólo en los diseños empleados pa-ra pruebas de lápiz y papel aplicadas colec-tivamente a grupos-aula. Es cierto que otrosformatos de prueba y otras condiciones deaplicación son posibles. No obstante, la apli-cación colectiva de tests clásicos es, por elmomento, el formato mayoritario en las eva-luaciones de diagnóstico.

El número de competencias o áreascurriculares a evaluar

La LOE prescribe que el diagnósticoeducativo se centrará en evaluar el nivel dealumnado en competencias básicas antesque en áreas curriculares. Esto significa quela evaluación de una competencia (porejemplo, competencia digital, comunicaciónlingüística o aprender a aprender) incluyecontenidos de varias áreas curriculares. Entodo caso, sean competencias o disciplinascurriculares, el número de las mismas quesean objeto de evaluación es uno de los fac-tores que más complejidad introduce en eldiseño de cuadernillos. En función del nú-mero de competencias evaluadas se puedendistinguir dos tipos de diseños. Por un ladoaquellos donde con un único juego de cua-dernillos se evalúan dos o más competenciasy, por otro, los diseños para evaluar una so-la competencia. En evaluación de sistemaseducativos ambas opciones están bien repre-sentadas. Por ejemplo, PIRLS evalúa exclu-sivamente comprensión lectora. Por su par-te, la evaluación de diagnóstico norteameri-

cana, NAEP ha manejado las dos opciones alo largo de sus cuatro décadas de existencia.Sin embargo, en la actualidad cada área cu-rricular evaluada tiene su propia colecciónde cuadernillos.

La segunda posibilidad, es decir, evaluardos o más competencias con un único juegode cuadernillos, también tiene sus adeptos.Es, por ejemplo, la opción implementada enPISA donde su único juego de cuadernillosincluye ítems de comprensión lectora, mate-máticas y ciencias. Similar planteamiento seencuentra en TIMSS donde los cuadernillospresentan ítems de matemáticas y ciencias.

En España la tendencia mayoritaria hasido evaluar entre dos y cuatro competen-cias en cada estudio diagnóstico (Generalitatde Cataluña, 2010; Gobierno de Aragón,2010; Gobierno de Canarias, 2009; Gobier-no de Cantabria, 2010; Gobierno de La Rio-ja, 2009; Gobierno de Navarra, 2010; Go-bierno del Principado de Asturias, 2007b,2007c, 2010; Gobierno Vasco, 2010; Go-vern de les Illes Balears, 2010; Junta de An-dalucía, 2007a, 2007b, 2009, 2010; Junta deCastilla y León, 2009; Ministerio de Educa-ción, 2009a, 2009b; Región de Murcia,2009; Xunta de Galicia, 2010).

Pese a que todas las comunidades autó-nomas evalúan más de una competencia,hasta el momento la decisión prácticamenteunánime es que cada competencia tenga supropio diseño de cuadernillos. Esta elecciónsupone que habrá tantos juegos de cuaderni-llos como competencias evaluadas. De laanterior afirmación cabe exceptuar la pro-puesta de Castilla-La Mancha. Se trata deuna experiencia interesante que, en algunosaspectos, se aparta de los planteamientosmás ortodoxos que siguen el resto de las ad-ministraciones educativas al intentar superarla idea de que detrás de cada competenciasubyace la evaluación preferente de un áreacurricular. Sus cuadernillos se llaman unida-des de evaluación y contienen ítems de va-rias competencias. De esta forma el juego deunidades de evaluación permite evaluar to-das las competencias sancionadas legalmen-te en cada estudio diagnóstico, aunque exigeseis horas de trabajo individual (Junta de

7

Page 6: Diseño de cuadernillos para la evaluación de las Competencias

Comunidades de Castilla-La Mancha, 2009,2010).

Las dos opciones barajadas hasta el mo-mento tienen sus ventajas e inconvenientes.Por supuesto el diseño será más simple sicada competencia dispone de su propio jue-go de cuadernillos. Y al contrario: la organi-zación del diseño se vuelve más compleja amedida en que un único juego de cuaderni-llos incluya más competencias. En este se-gundo caso el diseño deberá contemplar lacuestión de la proporcionalidad de cadacompetencia en la evaluación. Por ejemplo,en cada edición de PISA una de las tres com-petencias es principal y las preguntas referi-das a la misma suponen algo más de la mi-tad del total de ítems. En cambio en TIMSSlos ítems de matemáticas y ciencias se re-parten paritariamente.

Por el contrario, si un único juego decuadernillos contiene más de una competen-cia puede aligerar aspectos relativos a la lo-gística de la evaluación rebajando el núme-ro de cuadernillos, guías y plantillas de co-rrección y simplificando el proceso de gra-bación de datos. A lo largo de este trabajo sepresentarán algunos diseños que permitenevaluar dos o más competencias con un úni-co juego de cuadernillos.

La relación entre el tamaño de la colección de ítems y el tiempo

de evaluación disponible

La segunda decisión que condiciona laorganización de los cuadernillos es el núme-ro total de ítems y su relación con respectoal tiempo de evaluación disponible. Segura-mente es el condicionante más influyente ala hora de decidir el diseño de las pruebas.Tal es así que los diseños que se presentaránmás adelante están clasificados por este cri-terio. Atendiendo a esta relación los diseñosse pueden agrupar en dos clases. Por un la-do, arreglos donde la colección de ítemsequivale al tiempo de evaluación disponible.Por otro, diseños en los que responder a lacolección de ítems supera el tiempo disponi-ble. Imagínese que para evaluar una compe-tencia se dispone de una sesión ordinaria de

50 minutos. Si el número de ítems fuese pe-queño –por ejemplo, entre 25 y 30- los estu-diantes podrán responder a todos ellos den-tro del límite temporal de la sesión y, portanto, todo el alumnado responderá a losmismos ítems. En cambio si la coleccióncontuviera, por ejemplo, 150 ítems será im-posible que cada estudiante responda a to-dos ellos en el tiempo asignado para evaluarla competencia. En este caso cada estudian-te sólo contestará a una parte de la coleccióncompleta –unos 30 ítems aproximadamente-y no tendrá oportunidad de contestar al res-to –en torno a 120 en este ejemplo-. Con es-ta segunda estrategia los estudiantes no res-ponden a los mismos ítems.

La tendencia mayoritaria en las evalua-ciones de diagnóstico en España es que lacolección de ítems de cada competencia sepueda responder dentro de los límites tem-porales asignados para evaluar dicha com-petencia (Comunidad de Madrid, 2008; Go-bierno de Aragón, 2010; Gobierno de Cana-rias, 2009; Gobierno de Navarra, 2008; Go-bierno de la Rioja, 2009; Junta de Andalu-cía, 2008; Junta de Castilla y León, 2009;Región de Murcia, 2009). Es más, a la vistade los marcos teóricos y de las pruebas libe-radas, la opción empleada en estos casos esconstruir un único modelo de cuadernillopor competencia evaluada. El marco de laevaluación del País Vasco explicita la razónde emplear un cuadernillo único: asegurar lacomparación individual de los resultadoshaciendo que todos los estudiantes respon-dan a los mismos ítems y en las mismas con-diciones (Gobierno Vasco, 2008a).

Por su parte, cuatro administracioneseducativas plantean el uso de dos o más cua-dernillos por competencia evaluada: el Mi-nisterio de Educación, Asturias, Baleares yGalicia. El marco de la evaluación del Mi-nisterio de Educación es el que mejor expli-cita las características generales de un dise-ño matricial de cuadernillos de evaluación.En todo caso, tanto para la Evaluación Ge-neral de Diagnóstico, como para la evalua-ción de Ceuta y Melilla, el tema queda des-pachado con un párrafo dentro del capítuloreferido al instrumental de evaluación (Mi-

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ8

Page 7: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

nisterio de Educación, 2009a, 2009b). Enambos documentos se indica que la colec-ción de ítems de cada competencia se divi-dirá en diferentes cuadernillos, que se apli-carán a distintos grupos de alumnado con elfin de incluir el mayor número de ítems po-sibles. A continuación menciona las condi-ciones generales que deben cumplir el dise-ño de cuadernillos de la evaluación ministe-rial: los ítems deben distribuirse equilibra-damente a lo largo de los cuadernillos, y or-ganizarse respetando cierta combinaciónque permita contar con ítems de anclaje apartir de los cuales integrar los resultados delos alumnos en la misma escala.

Sin embargo, en su documento-marco elMinisterio de Educación no precisa ni el nú-mero de ítems por competencia ni el diseñode cuadernillos a emplear. Además, comotampoco libera pruebas completas, ya quereserva ítems para estudios de tendencia, noes posible reconstruir el diseño matricialempleado por la administración central deeducación. A similar conclusión se llega enel caso de Galicia: inicialmente se anunciael uso de dos modelos de cuadernillo porcompetencia (Xunta de Galicia, 2009). Sinembargo en la documentación publicada porla administración gallega no se ha encontra-do mención alguna sobre el tipo de diseñoelegido ni sobre la distribución de los ítemsdentro de los cuadernillos.

Los materiales liberados por Asturias yBaleares han permitido recrear los diseñosmatriciales que subyacen a la ordenación de

los ítems en los cuadernillos. En ambos ca-sos la opción empleada con preferencia hasido el diseño de anclaje fijo de ítems, es de-cir, en todos los cuadernillos de evaluaciónhay un grupo de ítems comunes que se pre-sentan en la misma posición. Este diseño tie-ne dos virtudes: incluye un buen número deítems por competencia para cubrir adecua-damente las especificaciones de contenidode la evaluación, y asegura buenas condicio-nes de comparación de resultados (Gobiernodel Principado de Asturias, 2007a; Governde les Illes Balears, 2009, 2010).

Como ejemplo de este tipo de anclaje semuestra el diseño implementado en Asturiaspara evaluar la comprensión lectora en el año2009. En dicha evaluación se elaboraron 7unidades de lectura de idéntica estructura: untexto seguido de 6 ítems. La colección com-pleta lecturas y preguntas aparejadas equiva-lían a 105 minutos de evaluación. Sin embar-go, el diseño adoptado permitió que cada es-tudiante sólo invirtiera un máximo de 30 mi-nutos. Como se observa en la Tabla 1, todoslos cuadernillos comenzaban con la mismaunidad de lectura, que funcionaba como eltest de anclaje del diseño. Al colocar el test deanclaje al inicio de todos los cuadernillos sebuscaba que las condiciones de aplicación delmismo fuesen lo más homogéneas e idóneasposibles. A continuación del test anclaje seubicaba una segunda unidad de lectura, queera diferente en cada cuadernillo.

Cualquiera de las dos opciones plantea-das tiene ventajas e inconvenientes (Childs

9

Tabla 1. Diseño de cuadernillos en la evaluación de Diagnóstico de Asturias. 2009

Tipo de Unidad Nombre Número del Cuadernillode la Unidad 1 2 3 4 5 6

Unidad Común (Test de Anclaje) Lectura – C 1 1 1 1 1 1Lectura – 1 2Lectura – 2 2Lectura – 3 2

Unidad Propia de Comprensión Lectora Lectura – 4 2Lectura – 5 2Lectura – 6 2

1 Posición de la Unidad en el Cuaderno.Fuente: elaboración propia.

Page 8: Diseño de cuadernillos para la evaluación de las Competencias

y Jaciw, 2003; Frey et al., 2009). Si la colec-ción de ítems es pequeña (equivalente altiempo de evaluación disponible) la planifi-cación del diseño de cuadernillos es relati-vamente sencilla y es posible encontrar unaestructura equilibrada y simétrica con un nú-mero pequeño de cuadernos. En cambio, siel tiempo para responder a la colección deítems supera el límite temporal disponible eldiseño se vuelve más complejo. En este ca-so sólo caben dos posibilidades: aumentar elnúmero de cuadernos o establecer diseñosmás complejos que permitan manejar un nú-mero relativamente pequeño de cuadernossin que la estimación de los parámetros delos ítems se vea afectada.

Ya se apuntó que, en algunos casos, seconsidera que evaluar a todo el alumnadocon un único modelo de cuadernillo es laopción más equitativa para comparar rendi-mientos individuales. Sin embargo, es unaestrategia con dos riesgos claros. El primeroestá relacionado con la sustantividad o re-presentatividad del contenido de la propiaevaluación. Trabajar con un pequeño núme-ro de ítems puede afectar a la validez decontenido de la prueba (Muñiz, 2001). Ensegundo lugar el empleo un cuadernillo úni-co e idéntico para todo el alumnado puedesesgar la estimación de los parámetros delos ítems y, por ende, el nivel de competen-cia de la población. En el siguiente apartadose tratará esta idea con más detenimiento.

Por su parte, el empleo de una colecciónde ítems amplia ofrece más garantías conrespecto a la validez de contenido de laprueba y estima con mayor precisión lacompetencia de la población en la compe-tencia evaluada. En cambio, como los estu-diantes no responden a los mismos ítems secorren mayores riesgos a la hora de estable-cer comparaciones individuales. No obstan-te es necesario realizar dos matizaciones a laanterior afirmación. La primera es que, porsus características, no está nada claro queuna evaluación de diagnóstico educativopueda ofrecer estimaciones fiables a nivelindividual. La segunda cuestión es que, par-tiendo de un diseño de cuadernillos adecua-do, los desarrollos psicométricos actuales

permiten construir una única escala de pun-tuaciones para todo el alumnado, aunque és-te no responda exactamente a las mismaspreguntas. Para ambas cuestiones véase, porejemplo, los informes técnicos de PISA(OCDE, 2002, 2005).

Control de los sesgos en la estimación de los parámetros de los ítems

En el apartado anterior se advirtió que eldiseño de cuadernillo único puede sesgar laestimación de los parámetros de los ítems y dela competencia de la población. Estos poten-ciales sesgos ocurren porque una evaluaciónbasada en único modelo de cuadernillo no ga-rantiza el control de los efectos de posición yarrastre de los ítems. Ambos efectos tienen lamisma naturaleza ya que están asociados a laubicación de los ítems en los cuadernillos. Ca-balmente se espera que la dificultad de unítem esté determinada exclusivamente por eltipo de tarea o proceso cognitivo implicado ensu solución. Sin embargo, se sabe que esta di-ficultad puede depender, al menos en parte,del lugar que el ítem ocupa en el cuadernillo.Por ello, un buen diseño de cuadernillos nece-sita neutralizar estos efectos.

El parámetro de un ítem puede sesgarsepor el orden de presentación del reactivo, es-te hecho se conoce como efecto de posición.La OCDE (2005) estima que un mismo ítemes, de promedio, un 10% más fácil si apare-ce al inicio del test que si está ubicado al fi-nal. En el diseño de cuadernillos el efecto deposición puede controlarse haciendo que to-dos los ítems aparezcan en todas los órdenesposibles y complementariamente disponien-do de un modelo matemático que tenga encuenta la posición de los ítems dentro delcuadernillo.

Por su parte, el efecto de arrastre advier-te que el índice de dificultad de un ítem pue-de quedar contaminado por los ítems presen-tados previamente en el cuadernillo. Porejemplo, si al final de un cuaderno aparece unconjunto de ítems de geometría estos puedenser más fáciles si previamente el alumnado harespondido a otros ítems similares. De igualmodo, el efecto de arrastre puede aparecer si

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ10

Page 9: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

la respuesta un ítem depende informacióncontenida en otros ítems del cuadernillo o dela respuesta dada en ítems previos. El efectode arrastre supone un problema grave paralos modelos psicométricos de Teoría de Res-puesta a los Ítems (TRI), ya que viola el prin-cipio de independencia local, esto es, que laprobabilidad de acertar un ítem cualquiera esindependiente de la probabilidad de aciertoen el resto de los ítems del cuadernillo (Mu-ñiz, 1997). Al igual que ocurre con el efectode posición, el modo de controlar el efecto dearrastre en la estimación de los parámetros delos ítems pasa por una estrategia doble: orga-nizar los clusters de ítems de forma balance-ada dentro de los cuadernos e incluir el efec-to de arrastre de los ítems dentro del modelode respuesta al ítem que se emplee en la esti-mación de los parámetros.

Evidentemente cuando la evaluaciónemplea un único modelo de cuadernillo esimposible controlar los efectos de posición yarrastre, lo que introduce un potencial desesgo importante. Dentro de las administra-ciones que emplean más de un cuadernillode evaluación por competencia hay algunasevidencias de que dichos efectos sí se tienenen cuenta. El Ministerio de Educación lo haformulado teóricamente en su marco de eva-luación, indicando que dentro de los cuader-nillos, las unidades de evaluación debenaparecer en diferentes posiciones para eva-

luar la relación entre la posición del ítem encada cuadernillo y su dificultad (Ministeriode Educación, 2009a, 2009b).

En los diseños de ítems de anclaje fijo,como el mostrado en la Tabla 1, las posibili-dades de controlar los efectos de posición yarrastre son también limitadas. La restric-ción de que el test de anclaje aparezca en lamisma posición en todos los cuadernillospara asegurar iguales condiciones de admi-nistración a todo el alumnado cercena estaposibilidad.

Baleares ha empleado un diseño dondeel test de anclaje ocupa distintas posicioneslo que permite balancear el efecto de la difi-cultad de los ítems en función de su ubica-ción dentro de los cuadernillos. En la Tabla2 se muestra la organización de los ítems enlos cuadernillos de Competencia Matemáti-ca de 4º curso de Educación Primaria delaño 2009. Esta prueba constaba de 51 ítemspertenecientes a 10 unidades-problemas, lascuales a su vez se distribuyeron en 3 cuader-nillos. Había 2 unidades (London Eye y Bit-lles, 14 ítems en total) que se repiten en los3 cuadernos ocupando distintas posiciones:por ejemplo, la unidad London Eye se ubicaen la primera posición en el cuaderno 1, enla tercera en el 2 y en el cuarta en el 3.

En definitiva, la revisión de lo publica-do hasta el momento por las administracio-nes educativas indica que sus diseños de

11

Tabla 2. Diseño de cuadernillos en la evaluación de Diagnóstico de Islas Baleares. 2008-2009

Tipo de Unidad Nombre Número de ítems Número del Cuadernillode la Unidad en la unidad 1 2 3

Anclaje London Eye 6 1 3 4Bitlles 8 2 4 5

Genograma 7 3Plànol 6 4Excursió 4 1

Unidad propia Monuments 3 2de cada cuadernillo IMC 5 5

Ferretería 4 1Malalties 3 2Camp 5 3

1 Posición de la Unidad en el Cuaderno.Fuente: elaboración propia a partir de los datos contenidos en http://iaqse.caib.es/aval_1.htm.

Page 10: Diseño de cuadernillos para la evaluación de las Competencias

cuadernillos presentan lagunas importantesen cuanto al control de los sesgos que afec-tan a la estimación de la competencia pobla-cional. El control del efecto de posición delos ítems está planteado teóricamente en elmarco teórico del Ministerio de Educación yresuelto sólo parcialmente en algunos dise-ños como el balear. Por su parte, ninguno delos diseños presentados asegura el controldel efecto de arrastre de los ítems.

Reutilización de los ítems en evaluaciones posteriores

El último condicionante para establecerel diseño de cuadernillos de evaluación es laposibilidad de reutilizar ítems en evaluacio-nes posteriores. Se trata de una práctica ha-bitual en los grandes programas de evalua-ción educativa, tales como PISA, TIMSS,PIRLS o NAEP. El Ministerio de Educaciónha realizado comparaciones longitudinalesantes incluso de la Evaluación General deDiagnóstico (Ministerio de Educación, Cul-tura y Deporte, 2001, 2003; Ministerio deEducación y Ciencia, 2005; Ministerio deEducación, 2009c). Por su parte, el País Vas-co recoge en su marco teórico la previsiónde realizar comparaciones a lo largo deltiempo (Gobierno Vasco, 2008a). Una lectu-ra conjunta de estos documentos permite es-tablecer las finalidades y características ge-nerales de un diseño de anclaje longitudinaly los criterios para la selección de los ítemsque formarán parte de dicho anclaje.

La finalidad de reutilizar ítems a lo lar-go del tiempo es valorar evolución dinámicade los resultados tanto del sistema en gene-ral como de los centros en particular. De es-ta forma la comparación longitudinal permi-tirá comprobar el grado de eficacia de lasmedidas que vayan tomando y analizar bue-nas prácticas.

Para formar parte del anclaje longitudi-nal se seleccionarán ítems que hayan de-mostrado su fiabilidad, estabilidad y altasignificatividad a la hora de evaluar un as-pecto concreto de una competencia.

Las características generales de este di-seño deben ser las siguientes: los ítems co-

munes a dos o más evaluaciones deben serescrupulosamente iguales en su enunciado yalternativas de respuesta; deben ubicarse enlas mismas posiciones en distintos modelosde cuadernillos; y estos cuadernillos debentener una longitud similar.

Por su parte, algunas administracioneseducativas han publicado comparaciones deresultados entre diferentes ediciones de susevaluaciones de diagnóstico (Generalitat deCatalunya, 2010; Gobierno de La Rioja,2010a, 2010b; Junta de Andalucía, 2010). Sinembargo, en su documentación publicada nose han encontrado referencias a cómo el dise-ño de cuadernillos prevé la distribución delos anclajes, ni tampoco a los métodos deequiparación de puntuaciones empleados.

A la hora de establecer un buen diseñode anclaje hay dos cuestiones que deben sertenidas en cuenta. La primera es que el an-claje longitudinal, como cualquier diseño decuadernillos, también puede verse afectadopor los sesgos de posición y arrastre. Portanto, las reservas ya apuntadas con respec-to a los diseños empleados en las evaluacio-nes educativas son totalmente aplicables alas comparaciones longitudinales. Es nece-sario disponer de una organización de cua-dernillos que mantenga intacta la ubicaciónde las unidades o clusters a lo largo de serietemporal de evaluaciones.

La segunda consideración cuando se reu-tilizan ítems a lo largo del tiempo son lascuestiones relativas a la seguridad de los mis-mos. Aún blindando las pruebas cabe la posi-bilidad de que los ítems puedan ser memori-zados por personas que puedan entrenar a fu-turos participantes en las evaluaciones. Si es-to ocurre los parámetros de los ítems se veránalterados y la competencia poblacional sobre-estimada. La probabilidad de memorizar laspreguntas aumenta cuando se trabaja con unacolección pequeña de ítems, que es presenta-da en un único cuadernillo. Al contrario, esteriesgo se reducirá si el diseño incluye un con-junto amplio de ítems presentados en variosmodelos de cuadernillos que contengan dis-tintos clusters en diferentes posiciones.

En resumen, las características genera-les de los diseños de cuadernillos en el con-

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ12

Page 11: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

junto de las evaluaciones de diagnóstico enEspaña son las siguientes:

— Si bien las evaluaciones las adminis-traciones educativas evalúan comomínimo dos competencias, cada unade éstas tiene su propio diseño decuadernillo.

— Existe un amplio número de admi-nistraciones educativas que empleanun único modelo de cuadernillo pa-ra evaluar cada competencia. En loscasos donde hay más de un cuader-nillo por competencia se usa conpreferencia el diseño de anclaje deítems fijo: todos los cuadernilloscontienen unas preguntas comunes yotras preguntas específicas de cadacuadernillo.

— Los marcos teóricos de las adminis-traciones educativas apenas hacenreferencia al control de los efectosde posición y arrastre de los ítems.Sólo el Ministerio de Educaciónmenciona este hecho explícitamen-te, mientras que los diseños hechospúblicos por Asturias y Baleares haycierta consideración sobre el ordende las unidades de evaluación dentrode los cuadernillos para homogeni-zar las condiciones de aplicación.

— Se han comenzado a publicar resul-tados que comparan la competenciapoblacional a lo largo del tiempo.Sin embargo, las referencias a losdiseños de anclaje longitudinal y alos métodos de equiparación de se-ries temporales son prácticamentenulas. También es cierto que, debidoa la novedad que suponen las eva-luaciones de diagnóstico en nuestropaís, quizá sea un poco prematurovalorar la adecuación de los diseñosde cuadernillos para establecer ten-dencias temporales.

En suma, la revisión de los marcos deevaluación indica que las referencias a losdiseños de cuadernillos son bastante escasasy, cuando aparecen se quedan en comenta-

rios y recomendaciones generales no dispo-niendo, salvo en contadas ocasiones, de undiseño de cuadernillos que cumpla las con-diciones necesarias para ser considerado co-mo tal.

El diseño experimental como base para establecer el diseño de cuadernillos

de evaluación

Pese a la relativa novedad que suponenlos diseños de cuadernillos en las evaluacio-nes de diagnóstico en España, lo cierto esque los diseños matriciales de ítems aplica-dos a la evaluación general de los sistemaseducativos acumulan décadas de experien-cia. Las primeras referencias se deben aLord (1955, 1962), preocupado por las limi-taciones en la equiparación de puntuacionesen los tests clásicos y por estimar la propor-ción de la población que podría respondercorrectamente a un ítem, conocidas las res-puestas que al mismo había dado una mues-tra de estudiantes. Lord (1962) acuña el tér-mino matrix sampling designs, como proce-dimiento para organizar los ítems en loscuadernillos de evaluación. De esta forma elmuestro matricial de ítems surge para darrespuesta a un problema capital en la eva-luación de rendimientos académicos: la va-lidez de contenido de la prueba. Para evaluarel nivel de una población en una o más áre-as curriculares es necesario disponer de unacolección de centenares de ítems que cubranadecuadamente las especificaciones de con-tenido de la evaluación. Ahora bien, en lapráctica, es inviable que una muestra repre-sentativa de estudiantes responda a una co-lección de ítems de tal magnitud. Por tanto,la solución más eficiente es dividir el con-junto total de ítems en partes más pequeñasy que cada estudiante responda sólo a unaporción de dicha colección. Operando así lasrespuestas de las submuestras de estudiantesa submuestras de ítems (subtests) permiteninferir el nivel de la población escolar conrespecto al área o material evaluada.

Ahora bien, ¿qué reglas o pautas debenobservarse para distribuir la colección com-pleta de ítems a los subtests o cuadernillos de

13

Page 12: Diseño de cuadernillos para la evaluación de las Competencias

evaluación? La solución pasa por entender eldiseño matricial de ítems como un caso espe-cial del diseño experimental. En otras pala-bras, haciendo que el diseño y distribución delos ítems a lo largo de la colección de cuader-nillos siga las mismas pautas que guían el di-seño experimental. En lo que resta de aparta-do se verá cómo es posible adoptar o “tradu-cir” los conceptos claves que se emplean endiseño experimental (tratamiento, bloqueo,replicación, tamaño del bloque y concurren-cia de tratamientos) a los términos del diseñomatricial de los cuadernillos de evaluación.

Un diseño experimental es un plan me-diante el cual una serie de tratamientos sonasignados a un conjunto de unidades experi-mentales. De igual modo, el diseño de cua-dernillos es el plan mediante el cual losítems se asignan a los estudiantes. Los trata-mientos (t) son las variables experimentalesque se someten a prueba. En la evaluaciónde competencias académicas cada ítem ocluster de ítems puede verse como un “mini-experimento” para evaluar dicha competen-cia. Por tanto, en el diseño de cuadernilloshabrá tantos tratamientos como clusters deítems disponibles.

En el plan experimental es muy habitualque los tratamientos se organicen en bloques(b) con el fin de neutralizar la varianza no de-seada. El bloqueo consiste en dividir las uni-dades experimentales en grupos homogéneosy aplicar aleatoriamente los tratamientos a es-tos grupos. En diseño de cuadernillos esto su-pone que la colección de clusters de ítems seorganiza y/o divide en varios cuadernillos(subtests), los cuales se administran aleatoria-mente a los estudiantes. Con ello se neutrali-zan fuentes de variación indeseables y se in-corpora un factor bloque al diseño.

La metodología experimental distinguedos diseños básicos en función del tamañode los bloques (k): bloques completos e in-completos. Se dice que un bloque es com-pleto si dentro del mismo se incluyen todoslos tratamientos disponibles. Por tanto, enlos diseños de bloques completos se cumplela siguiente igualdad (t = k). En evaluaciónde competencias curriculares esto quiere de-cir que cada cuadernillo (b) contiene todos

los clusters de ítems disponibles (t). Ahorabien, ocurre con mucha frecuencia que elnúmero de clusters de ítems disponibles su-pera ampliamente el número de ítems queun estudiante puede responder dentro de loslímites temporales de la administración deltest. Por tanto, los cuadernillos sólo contie-nen una parte del total de los ítems disponi-bles, es decir, el bloque se compone sólo deuna parte de los tratamientos disponibles.Cuando t > k se habla de bloques incomple-tos, ya que cada bloque no incluye todos lostratamientos disponibles.

En un diseño experimental un trata-miento puede aparecer una o varias veces.La frecuencia con la que un tratamiento apa-rece a lo largo del diseño experimental sedenomina replica o replicación (r). Análo-gamente, el número de veces que cada clus-ter de ítems aparece a lo largo de la colec-ción de cuadernillos también se denominareplicación.

Finalmente a lo largo de sus replicacio-nes cada tratamiento se empareja con el restode tratamientos un determinado número deveces y siguiendo ciertas pautas. Es lo que sedenomina concurrencia de cada par de trata-mientos (λ). En diseño de cuadernillos λ indi-ca el número de veces que dos clusters deítems aparecen en el mismo cuadernillo. Si elvalor de λ es el mismo para cualquier par detratamientos se dice que el diseño es balance-ado. Si por el contrario λ presenta un valorpara ciertos pares de tratamientos distinto delvalor para el resto de pares de tratamientos sedice que el diseño no es balanceado o es par-cialmente balanceado.

Las variables t, b, r, k y λ se denominanparámetros del diseño y para que un diseñotenga cierto equilibrio es necesario que estosparámetros guarden unas determinadas pro-porciones. Por ejemplo, en todo diseño ba-lanceado deben cumplirse las siguientes re-laciones entre los parámetros:

1. bk = tr2. r(k – 1) = λ(t – 1)3. De la segunda condición se deduce

que: λ = [r(k – 1)] / (t – 1), siendo λun entero positivo.

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ14

Page 13: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

Las anteriores condiciones indican queel número de diseños balanceados es limita-do ya que no cualquier combinación de losparámetros t, b, r, k cumple con las dos pri-meras igualdades al tiempo que ofrece unvalor λ entero. Además, en ocasiones, inclu-so cuando se encuentra la combinación deparámetros adecuada tampoco es fácil asig-nar los tratamientos (clusters de ítems) y susreplicaciones dentro de los bloques (cuader-nillos) de k tamaño y λ concurrencias porcada par de tratamientos. Por ello, el diseñode cuadernillos además del diseño experi-mental debe apoyarse en la combinatoria co-mo disciplina que se dedica a la selección,disposición y combinación de una serie deobjetos dentro un espacio finito.

En todo caso, cabe recordar a los cons-tructores de tests que los principales diseñosexperimentales están bien documentados yestudiados en la literatura (Arnau, 1984; Atoy Vallejo, 2007; Box, Hunter, y Hunter,2005; Cochran y Cox, 1974; Cook y Camp-bell, 1979; Fisher y Yates, 1963; Kirk, 1995;Vallejo et al., 2010), donde se pueden con-sultar los diseños que se mostrarán a conti-nuación y muchos más.

Diseños cuando se dispone de pocos ítems:bloques completos

Como se apuntó anteriormente hay ungrupo significativo de administraciones edu-cativas que emplean un único modelo decuadernillo por competencia, de tal modoque todo el alumnado responde a los mis-

mos ítems y exactamente en el mismo or-den. Esta estrategia es, en apariencia, másequitativa para comparar desempeños indi-viduales, pero tiene serios riesgos debido asu nulo control del efecto de posición de losítems, lo que puede invalidar las inferenciasde los resultados a la población. Por tanto,las evaluaciones donde los estudiantes res-ponden a los mismos ítems debieran emple-ar un diseño de cuadernillos que neutraliza-ra los sesgos en la estimación de la compe-tencia poblacional. A continuación se pre-sentan dos diseños especialmente recomen-dados para aplicaciones en las que todos losestudiantes responden a los mismos ítems.

Diseño de Tratamientos Repetidos

Por sus características el Diseño de Tra-tamientos Repetidos (DTR) puede ser espe-cialmente recomendado para evaluar com-petencias como matemáticas o ciencias. A lavista de las pruebas liberadas por algunasadministraciones educativas los cuaderni-llos de evaluación de estas competenciassuelen contener entre 20 y 30 ítems, reparti-dos entre 4 y 6 unidades y se responden enuna aplicación que dura entre 50 y 60 minu-tos. Para organizar un DTR el número decuadernillos, unidades de evaluación y lasposiciones de dichas unidades dentro de loscuadernillos debe ser el mismo, es decir, sondiseños que cumplen la siguiente igualdad: t= b = k = r.

La Tabla 3 muestra un ejemplo de DTRpensado para una sesión de evaluación de 50

15

Tabla 3. Ejemplo de Diseño de Tratamientos Repetidos

Nombre del cluster Número de cuadernillo1 2 3 4 5 6

A 1 2 3 4 5 6B 6 1 2 3 4 5C 2 3 4 5 6 1D 5 6 1 2 3 4E 3 4 5 6 1 2F 4 5 6 1 2 3

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 6; b = 6; k = 6; r = 6; λ = 6

Page 14: Diseño de cuadernillos para la evaluación de las Competencias

minutos. La colección completa de ítems es-tá dividida en 6 clusters de ítems de 8 minu-tos de duración cada uno. En cada uno de loscuadernillos los clusters ocupan una posi-ción diferente. Como se puede ver el diseñopresentado es un cuadrado latino 6 x 6 (seisclusters de ítems distribuidos en seis cuader-nillos). Sin embargo, la ordenación de losclusters dentro de los cuadernillos está pen-sada para controlar los efectos de posición yarrastre.

El efecto de posición se controla, comoen el cuadrado latino ordinario, gracias aque todos los clusters aparecen en todas lasposiciones posibles en los cuadernillos. Así,leyendo la tabla desde las filas, se apreciaque el cluster A es el primero en el cuaderno1, el segundo en el cuaderno 2, y así sucesi-vamente.

Además, leyendo esta tabla por colum-nas, se observa que este diseño controla tam-bién los efectos de arrastre de orden superior.En otras palabras: en todos los cuadernillos elcluster A aparece antes que el cluster C; elcluster C antecede al cluster E; el cluster Eprecede al cluster F; el F al D; y el D al B. Es-ta regla sólo se incumple cuando el clusterantecedente de la pareja ocupa la última posi-ción del cuadernillo. Entonces el segundocluster se ubica en la primera posición delcuadernillo. Así en el cuadernillo 6 el clusterA (antecedente del cluster C en el resto de loscuadernillos) aparece en última posición,mientras que los ítems del cluster C son losprimeros de dicho cuadernillo.

En definitiva, el DTR tiene dos ventajasque lo hacen muy recomendable, es de fácilconstrucción y su análisis estadístico es sen-cillo. Además, presenta el doble control de fi-

las y columnas propio del cuadrado latino,con lo que es bastante efectivo para neutrali-zar los posibles sesgos en la estimación de lacompetencia poblacional, cuestión que aúnno está bien resuelta en los diseños de cuader-nillos de las administraciones educativas.

Diseño de Permutación Completa

Los diseños de permutación completa(DPC) comparten los mismos beneficiosque los DTR: son fáciles de construir y, so-bre todo, son muy eficaces para controlarfuentes de variación indeseada vinculadas alos efectos de posición y arrastre de losítems. En los DPC el orden de los clusters sepermuta en cada cuadernillo, lo que suponeque todos los clusters de ítems aparecenexactamente una vez en cada cuadernillo.

Un modelo muy simple se presenta en laTabla 4 y podría ser empleado perfectamen-te en una prueba de comprensión lectoracompuesta por tres lecturas y sus correspon-dientes ítems. El diseño muestra una colec-ción completa de ítems dividida en 3 clus-ters o unidades de evaluación que ocupan 20minutos cada una. Por tanto, de nuevo en es-te diseño la colección completa de ítemsequivale al tiempo que un estudiante puedeinvertir en responder a la prueba.

En principio, como el número total declusters (t) y el número de clusters a incluiren cada cuadernillo (k) coinciden (es decir, t= k), sólo hay una única combinación posi-ble cuando se toman tres clusters de tres po-sibles (A-B-C). Sin embargo, hay seis posi-bles modos de ordenar los clusters de estaúnica selección. Todos ellos se muestran enla Tabla 4. Cada cluster aparece dos veces

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ16

Tabla 4. Ejemplo de Diseño de Permutación Completa (Bloques Completos)

Nombre del cluster Número de cuadernillo1 2 3 4 5 6

A 1 1 2 2 3 3B 2 3 3 1 1 2C 3 2 1 3 2 1

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 3; b = 6; k = 3; r = 6; λ = 6

Page 15: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

en cada una de las tres posiciones posibles.Así, por ejemplo, los cuadernillos 1 y 2 co-mienzan con el cluster A y en ellos los clus-ters B y C permutan su posición.

Como se puede ver, los DPC no tienenimpuesta la condición rígida que presentanlos cuadrados latinos como el DTR sobre laigualdad de parámetros en el diseño, es de-cir, no es necesario que t = k = r = b. Estoya se observa en la Tabla 4, donde partiendode tres clusters se construyen seis cuaderni-llos, es decir, t = 3 y b = 6.

Sin embargo, también es posible que elnúmero total de clusters (t) no sea igual alnúmero de clusters a incluir en el cuaderni-llo (k). La Tabla 5 muestra una variación deldiseño anterior. En este caso, cada cuaderni-llo contiene dos clusters o unidades de eva-luación en vez de los tres originales. Conello, el tiempo de aplicación se reduce de 60a 40 minutos. El diseño mantiene su equili-brio reduciendo el tamaño del bloque o cua-dernillo (ahora k = 2 y no como antes dondek = 3), el número de repeticiones de trata-miento o cluster de ítems por cuadernillo (r= 4 y no r = 6) y la frecuencia con que dostratamientos o clusters se emparejan a lo lar-go de la colección de cuadernillos (λ = 2 yno λ = 6). Nótese sin embargo, que este nue-vo diseño los estudiantes ya no respondentodos a los mismos ítems. Por ejemplo, losestudiantes que respondan a los cuadernillosdel 1 al 4 tendrán la ocasión de responder alos ítems del cluster A. Sin embargo, los es-tudiantes de los cuadernillos 5 y 6 no res-ponderán a estos ítems. Con ello ya se avan-zan ideas que serán tratadas más adelante enel apartado dedicado a los diseños de Blo-ques Incompletos Balanceados.

Si bien la construcción de los DPC es sim-ple, estos arreglos tienen una indudable caren-cia: sólo son posibles cuando se trabaja con unnúmero pequeño de unidades o clusters deítems, ya que de otra manera se vuelven irrea-lizables por el número de cuadernillos necesa-rios para dar cabida a las demandas del diseño.Sirva como ejemplo el estudio TIMSS 2007,el cual presenta un diseño de bloques incom-pletos parcialmente balanceados que se verámás adelante. En TIMSS 2007 se construye-ron 28 clusters de ítems, que fueron distribui-dos de 4 en 4 a lo largo de 14 modelos de cua-dernillos (Ruddock, O’Sullivan, Arora, y Er-berber, 2008). Si TIMSS, en vez del diseñoempleado, hubiese pretendido cubrir las posi-bles combinaciones de 28 clusters tomados de4 en 4 hubiese necesitado 20475 modelos decuadernillo diferentes. Y si además hubiesequerido controlar el orden de presentación delos 4 clusters en cada cuadernillo, entonces hu-biera necesitado ¡491400 modelos de cuader-nillo diferentes!

Diseños cuando el número de ítems aevaluar supera el tiempo de evaluación

disponible: diseño de bloques incompletos

Los dos primeros diseños mostradoshasta ahora son diseños de bloques comple-tos ya que cada modelo de cuadernillo, obloque en términos experimentales, contie-ne todos los clusters de ítems disponibles, esdecir, todos los tratamientos. Sin embargo,ocurre con mucha frecuencia que la evalua-ción incluye muchos más ítems de los quepuede responder un estudiante en una sesiónde evaluación. En otras palabras: cada cua-dernillo sólo contiene una parte de los clus-

17

Tabla 5. Ejemplo de Diseño de Permutación Completa (Bloques Incompletos Balanceados)

Nombre del cluster Número de cuadernillo1 2 3 4 5 6

A 1 1 2 2B 2 1 1 2C 2 1 2 1

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 3; b = 6; k = 2; r = 4; λ = 2

Page 16: Diseño de cuadernillos para la evaluación de las Competencias

ters de ítems. Cuando ocurre esto se está an-te un diseño bloques incompletos, en loscuales se impone la siguiente condición t >k. En este caso, la necesidad de organizar loscuadernillos de un modo eficiente es muchomás perentoria ya que, aunque los estudian-tes individualmente tomados respondan auna pequeña parte de la evaluación total, losresultados deben poder generalizarse a lacolección completa de ítems.

En diseño experimental hay muchas po-sibilidades de organizar un diseño de blo-ques incompletos. Seguramente el criteriomás empleado es el que distingue los dise-ños en función de la precisión de las compa-raciones entre cada par de tratamientos, ha-biendo entonces diseños de bloques balan-ceados o parcialmente balanceados. No es laúnica clasificación. También se pueden or-denar en función del arreglo u organizaciónde los tratamientos dentro del diseño, ha-biendo entonces diseños de bloques incom-pletos al azar, cuadrados latinos y latices. Eneste apartado se presentarán distintos dise-ños que están siendo empleados para la eva-luación de competencias académicas.

Diseños de Bloques IncompletosBalanceados (DBIB)

La evaluación del sistema educativonorteamericano, NAEP, lleva empleando di-seños matriciales desde sus inicios en el año1969. Durante los tres primeros lustros el di-seño se limitaba a la construcción de unasuerte de formas paralelas de tests: la colec-ción de ítems se dividía en diferentes cua-dernillos (packages), los cuales ocupaban45 minutos de evaluación. En función delárea evaluada se editaban entre 5 y 8 packa-ges, lo que suponía que responder a la colec-ción de ítems ocupaba entre 225 y 360 mi-nutos. En el momento de la administraciónde la prueba cada estudiante contestaba a uncuadernillo. Esto hacía que el diseño matri-cial de los packages fuera bastante eficiente:cada estudiante respondía entre el 20 y el12.5% del total de ítems. Sin embargo, lasrespuestas de toda la muestra permitían esti-mar la proporción de la población que resol-

vería acertadamente la colección completade ítems. Desafortunadamente este diseñopresentaba claras deficiencias: los cuaderni-llos no disponían de preguntas comunes porlo que era imposible comparar los resultadosde dos estudiantes que hubiesen respondidoa cuadernillos diferentes. Incluso era impo-sible comparar el resultado de los grupos-aula ya que, por las condiciones de adminis-tración de los tests, cada grupo-aula respon-día al mismo cuadernillo de evaluación.

NAEP implementó el diseño de packa-ges hasta mediados de los años ochenta, mo-mento en que fue modificado completamen-te. El trabajo donde se anuncia la nueva or-ganización de los cuadernillos de evaluacióntiene un subtítulo clarificador: “un nuevo di-seño para una nueva era” (Messick, Beaton,y Lord, 1983). Y, ciertamente, el trabajo in-augura una nueva etapa en el campo de laevaluación educativa ya que presenta dosnovedades importantes, que no por casuali-dad aparecen juntas: el empleo de los mode-los matemáticos derivados de la TRI paraestimar los resultados, y la construcción delos cuadernillos de evaluación mediante laaplicación de los Diseños de Bloques In-completos Balanceados (DBIB). Desde en-tonces NAEP emplea DBIB para evaluar di-ferentes áreas curriculares como la com-prensión lectora (Beaton, 1987), matemáti-cas (Lazer, 1999) o educación cívica (Weissy Schoeps, 2001).

Todo DBIB presenta cuatro condiciones:

— Cualquier tratamiento o cluster (t)debe aparecer al menos en un blo-que o cuadernillo (b).

— Todos los bloques o cuadernillos sonde igual longitud (k), siendo t > k.

— Cada tratamiento o cluster de ítemstendrá igual número de repeticiones(r).

— Cada par de tratamientos o clustersaparecen conjuntamente igual nú-mero de veces (λ) a lo largo de losbloques.

Las proporciones que se acaban de men-cionar hacen que los DBIB sean los arreglos

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ18

Page 17: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

experimentales más equilibrados y eficien-tes estadísticamente de cuantos se empleanen las evaluaciones educativas con grandesmuestras. Por todo ello su empleo es alta-mente recomendable siempre que sean via-bles y lo permitan los condicionantes de laevaluación.

Pero, pese a su indudable robustez, nosiempre es posible organizar los cuaderni-llos de acuerdo a las pautas de un DBIB. Dehecho, los diseños del programa NAEP quese acaban de citar se antojan imposibles dereplicar por las administraciones educativasespañolas, ya que exigen la construcción deun enorme número de cuadernillos. Porejemplo, el primer diseño de comprensiónlectora de NAEP contenía 19 clusters deítems que se replicaban 9 veces, y cada cua-dernillo contenía 3 clusters. Para distribuirlos clusters según un DBIB fue necesarioconstruir 57 modelos de cuadernillo diferen-tes (Beaton, 1987). Tal número de cuaderni-llos sólo está al alcance de un programa co-mo el norteamericano que maneja tamañosmuestrales por encima del cuarto de millónde escolares.

No obstante existen DBIB que, por pro-porciones y tamaño, pueden ser perfecta-mente aplicables por las administracioneseducativas en España, incluso por las máspequeñas. Para ilustrar esta afirmación sepresenta a continuación un ejemplo ficticio,aunque viable, extraído de Messick, Beaton,y Lord (1983). Supóngase que se dispone deuna muestra de 100 ítems de matemáticasorganizados en 5 clusters de 20 ítems. Cadacluster de ítems tiene una duración de 25

minutos, lo que significa que la evaluacióncompleta ocupa más de dos horas. No obs-tante el tiempo de evaluación disponible esde 50 minutos por lo que cada estudianteresponderá a 2 de los 5 clusters. Esto permi-te lograr una evaluación viable y eficiente.Viable, porque cada estudiante responderádentro del tiempo de evaluación disponible;y eficiente porque, si bien cada estudiantesólo responde al 40% de la colección deítems, al final se dispondrá de parámetrospoblacionales para la colección completa.La representación gráfica del diseño puedeverse en la Tabla 6.

A continuación se detallan las caracte-rísticas del diseño:

— Es un diseño incompleto ya quecumple la siguiente condición: t = 5> k = 2. En este caso cada cuaderni-llo sólo incluye dos quintas partesde los ítems.

— Todos los cuadernillos contienen elmismo número de clusters de ítems(k = 2).

— Cada cluster aparece o se replica enigual número de cuadernillos (r = 4).

— Se verifica la siguiente igualdad: b·k= t·r, propia de cualquier DBIB. Esdecir, el producto del número blo-ques por el tamaño del bloque esigual al producto del número de tra-tamientos por sus replicaciones. Portanto, conocidos tres parámetros deldiseño (t = 5, k = 2 y r = 4), el nú-mero de cuadernillos necesarios pa-ra un DBIB se calcula despejando

19

Tabla 6. Ejemplo de Diseño de Bloques Incompletos Balanceados

Nombre del cluster Número de cuadernillo1 2 3 4 5 6 7 8 9 10

A 1 2 1 2B 2 1 1 2C 2 1 2 1D 2 1 2 1E 2 1 2 1

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 5; b = 10; k = 2; r = 4; λ = 1

Page 18: Diseño de cuadernillos para la evaluación de las Competencias

esta ecuación: b = (tr) / k. En estecaso, b = 10.

— El diseño está arreglado para contro-lar el efecto de posición de los clus-ters dentro de los cuadernillos. En es-te ejemplo cada cluster ocupa la pri-mera posición en dos cuadernillos yla segunda posición en otros dos.

— El diseño presenta un balanceo com-pleto. Cualquier cluster a lo largo desus cuatro apariciones se emparejauna única vez con el resto de losclusters, es decir, λ = 1. La Tabla 7muestra estas coincidencias entrepares de clusters a lo largo de loscuadernillos. Por ejemplo, los clus-ters A y B aparecen conjuntamenteen el cuaderno 1, los clusters B y Clo hacen en el cuaderno 2 y así suce-sivamente.

En suma, los DBIB tienen una serie depropiedades estadísticas y unas relacionesentre sus parámetros que los hacen especial-mente recomendables. Además existenDBIB que pueden aplicarse en estudios conmuestras pequeñas o muy pequeñas. Coch-ran y Cox (1974) compilan una relación ex-haustiva de diseños organizados en bloquesincompletos al azar que serían aplicables acualquier evaluación de diagnóstico educati-vo a partir de 4 modelos de cuadernillo dis-tintos.

Diseños de Cuadrados Latinos Incompletos Balanceados

Ya se apuntó en los DTR que el cuadra-do latino ordinario es un arreglo que tiene

dos características básicas. En primer lugar,cumple la siguiente igualdad: t = b = k = r.Además, las repeticiones de los tratamientos(clusters de ítems) se agrupan tanto por filascomo por columnas de tal modo que cada fi-la (cuadernillo) y cada columna (orden delos clusters) son repeticiones completas. Es-te agrupamiento doble permite neutralizarlas diferencias entre filas (cuadernillos) yentre columnas (posición de los clusters deítems dentro del cuadernillo).

Sin embargo, esta organización se tornaproblemática cuando se manejan muchosclusters, ya que el número de repeticionesexigidas hace impracticable el diseño. Porello, los cuadrados latinos ordinarios sólo seemplean cuando la colección de ítems es pe-queña o equivalente al tiempo total de unasesión de evaluación, cuestión también ad-vertida al tratar los DTR.

Ahora bien, existe una solución para elconstructor de tests que, disponiendo de unnúmero elevado de clusters de ítems, noquiere perder las ventajas del doble controlque supone el cuadrado latino ordinario. Es-ta solución se denomina Cuadro Latino In-completo Balanceado (CLIB). En realidad,el CLIB es una clase especial dentro de losDBIB y, por tanto, comparte con éstos lascuatro condiciones vistas en el apartado an-terior. Además, como se trata de un diseñoincompleto, el CLIB relaja la condición deigualdad de tratamientos y replicacionespropia del cuadrado latino ordinario. Portanto, en los diseños CLIB: t ≠ r.

En principio, construir un CLIB es bas-tante sencillo, ya que se trata de omitir ciertascolumnas (repeticiones) de un cuadrado lati-no ordinario permitiendo mantener el diseño

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ20

Tabla 7. Número del cuadernillo en el que aparecen conjuntamente dos clústers de ítems en un DBIB

Nombre de los Clusters A B C D E

A *B 1 *C 6 2 *D 9 7 3 *E 5 10 8 4 *

* No aplica: un clúster no puede aparecer dos veces en el mismo cuadernillo

Page 19: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

balanceado. Por ejemplo, si se cuenta con unacolección de entre 4 y 11 clusters arregladossegún un cuadrado latino bastaría con omitirla última columna, es decir, la última replica-ción del cluster de ítems para disponer de unCLIB (Cochran y Cox, 1974). Sin embargo,esta estrategia sigue siendo insuficiente si elconstructor del tests cuenta con un númeroelevado de clusters de ítems. Supóngase quese pretende evaluar la competencia científicacon una colección de 11 clusters de ítems de10 minutos cada uno y se dispone para ello deuna sesión ordinaria de 60 minutos. Elimi-nando la última columna del cuadrado latinolos cuadernillos constarían de 10 clusters de10 minutos, lo que excedería el tiempo de deevaluación disponible.

Por suerte, existen arreglos de cuadra-dos latinos ordinarios que permiten eliminarmás de una repetición y que, manteniendo eldoble control característico del cuadrado la-tino incompleto, hacen posible la aplicaciónal diseño de cuadernillos de evaluación. Si-guiendo con el ejemplo anterior es posibleconstruir un CLIB donde los 11 clusters deítems se repitan sólo 5 ó 6 veces a lo largode la colección de cuadernillos, haciendoentonces viable el diseño.

Esta clase especial de CLIB que se vie-nen mencionando y que ha hecho posible laaplicación de cuadrados latinos incompletosal diseño de cuadernillos en las evaluacionesde competencias escolares recibe el nombrede Diseño Youden (DY). El DY respeta to-das las condiciones de los DBIB y de losCLIB, pero añaden una restricción adicio-nal: cada tratamiento o cluster de ítems debeaparecer en cada posición del bloque o cua-dernillo con igual frecuencia. Esto determi-na bastante las relaciones entre los paráme-tros del diseño ya que obliga a establecerdos condiciones adicionales en el plan deconstrucción de cuadernillos:

— Debe haber tantos cuadernillos(bloques) como clusters de ítems(tratamientos), es decir, se imponeque: t = b.

— El número de veces que un clusterde ítems aparece a lo largo de la co-

lección de cuadernillos debe serigual al número de clusters de ítemsincluidos en los cuadernillos, es de-cir: r = k.

Estas restricciones hacen que las posibi-lidades de encontrar un DY no sean muchas.Siguiendo a Cochran y Cox (1974) apenasexisten una veintena de DY para evaluacio-nes que manejen entre 7 y 91 clusters deítems. Sin embargo, cuando son posibles, lasolución que plantean es elegante, equilibra-da y estadísticamente muy eficiente.

En realidad los DY se han empleado concierta frecuencia en las evaluaciones dediagnóstico: NAEP ha construido algunosde sus cuadernillos de acuerdo a este arre-glo. Sin embargo, considerando las circuns-tancias de las evaluaciones de diagnósticoen España la propuesta de DY que mejorpuede replicada es la que implementa PISA.PISA propuso, por primera vez, un DY en susegunda edición de 2003, y desde entoncesel modo de organizar los ítems dentro de loscuadernillos de evaluación permanece inva-riante (OECD, 2005, 2009).

Para mostrar cómo la arquitectura de loscuadernillos de la evaluación PISA se ajustaal DY se recrea el diseño de la evaluacióndel 2006. En dicha edición PISA desarrollóuna colección de 218 ítems (139 de ciencias,48 de matemáticas y 31 de comprensión lec-tora). Estos ítems se agruparon en 76 unida-des de tamaño variable: 37 de ciencias, 31de matemáticas y 8 de comprensión lectora.Por último, las unidades fueron anidadas a13 clusters de ítems: 7 de ciencias, 4 de ma-temáticas y 2 de comprensión lectora. Cadacluster ocupaba unos 30 minutos de evalua-ción, por lo que la colección completa deítems de PISA 2006 equivalía a 6 horas ymedia de evaluación. Para hacer viable laadministración del test el cuadernillo deevaluación sólo contenía 4 de los 13 clustersy, por tanto, se respondía en 2 horas. Es de-cir, cada estudiante respondía a algo menosde un tercio de la colección completa deítems (OECD, 2009). La tabla 8 muestra ladistribución de los 13 clusters de ítems a lolargo de los 13 cuadernillos de evaluación.

21

Page 20: Diseño de cuadernillos para la evaluación de las Competencias

En la tabla se puede observar cómo ladistribución de los clusters cumple todas lascondiciones impuestas, tanto para los DBIBen general como las restricciones propiasdel DY:

— Es un DBIB porque t > k, y tambiénun DY ya que: t = b y k = r. Ya que:t = b = 13, se cumple que hay tantoscuadernillos como clusters deítems. Y también: k = r = 4, es decir,la longitud de los cuadernillos esigual al número de replicaciones decada cluster en la colección de cua-dernillos.

— Control del efecto de posición. Enlas cuatro replicaciones cada clusteraparece en las cuatro posiciones po-sibles del cuadernillo. Por ejemplo,el cluster S1 está al inicio del cua-derno 1; es el segundo en el cuader-no 9; el tercero en el 12; y el cuartoen el 10.

— Balanceo completo. Cualquier clus-ter se emparejará una única vez conel resto de los cluster a lo largo desus cuatro replicaciones. Así el clus-

ter S1 aparece conjuntamente conlos clusters S2, S4 y S7 en el cuader-no 1 y no vuelve a coincidir con es-tos tres clusters en otro cuadernillo.Lo mismo ocurre entre el cluster S1y los clusters S3, M2 y R2, que apa-recen conjuntamente en el cuaderno9. Es resto de los emparejamientosse pueden verificar en la tabla 8.

Tal y como está presentado en la Tabla 8puede ser difícil percibir que el diseño PISAno es más que un cuadrado latino 13 x 13 delque sólo se toman las cuatro primeras repe-ticiones.

Para mostrar con mayor calidad esta ca-racterística la Tabla 9 organiza los clustersde ítems cómo se presentarían en un cuadra-do latino incompleto: los bloques (cuaderni-llos) en las filas, las repeticiones en las co-lumnas, y los clusters de ítems en las cedas.De esta forma es fácil comprobar cómo eldiseño PISA es un cuadrado latino ordinariodel que sólo se han tomado las cuatro prime-ras replicaciones.

El diseño de PISA no se reproduce sólopor su equilibrio, elegancia y posibilidades

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ22

Tabla 8. Diseño de cuadernillos en las evaluaciones PISA 2003, PISA 2006 y PISA 2009

Tipo de Nombre Número de cuadernilloCluster del Cluster

1 2 3 4 5 6 7 8 9 10 11 12 13

Ciencias S1 1 2 4 3S2 2 1 3 4S3 2 1 4 3S4 3 2 1 4S5 3 1 2 4S6 2 1 4 3S7 4 3 1 2

Matemáticas M1 4 1 2 3M2 4 3 2 1M3 3 2 1 4M4 3 4 2 1

Lectura R1 4 3 2 1R2 2 4 3 1

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 13; b = 13; k = 4; r = 4; λ= 1

Page 21: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

de análisis estadístico, otra razón que justifi-ca esta recreación es la viabilidad del diseñopara cualquier administración educativa. Seestima que el diseño de PISA se puede im-plementar en evaluaciones que manejenmuestras a partir 6000-7000 estudiantes. Porejemplo, con una muestra de 6000 estudian-tes cada cuadernillo sería respondido por461 estudiantes de promedio. Y como cadaítem aparece en cuatro cuadernillos distintosserá respondido por unos 1850 estudiantes,número más que suficiente para calibrar yajustar los reactivos a los modelos derivadosde la TRI.

En todo caso cabe recordar que existenotros muchos diseños que permiten organi-zar los clusters de ítems como un cuadradolatino incompleto. De nuevo, Cochran yCox (1974) recogen una relación exhaustivade los planes disponibles para organizar es-te tipo de arreglo en colecciones de ítems deincluyan entre 3 y 91 clusters o unidades deevaluación.

Diseños de Bloques IncompletosParcialmente Balanceados

Hasta el momento se han visto diseñosbalanceados, es decir, arreglos donde cadapar de clusters de ítems aparecen juntos elmismo número de veces a lo largo de la co-

lección de cuadernillos. Esto hace que cadapar de clusters se compare con igual preci-sión y que, por tanto, los diseños balancea-dos presenten unas propiedades estadísticasque les hacen especialmente relevantes parasu implementación en pruebas de evalua-ción de rendimiento.

Sin embargo, hay situaciones prácticasque desaconsejan la elección de un DBIB.La primera emana de la propia condición debalanceo: la exigencia de que cualquiercluster empareje al resto con igual frecuen-cia hace que muchas veces (como ya se ad-virtió en la evaluación norteamericana) elnúmero de cuadernillos necesarios se dispa-re haciendo inviable la logística de la eva-luación. En segundo lugar, hay situacionesdonde ni siquiera es recomendable o posibleque un par de clusters determinados aparez-can juntos. Eso puede ocurrir, por ejemplo,ante la sospecha de efecto de interacción en-tre clusters de ítems. En este caso se estaríaante “clusters enemigos”, debido a que la in-formación que contiene uno de ellos sirvepara responder ítems en el otro.

Para situaciones como las anteriores sonmás efectivos los Diseños de Bloques In-completos Parcialmente Balanceados (DBI-PB). La diferencia fundamental entre losDBIB y DBI-PB es que los segundos relajanla condición de que el parámetro λ sea igual

23

Tabla 9. El Diseño de cuadernillos en PISA 2006 es un Cuadrado Latino Incompleto

Repeticiones:Orden de los clusters

1º 2º 3º 4º

1 S1 S2 S4 S72 S2 S3 M3 R13 S3 S4 M4 M14 S4 M3 S5 M2

Bloques 5 S5 S6 S7 S3(Número 6 S6 R2 R1 S4de cuadernillo) 7 S7 R1 M2 M4

8 M1 M2 S2 S69 M2 S1 S3 R210 M3 M4 S6 S111 M4 S5 R2 S212 R1 M1 S1 S513 R2 S7 M1 M3

Page 22: Diseño de cuadernillos para la evaluación de las Competencias

para todos los pares de clusters, es decir, enla ecuación λ = [r(k – 1)] / (t – 1), el resul-tado deja de ser un entero positivo. Si bienes cierto que en los DBI-PB cada par declusters no se compara con igual precisión,no lo es menos que esta estrategia permiterebajar el número de replicaciones por trata-miento y, en consecuencia, simplificar la lo-gística de la evaluación, al disminuir el nú-mero de cuadernillos o bloques necesariosen el diseño.

Para ilustrar el modo de construir unDBI-PB se vuelve sobre el ejemplo sobrecompetencia matemática presentado al tratarlos DBIB y recogido en la Tabla 6. Allí se vioque para lograr un DBIB con 5 clusters dis-tribuidos de 2 en 2 eran necesarias 4 repeti-ciones por cluster y 10 cuadernillos para em-parejar cada cluster con el resto. Es posibledisponer de un diseño que siga siendo efi-ciente pero que reduzca a la mitad el númerode cuadernillos. En este caso concreto, sepuede lograr el DBI-PB simplemente dismi-nuyendo las repeticiones de cada cluster de 4a 2. El nuevo diseño se presenta en la Tabla10. Si se comparan las tablas 6 y 10 se obser-va que en ambos casos los cinco primeroscuadernillos son exactamente iguales. Estoes así porque estos cinco cuadernillos contie-nen las dos primeras replicaciones de cadacluster de ítems en el diseño balanceado.

En concreto, el ejemplo de la Tabla 10muestra una clase particular de DBI-PB, querecibe el nombre de Bloques Encadenados oDiseño de Circuito Cerrado. Se trata de unarreglo que produce una estructura de consi-derable consistencia. Los cuadernillos van

enlazando los clusters sucesivamente entresí mediante ítems comunes, construyendoasí una cadena que se cierra en el últimocuadernillo cuando se enlazan el primer y elúltimo cluster. En el diseño se aprecia el ras-go distintivo de todo diseño parcialmentebalanceado: el parámetro λ presenta más deun valor (en este caso, λ1 = 1 y λ2 = 0). Es-tos dos valores indican que en este diseñoalgunos tratamientos o clusters de ítemsaparecen juntos en algún cuadernillo, mien-tras que otros no lo hacen. Por ejemplo, elcluster A aparece conjuntamente con el clus-ter B en el cuaderno 1 y con el cluster E enel cuaderno 5. Sin embargo, el cluster A noaparece conjuntamente con los clusters C yD. La Tabla 11 recoge las coincidencias en-tre pares de clusters del DBI-PB que se vie-ne mostrando.

Cuando, como en este caso, el paráme-tro λ toma dos valores se dice que el DBI-PB tiene dos factores asociados, aunquetambién es posible disponer de DBI-PB contres o más factores asociados, es decir, dise-ños donde λ toma tres o más valores.

Muchas evaluaciones han empleadoDBI-BP. De hecho, los diseños de Islas Ba-leares y Asturias mostrados en las tablas 1 y2 son DBI-PB. PISA también siguió este ti-po de diseño en su primera edición (Wu,2002) y NAEP lo lleva empleando tantotiempo como los diseños de bloques balan-ceados (Beaton, 1987).

Sin embargo, posiblemente sean las eva-luaciones TIMSS y PIRLS las que hayan ex-plotado con mayor profusión las posibilida-des de los DBI-PB. Así, TIMSS siempre ha

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ24

Tabla 10. Ejemplo de Diseño de Bloques Incompletos Parcialmente Balanceados

Cluster Número del cuadernillo 1 2 3 4 5

A 1 2B 2 1C 2 1D 2 1E 2 1

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 5; b = 5; k = 2; r = 2; λ1 = 1 y λ2 = 0

Page 23: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

utilizado 28 clusters de ítems, para lograr dosfinalidades: cubrir adecuadamente las especi-ficaciones de las áreas evaluadas y establecerestudios de tendencia. Se aprecia que a lo lar-go de sus sucesivas evaluaciones el diseñopara organizar los clusters ha ganado en si-metría y equilibrio. Así, en las dos primerasediciones (1995 y 1999) se utilizó un diseñode anclaje fijo de ítems, que era bastantecomplejo: utilizaba 14 modelos de cuaderni-llos e incluía hasta cinco pares de clusters enfunción del grado de asociación entre ellos(Adams y Gonzalez, 1996; Garden y Smith,2000). En la evaluación del 2003 el diseñoganó en simetría, abandonado el diseño deanclaje fijo de ítems y distribuyendo los clus-ters en 12 cuadernillos de un modo más com-pacto (Smith-Neidorf y Garden, 2004). Porúltimo, la organización de cuadernillos delaño 2007, que será idéntica en 2011, es lamás lograda y evolucionada. Se trata de undiseño de cadenas de bloques –similar en suarquitectura al mostrado en la tabla 10- yconstruido para albergar unos 400 ítems en14 cuadernillos de evaluación (Ruddock etal., 2008). La lectura conjunta de todas estasreferencias permite entender cómo los dise-ños de TIMSS van reservando clusters deítems de evaluación en evaluación para esta-blecer estudios de tendencias. Esta estrategiapermitirá que los sistemas educativos que ha-yan participado regularmente desde la prime-ra edición de TIMSS dispongan en el año2015 de tendencias de resultados que abarca-rán dos décadas.

Por su parte, los estudios PIRLS han im-plementado siempre un diseño DBI-PB ba-sado en el diseño de cadenas de ítems, aun-que con ligeras variaciones para cubrir la ta-

bla de especificaciones y establecer tenden-cias de rendimiento. Cualquier administra-ción que quiera evaluar la comprensión lec-tora encontrará los modelos para organizarsus cuadernillos y replicar el diseño dePIRLS en Campbell, Kelly, Mullis, Martin,y Sainsbury (2001), Kennedy y Sainsbury(2007), Mullis, Kennedy, Martin, y Sains-bury (2006), Mullis, Martin, Kennedy,Trong, y Sainsbury (2009) y Sainsbury yCampbell (2003).

Diseños en Látices Cuadrados Parcialmente Balanceados

La distribución de los ítems en los cua-dernillos de la evaluación de diagnósticoAsturias 2010 se ajusta a un Látice SimpleParcialmente Balanceado (LS-PB). Este di-seño pretende dar respuesta a las decisionestomadas por la Consejería de Educación, lascuales transcendían el ámbito técnico. Enprimer lugar, se decidió que en dicho año seevaluarían dos competencias: matemática yconocimiento e interacción con el mundo fí-sico. Ahora bien, para simplificar la logísti-ca de la prueba, así como las tareas de co-rrección y grabación de datos se determinóque cada estudiante sólo respondería a uncuadernillo. Por tanto, las dos competenciasdebían convivir en un único diseño de cua-dernillos. Por otro lado, la evaluación debe-ría cubrir ampliamente las especificacionesde contenido de las dos competencias, plan-teándose desde el principio trabajar conunos 200 ítems en total. Sin embargo, eltiempo de evaluación por estudiante no po-dría superar los 120 minutos, es decir, dossesiones de 60 minutos partidas por un des-

25

Tabla 11. Número del cuadernillo en el que aparecen conjuntamente dos clusters de ítems en un DBI-PB

Nombre de los Clusters A B C D E

A *B 1 *C - 2 *D - - 3 *E 5 - - 4 *

* No aplica: un cluster no puede aparecer dos veces en el mismo cuadernillo

Page 24: Diseño de cuadernillos para la evaluación de las Competencias

canso. Esto significa que la colección com-pleta de ítems era muy superior al númerode preguntas que cada estudiante podría res-ponder en el tiempo asignado a la evalua-ción. Finalmente se pretendía que el nuevodiseño mejorara el diseño de anclaje fijoempleado hasta entonces, y que fuese origi-nal, equilibrado y con vocación de estabili-dad en el tiempo, para permitir, llegado elcaso, establecer tendencias de rendimiento.

A partir de estos condicionantes la pro-puesta técnica fue construir los cuadernillosde evaluación basándose en un diseño enLátice Cuadrado, que es uno de los principa-les arreglos dentro los DBIB. A continua-ción se describen las características genera-les de los diseños de látices cuadrados y sefinalizará presentando el diseño concretoempleado en la evaluación Asturias 2010.

Como es bien sabido, un diseño arregla-do en látice tiene dos características distinti-vas: a) El número de tratamientos o clustersde ítems (t) debe ser un cuadrado exacto.Por tanto, en el látice el parámetro t sólopuede tomar valores como 4, 9, 16,..; y b) Eltamaño del bloque, es decir, el número declusters por cuadernillo (k), es la raíz cua-drada del número de tratamientos, en tododiseño látice se cumple la siguiente igual-dad: t = k2. Esta doble condición hace quelos otros dos parámetros del diseño, repeti-ciones (r) y número de bloques (b), quedenrígidamente determinados. La Tabla 12 re-coge los cuatro parámetros de los primeroslátices posibles, siendo en todos ellos λ =1.

En la Tabla 12 se observa que ya a par-tir del tercer látice (t = 16) el número de cua-dernillos necesarios para disponer de un di-seño balanceado se aumenta de tal formaque compromete a viabilidad de la evalua-ción. Como ocurre con cualquier diseño ba-lanceado, los látices que manejan muchos

tratamientos exigen un número de bloquestan elevado que suponen un grave inconve-niente para la construcción de los cuaderni-llos. Para soslayar este problema cabe la po-sibilidad de trabajar con látices parcialmen-te balanceados. Para ello es suficiente contomar menos repeticiones de las pautadas enel diseño completamente balanceado. Así, ellátice simple parcialmente balanceado tomalas dos primeras repeticiones del látice ba-lanceado elegido; el látice triple, se logra to-mando las tres primeras repeticiones; el lati-ce de cuatro repeticiones se obtiene, bienpor duplicación del látice simple o bien porel uso de un látice cuádruple, es decir, to-mando las cuatro primeras replicaciones dellátice elegido. Cochran y Cox (1974) ofre-cen las indicaciones para organizar láticesparcialmente balanceados de hasta doce re-peticiones.

A continuación se recrean los númerosde la evaluación Asturias 2010 y el diseñoelegido. Asturias 2010 contaba con 192ítems, la mitad para la competencia matemá-tica y la otra mitad para evaluar el conoci-miento e interacción con el mundo físico. Lacolección total se organizó en 33 unidadesque contenían entre 3 y 8 ítems de ambascompetencias. Finalmente las unidades seagruparon en 16 clusters de ítems que conte-nían 2 o 3 unidades. Cada cluster equivalía a30 minutos de evaluación, por lo que la co-lección total de ítems suponía unas 8 horasde evaluación total. Como el tiempo de eva-luación era de 2 horas eso suponía que cadaestudiante debería responder a 4 de los 16clusters, es decir, al 25% del total de la co-lección.

Con estos guarismos, el látice balancea-do de 16 tratamientos era la solución másadecuada. Sin embargo, elaborar 20 mode-los de cuadernillo, tal y como exige este di-

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ26

Tabla 12. Parámetros t, k, r y b en los diseños Látices Balanceados

Tratamientos o número de clusters (t) 9 16 25 49 64 81Tamaño del bloque o clusters por cuadernillo (k) 3 4 5 7 8 9Replicaciones o veces que aparece el clúster en los cuadernillos (r) 4 5 6 8 9 10Número de bloques o número de cuadernillos (b) 12 20 30 56 72 90

Page 25: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

seño hacía demasiado compleja la logísticade la prueba. Por ello, se decidió trabajar unlátice parcialmente balanceado, tomando só-lo las dos primeras repeticiones del látice de16 tratamientos y reduciendo el número decuadernillos de 20 a 8. El diseño en cuestiónse presenta en la Tabla 13.

A continuación se detallan las cuatro ca-racterísticas básicas del diseño:

En primer lugar es un diseño incomple-to. Se observa que los 16 clusters se distri-buyen a lo largo de 8 modelos de cuaderni-llo con las siguientes condiciones: cadacluster se replicará 2 veces a lo largo de lacolección de cuadernillos, los cuales a suvez contienen, como ya se ha mencionado, 4clusters cada uno.

También se puede apreciar cómo el dise-ño controla el efecto de posición de losítems. Si bien cada cluster se replica sólodos veces, su posición está equilibrada a lolargo de los cuadernillos. Así los clustersque están en el inicio de un cuadernillo apa-recen al final de otro y viceversa. Por ejem-plo, el cluster A ocupa la primera posiciónen el cuaderno 1 y la cuarta en el cuaderno5. De igual modo, los clusters que ocupan lasegunda posición en un cuadernillo ocupan

la tercera en la segunda aparición. Por ejem-plo, el cluster B es segundo en el cuaderno 1y tercero en el cuaderno 6.

El tercer rasgo es balanceo parcial. En eldiseño el parámetro λ presenta dos valores(0 y 1), es decir, es un diseño con dos clasesde clusters asociados. Cualquier cluster esprimer asociado (es decir, comparte cuader-nillo) con otros 6 clusters y es segundo aso-ciado (no comparte cuadernillo) con otros 9clusters. Por ejemplo, el cluster A aparececonjuntamente con los clusters: B, C y D enel cuadernillo 1 y con E, I y M en el 5. Paratodos estos pares λ1 = 1. Por otro lado, elcluster A no comparte cuadernillo con el res-to de los 9 clusters. Para estos segundos aso-ciados del cluster A λ2 = 0.

A continuación se profundiza en la es-tructura parcialmente balanceada. Para man-tener la simetría y posibilidades estadísticasdel diseño las asociaciones entre los clustersdeben estar bien equilibradas. Considérensedos clusters que sean primeros asociados,por ejemplo, A y B. En el caso del cluster Alos primeros asociados –además de B- sonlos cluster C, D, E, I y M, siendo el resto se-gundos asociados. Por su parte los primerosasociados del cluster B son –además de A-

27

Tabla 13. Diseño de cuadernillos en la evaluación Asturias 2010

Nombre Número de cuadernillodel clúster 1 2 3 4 5 6 7 8

A 1 4B 2 3C 3 2D 4 1E 3 2F 4 1G 1 4H 2 3I 4 1J 3 2K 2 3L 1 4M 2 3N 1 4O 4 1P 3 2

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 16; b = 8; k = 4; r = 2; λ1 = 0 y λ2 = 1

Page 26: Diseño de cuadernillos para la evaluación de las Competencias

los clusters C, D, F, J, y N, siendo el resto delos clusters segundos asociados. Si estas re-laciones se representan en una tabla bivaria-da se obtiene el resultado que aparece en laTabla 14.

Como se puede ver, para cada par declusters que ocurren juntos (por ejemplo, Ay B):

• Hay otros dos clusters que son pri-meros asociados de ambos (en estecaso C y D).

• Hay otros 6 clusters que son prime-ros asociados de un cluster y segun-dos asociados del otro. Por ejemplo,E, I y M son primeros asociados deA y segundos asociados de B. La si-

tuación inversa ocurre con los clus-ters F, J y N.

• Finalmente, hay otros seis clusterscon los que A y B no tienen ningunarelación a lo largo de la colección decuadernillos. Son pues segundosasociados de A y B.

Por tanto, en este diseño se cumple la si-guiente condición: dados dos clusters queson primeros asociados, la relación quemantienen con el resto de los clusters es lade la tabla 15.

Este equilibrio también se mantienecuando se comparan las relaciones entre dosclusters que son segundos asociados (porejemplo A y F). En este caso la tabla bivaria-

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ28

Tabla 14. Relaciones de los Cluster A y B (primeros asociados) con el resto

Relación del cluster A con el resto1º Asociado 2º Asociado

Relación del cluster B con el resto 1º Asociado C, D F, J, N2º Asociado E, I, M G, H, K, L, O, P

Tabla 15. Distribución del número de emparejamientos de dos clusters que son primeros asociados

Relación del cluster A con el resto1º Asociado 2º Asociado

Relación del cluster B con el resto 1º Asociado 2 32º Asociado 3 6

Tabla 16. Relaciones de los Cluster A y F (segundos asociados) con el resto

Relación del cluster A con el resto1º Asociado 2º Asociado

Relación del cluster F con el resto 1º Asociado B, E G, H, J, N2º Asociado C, D, I, M K, L, O, P

Tabla 17. Distribución del número de emparejamientos de dos clusters que son segundos asociados

Relación del cluster A con el resto1º Asociado 2º Asociado

Relación del cluster F con el resto 1º Asociado 2 42º Asociado 4 4

Page 27: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

da que representa las relaciones entre ambosclusters con el resto aparece en la Tabla 16.

Por tanto, en el diseño ahora expuesto larelación que mantienen dos clusters que sonsegundos asociados con el resto de los clus-ters se ajusta a la distribución de la Tabla 17.

En definitiva, el diseño presenta unabuena simetría, que está pensada para con-trolar los efectos de posición de los ítems ylograr estimaciones de error de los paráme-tros de los ítems similares.

La cuarta característica del diseño es sucapacidad para incorporar de modo sencilloítems nuevos y combinarlos con ítems deanclaje aplicados previamente. El diseño es-tá pensado para facilitar el establecimientode tendencias de rendimiento a lo largo deltiempo. A continuación se muestra un ejem-plo de cómo es posible mantener el diseñoconstante en diferentes ediciones de la eva-luación al tiempo que se introducen nuevosclusters de ítems que son combinados conclusters ya aplicados sin alterar las tres ca-racterísticas apuntadas previamente.

Supóngase que en una segunda ediciónde la evaluación de diagnóstico se emplea eldiseño de la Tabla 13 y se decide que los

ítems de anclaje temporal entre las dos eva-luaciones serán los contenidos en los clus-ters del A al H. Por tanto, para la segundaevaluación no serán necesarios más que 8clusters nuevos –numerados desde N1 a N8.En la Tabla 18 se muestra la propuesta de di-seño para el anclaje temporal.

Este segundo diseño cumple con las si-guientes condiciones:

— Cada cuadernillo contiene dos clus-ters nuevos o de reposición y dosclusters ya empleados o de anclaje.

— Los clusters de anclaje mantienensus posiciones dentro de los cuader-nillos. Así, los clusters A, D, F y Gsiguen estando al principio y al finalde sus cuadernillos. De igual modoB, C, E y H ocupan los lugares se-gundo y tercero en sus respectivoscuadernillos.

— A cada cluster de anclaje le corres-ponden otros 6 clusters que son pri-meros asociados. Pues bien, en el di-seño se cumple que 2 de estos 6 pri-meros asociados son siempre clus-ters de anclaje y 4 son clusters nue-

29

Tabla 18. Diseño de anclaje temporal sobre la base de un LS-PB de 16 tratamientos

Nombre Número de cuadernillodel cluster 1 2 3 4 5 6 7 8

A 1 4E 2 3N1 3 2N2 4 1N3 3 2N4 4 1F 1 4B 2 3G 4 1C 3 2N5 2 3N6 1 4N7 2 3N8 1 4D 4 1H 3 2

1 Posición del clúster en el cuaderno.Parámetros del diseño: t = 16; b = 8; k = 4; r = 2; λ1 = 0 y λ2 = 1

Page 28: Diseño de cuadernillos para la evaluación de las Competencias

vos. Por ejemplo, el cluster A se em-pareja con los clusters de anclaje Een el cuaderno 1 y con G en el cua-dernillo 5. Los otros 4 primeros aso-ciados de A son clusters nuevos: N1y N2 en el cuaderno 1, y N3 y N7 enel cuaderno 5. El resto de los empa-rejamientos se pueden verificar en latabla 14.

— Por su parte, de los 6 primeros aso-ciados que le corresponden a cual-quier cluster nuevo, 4 son clustersde anclaje y 2 clusters nuevos. Así elcluster N1 se empareja con A y E enel cuaderno 1 y con F y D en el cua-derno 7. Esta forma de distribuir losclusters nuevos y repetidos permiti-rá establecer comparaciones tempo-rales robustas al tiempo que el dise-ño mantiene un equilibrio y simetríasuficientes para hacer un buen análi-sis estadístico.

En suma, el diseño LD-PB que se acabade presentar cumple con las siguientes con-diciones: permite incluir una colección am-plia de ítems, contiene más de una compe-tencia o área de evaluación en un único di-seño y está preparado para establecer ten-dencias de rendimiento.

Consideraciones finales

Se han presentado los principales dise-ños de cuadernillos que pueden ser emple-ados por las administraciones educativaspara realizar sus evaluaciones de diagnósti-co. Presentar un abanico amplio de arreglosse debe a que sobre el papel no hay ningu-no que sea superior al resto. Además, laelección del diseño suele estar condiciona-da por una serie de decisiones que, en mu-chas ocasiones, superan el plano meramen-te técnico. Por tanto, antes de elegir el dise-ño concreto el constructor del test deberásopesar las ventajas e inconvenientes de

cada diseño y el contexto de su evaluaciónconcreta.

Los diseños completos, es decir, aquellosque emplean pocos ítems (RTD y CPD) tie-nen indudables ventajas. En primer lugar, sondiseños sencillos de construir, además, comonecesitan un número pequeño de ítems las ta-reas relacionadas con el desarrollo de losítems, tales como escritura, revisión, pilota-jes, análisis de datos y desarrollo de las guíasde corrección, tienen un coste menor. Los di-seños donde todos los estudiantes respondena los mismos ítems presentan ventajas encuanto a la comparación de resultados y a ladivulgación de los mismos. El principal in-conveniente de los diseños con pocos ítemstiene que ver con la validez y fiabilidad de laspruebas. Una colección pequeña de ítems nosuele cubrir adecuadamente las especificacio-nes de la competencia a evaluar y por tanto,la prueba tiene bastante comprometida su va-lidez de contenido. Además, en la evaluaciónde las competencias académicas, como ocu-rre con cualquier otra variable, la estimaciónde las puntuaciones mejora al aumentar el nú-mero de ítems.

Las ventajas e inconvenientes de los di-seños que manejan muchos ítems son la otracara de la situación descrita más arriba.Cuando la colección de ítems es muy gran-de aumentan los costos de desarrollo y la lo-gística y administración de la prueba sevuelve más compleja. Por el contrario, unacolección amplia de ítems ofrece muchasmás garantías con respecto a la validez decontenido y permite establecer estimacionesmás fiables con respecto a la competenciaacadémica de la población estudiada.

En definitiva, las posibilidades de lasadministraciones educativas con respecto aldiseño de cuadernillos a emplear son muyamplias. Y la elección del arreglo concretodebe hacerse después de una valoración cui-dadosa de los condicionantes de la evalua-ción y las posibles fortalezas y debilidadesde cada diseño.

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ30

Page 29: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

Adams, R.J., y Gonzalez, E.J. (1996). The TIMSSTest Design. En M. O. Martin y D. L. Nelly(Eds.), Third International Mathematics andScience Study (TIMSS) Technical Report, Vo-lume I: Design and Development. ChestnutHill, MA: Boston College.

Arana, L. (2010). La importancia de la educaciónen la estrategia estatal de innovación. AulaAbierta, 38(2), 41-52.

Arnau, J. (1984). Diseños experimentales en psico-logía y educación. México: Trillas.

Ato, M., y Vallejo, G. (2007). Diseños experimen-tales en psicología. Madrid: Pirámide.

Beaton, A. (1987). Implementing the new design:The NAEP 1983-84 Technical Report. Prince-ton, NJ: National Assessment of EducationalProgress / Educational Testing Service.

Box, G.E., Hunter, J.S., y Hunter, W.G. (2005).Statistics for Experimenters: Design, Innova-tion, and Discovery (2nd Edition). HobokenNJ: Wiley.

Campbell, J. R., Kelly, D. L., Mullis, I. V. S., Mar-tin, M. O., y Sainsbury, M. (2001). Frameworkand specifications for PIRLS assessment 2001.Chestnut Hill, MA: Boston College.

Campbell, D.T., y Stanley, J.C. (1963). Experimen-tal and quasi-experimental designs for rese-arch. Boston: Houghton Mifflin.

Childs, R. A., y Jaciw, A. P. (2003). Matrix sam-pling of items in large-scale assessments.Practical Assessment, Research & Evaluation,8(16), http://pareonline.net/getvn.asp?v=8&n=16.

Cochran, W.G., y Cox, G.M. (1974). Diseños expe-rimentales. México: Trillas. (orig. 1957).

Comunidad de Madrid (2008). Evaluación de diag-nóstico, Lengua y Matemáticas, 4º de Educa-ción Primaria. Madrid: Viceconsejería de Or-ganización Educativa.

Comunidad de Madrid (2010a). Evaluación deDiagnóstico 4º Educación Primaria. Instruc-ciones de aplicación. Madrid: Dirección Ge-neral de la Mejora de la Calidad de la Ense-ñanza.

Comunidad de Madrid (2010b). Evaluación deDiagnóstico 2º ESO. Instrucciones de aplica-ción. Madrid: Dirección General de la Mejorade la Calidad de la Enseñanza.

Cook, T.D., y Campbell, D.T. (1979). Quasi-expe-rimentation: Design and analysis issues forthe field settings. Boston: Houghton Mifflin.

Fisher, R.A., y Yates, F. (1963). Statistical Tablesfor biological, agricultural and medical rese-arch (6ª ed.). Edimburgo: Oliver & Boyd.

Frey, A., Hartig, J., y Rupp, A.A. (2009). An NCMEinstructional Module on booklet designs in lar-ge-scale assessments of student achievement:Theory and practice. Educational Measure-ment: Issues and Practice, 28(3), 39-53.

Garden, R.J., y Smith, T.H. (2000). TIMSS TestDevelopment. En M.O. Martin, K.D. Gregory,y S.E. Stemler (Eds.), TIMSS 1999 TechnicalReport (pp. 49-67). Chestnut Hill, MA: Bos-ton College.

Generalitat de Catalunya (2009a). Provad’avaluació de sisè curs d’educació primària2009. Barcelona: Consell Superiord’Avaluació del Sistema Educatiu. Consultadoel 08/02/2010 en http://www20.gencat.cat/portal/site/Educacio.

Generalitat de Catalunya (2009b). Resultats del’avaluació de sisè d’educació primària 2009.Barcelona: Consell Superior d’Avaluació delSistema Educatiu. Barcelona: Consultado el08/02/2010 en http://www20.gencat.cat/ por-tal/site/Educacio.

Generalitat de Catalunya (2009c). L´avaluació desisè d´educació primària 2009. Avançamentde resultats, Quaderns d´avaluació, 15. Barce-lona: Consell Superior d’Avaluació del Siste-ma Educatiu. Consultado el 08/02/2010 enhttp://www20.gencat.cat/portal/site/Educacio.

Generalitat de Catalunya (2010). L´avaluació desisè d´educació primària 2010. Síntesi de re-sultats, Quaderns d´avaluació, 18. Barcelona:Consell Superior d’Avaluació del SistemaEducatiu. Consultado el 08/02/2010 enhttp://www20.gencat.cat/portal/site/Educacio.

Gobierno de Aragón (2008). La evaluación dediagnóstico. Comunidad Autónoma de Ara-gón. Curso 2008-2009. Zaragoza: Departa-mento de Educación, Cultura y Deporte.

Gobierno de Aragón (2010). Evaluación censal dediagnóstico en Aragón. 2009. Zaragoza: De-partamento de Educación, Cultura y Deporte.

Gobierno de Canarias (2009). La evaluación educa-tiva institucional: Plan de Evaluación Diag-nóstica de Canarias. Las Palmas de Gran Ca-naria: Instituto Canario de Evaluación y Cali-dad Educativa. Consultado el 08/02/2010 enhttp://www.gobiernodecanarias.org/educacion.

Gobierno de Cantabria (2010). Informe evaluaciónde diagnóstico 2008-2009. Cantabria, Santan-der: Consejería de Educación de Cantabria.

Gobierno de La Rioja (2009). Marco Teórico de laEvaluación Autonómica de Diagnóstico. LaRioja, Logroño: Servicio de Innovación Edu-cativa y Formación del Profesorado.

31

Referencias

Page 30: Diseño de cuadernillos para la evaluación de las Competencias

Gobierno de La Rioja (2010a). Informe de resulta-dos de la Evaluación autonómica de diagnós-tico. 4º Educación Primaria. Logroño: Servi-cio de Innovación Educativa y Formación delProfesorado.

Gobierno de La Rioja (2010b). Informe de resulta-dos de la Evaluación autonómica de diagnós-tico. 2º Educación Secundaria Obligatoria.Logroño: Servicio de Innovación Educativa yFormación del Profesorado.

Gobierno de Navarra (2008). Marco Teórico de laevaluación diagnóstica. Educación Primaria.Pamplona: Departamento de Educación - Ser-vicio de Inspección Educativa. Consultado el08/02/2010 en http://dpto.educacion.navarra.es/publicaciones/pdf/Marcoteorico1.pdf.

Gobierno de Navarra (2010). Evaluación Diagnós-tica 2009/10. Educación Primaria: informe fi-nal. Pamplona: Servicio de Inspección Educa-tiva – Sección de evaluación. Consultado el08/02/2010 en http://www.educacion.navarra.es/portal/digitalAssets/48/48632_EP_informe_final_2009_10.pdf.

Gobierno del Principado de Asturias (2007a). Eva-luación de diagnóstico Asturias 2006. Marcode la evaluación. Oviedo: Servicio de Evalua-ción, Calidad y Ordenación Académica.

Gobierno del Principado de Asturias (2007b). Eva-luación de diagnóstico Asturias 2006. Informede resultados: 4º Educación Primaria. Ovie-do: Servicio de Evaluación, Calidad y Ordena-ción Académica.

Gobierno del Principado de Asturias (2007c). Eva-luación de diagnóstico. Asturias 2006. Infor-me de resultados: 2º Educación SecundariaObligatoria. Oviedo: Servicio de Evaluación,Calidad y Ordenación Académica.

Gobierno del Principado de Asturias (2007d). Eva-luación de diagnóstico. Asturias 2007. Ovie-do: Servicio de Evaluación, Calidad y Ordena-ción Académica.

Gobierno del Principado de Asturias (2008). Eva-luación de diagnóstico. Asturias 2008. Ovie-do: Servicio de Evaluación, Calidad y Ordena-ción Académica.

Gobierno Vasco (2008a). Evaluación de diagnósti-co en la comunidad autónoma vasca: caracte-rísticas de las pruebas de rendimiento. Bilbao:Instituto Vasco de Evaluación e InvestigaciónEducativa. Consultado el 08/02/2010 enhttp://www.isei-ivei.net/

Gobierno Vasco (2009a). 20 preguntas básicas so-bre los informes de la evaluación diagnóstica.Bilbao: Instituto Vasco de Evaluación e Inves-tigación Educativa. Consultado el 08/02/2010en http://www.isei-ivei.net.

Gobierno Vasco (2009b). Evaluación Diagnósti-ca e-dossier. Bilbao: Instituto Vasco de Eva-luación e Investigación Educativa. Consul-tado el 08/02/2010 en http://www.isei-ivei.net.

Govern de les Illes Balears (2009). Avaluacions dediagnòstic 2009-2010. Aspectes generals del’Avaluació de Diagnòstic. Palma de Mallor-ca: Institut d’Avaluació i Qualitat del SistemaEducatiu. Consultado el 08/02/2010 enhttp://iaqse.caib.es.

Govern de les Illes Balears (2010). Avaluació dediagnòstic 2008-2009. Informe executiu. Pal-ma de Mallorca: Institut d’Avaluació i Qualitatdel Sistema Educatiu. Consultado el08/02/2010 en http://iaqse.caib.es/documents/informe_AADD_2008_2009.pdf.

Junta de Andalucía (2006). Evaluación de diagnós-tico. Informe preliminar avance de resultados.Curso 2006-2007. Sevilla: Consejería de Edu-cación.

Junta de Andalucía (2007a). Evaluación de diag-nóstico. Informe curso 2006-2007. Sevilla:Consejería de Educación.

Junta de Andalucía (2007b). Avance de la evalua-ción de diagnóstico. Curso 2007-2008. Sevi-lla: Consejería de Educación.

Junta de Andalucía (2008). El modelo de evalua-ción de diagnóstico en Andalucía. Sevilla:Consejería de Educación.

Junta de Andalucía (2009). Evaluación de diagnós-tico. Curso 2008-2009. Sevilla: Consejería deEducación.

Junta de Andalucía (2010). Evaluación de diagnós-tico. Curso 2009-2010. Avance. Sevilla: Agen-cia Andaluza de Evaluación Educativa.

Junta de Castilla y León (2009). Dossier informa-tivo: evaluación de diagnóstico. 4º de educa-ción primaria. Valladolid: Dirección Generalde Calidad, Innovación y Formación del Pro-fesorado Consultado el 08/02/2010 enhttp://www.educa.jcyl.es.

Junta de Comunidades de Castilla-La Mancha(2009). Evaluación de diagnóstico de las com-petencias básicas. Castilla La-Mancha 2009-2011. Marco Teórico. Toledo: Oficina de Eva-luación de la Consejería de Educación. Con-sultado el 08/02/2010 en http://www.educa.jccm.es/educa-jccm/cm.

Junta de Comunidades de Castilla-La Mancha(2010). Evaluación de diagnóstico censal deCastilla La-Mancha 2009-2011. PresentaciónFase 2010. Toledo: Oficina de Evaluación dela Consejería de Educación y Ciencia. Consul-tado el 23/11/2010 en http://www.educa.jccm.es/educa-jccm/cm.

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ32

Page 31: Diseño de cuadernillos para la evaluación de las Competencias

DISEÑO DE CUADERNILLOS PARA LA EVALUACIÓN DE LAS COMPETENCIAS BÁSICAS

Kennedy, A.M., y Sainsbury, M. (2007). Develo-ping the PIRLS 2006 Reading Assessment andScoring Guides. En M.O. Martin, I.V.S. Mu-llis, y A.M. Kennedy (Eds.), PIRLS 2006Technical Report (pp. 9-22). Chestnut Hill,MA: TIMSS & PIRLS International StudyCenter, Boston College.

Kirk, R.E. (1995). Experimental designs: Procedu-res for the behavioral sciences. Pacific Grove,CA: Brooks-Cole.

Lazer, S. (1999). Assessment instruments. En N.L.Allen, J. E. Carlson, y C.A. Zelenak (Eds.),The NAEP 1996 Technical Report (pp. 77-81).Washington, DC: U.S. Department of Educa-tion / National Center for Education Statistics.

Lord, F.M. (1955). Equating test scores: A maxi-mum likelihood solution. Psychometrika, 20,193-200.

Lord, F.M. (1962). Estimating norms by item-sam-pling. Educational and Psychological Measu-rement, 22, 259-267.

Martin, M.O., Mullis I.V.S., y Kennedy, A.M.(2007). PIRLS 2006 Technical Report. Ches-tnut Hill, MA: Boston College.

Messick, S., Beaton, A., y Lord, F.M. (1983). Na-tional Assessement of Educational Progressreconsidered: A new design for a new era.Princeton, NJ: Department of Education.

Ministerio de Educación (2009a). Evaluación Ge-neral de Diagnóstico 2009. Marco de la Eva-luación. Madrid: Instituto de Evaluación.

Ministerio de Educación (2009b). Evaluación deDiagnóstico Ceuta y Melilla 2009. Marco dela Evaluación. Madrid: Instituto de Evalua-ción.

Ministerio de Educación (2009c). Evaluación ge-neral del sistema educativo. Educación Pri-maria 2007. Madrid: Instituto de Evaluación.

Ministerio de Educación, Cultura y Deporte(2001). Evaluación de la Educación Primaria1999. Madrid: Instituto Nacional de Calidad yEvaluación.

Ministerio de Educación, Cultura y Deporte(2003). Evaluación de la Educación Secunda-ria Obligatoria 2000. Madrid: Instituto Nacio-nal de Evaluación y Calidad del Sistema Edu-cativo.

Ministerio de Educación y Ciencia (2005). Evalua-ción de la Educación Primaria 2003. Madrid:Instituto Nacional de Evaluación y Calidad delSistema Educativo.

Mullis, I.V.S., Kennedy, A.M., Martin, M.O., ySainsbury, M. (2006). PIRLS 2006 AssessmentFramework and Specifications. Chestnut Hill,MA: TIMSS & PIRLS International StudyCenter, Boston College.

Mullis, I.V.S., Martin, M.O., Kennedy, A.M.,Trong, K.L., y Sainsbury, M. (2009). PIRLS2011 Assessment Framework. Chestnut Hill,MA: TIMSS & PIRLS International StudyCenter, Boston College.

Mullis, I.V.S., Martin, M.O., Ruddock, G.J.,O’Sullivan, C.Y, Arora, A., y Erberber, E.(2005). TIMSS 2007 Assessment Frameworks.Chestnut Hill, MA: TIMSS & PIRLS Interna-tional Study Center, Boston Collage.

Mullis, I.V.S., Martin, M.O., Smith, T.A., Garden,R.A., Gonzalez, E.J., Chorostowski, S.J., yO´Connor, K.M. (2002). TIMSS assessmentframewoks and specificacions 2003 (2 ed.).Chestnut Hill, MA: Boston College.

Muñiz, J. (1997). Introducción a la teoría de res-puesta a los items. Madrid: Pirámide.

Muñiz, J. (2001). Teoría clásica de los tests. Ma-drid: Pirámide.

Muñiz, J., Hidalgo, A.M., García-Cueto, E., Martí-nez, R., y Moreno, R. (2005). Análisis de losítems. Madrid: La Muralla.

OECD (2005). PISA 2003 Technical Report. París:Organisation for Economic Co-operation andDevelopment.

OECD (2009). PISA 2006 Technical Report. París:Organisation for Economic Co-operation andDevelopment.

Olson, J.F., Martin, M.O., y Mullis, I.V.S. (2008).TIMSS 2007 Technical Report. Chestnut Hill,MA: TIMSS & PIRLS International StudyCenter, Boston College.

Región de Murcia (2009). Prueba de evaluación dediagnóstico. 4º Primaria. Competencia Lin-güística y Competencia Matemática. Murcia:Consejería de Educación, Formación y Em-pleo. Consultado el 08/02/2010 enhttp://www.carm.es/neweb2/servlet/integra.servlets.ControlPublico?IDCONTENIDO=5214&IDTIPO=100&RASTRO=c860$m.

Ruddock, G.J., O’Sullivan, C.Y., Arora, A., y Er-berber, E. (2008). Developing the TIMSS2007 Mathematics and Science Assessmentsand Scoring Guides. En J.F. Olson, M.O. Mar-tin, e I.V.S. Mullis (Eds.), TIMSS 2007 Techni-cal Report (pp. 13-44). Chestnut Hill, MA:TIMSS & PIRLS International Study Center,Boston College.

Sainsbury, M., y Campbell, J.R. (2003). Develo-ping the PIRLS Reading Assessment. En M.O.Martin, I.V.S. Mullis, y A.M. Kennedy (Eds.),PIRLS 2001 Technical Report (pp. 13-27).Chestnut Hill, MA: Boston College.

Smith-Neidorf, T.H., y Garden, R.J. (2004). Deve-loping the TIMSS 2003 Mathematics andScience Assessment and Scoring Guides. En

33

Page 32: Diseño de cuadernillos para la evaluación de las Competencias

M.O. Martin, I.V.S. Mullis, y S.J. Chrostows-ki, (Eds.), TIMSS 2003 Technical Report (pp.23-65). Chestnut Hill, MA: TIMSS & PIRLSInternational Study Center, Boston College.

Vallejo, G., Arnau, J., Bono, R., Fernández, P., yTuero, E. (2010). Selección de modelos anida-dos para datos longitudinales usando criteriosde información y la estrategia de ajuste condi-cional. Psicothema, 22, 323-333.

Weiss, A.R. y Schoeps, T.L. (2001), Assessmentframeworks and instruments for the 1998 Ci-vics assessment. En N. L. Allen, J. R. Donog-

hue, y T. L. Schoeps (Eds), The NAEP 1998Technical Report (pp. 255-268). Washington,DC: U.S. Department of Education / NationalCenter for Education Statistics.

Wu, M. (2002). Test Design and Test Develop-ment. En R. Adams, y M. Wu (Ed.), PISA2000 Technical Report (pp. 21-31). París: Or-ganisation for Economic Co-operation andDevelopment.

Xunta de Galicia (2009). Avaluación de Diagnósti-co Galicia. Santiago de Compostela: Conselle-ría de Educación e Ordenación Universitaria.

RUBÉN FERNÁNDEZ-ALONSO Y JOSÉ MUÑIZ34

Anexo I

Servicios y unidades responsables de la evaluación de diagnóstico en las comunidades autónomas.

Ministerio de Educación (y Ceuta y Melilla): Instituto de Evaluación (IE).http://www.institutodeevaluacion.educacion.es/

Andalucía. Agencia Andaluza de Evaluación Educativa (AGAEVE).http://www.juntadeandalucia.es/educacion/agaeve/web/agaeve

Aragón. Servicio de Equidad y Evaluación – Unidad de Evaluación.http://evalua.educa.aragon.es/

Asturias. Servicio de Ordenación Académica, Formación del Profesorado y Tecnologías Educativas.http://www.educastur.es/

Baleares. Institut d’Avaluació i Qualitat del Sistema Educatiu de les Illes Balears (IAQSE).http://www.iaqse.caib.es/

Canarias. Instituto Canario de Evaluación y Calidad Educativa (ICEC).http://www.gobiernodecanarias.org/educacion/Portal/WebICEC/

Cantabria. Unidad Técnica de Evaluación y Acreditación.http://www.educantabria.es/evaluacion_educativa/

Cataluña. Consell Superior d’Avaluació del Sistema Educatiu.http://www20.gencat.cat/portal/site/Educacio/

Comunidad de Madrid. Subdirección General de Evaluación y Análisis. http://www.madrid.org/cs/

Comunidad Valenciana. Instituto Valenciano de Evaluación y Calidad Educativa (IVECE).http://www.edu.gva.es/eva/index.asp

Castilla y León. Servicio de Supervisión de Programas, Calidad y Evaluación. http://www.educa.jcyl.es/

Castilla-La Mancha. Oficina de Evaluación. http://www.educa.jccm.es/educa-jccm/cm/educa_jccm/

Extremadura. Agencia Extremeña de Evaluación Educativa.http://www.juntaex.es/consejerias/educacion/aeee/

Galicia. Subdirección Xeral de Inspección, Avaliación e Calidade do Sistema Educativo.http://www.edu.xunta.es/web/

La Rioja. Dirección General de Ordenación Académica e Innovación. http://www.educarioja.org/

Navarra. Servicio de Inspección Educativa – Sección de Evaluación.http://www.educacion.navarra.es/portal/

País Vasco. Instituto Vasco de Evaluación e Investigación Educativa (ISEI-IVEI). http://www.isei-ivei.net

Región de Murcia. Servicio de Evaluación y Calidad Educativa. http://www.carm.es/