Dialnet-DisenoDeCuestionariosDeContextoParaLaEvaluacionDeS-3960804

Embed Size (px)

DESCRIPTION

asdad

Citation preview

  • Introduccin

    Las evaluaciones de sistemas educativos, sean lasque se realizan en cada pas o las que se desarro-llan a nivel internacional (como, por ejemplo, los

    proyectos PISA, TIMSS, PIRLS) se han conver-tido en una lnea de investigacin y anlisis degran relieve, con amplia repercusin social y concapacidad de influencia en las polticas educati-vas a nivel local, nacional e internacional.

    DISEO DE CUESTIONARIOS DE CONTEXTO PARA LA EVALUACIN DE SISTEMAS EDUCATIVOS:OPTIMIZACIN DE LA MEDIDA DE CONSTRUCTOSCOMPLEJOSContext questionnaire design for the evaluation of educationalsystems: optimization of complex constructs measurement

    JESS M. JORNET, JOS GONZLEZ SUCH Y M JESS PERALESUniversitat de Valncia

    En este artculo se realiza una revisin acerca de un posible modelo de diseo y desarrollo decuestionarios de contexto para la evaluacin de sistemas educativos. Se revisan las fases genera-les, a la par que se identifica la posible composicin de indicadores (simples y complejos) dedichos instrumentos. En el diseo de cuestionarios de contexto hay que considerar diversosaspectos, entre ellos son clave: a) la seleccin de variables e indicadores que se deben incluircomo parte del modelo y b) el modo en que se evalan los indicadores complejos, es decir, aque-llos que son resultado de una escala o de la combinacin de indicadores simples (representadospor un solo tem). Para evaluar indicadores complejos (por ejemplo, clima social del aula) exis-ten escalas con buena validez de constructo; sin embargo, no pueden utilizarse completamente,al estar compuestas por un elevado nmero de tems. En este ltimo caso, incluimos un proce-dimiento que hemos desarrollado para disear micro-instrumentos que estn compuestos por losmejores tems de la escala (es decir, los que mejor predicen la puntuacin total, manteniendo laestructura dimensional de la escala). Estos micro-instrumentos deben ser capaces de representarindicadores complejos para que puedan ser incluidos en los cuestionarios de contexto. Se tratade un procedimiento de reduccin de escalas, dirigido a identificar los elementos o tems quemejor predicen la puntuacin global de una escala, pero manteniendo su estructura terica.

    Palabras clave: Evaluacin de sistemas educativos, Cuestionarios de contexto, Metodologa dediseo y construccin de instrumentos, Indicadores educativos.

    Bordn 64 (2), 2012, 89-110, ISSN: 0210-5934 89Fecha de recepcin: 8-2-2012 Fecha de aceptacin: 7-3-2012

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 89

  • Los elementos considerados clave en estas eva-luaciones, sobre los que se han centrado los es-fuerzos tcnicos y las discusiones polticas, hansido las pruebas estandarizadas de rendimien-to. Estas pruebas son las que permiten ofrecerinformacin sobre los niveles de rendimientoen cada una de las reas fundamentales de con-tenido para cada una de los pases o regionesque participan en las evaluaciones.

    La aplicacin de estas pruebas de rendimientose acompaa de los llamados cuestionarios de con-texto. Son procedimientos de recogida de informa-cin sobre los sujetos, grupos y centros a los que seaplican las pruebas y en algunos casos sobre el pro-pio proceso de enseanza aprendizaje. La informa-cin que aportan, analizada en paralelo con laspruebas de rendimiento, puede resultar de granutilidad para explicar los resultados obtenidos, y,por tanto, para sustentar las decisiones sobre pol-ticas educativas. Sin embargo, como sealbamosen De la Orden y Jornet (2012), existe un proble-ma fundamental que est en la base de la limitadautilidad de estos anlisis: el diseo deficiente de losdenominados cuestionarios de contexto.

    En los ltimos aos, los institutos y agencias deevaluacin que realizan evaluaciones de sistemaseducativos han incrementado su inters y aten-cin por ajustar mejor este tipo de instrumentos.Sin embargo, dichos esfuerzos generalmente sehan basado en la identificacin de los reactivosque mostraban asociaciones significativas paraexplicar el desempeo (Willms, 2006; Backhoffet al., 2008; Miranda, 2008; Murillo, 2009), apor-tando, sin duda, informaciones de gran valor. Noobstante, se ha priorizado el anlisis emprico dela utilidad de los reactivos como indicadores defactores asociados al desempeo, sin realizar unaincidencia especial en las bases tericas o racio-nalidad de elaboracin de los cuestionarios comoinstrumento de medida.

    En consecuencia, se han producido innovacio-nes, en ocasiones escasas y en cualquier casoparciales, que han mejorado el rol de este tipo deinstrumentos en el conjunto de la investigacin

    educativa en general y de los planes de evalua-cin en particular, pero que no han llegado asatisfacer las expectativas acerca de su utilidadglobal en las evaluaciones de sistemas. De estemodo, las mejoras han sido menores que losesfuerzos realizados. El hecho de apoyar lamejora principalmente sobre anlisis estadsti-cos ms potentes de la informacin disponible,normalmente de carcter causal y multinivel,aunque haya proporcionado indudables avan-ces probablemente no sea el nico camino paramejorar el uso de la informacin evaluativa.

    Desde nuestra perspectiva, y tal como se indicaen De la Orden y Jornet (2012), el incrementode la utilidad de este tipo de informacionesdebe apoyarse en un mejor diseo de los instru-mentos y elaborarlos con la atencin que mere-cen: desde la descripcin del modelo explicati-vo de referencia para dar respuesta al conceptode calidad que pretende evaluarse, pasando porla definicin de los constructos implicados,hasta la seleccin de los indicadores que loshacen operativos en forma de medida.

    En este trabajo presentamos una propuesta dediseo y desarrollo de cuestionarios de contex-to. El origen de esta lnea de investigacin sesita en el Proyecto Anlisis de Variables deContexto: Diseo de cuestionarios de contextopara la evaluacin de sistemas educativos (Pro-yecto AVACO, I+D+I, 2006-2008. Cdigo SEJ2005-05 923 financiado por el MICINN),y que ha sido comprobado y validado en el Pro-yecto Modelos de Anlisis de Variables de Con-texto (Proyecto M-AVACO, I+D+I. 2009-2012.Cdigo EDU 2009-13485 asimismo financia-do por el MICINN)1. La propuesta incluyedos grandes conjuntos de acciones:

    a) Proceso general de diseo y desarrollode los cuestionarios de contexto para laevaluacin de sistemas educativos.

    b) Optimizacin de la medida de construc-tos complejos para el diseo de micro-instrumentos que integrar en dichoscuestionarios.

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    90 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 90

  • La presentacin de la propuesta se estructuraen los dos mbitos de trabajo sealados, con elfin de ofrecer una muestra global y a ser posi-ble coherente del tipo de procesos que puedendesarrollarse.

    Componentes para el diseo decuestionarios de contexto para laevaluacin de sistemas educativos

    Cuando nos referimos a cuestionarios de con-texto, lo estamos haciendo en relacin a un sis-tema de instrumentos que pueden ir dirigidosa diferentes fuentes. Es decir, no se trata de uninstrumento aislado, sino de varios que se diri-gen de forma integrada a recabar informacina partir de diferentes audiencias o partes intere-sadas y/o implicadas en la evaluacin y que solopuede ser recogida a partir de ellas.

    Los cuestionarios de contexto tienen sentido enel marco de las evaluaciones de sistema, porquea partir de ellos se supone que puede abordar-se la explicacin del rendimiento. Por tanto, enprimer lugar es necesario definir los elementosque definen la evaluacin de sistema (fases 1 y 2)para despus, de una forma coherente con estasdecisiones, disear los mencionados cuestiona-rios de contexto.

    Fase 1. Definir el concepto de calidad por evaluar

    El diseo de los cuestionarios de contexto estcondicionado por el sentido global de la evalua-cin de sistemas en que se enmarca. As, el ele-mento inicial que debe orientar todo el procesoes la definicin del concepto de calidad que sedesea comprobar. La calidad, como tal, es unconstructo terico que debe ser definido comoorigen del diseo del plan de evaluacin. En estesentido, en De la Orden y Jornet (2012) haca-mos referencia a diferentes enfoques de este con-cepto. Cada enfoque orientar a seleccionar opriorizar diferentes tipos de informacin. Por

    este motivo, es necesario basarse en un modelode referencia, de carcter sistmico como,por ejemplo, el descrito por De la Orden (1997,2007), para identificar de manera adecuadaqu efectos se desean evaluar, el tipo de infor-maciones que se requieren y orientar de mane-ra precisa la planificacin de la evaluacin.

    Asimismo, hay que tener en cuenta la utilidadque se persigue en la evaluacin: a) si se tratade poder coadyuvar a la orientacin de polticaseducativas o socio-educativas, a nivel de ma-cro-sistema, o b) si se trata de extraer informa-cin que sea til para otros niveles de interven-cin, como por ejemplo, el diseo curricular,las instituciones escolares o la organizacinescolar (Lukas y Santiago, 2004), los procesosde enseanza-aprendizaje que hay que desarro-llar en las aulas o el papel de la comunidad y/o lasfamilias en el proceso educativo (Cardona, Pera-les y Gmez-Costa, 2009). Una evaluacin quepueda dar informacin til para todos los prop-sitos, con toda seguridad es un desidertum si semantienen los modos de hacer evaluacin de sis-temas que se dan en la actualidad. Los niveles deanlisis y de intervencin, necesariamente dife-renciales, requieren de informacin asimismodiferencial2. Ello debe contemplarse inicialmenteen la definicin del concepto de calidad a eva-luar, y el nivel de intervencin en el que se debeimpactar con la evaluacin. En definitiva se tratade responder a una doble cuestin: para quy a quin debe servir la informacin evaluativa?

    De este modo, y en sntesis, entendemos que nopueden disearse de igual manera evaluacionesque pretendan comprobar un tipo de calidad uotro, ni que pretendan extraer informacin tilpara diferentes niveles de intervencin (na-cionales o transnacionales; macro-analticoso micro-analticos; internos al sistema institu-ciones educativas y/o aulas, o externos al mis-mo por ejemplo, el papel de las familias en elacompaamiento del proceso de aprendizaje desus hijos/as). Por ello es muy importante con-siderar las necesidades de informacin que pue-dan tener, segn el plan de evaluacin diseado,

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 91

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 91

  • las diferentes partes involucradas en la evalua-cin. Ello ayuda a especificar las preguntas deevaluacin a que debe responderse y orienta deforma ms concreta la fase siguiente. La defini-cin precisa del plan de evaluacin est en labase de la validez ltima que pueda exigirse almismo.

    Fase 2. Definir los elementos del plan de evaluacin

    Definido el concepto de calidad que se deseaevaluar y los efectos en que se concreta3, enesta segunda fase se trata de hacerlos operativoscomo elementos susceptibles de medicin/eva-luacin. En este caso, nos referimos a determi-nar variables e indicadores que formarn partedel plan de evaluacin y, en concreto, del siste-ma de cuestionarios de contexto, as como lasfuentes de recogida de informacin.

    En primer lugar hay que tener en cuenta quedeben diferenciarse variables e indicadores. Lasvariables, como es obvio, hacen referencia a uni-dades de informacin que poseen variabilidad,mientras que consideramos indicadores a aque-llas variables cuya variacin es concomitante demanera sistemtica con el fenmeno global sobreel que se pretende informar, bien de manera indi-vidual, bien por su relacin con otros indicado-res. Entre los indicadores, tal como puede obser-varse en la figura 1, diferenciamos entre:

    - Indicadores simples: aquellos que estnrepresentados por un nico reactivo.

    - Indicadores complejos: aquellos que provie-nen de alguna combinacin de varias infor-maciones, sean ratios o sntesis numricasde un conjunto de variables y/o indicado-res, o resultados de una escala que mide unconstructo terico complejo (como porejemplo, clima social del aula, auto-con-cepto, o metodologa docente).

    Para la seleccin de variables e indicadores, esnecesario tener cuenta los siguientes criterios:

    a) Sobre la adecuacin y el rol de la informa-cin en el plan de evaluacin:

    - Pertinencia y relevancia de la infor-macin respecto al objeto y finalidadde la evaluacin

    - Rol de la informacin dentro delplan de evaluacin. Pueden identifi-carse dos vectores de clasificacin:- Informacin descriptiva/explicati-

    va, en funcin del uso final que sevaya a realizar de la informacin

    - Tipologa de informacin: contexto,entrada, proceso y producto (ver figu-ra 2 y De la Orden y Jornet, 2012).

    b) Sobre la calidad de la informacin:

    - La evaluabilidad hace referencia algrado en que la informacin que seva a recoger puede ser entendida entrminos de elementos observableso inferibles a partir de comunica-ciones verbales (al menos extra-ble a partir de percepciones, opinio-nes, actitudes, intereses).

    - La interpretabilidad se refiere al gra-do en que pueda ser interpretada demanera clara, sea por procedimien-tos cuantitativos o cualitativos.

    - Los criterios de bondad, que se refie-ren a la calidad mtrica (o fctica,relativa a su representatividad) conque los instrumentos o tcnicas utili-zadas para recabar la informacinofrecen garantas, como la fiabilidady la validez.

    En segundo lugar, se trata de identificar culesson los mejores informantes o las mejoresfuentes de informacin para recabar la infor-macin requerida. En la figura 3 se presenta unposible esquema de decisin para la seleccinde fuentes o agentes de informacin. En la ta-bla 1 se muestra un resumen que estructura lainformacin, segn las fuentes desde las que seva a recoger.

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    92 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 92

  • Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 93

    FIGURA 1. Esquematizacin del proceso general de diseo de cuestionarios de contexto

    Investigacinpedagogadiferencial

    Modelos de explicacindel rendimiento

    acadmico

    Seleccin de variables e indicadores

    Indicadores simples Un reactivo

    Una escala

    Necesidades/expectativasde informacin

    de las audiencias

    Informa InformaInforma

    Estructura

    Condiciones enque se

    da la E/A

    Entrada

    quin? quin? quin? quin?

    Proceso

    Seleccionar fuentes de informacin(mejor informante)

    Contexto Producto

    Sistema decuestionariosde contexto

    Modo en quese da la E/A

    Nivelesmediato

    inmediato

    Percepcionesresultadosde logro

    Incluye Representados por

    Indicadores complejos

    Asignar rol a variables e indicadoresComponer

    cuestionarios

    Componercuestionarios

    FIGURA 2. Rol de la informacin e instrumentos para recogerla

    Cuestionarios de contexto

    Pruebas estandarizadas de rendimiento

    Informacin de producto:Rendimiento

    Info

    rmac

    in

    de

    con

    text

    o Informacin de entrada

    Informacin de proceso

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 93

  • Los criterios que se pueden considerar para laseleccin de la fuente de informacin se sinte-tizan en los siguientes:

    a) Objetividad. Es necesario asegurar que lainformacin recogida proviene de lafuente o agente que tiene una mejorposicin para aportarla. Las informacio-nes de entrada, proceso y contexto sonms susceptibles de subjetividad, por loque cabe extremar las precaucionescuando seleccionamos la fuente o agen-te ms adecuado. En muchas evaluacio-nes de sistemas educativos se incluyenen los cuestionarios de contexto infor-maciones que, cada vez con ms fre-cuencia, pueden formar parte de bancosde informacin (por ejemplo, estudios osituacin laboral de padres/madres, pue-den formar parte de los registros escola-res). Es posible, por tanto, extraerlas delos cuestionarios de contexto y no hace

    falta preguntarles a los alumnos que enmuchos casos no disponen de la certezasuficiente acerca de los estudios queposeen sus progenitores o de su situa-cin laboral. Otro ejemplo que puedeaportarse en esta misma lnea es el modoen que disea la programacin el profe-sorado. Normalmente se incluyen cues-tiones al respecto en los cuestionariosdirigidos a docentes, cuando sera msobjetiva la informacin que puede apor-tar un observador externo (por ejemplo,la inspeccin educativa), tras la observa-cin de las evidencias documentales quepueda aportar el profesorado acerca dela programacin. Ejemplos como estospueden aportarse muchos. Por ello,entendemos que es necesario un esfuer-zo previo para orientar los sistemas decuestionarios estrictamente hacia lasinformaciones en las que cada agente seala mejor opcin.

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    94 Bordn 64 (2), 2012, 89-110

    FIGURA 3. Esquema de decisin para la seleccin de fuentes y/o agentes de informacin

    Quin puede aportar la informacin requerida de una manera msfiable y vlida?

    - Alumnos- Profesores- Equipos directivos- Inspeccin educativa- Familias

    Existe ms de una posibilidad?

    Es fiable y vlida su informacin?

    Existen problemas de acceso a los actores para recogerinformacin?

    El banco de datos est actualizado?Hacen falta permisos especiales para acceder?

    Cul es la ms operativa?Es posible triangular fuentes?S

    Bancos de datos

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 94

  • b) Validacin/ triangulacin. En cualquiercaso, el proceso de enseanza-aprendi-zaje y en general la educacin seproduce en una relacin dialctica entrediversos actores (profesorado, alumna-do, equipos directivos, inspeccin edu-cativa, familias). Por ello, es precisoidentificar las informaciones en las que,incluso habiendo un mejor informante,sea conveniente corroborar la informa-cin a partir de la aportada por otrosactores. Como principio general, asumi-mos que siempre que sea posible esnecesario verificar la informacin delfenmeno evaluado a partir de la concu-rrencia/divergencia de las informacionesaportadas por los diferentes agentesinvolucrados.

    c) Nivel de anlisis. Un aspecto primordialque no es frecuente considerar es el

    nivel de anlisis sobre el que se pretendetratar la informacin recogida (macro-ana-ltico vs. micro-analtico): alumnado y/oprofesorado, aula, escuela o institucineducativa, zona geo-poltica o administra-tiva (estado o comunidad autnoma, pro-vincia, nacin). Esta identificacin debeser coherente con el plan de evaluacinglobal (objeto y finalidad) y coadyuva a de-terminar tambin las caractersticas de losinstrumentos de recogida de informacinque se pretende utilizar, as como los an-lisis que pueden ser pertinentes para sutratamiento. Las decisiones sobre el nivelde anlisis pretendido se traducen en eldiseo (tamao y estructuracin) de lamuestra, pues en funcin del nivel sobre elque se pretenda dar informacin habrunos u otros requerimientos para su con-figuracin (De la Orden y Jornet, 2012).

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 95

    TABLA 1. Ejemplo de tabla de estructuracin de informacin

    Sntesis de variables/indicadores y fuentes Fuentes de informacin

    de informacin

    Tipo de Indicadores Alumnos Profesores Director Observador Familias Otras

    indicador externo fuentes

    Entrada Caractersticas de alumnos X X X

    Caractersticas de

    los profesores X X

    Sistema de seleccin

    de alumnos X X

    Infraestructura (aulas

    tericas, prcticas) X X X X

    Medios disponibles en

    las aulas X X X

    Proceso Actuacin del profesorado

    (aula) X X X

    Actuacin del profesorado

    (tutoras) X X X

    Metodologa didctica X X X

    Producto

    Contexto

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 95

  • En las evaluaciones de sistemas, por su carctermuestral y por el tipo de instrumentos utiliza-dos, es difcil que se den las condiciones tcni-cas necesarias para poder interpretar la infor-macin a nivel individual, en ocasiones inclusohay razones tcnicas suficientes para que no seinterpreten a nivel de aula y escuela, y habitual-mente los niveles asumibles son los que podra-mos denominar macro-analticos (como porejemplo, basados en variables demogrficas: re-gin geo-poltica, variables de estratificacin,como por ejemplo, las demogrficas de clasifi-cacin de colectivos o grupos sexo, titulari-dad del centro, etc.). Es fundamental que losanlisis que se realicen sean respetuosos conesto, y coherentes con el diseo del plan deevaluacin y del muestreo, evitando ofreceruna informacin que, en realidad, el estudio nopermite dar con garantas, o que incluso ni selo haya propuesto como finalidad.

    Fase 3. Disear los cuestionarios de contexto

    En esta fase nos referimos de manera exclusiva aldiseo de los sistemas de cuestionarios de con-texto. Definido y concretado el plan de evalua-cin en las fases 1 y 2, se trata ahora de configu-rar los instrumentos especficos para cada uno delos colectivos implicados o fuentes (por ejemplo,alumnado, profesorado, equipos directivos).Podemos identificar las siguientes etapas:

    a) El punto de partida es la figura de estruc-turacin de informacin para cada audien-cia o colectivo implicado en la evaluacin,mostrada en la tabla 1, completndolo encada caso con el tipo de indicador (sim-ple/complejo). Leyendo esta figura porcolumnas, se identifica la sntesis de infor-macin que hay que recoger a partir decada uno de los colectivos o fuentes.

    b) La batera de cuestionarios incluir unopor fuente o colectivo. Cada uno de ellosintegrar, finalmente, los indicadoressimples (representados por un reactivo)y los complejos. Estos ltimos estarn

    representados por micro-instrumentosdesarrollados por el proceso de reduc-cin u optimizacin de la medidaque describiremos en apartado 2 de estetrabajo.

    La medida de los indicadores complejos se basaen escalas o instrumentos ya elaborados o quese elaboran ex profeso como escala originaldesde la que posteriormente se debe derivar elmicro-instrumento. Debe tenerse en cuentaque una debilidad importante de la investiga-cin psico-socio-educativa es que en muchasocasiones, bajo una misma denominacin deun constructo, se derivan soluciones tericas ymtricas muy diferenciadas. Por ejemplo, bajoel trmino clima social del aula, se encierrandiferentes concepciones que, si bien parten deun enfoque de medida comn (basado en lapercepcin de los sujetos), difieren en los com-ponentes tericos que integran (por ejemplo:clima social y clima de aprendizaje formanparte del mismo constructo? son constructosindependientes?...) (Ramos y Prez-Carbonell,2008, 2009; Prez-Carbonell, Ramos y Lpez-Gonzlez, 2009; Lpez-Gonzlez, Prez-Carbo-nell y Ramos, 2011; Murillo y Hernndez-Cas-tilla, 2011). Es frecuente encontrar en laliteratura cuestiones de este tipo. Por ello, si sepretende basar la medida en instrumentos yaelaborados (a partir de los cuales se derive elmicro-instrumento) hay que ser muy cautelo-so, extremando el anlisis documental y el an-lisis lgico del constructo que se evala (llevadoa cabo por un comit de expertos) y las solucio-nes mtricas disponibles. Por otra parte, si seaborda el diseo de un instrumento capaz demedir determinado constructo es convenienterealizarlo con un enfoque diagnstico, es decir,definiendo el constructo y el instrumento que lorepresente en toda su extensin, sin limitar pre-viamente la longitud del instrumento: hay quepriorizar la representacin sustantiva, terica, olo que es lo mismo la validez de constructo ycontenido (ver como ejemplos, Gonzlez-Barbe-ra et al., 2009; Chiva y Moral, 2009; Gmez-Cos-ta y Cardona, 2009; Biencinto et al., 2009). En

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    96 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 96

  • cualquier caso, un instrumento que tenga unaadecuada validez de constructo (sea un instru-mento ya existente o creado ex profeso) ser sinduda el mejor punto de partida para la identifi-cacin de micro-instrumentos que puedan inte-grarse posteriormente como componentes m-tricos de un cuestionario de contexto.

    Fase 4. Validar el modelo

    Una vez diseada la batera de cuestionarios decontexto incluyendo los diferentes constructosy las diferentes fuentes es necesario validar elmodelo. En realidad, los cuestionarios de contex-to se han construido a modo de un plan integradoy coherente, que incluye los indicadores simples yotros ms difciles de conceptualizar los indica-dores complejos, que miden un constructo conmicro instrumentos que son en realidad escalasreducidas e integrando versiones diferencialesde los mismos en funcin del colectivo al que sedirigen (la batera de cuestionarios de contextoincluye, en realidad, tantos cuestionarios comocolectivos o fuentes vayan a ser consultados en laevaluacin de sistema de que se trate: alumnado,profesorado, directores/as, familias).

    La validacin de este sistema de recogida deinformacin encuentra en las ecuaciones estruc-turales una metodologa con el potencial de reco-ger la complejidad de niveles y tipos de informa-cin, para esclarecer el peso diferencial con quecontribuye a la explicacin del desempeo edu-cativo cada uno de los indicadores pertenecientesal sistema de cuestionarios de contexto (Gonz-lez-Montesinos y Backhoff, 2010).

    Descripcin del procedimiento R-AVACO4para la elaboracin demicro-instrumentos: optimizacinde la medida

    Tradicionalmente, la identificacin de los mejo-res predictores de una escala se ha apoyado en eluso de modelos de regresin, principalmente

    de la regresin paso a paso. La dificultad queentraa este tipo de aplicacin para el propsi-to que nos ocupa es que la seleccin de losmejores predictores de la puntuacin total de laescala se realiza basndose nicamente en crite-rios de tipo estadstico (como, por ejemplo, la eli-minacin de reactivos que por tener una elevadacorrelacin con la puntuacin total y a su vez conotros reactivos se entienden como informacinredundante). Este tipo de seleccin, en mltiplesocasiones, puede conllevar una distorsin encuanto a la definicin real del constructo que sepretende evaluar con la escala original y el quequeda representado en el micro-instrumento. Porello, el proceso que se presenta a continuacinpretende ser una ayuda para la identificacin demicro-instrumentos que mantengan su capaci-dad de representar el constructo original.

    El objetivo principal de los estudios realizadosen los proyectos mencionados (AVACO yM-AVACO) ha sido identificar una estrategiametodolgica que permitiera derivar micro-ins-trumentos de medida a partir de instrumentosdiseados para medir/evaluar variables deentrada, proceso y contexto, utilizables en laelaboracin de cuestionarios de contexto parala evaluacin de sistemas educativos.

    Como objetivos implicados tuvimos en cuenta:

    Definicin de la estrategia metodolgicade reduccin de instrumentos a partir dela identificacin de reactivos clave (losmejores predictores de las puntuacionestotales o dimensionales de instrumentosya desarrollados).

    Validacin de la estrategia tomandocomo referencia ensayos piloto con dife-rentes variables usuales en la evaluacinde sistemas educativos.

    As, el procedimiento que aqu presentamosest dirigido a la identificacin de los tems oreactivos clave que permitan, para un construc-to dado y que pueda ser medido por una escaladeterminada, aportar informacin suficiente

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 97

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 97

  • para orientar, al menos, una clasificacin desujetos respecto al constructo, con un elevadogrado de fiabilidad y validez, similar a la que seproducira con la totalidad de la escala.

    Se trata pues, de seleccionar los elementos de laescala objeto de estudio que mejor permitanmantener las caractersticas mtricas de la misma.Se pretende, de este modo, obtener un micro-ins-trumento que pueda ser considerado como partede un cuestionario de contexto.

    Por ello, el procedimiento que hay que seguires bsicamente tcnico estadstico/ psicom-trico y se aplica sobre la informacin recaba-da con una escala ya existente, que permitamedir o evaluar un constructo determinado.Por ejemplo, en este mismo nmero monogr-fico se presentan aplicaciones basadas en estapropuesta: Lpez-Gonzlez, Tourn y Tejedor(2012) y Joaristi, Lizasoain y Gamboa (2012).

    Asumimos que el micro-instrumento obtenidono permitir el diagnstico individual no eslo que se pretende, aunque la escala origende la que parte evidentemente s lo permita.Asumimos esta premisa porque la finalidad dela evaluacin en la que se integran estos cues-tionarios de contexto la evaluacin de siste-mas educativos, no es el diagnstico indivi-dual, sino el anlisis meso o macro, como se haindicado anteriormente

    La figura 4 recoge el procedimiento general deelaboracin de micro-instrumentos.

    Fase 0. Anlisis de dimensionalidad de la escala

    Para la medicin de cada uno de los construc-tos identificados como indicadores complejosen el diseo de los cuestionarios de contextopartimos, como se ha indicado, de una escalaexistente y validada (cuando el anlisis de conte-nido garantiza que se trata del mismo constructo)o de una escala diseada y validada ex profeso.

    Pre-existente o diseada para esa finalidad, esta va aser la que denominamos en lo sucesivo escala origi-nal, o la versin 1, cuyo nmero de tems es elnmero original de la escala (N. orig. en la figura 4).

    Para realizar el proceso de reduccin de la esca-la original a un micro-instrumento partimos deun ensayo piloto: una aplicacin de la escalaoriginal a un grupo similar al que ser destina-tario final de la prueba, con cuyos datos se vaa trabajar.

    La fase de anlisis de dimensionalidad de laescala no forma parte del procedimiento dereduccin propiamente dicho sino que se trata,como cuestin previa, de asegurarnos de que laescala original con la que vamos a trabajar fun-ciona de manera similar (unidimensional o mul-tidimensional) con el grupo con el que se hallevado a cabo el ensayo piloto para proceder alestudio de reduccin a como funcionaba en losestudios ya realizados por los autores que ladisearon.

    Como es sabido, el problema de anlisis de ladimensionalidad es una cuestin recurrente,dada su complejidad. En el caso de escalas(sean de percepcin, o de actitudes), habitual-mente se comprueba mediante anlisis factorialAF (con diferentes soluciones para laextraccin de factores y para la rotacin). Sinembargo, generalmente, la mtrica de las varia-bles no corresponde a la adecuada para este tipode anlisis. Las escalas Likert de instrumentosque miden constructos de percepcin (como porejemplo, clima social del aula, auto-conceptoacadmico, etc.) podramos clasificarlas comoordinales-de intervalo; es decir, al menos se puedeasegurar la ordinalidad en la medida, si bien nopodemos asegurar que las unidades sean iguales,con lo que su identificacin como medidas deintervalo queda comprometida.

    Por ello, aunque en la tradicin investigadora seha utilizado con profusin el AF para este prop-sito, en nuestro caso estimamos ms oportunoproceder mediante anlisis de conglomerados

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    98 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 98

  • jerrquicos, tomando como medida la distan-cia eucldea, que se ajusta mejor a la mtricade las variables a analizar. Como mtodo de

    conglomeracin, el tradicional mtodo deWard, asumiendo distancia 5 para la identifica-cin de dimensiones. En cualquier caso, la

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 99

    FIGURA 4. Procedimiento R-AVACO para la elaboracin de micro-instrumentos

    OBJETIVO: MEDIR EL CONSTRUCTO X DENTRO DEL CUESTIONARIO DE CONTEXTO

    RESULTADO FINAL: MICRO-INSTRUMENTO DEFINITIVO, QUE INTEGRAR EN EL CUESTIONARIO DE CONTEXTO

    Seleccionar una escala ya validada

    Escala Original (EO) para medir el constructo x. Versin 1

    ESTUDIO PILOTO

    2. Decisiones sobre imputacin

    4. Estimacin de la puntuacin total de la versin reducida V3

    Iteracin 1

    Iteracin 2

    Iteracin n

    Eliminacin del tem con menor informacin

    Eliminacin del tem con menor informacin

    Eliminacin del tem con menor informacin

    Resultado: Micro-instrumento definitivo. Versin 4

    5. Exploracin de calidad de la versin reducida V3Objetivo: ordenar tems segn su calidad mtrica

    6. Reduccin y validacin final del micro-instrumento.Objetivo: reduccin paulatina del instrumento,

    manteniendo la calidad mtrica

    0. Anlisis de dimensionalidad de la escalaObjetivo: comparar la dimensionalidad de la EO en el estudio piloto

    Versin 1

    N tems = N orig

    1. Explorar el comportamiento de los reactivos de la EOObjetivo: eliminar tems anmalos (IA)Resultado: Escala revisada. Versin 2

    Versin 2

    N tems = N orig IA

    3. Seleccin de reactivos por su contribucin a la fiabilidad de la escala(segn TCT)

    Objetivo: eliminar tems con escasa calidad mtricaResultado: escala reducida. Versin 3

    Versin 3

    N tems = N orig IA IsinQ

    Versin 4. M.I.

    N tems = N orig IA

    IsinQ IsinInfo

    Disear y validar una escala

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 99

  • asuncin de distancia 5 es arbitraria, si bien laidea es intentar una clasificacin de tems enconglomerados combinando al mismo tiempoel criterio lgico-sustantivo (o terico) con elcriterio estadstico (es decir, menor distanciare-escalada). Es probable que en cada construc-to haya que modular esa distancia, pudiendo sermenor o algo mayor. No obstante, lo recomen-dable es que sea menor.

    Esta exploracin nos permitir comprobar silas dimensiones que se identifican correspon-den con las tericas, descritas y comprobadaspara la escala original. En el caso en que se dms de una dimensin, el proceso se realizarapara cada una de ellas, con el fin de mantenerla estructura sustantiva, terica, de la escala talcomo fue diseada.

    Existe la alternativa de emplear las tcnicasderivadas de la modelizacin Rasch para esta-blecer las propiedades de mtricas de las esca-las identificadas en las fases previas de la reduc-cin (Gonzlez-Montesinos, 2012). Siguiendoa este autor, se puede sealar que este tipo deprocedimientos es apropiado, particularmentepara escalas con reactivos de respuesta gradua-da (Likert). Disponemos de una serie de proce-dimientos desarrollados como extensiones delmodelo Rasch original. Estos procedimientosalternativos son: el Graded Response Model(GRM) (Samejina, 1969), el Rating Scale Model(RSM) (Andrich, 1978) y el Partial CreditModel (PCM) (Masters, 1982). Estas tcnicastienen en comn la ventaja de aportar elemen-tos para establecer la dimensionalidad de esca-las compuestas por reactivos politmicos(Likert) y, adems, establecen las propiedadesmtricas de las categoras internas de los reacti-vos. Para ello se calibran las dificultades de losumbrales de paso entre cada categora interna,de manera tal que se asegura que las respuestasa las partes bajas o altas de la estructura delos reactivos representan en efecto un menoro mayor grado de posesin del rasgo que sepretende medir con la escala (Embretson y Rei-se, 2000).

    Tambin est vigente la muy potente alternati-va de someter a prueba los modelos de medida delas escalas identificadas en la reduccin a travsde procedimientos de anlisis factorial confirma-torio (AFC), que forman parte de los modelos deecuaciones estructurales (SEM) (Gonzlez-Mon-tesinos y Backhoff, 2010; Backhoff y Gonzlez-Montesinos, 2012). De hecho, una combinacinde procedimientos de escalamiento Rasch y con-firmacin de modelos de medida a travs de CFA-SEM es la alternativa ideal para las fases interme-dias y finales de consolidacin de las escalas einstrumentos de contexto. Esta combinacin detcnicas psicomtricas para validacin de escalasse ha empleado ya con mucho xito en evaluacio-nes nacionales e internacionales de gran alcance,tanto para tems de dominios cognitivos, actitudi-nales y de percepcin (Schultz y Sibberns, 2004).

    Fase 1. Explorar el comportamiento de los reactivos de la escala original

    En la fase 1 se inicia un primer ciclo de reduc-cin de la escala original, basado en la elimina-cin de los tems con un comportamiento menosadecuado (partiendo de que todos ellos fueronconsiderados adecuados en el estudio de valida-cin de la escala original, y por eso forman partede ella). Dado que el uso final del micro-instru-mento no ser el diagnstico individual, sino elanlisis meso y macro, dentro de instrumentos decontexto integrados en evaluaciones de sistema,el objetivo es ir reduciendo el instrumento, dismi-nuyendo paulatinamente el nmero de tems, eli-minando aquellos que tengan un comportamien-to menos claro o aporten menor informacin.

    La exploracin debe constituir el primer paso detodo el proceso, de forma que la primera reduc-cin de datos se realice a partir de la misma.

    a) El objetivo de esta fase es eliminar aquellosreactivos que tienen comportamientosanmalos (tems anmalos, IA), tales co-mo, los que presentan:- Ausencia total de varianza.

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    100 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 100

  • - Escasa variabilidad. Tomamos, eneste caso, como criterio de decisinque se eliminaran aquellos elemen-tos que tengan ms del 80% en unextremo de la escala (por ejemplo, sitrabajamos con una escala Likert de4 puntos, en valoraciones 1-2, o bien,3-4), lo que sera concurrente conasimetras muy marcadas.

    - Existencia de un porcentaje excesivode casos extremos (outliers). Comocriterio entendemos que este nodebera exceder del 5%.

    b) El procedimiento se basa en una explo-racin de datos (fundamentalmente enprocesos grficos y la distribucin de fre-cuencias de la escala4). Se trata, pues, deanalizar las formas de la distribucin, demanera que aquellos elementos que ten-gan una distribucin atpica se eliminan.

    Con la aplicacin de estos criterios, se eliminaun nmero N de tems, aquellos consideradosanmalos. Tenemos la versin 2 del instrumen-to, cuyo nmero de tems ser el N original dela escala menos los considerados tems anma-los (N tems = N. orig IA).

    El anlisis de datos exploratorio (exploratorydata anlisis o EDA) fue originalmente propues-to por J. W. Tukey (1977) y proporciona todoslos elementos necesarios para lograr la primerareduccin de reactivos. Los procedimientos EDAcorresponden a una aplicacin completa de ele-mentos clave de la estadstica descriptiva (fre-cuencias, medias, desviaciones tpicas y grficos)y viene implementado en la mayora de lospaquetes estadsticos comnmente disponibles.

    Fase 2. Valores perdidos y decisiones sobreimputacin

    El procedimiento contina con un anlisis devalores perdidos para comprobar la hiptesis dealeatoriedad. En trminos generales, se puede

    afirmar que a menor nmero de valores perdi-dos la escala es factible. Se trata de comprobarque la presencia de valores perdidos es aleato-ria y no responde a un patrn sistemtico de norespuesta. Por ello, aunque no existe un crite-rio prefijado al que podamos aludir como refe-rencia para la toma de decisiones, estimamosque cualquier tem con una presencia de valo-res perdidos superior al 30% puede conteneralgn problema de formulacin importante,o bien, abordar un contenido no adecuado parael grupo al que se dirige el instrumento, por loque sera conveniente su eliminacin. En casode que el nmero de casos perdidos sea mni-mo y no se mantenga un patrn sistemtico, sepueden asumir dichos casos como mortalidadexperimental y eliminarlos del grupo sobre elque se realiza el estudio, o bien pensar en algnprocedimiento robusto o de recorte como, porejemplo, la media recortada (trimmed mean).

    En caso de que exista un nmero considerablede valores perdidos (pero siempre inferior al30%), se analizan otras opciones, como la im-putacin o la interpolacin, para recuperar esoscasos.

    La imputacin es un proceso habitual cuandose trata de trabajar con escalas de opinin,actitudes, etc. El motivo fundamental reside enque en este tipo de instrumentos suelen darsebastantes reactivos omitidos, de forma que lossujetos, cuando no tienen formada una res-puesta, prefieren dejar en blanco, no contestan-do el elemento. El efecto sobre los anlisis esmuy negativo, pues en todas aquellas aproxi-maciones en que se requiera que los registrosindividuales estn completos se elimina el re-gistro en su totalidad, aunque sea tan solo untem el que est en blanco. Obviamente, si setrata de anlisis en los que se relacionan varia-bles, la eliminacin de casos se incrementa,pues se requiere que todos los casos tengan res-puesta en las variables que se analizan (as, porejemplo, si se trata de una correlacin bivaria-da, debe haber respuesta en las dos variables;en caso contrario, todos los registros que no

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 101

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 101

  • tengan respuesta en ambas variables se elimi-nan). Todo esto puede implicar un grave proce-so de reduccin de la muestra.

    Respecto a las soluciones de imputacin, pasansobre todo por imputar o interpolar. Existendiversos procedimientos que pueden aplicarseen funcin de la mtrica de las variables, lascaractersticas de la distribucin de las mismas,el tipo de muestreo, la cantidad de casos perdi-dos y las relaciones que pueden establecerseentre las variables que se deben imputar conotras variables a partir de las cuales se puedareducir la incertidumbre (Srndal, Swenssony Wretman, 1991; Muoz y lvarez, 2009).

    En nuestro caso, hemos optado por un procesosimple de imputacin: la sustitucin del casoperdido por la mediana del tem en el caso devariables en las que al menos se pueda asegurarla ordinalidad, pero no ms all, o por lamoda en el caso de variables nominales,considerando todas las respuestas existentes.As, el proceso de imputacin que hemos selec-cionado tiene las siguientes caractersticas:

    I. El objetivo en este caso es mantener eltamao de la muestra. Por lo que siem-pre que se haya cumplido el criteriosealado en la fase anterior, mantendra-mos los sujetos imputando los valoresperdidos.

    II. En cuanto al procedimiento, en nuestrocaso, procedemos por la sustitucin devalores perdidos por la mediana (consi-derando todas las respuestas al tem). Sise trata de variables nominales, la op-cin es la moda.

    Adicionalmente al proceso de imputacin pro-piamente dicho, estimamos que se requiere unavalidacin del proceso de imputacin, de formaque se estime si esta ha producido diferenciasentre la distribucin de los datos originales y laserie ya imputada. El problema metodolgicoaqu no es menor; de hecho buena parte de losprocedimientos para analizar la relacin entre

    ambas series no es aplicable, dado que elimina-ra los sujetos que contuvieran valores perdidosen la variable original. Por ejemplo, una correla-cin entre ambas series, que sera lgicamente unindicador de referencia, no es aplicable. Siemprenos ofrecera como resultado +1 dado que, endefinitiva, se acabaran correlacionando las dosseries nicamente con los sujetos completos.

    La prueba T de Wilcoxon, para muestras rela-cionadas puede constituir un apoyo simple decorroboracin de la imputacin, dirigido a con-trastar si los rangos de ambas series de la varia-ble al menos se mantienen sin distorsionesdebidas la imputacin6.

    Fase 3. Seleccin de reactivos a partir de su contribucin a la fiabilidad de la escala

    La tercera fase del procedimiento se dirige a laseleccin de reactivos que puedan formar partedel micro-instrumento, segn su calidad mtri-ca. As, partimos desde la teora clsica de cons-truccin de tests (TCT) de un anlisis de fiabi-lidad, basado en el modelo alfa de Cronbach(1951). Los objetivos de esta fase son:

    Seleccionar los elementos que mejor serelacionan con el puntaje total del cues-tionario.

    Eliminar elementos redundantes (opti-mizar informacin).

    Para proceder a la seleccin de tems, se tomandel anlisis los siguientes criterios de formasecuencial:

    En primer lugar, eliminar los elementosque presenten en el indicador alfa si seelimina el elemento un incremento de lafiabilidad.

    A continuacin, eliminar los elementosutilizando el ndice de homogeneidadcorregido: rit-i 0.30.

    Finalmente, eliminar los elementos que,presentando en la matriz de correlaciones

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    102 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 102

  • entre los tems (preferiblemente utilizando lamedida de correlacin de Spearman, dadoque al menos podemos asegurar la ordina-lidad, pero no ms all) una correlacin conotro elemento rxy 0.50, a su vez, tenganpeor ndice de homogeneidad corregido.No obstante, este criterio se aplicar revisan-do el contenido de los tems, de forma queaquellos que claramente midan aspectosdiferentes del constructo y sean caractersti-cos de diferentes dimensiones se manten-drn, aunque se cumpla el criterio numrico.

    En este caso, se eliminan los tems que no satis-fagan alguno de los criterios mencionados:aquellos que tengan una menor calidad mtrica(IsinQ, en la figura 4). Concluida esta fase, sedispone de la versin 3, que estar compuestapor los reactivos seleccionados como tems-cla-ve de la escala objeto de estudio. Su nmero detems, por tanto, ser el N de la escala original,menos los tems considerados anmalos en lafase 1 (IA) y los tems considerados con menoscalidad mtrica en la fase 3 (IsinQ).

    Fase 4. Estimacin del puntaje total de la versin reducida

    Se estima como la suma total de puntuacionesa los tems. Si bien no tiene un uso directo parala seleccin inicial de tems con la versinreducida, se utiliza como referente del nuevoinstrumento. Es necesaria para el proceso devalidacin final del micro-instrumento.

    Fase 5. Exploraciones de la calidad de la versin reducida

    Para concluir el proceso de seleccin de elementosy, en consecuencia, ajustar la versin reducidafinal, se realizan diversas exploraciones a partir delas cuales conformamos la decisin final.

    En primer lugar, se analiza la versin 3 del ins-trumento a partir del modelo alfa de Cronbach.

    Con ello, disponemos del indicador de fiabili-dad global para poder as corroborar el tamaode la prdida en fiabilidad desde la escala origi-nal. El criterio en este caso es obvio: a mayorvalor en el coeficiente alfa, mejor. No obstante,hay que tener en cuenta el punto de partida dealfa en la escala original y tomamos como criterioglobal que la prdida en fiabilidad sea 10%,siempre y cuando se mantenga en valores altos.

    Tras esta comprobacin global de la escala, queofrece adems la puntuacin alfa de referencia, ini-ciamos la exploracin de los tems de la versin 3.Estas exploraciones, que nos van a permitir unanueva seleccin de tems, se realizan sobre la ver-sin ya reducida del instrumento (versin 3), y seapoyan en los siguientes indicadores:

    Se identifican grupos extremos (27% su-perior e inferior) a partir de la puntuacintotal de la versin reducida (versin 3).Posteriormente, se contrasta la media decada tem entre ambos grupos, mediantela prueba t de Student. En el caso en quelas pruebas t no fueran significativas(hecho que puede resultar extrao dadoel proceso de reduccin anterior), se utili-zaran para seleccionar tems, de formaque estos seran eliminados. Se tratara,pues, de una segunda depuracin. Ello nospermite utilizar la discriminacin de cadatem como criterio de ordenacin de losmismos, de forma que constituye el pri-mer indicador para la confirmacin de laversin reducida (versin 3).

    Asimismo, se analizan los tems conside-rando la prdida en el coeficiente de fia-bilidad si se elimina el tem. Como encasos anteriores, siempre y cuando se ob-serve un incremento en el coeficiente alfaal eliminar el tem, este debe ser elimina-do. En cualquier caso, como criterio, nospermite ordenar los tems en funcin delas aportaciones a la fiabilidad total de laversin reducida (versin 3).

    El tercer indicador para cada reactivo sernuevamente el ndice de homogeneidad

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 103

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 103

  • corregido, si bien en esta ocasin se estimapara el tem en el micro-instrumento. Seentiende que a mayor intensidad de rit-i,positivo, el tem muestra un mejor compor-tamiento como representacin del puntajeglobal de la versin reducida (versin 3).

    El cuarto indicador es el valor Tij (suma delas covarianzas de cada tem con todos losdems). Se puede entender como un indi-cador complementario al anterior. As, elTij puede entenderse como la contribucinque un tem determinado realiza al conjun-to de la variabilidad de la puntuacin totaldel micro-instrumento considerando surelacin con el conjunto de reactivos que locomponen. Recurdese que:

    t2= i2 + 2ij

    Donde:

    t2: Varianza de la puntuacin total en el mi-

    cro-instrumentoi2: Sumatorio de las varianzas de los temsij: Sumatorio de las covarianzas entre lostems, es decir: ij= Tij

    La seleccin cuantitativa final de tems se fun-damentar, adems de en el proceso de valida-cin que describiremos a continuacin, en laordenacin de los tems en funcin de estoscuatro indicadores. De esta forma, los resulta-dos se trasladan a una hoja de clculo y en ellase establecen los rangos con cada indicador,as como el rango promedio. Estos resultadossern un elemento de referencia para el proce-so iterativo de validacin posterior. Con todolo anterior, dispondremos de la informacin decalidad de la versin de instrumento reducidodisponible para el proceso de validacin.

    Fase 6. Reduccin final y validacin final del micro instrumento

    Se inicia aqu una segunda etapa de reduccin.Partiendo de la versin reducida (versin 3)y tomando como criterio la ordenacin de tems

    por calidad mtrica resultante de la fase 5, en estaetapa se reduce paulatinamente el instrumento enun tem para proceder paralelamente a su valida-cin en un proceso iterativo en el que se va com-probando la calidad global de la informacin queofrece el instrumento reducido en tres niveles:

    1. Uso de la puntuacin total.2. Calidad del instrumento para clasificar

    tipologas de centros, aulas o alumnos.3. Mantenimiento de las caractersticas

    sustantivas (tericas y de calidad mtri-ca) del instrumento.

    As, tenemos:

    Objetivos: comprobar si la puntuacinglobal de ambas versiones (la versin 3,y con un tem menos) es equivalente, y sila clasificacin de sujetos, aulas y/o, cen-tros que producen ambas versiones delcuestionario son equivalentes.

    Procedimiento de validacin: en este caso,se entiende que el proceso de validacinse dirige a corroborar si el micro-instru-mento permite clasificaciones similaresa las que se pudieran establecer con laescala original. Teniendo como referen-cia la informacin de la fase 5 acerca dela versin reducida (versin 3), secomienza el proceso de iteraciones, conel nmero de tems seleccionado. Paracada iteracin, se tiene en cuenta:

    - Correlacin de Pearson entre lostotales de ambas versiones.

    - Clasificacin de los sujetos a partirdel puntaje total en tres niveles (alto,medio y bajo) tomando como refe-rencia los grupos extremos (27%superior e inferior).

    - Comparacin de ambas clasificacio-nes mediante Ji-cuadrado entre esca-la original vs. micro-instrumento.

    - Comparacin de la clasificacin de cen-tros (aulas y/o sujetos) que producenambos instrumentos (escala original vs.

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    104 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 104

  • micro-instrumento). As, se observamediante Ji-cuadrado si las clasificacio-nes de las diferentes unidades muestra-les (centros o aulas) son equivalentes.Como criterio para representar al ins-trumento reducido tomaremos el por-centaje de unidades en que se produzcauna clasificacin concurrente entreambas versiones del instrumento.

    - Criterio terico sustantivo. Asimismo,se tendr en cuenta si estn representa-das en el instrumento reducido todaslas dimensiones identificadas medianteel anlisis de dimensionalidad inicial almenos por un tem. O, cuanto menos,si estos pertenecen mayoritariamente ala dimensin ms general y no se pro-duce prdida de informacin tericasustancial que distorsione la cualidaddel constructo que se evala.

    Las siguientes iteraciones se establecern dis-minuyendo un tem en cada una de ellas, utili-zando como referencia la ordenacin de temsestimada en la fase 5.

    El criterio de detencin de las iteraciones sevincula con la calidad mtrica de la reduccin.Se detendrn las iteraciones cuando se produz-ca alguna de las siguientes situaciones en loscriterios mencionados:

    a) La disminucin de la correlacin entrelas versiones por debajo de 0.90.

    b) Cuando no se produzca una coherenciaentre las clasificaciones de ambas versio-nes entre las clasificaciones producidasentre los totales de ambas versiones (cri-terio 2 y 3).

    c) Cuando se den coincidencias entre lasclasificaciones estimadas por unidadesmuestrales, inferiores al 70% (criterio 5).

    d) Cuando no se cumpla el criterio 5, ha-biendo eliminado tems redundantes.

    De esta forma, se replica el procedimiento contodas las variaciones posibles de elementos. La

    solucin ms vlida ser la que cumpla lossiguientes criterios:

    Eficacia: maximizar la correlacin de Pear-son entre puntajes totales de la escalaoriginal y del micro-instrumento y ma-ximizar la coherencia entre las clasifica-ciones derivadas de la escala original y ladel micro-instrumento.

    Eficiencia: minimizar el coste en el nme-ro de tems necesario para informar conun nivel suficiente de fiabilidad y validezacerca del constructo que se mide con laescala original.

    Funcionalidad: representar las cualida-des sustantivas del constructo evaluable,tal cual fue definido tericamente para eldiseo de la escala original, es decir, man-teniendo su validez de constructo.

    Finalizado el proceso, obtenemos el micro-ins-trumento (MI) definitivo, la versin 4. Sunmero de tems ser el N de la escala original,menos los tems anmalos (IA), menos lostems con menos calidad mtrica (IsinQ),menos los tems que paulatinamente se han eli-minado en la ltima reduccin, por ser as cla-sificados segn los criterios de la fase 5 comotems que ofrecen menor informacin.

    A modo de conclusin

    La uniformidad y homogeneidad que se obser-va en los planes de evaluacin de sistemas pro-bablemente est en la base de la percepcingeneralizada de falta de utilidad.

    Hay una dificultad constatada en la comuni-cacin de resultados de las evaluaciones desistemas: de la ingente cantidad de informa-cin que ofrecen, los medios de comunica-cin suelen destacar exclusivamente datoscontrovertidos como los rankings derivadosde las pruebas de rendimiento, que se con-vierte en la nica informacin que finalmentellega a la sociedad.

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 105

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 105

  • Incluso para los lectores ms aventajados, lasevaluaciones de sistemas adolecen de falta deutilidad. Y una de las razones ms claras es lafalta de calidad de los llamados cuestionariosde contexto. Es necesario que estos permitanextraer informacin explicativa de los resulta-dos y, por tanto, indicaciones y argumentacio-nes para las polticas educativas en las distintasregiones. Buscar alternativas metodolgicaspara el diseo de cuestionarios de contexto decalidad ha sido el objetivo prioritario de losProyectos AVACO y MAVACO, financiados

    por el Ministerio de Educacin de Espaa y sin-tetizar ese procedimiento ha sido el objetivo deeste artculo. Confiamos haber iniciado uncamino, desde el punto de vista de la medicineducativa. El trabajo de diferentes equipos deinvestigacin, en distintos territorios, para con-firmar, rebatir y mejorar la utilidad del procedi-miento que hemos presentado ser imprescin-dible para contribuir desde el conjunto de lainvestigacin educativa a que la evaluacin desistemas responda a las finalidades por las quese plante.

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    106 Bordn 64 (2), 2012, 89-110

    Notas

    1 En ambos casos, ha actuado como investigador principal J. M. Jornet y la Universitat de Valncia ha sido la coor-

    dinadora de la red de universidades (Universidad Complutense, Universidad del Pas Vasco, Universidad de Cdiz,

    Universidad de Mlaga, Universidad de Navarra, Universidad de Castilla La Mancha, Universitat Jaume I y Universi-

    dad Autnoma de Barcelona), que han dado respuesta a ambos proyectos. La lnea de investigacin iniciada por estos

    proyectos adems tiene continuidad en el Proyecto EVALEF, Validacin de un instrumento de evaluacin de estilos

    educativos familiares y establecimiento de lineamientos para el diseo de programas de intervencin con familias

    (financiado en el Plan Nacional de I+D+i, Referencia EDU2011-29467, dirigido por M. J. Perales). Tomando como

    constructo central los estilos educativos parentales, el proyecto parte de la metodologa desarrollada en Avaco y

    Mavaco para desarrollar la escala de estilos educativos familiares. Asimismo, los proyectos Evaluacin del clima social

    del aula en educacin secundaria (financiado por la Universitat de Valncia) y Diseo de instrumentos de valoracin del

    clima de aprendizaje en estudiantes universitarios (financiado por la Generalitat Valenciana), centrados en el clima

    social de aula, surgen de los proyectos Avaco y Mavaco y aplican su metodologa de diseo de instrumentos de con-

    texto. 2 Probablemente con enfoques metodolgicos alternativos pueda llegar a establecerse esa continuidad desde lo

    micro-analtico hasta lo macro-analtico, pero se requerir otro tipo de diseos de los planes de evaluacin de siste-

    mas educativos, que tambin ser necesario explorar.3 En el artculo de De la Orden y Jornet en este mismo nmero de Bordn se analiza en profundidad el concep-

    to de calidad y su concrecin en efectos que se van a considerar en la evaluacin de sistemas educativos.4 Si bien este trabajo se presenta por los autores del artculo, la definicin del procedimiento R-AVACO de opti-

    mizacin de la medida ha sido desarrollado contando adems con las aportaciones de diversos investigadores: Eme-

    lina Lpez Gonzlez (UV), Javier Tourn (UNAV), Luis Lizasoain (EHU), Luis Joarsti (EHU) y Javier Tejedor

    (USAL), por lo que si se utilizara el procedimiento y se deseara citar, debera referirse al conjunto de investigadores

    (autores del artculo y participantes).5 Mediante SPSS, se pueden usar comandos tales como explorar, pedir grficos de cajas, tallos y hojas y frecuen-

    cias, o bien, utilizar procedimientos ms potentes, como los disponibles en R.6 Habitualmente trabajaremos con muestras grandes (N 25), por lo que la T debe transformarse a Z para com-

    probar la probabilidad.

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 106

  • Referencias bibliogrficas

    ANDRICH, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573.

    BACKHOFF, E. y GONZLEZ-MONTESINOS, M. (2012). Evidencias de validez del cuestionario para docentes del Estudio

    Internacional sobre Enseanza y Aprendizaje (TALIS-2009). Bordn, 64 (2), 173-194.

    BACKHOFF, E., BOUZAS, A., GONZLEZ-MONTESINOS, M., ANDRADE, E., HERNNDEZ, E. y CONTRERAS, C. (2008). Factores

    asociados al aprendizaje de estudiantes de 3 de primaria en Mxico. Mxico D. F.: Instituto Nacional para la Eva-

    luacin de la Educacin (INEE).

    CARDONA, L., PERALES, M. J. y GMEZ-COSTA, D. (2009). Conferencia: Familia y transformacin social. Anlisis del papel

    de las familias en los estudios de evaluacin de sistemas educativos. Introduccin al estudio de validacin de un cues-

    tionario, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin y desarrollo social.

    CHIVA, I. y MORAL, A. (2009). Conferencia: Diseo y revisin lgica de una escala para evaluar la metodologa docente

    en primaria y secundaria, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin y desarrollo social.

    CRONBACH, L. J. (1951). Coefficient alpha and the internal structure of test. Psychometrika, 16, 297-334.

    DE LA ORDEN, A. (2007). Evaluacin de la calidad de la educacin. Un modelo sistmico como base para la construc-

    cin de un sistema de indicadores. En Seminario Internacional de Indicadores Educativos (memoria): Conceptos,

    metodologas y experiencias para la construccin de indicadores educativos. Mxico: Instituto Nacional para la Eva-

    luacin de la Educacin (INEE), 6-21.

    DE LA ORDEN, A. y JORNET, J. M. (2012). La utilidad de las evaluaciones de sistemas educativos: el valor de la consi-

    deracin del contexto. Bordn, 64 (2), 69-88.

    EMBRETSON, S. E. y REISE, S. P. (2000). Item Response Theory for Psychologists. London, Mohaw, N. J.: Lawrence Erl-

    baum Associate Publishers.

    GMEZ-COSTA, D. y CARDONA, L. (2009). Conferencia: Diseo y validacin de un instrumento para la evaluacin del

    autoconcepto acadmico: Ensayo piloto con alumnas y alumnos de sexto de primaria de la provincia de Valencia den-

    tro del marco de la evaluacin de sistemas educativos, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin

    y desarrollo social.

    GONZLEZ-BARBERA, C., GARCA-GARCA, M., GARCA-CORONA, D. y BIENCINTO, CH. (2009). Conferencia: EVADIE. Cues-

    tionario para la evaluacin de la atencin a la diversidad. Diseo y validacin, Huelva, XIV Congreso de AIDIPE:

    Educacin, investigacin y desarrollo social.

    GONZLEZ-MONTESINOS, M. (2012). El modelo mtrico de Rasch: Fundamentacin, implementacin, interpretacin.

    Madrid: La Muralla (en prensa).

    JOARISTI, L., LIZASOAIN, L. y GAMBOA, E. (2012). Construccin y validacin de un instrumento de medida del nivel socio-

    econmico y cultural (NSE) de estudiantes de educacin primaria y secundaria. Bordn, 64 (2), 151-172.

    LPEZ-GONZLEZ, E., PREZ-CARBONELL, A. y RAMOS-SANTANA, G. (2011). Modelos complementarios al anlisis facto-

    rial en la construccin de escalas ordinales: un ejemplo aplicado a la medida del clima social aula, Revista de Edu-

    cacin, 354, 369-397.

    LPEZ-GONZLEZ, E., TOURN. J. y TEJEDOR, F. J. (2012). Diseo de un micro-instrumento para medir el clima de

    aprendizaje en cuestionarios de contexto. Bordn, 64 (2), 111-126.

    MASTERS, G. N. (1982). A Rasch model for Partial credit scoring. Psychometrika, 60, 523-547.

    MUOZ, J. F. y LVAREZ, E. (2009). Mtodos de imputacin para el tratamiento de datos faltantes. Revista de mtodos

    cuantitativos para la economa y la empresa, 7, 3-30.

    PREZ-CARBONELL, A., RAMOS-SANTANA, G. y LPEZ-GONZLEZ, E. (2009). Diseo y anlisis de una escala para la valo-

    racin de la variable clima social aula en alumnos de educacin primaria y secundaria, Revista de Educacin, 350,

    221-252.

    RAMOS SANTANA, G. y PREZ CARBONELL, A. (2008). Conferencia: El clima social aula: un reto para la formacin inte-

    gral de alumnos, Zaragoza, XIV Congreso Nacional y III Iberoamericano de pedagoga, educacin, ciudada-

    na y convivencia, diversidad y sentido social de la educacin.

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 107

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 107

  • RAMOS, G. y PREZ CARBONELL, A. (2009). Conferencia: Utilidad del diseo de una escala de valoracin de la percepcin

    clima social aula en los niveles de primaria y secundaria, Huelva, XIV Congreso de AIDIPE: Educacin, investiga-

    cin y desarrollo social.

    SRNDAL, C. E., SWENSSON, B. y WRETMAN, J. (1991). Model Assisted Survey Sampling. New York: Springer-Verlag.

    SCHULTZ, W. y SIBBERNS, H. (2004). IEA Civic Education Technical Report. Amsterdam: International Association for

    the Evaluation of Educational Achievement (IEA).

    TUKEY, J. W. (1977). Exploratory Data Analysis. Addison-Wesley, Reading, MA.

    WILLMS, J. D. (2006). Learning Divides: Ten Policy Questions About the Performance and Equity of Schools and Schooling

    Systems. Montreal: UNESCO.

    Fuentes electrnicas

    BIENCINTO-LPEZ, C., GONZLEZ-BARBERA, C., GARCA-GARCA, M., SNCHEZ-DELGADO, P. y MADRID-VIVAR, D. (2009).

    Diseo y propiedades psicomtricas del AVACO-EVADIE. Cuestionario para la evaluacin de la atencin a la

    diversidad como dimensin educativa en las instituciones escolares. Relieve, 15, 1.

    [Fecha de consulta: 15/diciembre/2011]

    DE LA ORDEN, A. (dir.) (1997). Desarrollo y validacin de un modelo de calidad universitaria como base para su eva-

    luacin. Relieve, 3, 1 y 2. [Fecha de consulta: 13/diciembre/2011].

    GONZLEZ-MONTESINOS, M. J. y BACKHOFF, E. (2010). Validacin de un cuestionario de contexto para evaluar sistemas

    educativos con Modelos de ecuaciones estructurales. Relieve, 16, 2. [Fecha de consulta: 13/diciembre/2011].

    LIZASOAIN, L. y JOARISTI, L. (2010). Estudio diferencial del rendimiento acadmico en lengua espaola de estudiantes

    de educacin secundaria de Baja California (Mxico). Revista Iberoamericana de Evaluacin Educativa, 3 (3), 115-134.

    [Fecha de consulta: 13/diciembre/2012].

    LUKAS, J. F. y SANTIAGO, K. M. (2004). Evaluacin de centros escolares de educacin secundaria del Pas Vasco. Revis-

    ta Electrnica de Investigacin Educativa, 6 (2). [Fecha de

    consulta: 13/diciembre/2012].

    MIRANDA, L. (2008). Factores asociados al rendimiento escolar y sus implicancias para la poltica educativa del Per.

    En BENAVIDES, M. (ed.), Anlisis de programas, procesos y resultados educativos en el Per. Contribuciones empricas

    para el debate. Lima: Grade.

    [Fecha de consulta: 13/diciembre/2012].

    MURILLO, F. J. y HERNNDEZ-CASTILLA, R. (2011). Factores escolares asociados al desarrollo socio-afectivo en Iberoa-

    mrica. Relieve, 17, 2, art. 2. [Fecha de consulta:

    5/diciembre/2012].

    MURILLO, J. (2009). Hacia un modelo de eficacia escolar. Estudio multinivel sobre los factores de eficacia en las escue-

    las espaolas. Revista electrnica Iberoamericana sobre calidad, eficacia y cambio en educacin. 6 (1), 4-28.

    [Fecha de consulta: 13/diciembre/2012].

    SAMEJINA, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph,

    17. Richmond, VA: Psychometric Society. [Fecha de

    consulta: 18/noviembre/2011].

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    108 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 108

  • Abstract

    Context questionnaire design for the evaluation of educational systems: optimization of complex constructs measurement

    This paper is a review of a possible model for design and development of contextquestionnaires for the educational systems evaluation. General stages are reviewed and identifythe composition of possible indicators (simple and complex) of these instruments. In the designof questionnaires of context one must consider various aspects, some of which the mostimportant are: a) the selection of variables and indicators to be considered as part of the model,and b) the way in which complex indicators, i.e., those that are the result of a scale or acombination of simple indicators (represented by a single item) are evaluated. To evaluatecomplex indicators (for example, the social climate of the classroom) there are good constructvalidity scales; however, they cannot be used completely, since they are made up of a largenumber of items. In the latter case, we include a procedure that we have developed to designmicro-instruments that are composed of the best items of the scale (i.e., that best predict thetotal score, keeping the dimensional structure of the scale). These micro-instruments must beable to represent complex indicators so that they can be included in the questionnaires ofcontext. It is a procedure of reduction of scales, aimed at identifying the best elements or itemsthat best predict the overall score of a scale, while maintaining its theoretical structure.

    Key words: Educational systems evaluation, Context questionnaires, Instrument design and constructionmethodology, Educational indicators.

    Rsum

    La conception de questionnaires de contexte pour lvaluation des systmes ducatifs: loptimisation de la mesure des construits complexes

    Cet article fait une rvision dun possible modle pour concevoir et construire desQuestionnaires de Contexte pour lvaluation des systmes ducatifs. Nous revissons lesphases gnrales, toutefois que nous identifions la possible composition des indicateurs(simples et complexes) de ces instruments. Dans la conception des questionnaires decontexte il faut tenir compte de plusieurs aspects. Parmi eux nous identifions comme deslments cls: a) la slection des variables et des indicateurs qui doivent tre considrs etqui font partie du modle, et b) la faon dvaluer les indicateurs complexes, cest dire,ceux rsultants dune chelle ou bien dune combinaison dindicateurs simples (reprsentspar un seul lment). Pour lvaluation dindicateurs complexes (para exemple, le climatsociale de la classe) ils existent des chelles avec une bonne validit de construit; nanmoinselles ne peuvent pas tre compltement utilises puisquelles se composent dun grandnombre ditems. Dans le dernier cas, nous dveloppons une procdure pour la conception demicro-instruments composs par les meilleurs items de lchelle (cest dire, les items quiprdisent le mieux le score total, en gardant la structure dimensionnelle de lchelle). Cesmicro-instruments doivent tre capables de reprsenter des indicateurs complexes pourquils puissent tre inclus dans les questionnaires de contexte. Il sagit dun processus de

    Diseo de cuestionarios de contexto para la evaluacin de sistemas educativos

    Bordn 64 (2), 2012, 89-110 109

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 109

  • rduction des chelles, visant lidentification des lments ou items qui prdisent le mieuxle score total dune chelle, en gardant sa structure thorique.

    Mots cls: valuation des systmes ducatifs, Questionnaires de contexte, Mthode de conception etconstructions dinstruments, Indicateurs ducatifs.

    Perfil profesional de los autores

    Jess M. Jornet Meli

    Catedrtico en el Departamento MIDE-UVEG. Coordinador del grupo GEM (MIDE-UVEG;www.uv.es/gem). Su trabajo se orienta en el rea de medicin y evaluacin educativas al diseo deinstrumentos para la evaluacin de competencias, cuestionarios de contexto para la evaluacin desistema educativos y la evaluacin de la dimensin educativa de la cohesin social. Correo electrnico de contacto: [email protected]

    Jos Gonzlez Such

    Profesor titular en el Departamento MIDE-UVEG. Coordinador de la Unidad InnovaMide del grupoGEM (MIDE-UVEG). Su trabajo se centra en la medicin y evaluacin educativas, siendo sus lneaspreferentes de investigacin: diseo de pruebas e instrumentos de medicin educativa, evaluacinde la docencia y diseo y evaluacin de materiales de innovacin docente sustentados sobre nuevastecnologas. Correo electrnico de contacto: [email protected]

    M Jess Perales Montolo

    Profesora titular en el Departamento MIDE-UVEG. Coordinadora de la Unidad de Evaluacin So-cioeducativa del grupo GEM (MIDE-UVEG). Sus lneas centrales de investigacin se dirigen a laevaluacin de programas socioeducativos, evaluacin institucional, evaluacin de la formacin ocu-pacional y continua, y el diseo y desarrollo de instrumentos de evaluacin de competencias. Correo electrnico de contacto: [email protected].

    Jess M. Jornet, Jos Gonzlez Such y M Jess Perales

    110 Bordn 64 (2), 2012, 89-110

    17149 Bordn 64-2 (F).qxd 19/6/12 13:04 Pgina 110