Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
ANÁLISIS MIXTO DE PARÁMETROS DEL PROGRAMA DE EVALUACIÓN MARTES DE PRUEBA®
LUZ HELENA SANTOS FLÓREZ
Tesis para optar al título de Magíster en Educación con énfasis en Gestión Educativa y Evaluación
DIRECTOR: JAVIER CABALLERO SÁNCHEZ
UNIVERSIDAD EXTERNADO DE COLOMBIA
FACULTAD DE EDUCACIÓN
Bogotá, 2018
II
Agradecimientos:
Agradezco a mis padres Pedro Antonio y Edelmira por su apoyo, por ser un ejemplo en lo perso-nal, familiar e incluso lo académico, gracias por siempre esperar y exigir de mí lo mejor.
A mis hermanos Pedro y Jenny por su motivación y ayuda, mi querida hermana gracias por tras-nochar conmigo, brindarme confianza y leer una y otra vez.
A mi esposo Felipe, por su amor y apoyo incondicional, por motivarme e impulsarme a terminar todos esos sueños y metas inconclusas.
A Asesorías académicas Milton Ochoa & Bogotá, en especial a su gerente Diana Bogotá por per-mitirme realizar esta investigación, gracias por la confianza brindada, por entregar información y apoyo sin restricciones.
Al profesor Javier Caballero por su paciencia y sus pertinentes sugerencias, de igual forma a la facultad de educación de la Universidad Externado de Colombia por brindar espacios de investi-gación educativa.
III
Lista de siglas y abreviaturas
MEN Ministerio de educación nacional.
Icfes Instituto colombiano para la evaluación de la educación.
EBC Estándares básicos de competencias
MBE Modelo basado en evidencias
AAMO Asesorías Académicas Milton Ochoa y Bogotá
MP Martes de Prueba®
rpbis Coeficiente de correlación biserial de punto o coeficiente de discriminación
Di Índice de discriminación
Pi: Índice de dificultad
IV
Tabla de Contenidos
Capítulo 1. Problema de investigación 1
1.1. Planteamiento del problema 11.2. Contexto del problema 31.3. Justificación del problema 81.4. Antecedentes del problema 101.5. Pregunta de investigación 141.6. Objetivo general 151.7. Objetivos especificos 151.8. Hipótesis 15
Capítulo 2. Marco de referencia 16
2.1. Evaluación y evaluación estandarizada 162.2. Evaluación de programas evaluativos 202.3. Otras perspectivas sobre la evaluación estandarizada 202.4. Diseño de especificaciones a partir del modelo basado en evidencias 212.5. Recomendaciones para la construcción de ítems 242.6. Teoría clásica de los test (TCT) y teoría de respuesta al ítem (TRI) 242.7. Modelos unidimensionales de teoría de respuesta al ítem 26
2.7.1. El modelo de rasch o logístico de un parámetro (1PL). 272.7.2. El modelo logístico de dos parámetros (2PL) 27
2.8. Medidas de tendencia central y dispersión 29
Capitulo 3. Metodología de investigación 31
3.1. Enfoque de investigación 313.2. Tipo de investigación 313.3. Participantes (universo poblacional y muestra) 323.4. Variables o categorías de análisis 333.5. Proceso y forma de recolección de datos 34
3.5.1. Técnicas de análisis, instrumentos y fuentes 373.5.1.1. Fuente 1: base de datos 383.5.1.2. Instrumento 1: formato de elaboración de rejilla 393.5.1.3. Instrumento 2: matriz descriptiva de ítems 393.5.1.4. Instrumento 3: gúia de revisión documental 403.5.1.5. Validez 403.5.1.6. Consideraciones éticas 41
V
Capitulo 4. Análsisis de la información y hallazgos 42
4.1. Análisis cuantitativo de parámetros 424.1.1. Parametro de dificultad 434.1.2. Parametro de discriminación 46
4.1.2.1. Química 464.1.2.2. Biología 474.1.2.3. Matemáticas 484.1.2.4. Física 484.1.2.5. Lenguaje 494.1.2.6. Sociales 50
4.1.3. Medidas de dispersión 504.1.3.1. Química 524.1.3.2. Biología 524.1.3.3. Matemáticas 534.1.3.4. Física 534.1.3.5. Lenguaje 544.1.3.6. Sociales 54
4.2. Análisis cualitativo 544.2.1. Química 554.2.2. Biología 564.2.3. Matemáticas 584.2.4. Física 594.2.5. Lenguaje 604.2.6. Sociales 61
4.3. Discusión 63
Capitulo 5. Conclusiones y recomendaciones 64
5.1. Conclusiones 645.2. Recomendaciones 665.3. Limitaciones del estudio 68
Bibliografía 69Anexos 74
Anexo 1. Instrumento 1. Formato de elaboración de rejilla 74Anexo 2. Instrumento 2. Matiz descriptiva de ítems Martes de Prueba® 75Anexo 3. Instrumento 3. Guía de revisión documental 76Anexo4. Ficha de validación de jueces expertos! 77
VI
Índice de Tablas, Gráficos, Figuras e Imágenes
Tabla 1. Antecedentes del problema 11Tabla 2. Categorías teóricas 16Tabla 3. Directrices para la elaboración de ítems de opción múltiple 24Tabla 4. Índice de dificultad programa Martes de Prueba 26Tabla 5. Evaluación de ítems según su Índice de Discriminación 29Tabla 6. Participantes: Constructores Martes de Prueba® 2016 32Tabla 7. Categorías de Análisis 34Tabla 8. Distribución de ítems analizados en Martes de Prueba® 2016. 36Tabla 9. Datos para el índice de dificultad 43Tabla 10. Coeficiente de discriminación química 10° 46Tabla 11. Coeficiente de discriminación biología 10° 47Tabla 12. Coeficiente de discriminación matemáticas 3° 48Tabla 13. Coeficiente de discriminación Física 11° 48Tabla 14. Coeficiente de discriminación Lenguaje 9° 49Tabla 15. Coeficiente de discriminación Sociales 3° 50Tabla 16. Medidas de dispersión 51 Tabla 17. Matriz de triangulación química 55Tabla 18. Matriz de triangulación biología 56Tabla 19. Matriz de triangulación matemáticas 58Tabla 20. Matriz de triangulación física 59Tabla 21. Matriz de triangulación lenguaje 60Tabla 22. Matriz de triangulación sociales 61
Gráfico 1. Colegios que aplican Martes de prueba a Nivel Nacional. 5Gráfico 2. Colegios que aplican Martes de prueba Oficiales/No Oficiales. 6Gráfico 3. Distribución por departamentos en la aplicación de Martes de Prueba® 6Gráfico 4. Dificultad real de los ítems 44Gráfico 5. Dificultad Intencional de los ítems 44Gráfico 6. Dificultad de las preguntas por constructor 45Gráfico 7. Poder discriminativo por asignatura 50Gráfico 8. Poder discriminativo de los ítems analizados 50Gráfico 9. Intervalo de confianza química 52Gráfico 10. Intervalo de confianza biología 52Gráfico 11. Intervalo de confianza matemáticas 53Gráfico 12. Intervalo de confianza física 53Gráfico 13. Intervalo de confianza lenguaje 54Gráfico 14. Intervalo de confianza sociales 54
VII
Figura 1. Descripción general Martes de Prueba. 4Figura 2. Distribución de competencias y niveles de dificultad en Martes de Prueba. 5Figura 3. Proceso de elaboración de Martes de Prueba. 7Figura 4. Definición del Dominio de una pregunta. 22Figura 5. Diseño de especificaciones a partir del Modelo Basado en Evidencias. 23Figura 6. Esquema de revisión de los ítems analizados 35
Imagen 1. Opciones de respuesta pregunta 1 56Imagen 2. Contexto pregunta 5 biología 57Imagen 3. Contextos y opciones de respuesta preguntas 11 y 12 60Imagen 4. Opciones de respuesta pregunta 15 de lenguaje 61Imagen 5. Contexto pregunta 16 sociales 62Imagen 6. Opciones de respuesta pregunta 18 sociales 62
VIII
Resumen Analítico en Educación–RAE1. Información General
Tipo de documento Tesis de grado
Acceso al documento Universidad Externado de Colombia. Biblioteca Central
Título del documento
Análisis mixto de parámetros del programa de evaluación Martes de Prueba®
Autor(es) Luz Helena Santos Flórez
Director Javier Caballero Sánchez
Publicación
Unidad Patrocinante
Palabras ClavesEvaluación estandarizada, evaluación externa, ítems, índice de dificultad, coeficiente de discriminación, Modelo Basado en Evidencias, calidad de los ítems.
2. Descripción
La evaluación estandarizada es una herramienta ampliamente usada en el sector educativo ya sea de tipo estatal, o privada, esta última utilizada por los colegios como estrategia para medir procesos y simular evaluaciones estatales. Existen programas de evaluación estandarizada de carácter externo en el sector privado como Martes de Prueba® que es aplicado por el 16% de los colegios a nivel nacional y cuto objetivo principal es realizar un diagnóstico de las insti-tuciones educativas en miras a evidenciar la relación entre la evaluación externa y el currículo escolar y de este modo entrenar para las Pruebas Saber (programa de evaluación estatal colom-biano). Por esta razón Martes de Prueba® busca tener diferentes puntos comunes con la evalu-ación estatal, como los modelos de construcción y calificación de sus pruebas.Las investigaciones sobre el análisis de los parámetros que se utilizan para el diseño, construc-ción y calificación de evaluaciones estandarizadas evidencian que este permite establecer la calidad y el cumplimiento de objetivos de los programas de evaluación a partir de la cuantifi-cación de los parámetros y un análisis posterior de los resultados, de igual forma, en análisis de programas evaluativos, conlleva a que estos mejoren sus procesos y de esta manera cumplan su función y objetivos educativos. Por lo anterior resulta conveniente preguntar ¿Cómo el análisis mixto de ítems del programa de evaluación Martes de Prueba® puede aportar al mejoramiento de sus procesos de diseño y construcción? Para responder a esta pregunta se realizó un análisis mixto los ítems del programa de evaluación Martes de Prueba® en cuanto a los parámetros de dificultad y discriminación a fin de contribuir a la mejora sus procesos de diseño y construcción, esta investigación presenta los resultados y conclusiones obtenidas a partir de las construcciones teóricas que sustentan este tema y el análisis cuantitativo y cualitativo de los ítems estudiados.
IX
3. Fuentes
Las fuentes utilizadas en esta investigación se dividen en tres grupos, el primero de ellos es evaluación y evaluación estandarizada cuyos autores principales fueron (Abad, 2004), (De La Orden, 2000) (ICFES, 2016) (Pérez Juste, 2016) (Jornet, 2017) (AAMO, 2015) (MEN, 2013).El segundo grupo de fuentes están relacionadas con Seguidores y detractores de la evaluación estandarizada, lo cual sustentan autores como (De La Orden, 2000) (Fernández, Alcaraz, & Sola, 2017), finalmente se indago sobre Construcción y calificación de las evaluaciones para lo cual (Backhoff, Larrazolo, & Rosas, 2000) (Córdoba, 2016) (Ebel & Frisbie, 1991) (Leenen, 2013) (Muñís, 2010) (Hulin, Drasgow, & Parsons, 1983) (Quevedo, 2011) y (Martínez, Moreno & Muñiz, 1991) fueron autores que aportaron significativamente.
4. Contenidos
Esta investigación está conformada por cinco capítulos. El primer capítulo presenta el plant-eamiento del problema, el contexto, algunos antecedentes importantes y la justificación. El segundo capítulo es el marco de referencia, el cual está dividido sub temas que son: Evaluación y evaluación estandarizada, evaluación de programas evaluativos, otras perspectivas sobre la evaluación estandarizada, diseño de especificaciones a partir del modelo basado en evidencias, recomendaciones para la construcción de ítems, teoría clásica de los test y teoría de respuesta al ítem, modelos unidimensionales de la teoría de respuesta al ítem dentro de los cuales están el 1PL dificultad y el 2PL discriminación y finalmente las medidas de dispersión importantes.El tercer capítulo presenta el enfoque y tipo de investigación, los participantes, las variables y categorías de análisis, la forma de recolección de datos, las técnicas de investigación, los instru-mentos y fuentes con su respectiva validación, además de las consideraciones éticas tenidas en cuenta. El cuarto capítulo presenta los resultados y su análisis a partir de las categorías de análi-sis, por lo cual se divide en dos partes, análisis cuantitativo donde se presentan los resultados del índice de dificultad, coeficiente de discriminación y de la dispersión de datos a partir de la desviación estándar. La otra parte presenta el análisis cualitativo donde a partir de los resultados cuantitativos se describen las preguntas de acuerdo a su comportamiento estadístico. Finalmente el capítulo cinco presenta las conclusiones, recomendaciones y limitaciones del estudio.
5. Metodología
La investigación se basa en un enfoque mixto, siendo un tipo de estudio denominado estudio de caso, clasificado a su vez como un estudio de caso evaluativo de acuerdo a Monje (2011). Se utiliza como fuente de información la base de datos obtenida a partir de las 366725 respuestas de 18 ítems construidos intencionalmente en el marco de la aplicación del programa Martes de Prueba® en el año 2016. La base de datos fue analizada cuantitativamente con los programas Microsoft Excel y SPSS para obtener los valores del índice de dificultad y coeficiente de dis-criminación a partir de métodos estadísticos correlaciónales. Posteriormente se utilizó la trian-gulación metodológica para relacionar los resultados estadísticos con la descripción y carac-terísticas de los ítems analizados, Lo anterior permitió el análisis mixto de los ítems que aporta información concluyente y permite generar recomendaciones para la construcción y diseño de las pruebas.
X
6. Conclusiones
El análisis cualitativo de las preguntas, es un insumo que permite hacia el futuro diseñar planes de mejora efectivos y ajustados al proceso que se lleva a cabo en Asesorías Académicas Milton Ochoa para el diseño y construcción de los ítems. En este orden de ideas el análisis realizado contribuye al mejoramiento integral del programa martes de prueba, en la medida en que la validez de las pregunta conlleve al cumplimiento de los objetivos del programa, este mismo tendrá mejores resultados y permitirá ser más efectivo. En el análisis cuantitativo realizado se encuentra que para el parámetro de dificultad el 72% de los ítems analizados presentan una dificultad alta; de acuerdo a los criterios de equilibrio establecidos por el programas descritos en el Capítulo 1 (ver figura 2), las preguntas con un índice de dificultad alto, deberían ser el 35%, razón por la cual se establece que las preguntas no cumplen con el nivel de equilibrio estable-cido. En cuanto al parámetro de discriminación se encuentra que el 56% de los ítems, tienen un poder discriminativo pobre, que según Evely Frisbie (1991) es un indicativo de problemas en la elaboración y revisión de las preguntas, ya que no se evidencia una relación entre el resultado obtenido en la pregunta y el resultado obtenido en la asignatura evaluada dentro de la prueba. Los resultados mostraron que los ítems de matemáticas presentan, un poder discriminativo Bueno, que corresponde al 16,8 % de las preguntas (el 28% del total de las preguntas fueron clasificadas como buenas), este resultado de igual forma fue analizado teniendo en cuenta al constructor de las preguntas, dato que coincide con el análisis de nivel de dificultad. En las op-ciones de respuesta se utilizaron distractores que generan ambigüedad o confusión al momento de dar respuesta al ítem, esto se evidenció en todas las asignaturas; Moreno, Martínez, & Muñiz (2004) recomiendan usar errores comunes de los estudiantes dentro de las opciones de respuesta incorrectas, sin embargo según lo observado estadísticamente esto no es tan recomendable.Recomendaciones:En cuanto a la inclusión del parámetro de discriminación en el proceso de construcción de preguntas, es necesario generar un plan de análisis de muestreo de ítems de forma continua que permita reconocer el poder discriminativo y la calidad de los mismos de forma efectiva. De ac-uerdo con Moreno, Martínez, & Muñiz (2004) existen directrices para la construcción de ítems que deben ser tenidas en cuenta para la construcción y diseño de martes de prueba, en cuanto a la sintaxis de los ítems los autores recomiendan evitar que el contexto sea demasiado ambiguo o redactados con “adornos” gramaticales que convierten el contexto en un texto de difícil lectura. En cuanto a las opciones de respuesta se recomienda incorrectas deben ser de fácil descarte para quienes poseen la habilidad y de difícil descarte para quienes no la poseen (Moreno, Martínez, & Muñiz 2004), evitando que hayan respuestas que parezcan o puedan ser correctas y denoten una intención se no acierto.
Elaborado por: Luz Helena Santos Flórez
Revisado por:
Fecha de elaboración del Resumen: 15 07 2018
1
Capítulo 1. Problema de investigación
1.1. Planteamiento del problema
La evaluación estandarizada como proceso evaluativo en poblaciones data de finales del
siglo XIX1. La estandarización trae consigo la necesidad de garantizar la validez y la confiabilidad
en los instrumentos que se aplican en este tipo de evaluación. Fundamentada en teorías psico-
métricas, el uso de la evaluación estandarizada en la evaluación educativa tiene como objetivo
reconocer determinadas habilidades y conocimientos.
En Colombia hay programas de evaluación estandarizada y externa de carácter estatal y
privado dirigidos a instituciones de educación básica y media. Las Pruebas Saber2 son el prin-
cipal programa de evaluación estatal; por su parte, las evaluaciones externas que generan las
entidades privadas buscan realizar una medición continua de los procesos educativos o ser un
mecanismo de apoyo como entrenamiento artificial para las pruebas estatales. Las políticas de
incentivos3 para la mejora de resultados en las pruebas estatales favorecen la existencia de estos
programas de evaluación privados.
Una de las entidades privadas que ofrecen este tipo de evaluación es Asesorías Académi-
cas Milton Ochoa, empresa Colombiana, que presta servicios de evaluación externa y capacitación
a docentes y estudiantes de colegios públicos y privados, inició el proyecto Martes de Prueba® en
el año 2009 con el objetivo de realizar un programa de evaluación estandarizada de carácter exter-
no que hiciera posible la medición continua de los Estándares Básicos de Competencias4.
1. En los estados unidos, las primeras utilizaciones de test estandarizados fueron para análisis psicológico, y datan del año 1840. (Barrenechea, 2010)
2. “Son evaluaciones aplicadas periódicamente para monitorear el desarrollo de las competencias básicas de los estudiantes de educación básica y media como seguimiento de calidad del sistema educativo”. (Men, 2013)
3. El índice sintético de calidad educativa una medición que busca cuantificar la calidad educativa de los colegios teniendo dentro de sus factores de medición los resultados obtenidos por la institución en las pruebas saber.
4. Los estándares básicos de competencias en las áreas fundamentales del conocimiento son el producto un trabajo
2
Martes de Prueba® se consolida el año 2011, cuando Asesorías Académicas Milton Ochoa
decide crear el departamento de Producción y Desarrollo, cuyo equipo es responsable de forma
exclusiva de su diseño, desarrollo y construcción. Los objetivos del programa, en su orden de
importancia están descritos en el manual de procedimientos del departamento de consultoría de
Asesorías Académicas Milton Ochoa, de la siguiente forma: (AAMO, 2015):
1. Realizar un diagnóstico de la institución educativa.
2. Evidenciar la relación entre la evaluación externa y el currículo escolar.
3. Mejorar las habilidades y las destrezas a nivel lector.
4. Entrenar para las Pruebas Saber.
Para dar cumplimiento a los objetivos de Martes de Prueba®, su diseño busca tener simi-
litudes con las Pruebas Saber, lo que llevó a la implementación del Modelo Basado en Eviden-
cias5 en la construcción de los ítems de las pruebas; este modelo, espera que los ítems den cuenta
de determinadas evidencias respecto al cumplimiento de los procesos que los estudiantes apren-
den en la vida escolar. El programa también busca otros puntos de encuentro con las Pruebas
Saber, como el uso de modelos paramétricos, por lo cual ha iniciado una transición para incluir-
los dentro de su sistema de calificación; El Icfes6 utiliza para el análisis de resultados el Modelo
logístico de tres parámetros (3PL), estos son: Dificultad (1PL), discriminación (2PL) y pseudo
azar (3PL). Martes de Prueba® cuenta únicamente con el parámetro de dificultad (1PL) y este
interinstitucional y mancomunado entre el ministerio de educación nacional y las facultades de educación del país agrupadas en ascofade (asociación colombiana de facultades de educación). (Men, 2008) recuperado de: https://www.Mineducacion.Gov.Co/cvn/1665/article- 116042.Html 23 de agosto de 2017.
5. Modelo utilizado en los procesos de diseño de las pruebas desarrolladas y administradas por el Icfes desde 2007. Este modelo garantiza la elaboración de instrumentos de evaluación con igualdad de características durante un período largo de tiempo, debido a que provee los elementos necesarios para que los constructores de preguntas puedan producir pruebas equivalentes.” (GUTIERREZ, 2017).
6. Instituto Colombiano para la Evaluación de la Educación, entidad que administra la aplicación de las Pruebas Saber.
3
se utiliza para puntuar los ítems de acuerdo a su porcentaje de acierto pero no se hace ningún
análisis interno de los resultados.
Los parámetros de calificación, son obtenidos a partir de los resultados una vez las prue-
bas se han aplicado en una muestra significativa de población y brindan un aporte importante no
solo a los procesos estadísticos de calificación poblacional, sino también al estudio de los resulta-
dos para mejorar los procesos de elaboración de las pruebas, es decir, crean pautas para la cons-
trucción de ítems de pruebas futuras. Por lo anterior, resulta de gran importancia que los procesos
de construcción de pruebas en el marco de programas de evaluación externa como lo es Martes
de Prueba® utilicen un análisis estadístico y cualitativo de los parámetros de calificación.
Desde la perspectiva de la evaluación educativa y tal como lo plantea De La Orden es condi-
ción fundamental de un sistema de evaluación que sea educativamente válido (De La Orden, 2000),
esta validez incluye tanto los instrumentos utilizados como los criterios y objetivos de evaluación, los
errores instrumentales deben ser reducidos a posibilidades mínimas para que un programa de evalua-
ción pueda cumplir con los objetivos que se plantea. Lo anterior, a la luz de la gestión educativa abre
un campo importante de investigación y acción en procesos de desarrollo de instrumentos y análisis
de programas de evaluación en el ámbito educativo nacional. Es entonces, el objetivo de esta investi-
gación realizar un análisis mixto de los parámetros de dificultad y discriminación de ítems de Martes
de Prueba® a fin de establecer criterios de mejora de este programa de evaluación.
1.2. Contexto del problema
Martes de Prueba® es un programa de evaluación de naturaleza privada, que busca
evaluar el cumplimiento de los Estándares Básicos de Competencias del Ministerio de Educa-
ción Nacional (MEN). Un fundamento importante del programa es el Marco de Evaluación del
4
Instituto Colombiano para la Evaluación de la Educación Icfes (antes Instituto Colombiano para
el Fomento de la Educación Superior). Las pruebas desarrolladas en este programa se construyen
según el Modelo Basado en Evidencias (MBE). Este programa cumple con dos características: es
externo dado que representa una mirada “desde afuera” respecto al cumplimiento de los estánda-
res, es ajeno a los colegios que implementan el programa de evaluación y es estandarizado dado
que cumple con determinados criterios de normalización en cuanto a su aplicación, metodología,
número y tipo de preguntas, además de evaluar estándares comunes a toda la población que apli-
ca las pruebas. Algunas características importantes del programa se presentan en la figura 1.
20 Pruebas anuales de
1˚ a 10˚
ProgramaMartes
de Prueba
Decisión de implementación
por parte del colegio
Aplicacióndel primer ciclo
(5 puebas)
Visita 1: Socialización del
instructivo de aplicación y
plataforma de resultados
Visita 2: Retroalimentación del primer
ciclo.
Aplicación del ciclo 2 (Pruebas
6 a 10)
Aplicación del ciclo 4 (Pruebas
16 a 20)
Visita 3: Presentación
de informe final
Aplicación del ciclo 3 (Pruebas
11 a 15).
10 pruebas anuales
grado 11˚
4 pruebas anuales
preescolar
1 hora
Preescolar hasta 2˚
10 preguntas
3˚ hasta 9˚25 preguntas
10˚ y 11˚32 preguntas
Capacitaciónen planes demejoramiento
Figura 1. Descripción general Martes de Prueba. Fuente: Elaboración propia a partir de Manual de procedimientos departamento Consultoría AAMO
Martes de Prueba® evalúa las asignaturas de: Lenguaje, matemáticas, ciencias naturales
(química, física y biología a partir de grado décimo entregan puntajes separados), ciencias sociales e
inglés, cada área cuenta con constructores quienes según su especialidad y de acuerdo al Modelo
Basado en Evidencias elaboran las preguntas, que oscilan entre las 12 semanales para los constructores de
pruebas únicamente de 10° y 11° hasta las 37 preguntas semanales para las áreas evaluadas de 1° a 11°.
5
El primer parámetro de calificación (y único hasta la actualidad) tenido en cuenta en Martes
de Prueba® es el de dificultad, denominado también RASH7 este parámetro establece que la dificul-
tad de las preguntas es una medida poblacional y cuenta con un equilibrio el cual garantiza la evalua-
ción de las competencias en tres niveles de dificultad, la figura 2 presenta un resumen esquematizado
del equilibrio de Martes de Prueba® para cada una de las áreas evaluadas. Para que el equilibrio de la
prueba se cumpla el constructor debe establecer intencionalmente el nivel de dificultad.
Dominio Dificultad
Competencia 130% Alta 35%
Media 35%
Baja 30%
Competencia 240%
Competencia 330%
Figura 2. Distribución de competencias y niveles de dificultad en Martes de Prueba. Fuente: Matriz genera MP p 12l.
Para el año 2016 la cifra de colegios usuarios de este programa de evaluación externa su-
peraba los 3000, distribuidos en los diferentes departamentos. Teniendo en cuenta a los colegios
públicos, privados, calendario A y B las pruebas son aplicadas a un promedio de 350.000 estu-
diantes, los días martes según el calendario establecido por cada colegio. El grafico 1 representa
el porcentaje de colegios que aplican Martes de Prueba® en Colombia.
Total de Colegios Calendario A y B
Colegios que aplican Martes de Prueba
16%
84%
Gráfico 1. Colegios que aplican Martes de prueba a Nivel Nacional. . Fuente: Elaboración propia a partir de infor-mes del Departamento de Mercadeo y Ventas CEINFES/ Plataforma Administrativa Factory Suite y Base de datos Directorio Educativo MEN 2016.
7. En 1960 el matemático Danés Georg Rasch propuso este modelo de medida.
6
De los 20008 Colegios reportados en la base de datos del Ministerio de Educación Na-
cional8 (MEN, Directorio Educativo Ministerio de Educación Nacional, 2016) 3848 colegios
aplican por lo menos dos ciclos de Martes de prueba actualmente, correspondiendo así al 16%
de las instituciones educativas colombianas. El 81% de las instituciones que aplican martes de
prueba son no oficiales, siendo gran parte de estos colegios pertenecientes a los departamentos de
Bogotá D.C. y Cundinamarca. Los gráficos 3 y 4 ilustran la distribución de Martes de Prueba®
en el sector oficial y privado y en las diferentes regiones de Colombia.
Colegios No Oficiales que aplican Martes de Prueba
Colegios Oficiales que aplican Martes de Prueba19%
81%
Gráfico 2. Colegios que aplican Martes de prueba Oficiales/No Oficiales. Fuente: Elaboración propia a partir de informes del Departamento de Mercadeo y Ventas CEINFES/ Plataforma Administrativa Factory Suite.
10%
6%
30%
5%
11%
6%
6%
6%
20% Resto del pais
Eje Cafetero
Antioquia
Santander
Zona Sur Occidente
Costa Norte
Meta
Valle del Cauca
Bogotá y Cundinamarca
Gráfico 3. Distribución por departamentos en la aplicación de Martes de Prueba® Fuente: Elaboración propia a partir de la plataforma Factory suite
8. Se excluyeron de la búsqueda jardines infantiles e instituciones con jornada únicamente nocturna y/o sabatina.
7
Para garantizar validez en la construcción se sigue un esquema de revisión, la figura 3
representa el proceso de construcción de Martes de Prueba®. La Validación se basa en revisión
de pares académicos y revisión de expertos.
Matriz GeneralEquilibriode prueba
Construcción de Rejillas de acuerdo
al equilibrioy la matriz
Revisión de RejillaEntrega de Rejillas
al constructor
Correcciones 1 VERSIÓN 2
Revisión de Par académico
Revisión de experto 1
Construcción de ítems de acuerdo
a la rejilla VERSION 1
Revisión de expertos 2 (externos)
Correcciones 2 VERSIÓN 3
Correcciones 3 VERSIÓN 4
Armado de la prueba (Coordi-
nadores)
Correcciones 4 Diseño VERSIÓN
6 (PRINT)
Revisión Print Ojo Fresco Correc-
ciones 5
Revisión del constructor y
control de cambios VERSIÓN 5
Diseño y Diagramación
BodegaVersion Print Completa
Figura 3. Proceso de elaboración de Martes de Prueba. Fuente: Elaboración propia a partir de Manual de procedi-mientos departamento de producción y desarrollo CEINFES
Existen otras empresas dedicadas a la elaboración de programas de evaluación similares
a Martes de Prueba®, por ejemplo las pruebas SAI periódicas de la empresa Los Tres Editores,
consta de 4 pruebas anuales; Por otra parte el grupo educativo Helmer Pardo tiene dentro de su
portafolio de servicios las pruebas Aprender Para Saber, cuya estructura es muy similar a la de
Martes de Prueba® la cual consta de 3 aplicaciones anuales. El grupo educativo Helmer Pardo
es la competencia más directa en posicionamiento en el mercado.
8
1.3. Justificación del problema
La calificación paramétrica en pruebas estandarizadas es está determinada a partir del
análisis de los parámetros de su construcción, la dificultad, que es el primer parámetro de cali-
ficación permite, una vez se analicen los resultados de las pruebas aplicadas a una población,
establecer dos aspectos fundamentales:
• Identificar el nivel de habilidad, dirigido a quienes aplican las pruebas si hablamos del con-
texto educativo o de cualquier rasgo que se quiera medir en el caso de test psicométricos, es
decir se puede poseer una habilidad pero la dificultad del ítem determina si esta está en un
nivel bajo, medio o alto (se pueden utilizar rangos más amplios y detallados);
• Analizar internamente la prueba, es de incumbencia de quienes la elaboran y la califican. A
nivel de calificación, se asignan rangos de habilidad requerida dependiendo del porcentaje de
acierto que tenga un ítem, los que presentan menor porcentaje de acierto tendrán mayor nivel
de dificultad y viceversa, esta información se obtiene a partir del índice de dificultad. A nivel
de construcción una prueba es válida, en la medida que logra establecer el nivel de habilidad
en una persona o población que la aplica, para lo cual esta dificultad se establece de manera
intencional en los ítems, para verificar su validez se contrasta el nivel de dificultad intencio-
nal con los porcentajes de acierto obtenidos y es de esperarse que exista coincidencia entre
ambos, lo cual requiere una verificación posterior a la aplicación. En caso de no coincidir, la
construcción de la prueba presenta inconsistencias.
El segundo parámetro por su parte es más complejo ya que busca relacionar la habilidad
de quien responde un ítem con el puntaje total que se obtiene en la prueba. Una persona que
acierte a un ítem de alta dificultad es porque posee una habilidad en un nivel alto y por lo tanto
es de esperarse que su puntaje total se acerque al máximo posible, cuando esto no ocurre existen
9
dos posibilidades, se presumen indicios de respuesta al azar (los cuales son analizados por el ter-
cer parámetro) o se debe analizar su construcción, donde de acuerdo al índice de discriminación
se puntúa la calidad del ítem según su capacidad para medir realmente una habilidad llamada
poder discriminativo.
En la búsqueda de la transición del programa Martes de Prueba® hacia la utilización de
modelos de calificación paramétrica, algunas dificultades con el tamaño de la base de datos y la
escasa revisión acerca el índice de dificultad han sido un obstáculo no solo para la inclusión del
segundo parámetro sino para el análisis del primero, el cual solo utiliza la dificultad para pon-
derar la calificación. Actualmente, el programa no cuenta con mediciones oficiales ni compara-
ciones respecto a la intención de dificultad y discriminación de las preguntas salvo comentarios
informales del equipo nacional de consultoría, quienes asisten a los colegios a brindar soporte
en la interpretación y uso de resultados acerca de la dificultad de las preguntas, asegurando que
el nivel de dificultad es alto y no corresponde con los niveles de dificultad manejados por las
Pruebas Saber, lo cual discrepa con los objetivos del programa. Por lo anterior, el análisis real
de parámetros de calificación y construcción constituirán un aporte importante a la mejora de los
procesos.
Desde la perspectiva de la investigación educativa es de tener en cuenta que los estudios
estadísticos la enriquecen:
La Estadística habrá de ser vista como un conjunto de métodos, técnicas y procedimien-
tos (…) que contribuyen al estudio científico de los problemas planteados en el ámbito de la
educación y a la adquisición de conocimiento sobre las realidades educativas, a la toma de deci-
siones y a la mejora de la práctica desarrollada por los profesionales de la educación. (Gil, 2003,
pág. 233)
10
Es de resaltar que la evaluación es parte del proceso educativo y su construcción es inhe-
rente a un análisis real de los procesos, además de ser elaborada por profesionales de la educación
quienes tienen un rol preponderante en todas las etapas del proceso educativo. El uso de herramien-
tas estadísticas no resulta suficiente a la hora de realizar el análisis evaluativo por lo que se deben
incluir en ella métodos de triangulación de la información que involucren lo cualitativo. Morse en
discusión sobre la importancia de unir métodos cuantitativos y cualitativos para el estudio de un
fenómeno, establece que “ el análisis interpretativo es concomitante a la recolección de datos y el
producto final es el resultado que se genera en colaboración con los interesados” (Morse, 2003).
La entrega de información de resultados a las instituciones educativas que aplican Martes
de Prueba®, se soporta en el uso de una plataforma de resultados que administra la información
desde el año 2014 y ha permitido generar una extensa base de datos que sirve de insumo para el
análisis estadístico de la información. Los parámetros de dificultad y discriminación se miden
a partir del conocimiento de varios datos aportados por esta plataforma, tales como el número
de evaluados, el número de respuestas por cada opción y los puntajes totales de los estudiantes
que aplican las pruebas, por otra el acceso tanto a las preguntas realizadas como a sus rejillas
de construcción junto con el procesamiento de los datos y su contrastación permitirá realizar el
análisis mixto de la información.
1.4. Antecedentes del problema
Una vez se ha identificado el problema y el contexto de la presente investigación se
recopilaron trabajos investigativos relacionados con el análisis de parámetros de calificación y
construcción para la evaluación de ítems, así como aportes teóricos y críticos sobre la evaluación
externa y su importancia en la educación.
11
Se determinan dos categorías de antecedentes que aportan a la investigación; la primera
es el Análisis paramétrico en evaluaciones estandarizadas dentro de los cuales se documentaron
trabajos de investigación que analizan los parámetros medibles en evaluación estandarizada (difi-
cultad y discriminación) y su uso en análisis y reestructuración de evaluaciones aplicadas a gran
escala. La segunda es la Evaluación de programas evaluativos donde se estudia al papel pre-
ponderante de la evaluación en la educación y sus procesos de mejora, además de brindar otras
perspectivas de la evaluación estandarizada y externa, que cuestionan su uso y la confiabilidad de
los instrumentos, criterios y resultados.
Tabla 1.Antecedentes del problema
Categoría Datos de Publicación
Análisis paramétrico en evaluaciones estandarizadas
Autor: Backhoff, Larrazolo, & RosasTítulo: Nivel de dificultad y poder de discriminación del Exa-
men de habilidades y Conocimientos Básicos (EXHCOBA)Año: 2000 Revista electrónica de investiga-
ción educativa (Redie) Vol. 2 N° 1Autor: Cerdad & Montero
Título: Uso del modelo de Rasch para la construcción de tablas de especificaciones: Propuesta metodológi-ca aplicada a una prueba de selección universitaria
Año: 2017 Revista Actualidades Investigativas en Educa-ción, Facultad de educación- Universidad de Costa Rica
Evaluación de progra-mas evaluativos
Autor: Fernández, Rebolloso & CantónTítulo: Meta evaluación del sistema de evalua-ción de las titulaciones universitarias andaluzas
Año: 2010 Gestión y análisis de políticas públicas- Insti-tuto Nacional de Administración Pública de España.
Nota: Elaboración propia a partir de los autores y documentos consultados
En el año 2000 se publicó en la revista electrónica de investigación educativa el artículo:
Nivel de dificultad y poder de discriminación del Examen de Habilidades y Conocimientos Bási-
cos (EXHCOBA) (Backhoff, Larrazolo, & Rosas, 2000), en esta investigación los autores descri-
12
ben el análisis de los resultados de ítems desde los parámetros de dificultad y discriminación a fin
de contrastarlos con los estándares de calidad de este examen, el cual es realizado a gran escala
en México para el ingreso a la educación superior. Uno de los objetivos es la clasificación de las
preguntas según la recomendación que se establece desde el índice de discriminación para des-
cartar o conservar ítems de mala o buena calidad. Los resultados mostraron que la mayoría de los
reactivos del EXHCOBA tienen una dificultad media y un buen poder discriminativo. Asimismo,
se concluyó que los reactivos que mejor discriminan pertenecen al área de matemáticas y los que
poseen menor nivel de discriminación pertenecen al área de ciencias sociales.
Esta investigación logra una descripción detallada del EXCHOBA y brinda aportes teóri-
cos importantes como los algoritmos matemáticos usados en el índice de discriminación y su uso
en el análisis de la construcción de una prueba estandarizada. La investigación tiene un enfoque
cuantitativo, clasificado dentro de los estudios estadísticos como un análisis correlacional.
Recientemente, se publicó en la revista Actualidades Investigativas en Educación, de la
Facultad de educación de la Universidad de Costa Rica, el artículo Uso del modelo de Rasch
para la construcción de tablas de especificaciones: Propuesta metodológica aplicada a una
prueba de selección universitaria (Cerdad & Montero, 2017). Este estudio fue aplicado al com-
ponente de razonamiento en contextos matemáticos de la prueba de aptitud académica (nombre
que recibe la prueba para el ingreso a la Universidad de Costa Rica), la cual se realiza de acuerdo
al Modelo Basado en Evidencias. Su objetivo fundamental radica en el uso del modelo Rasch
(que indica el parámetro de dificultad en las pruebas), como herramienta de validación de los
ítems aplicados y futuros a partir de la elaboración de tablas de especificaciones. El funciona-
miento que adopta una tabla de especificaciones orienta a los constructores de ítems en la crea-
ción de nuevos reactivos. Los autores describen teóricamente el modelo Rasch y sus algoritmos
13
matemáticos. La clasificación de niveles de dificultad se realizó por jueces expertos, encontrando
en la investigación que algunos de ellos estiman de forma adecuada este parámetro mientras
otros lo exceden, es decir los ítems presentan una dificultad mayor a la estimada por el juez. Otro
hallazgo importante es que existían preguntas que requerían más de una habilidad o procedi-
miento para resolverse, lo cual aumenta la dificultad y no es concordante con el Modelo Basado
en Evidencias. La conclusión general de los autores es que este estudio de caso permite realizar
una correcta validación e implementación para la construcción de nuevos ítems en esta prueba
estandarizada. El análisis de la dificultad realizado en esta investigación brinda aportes desde lo
metodológico a la presente investigación ya que presenta un proceso de validación en una prue-
ba estandarizada de similar construcción a Martes de Prueba® dado que se fundamenta en el
mismo modelo y busca la implementación de parámetros para la optimización de sus procesos.
También permite establecer el uso de algoritmos similares de fácil utilización en herramientas
informáticas como Excel y SPSS, compararlos y aplicarlos en a la base de datos usada en esta
investigación.
En Europa, a partir de la declaración de Bolonia en 1999 se busca la convergencia en
diferentes aspectos de la educación superior del continente, a partir de este acuerdo las univer-
sidades y más específicamente los programas académicos se rigen por un sistema de evaluación
de las titulaciones, el cual representa cierta garantía de la calidad de los programas. En el 2010,
el Instituto Nacional de Administración Pública de España y su ministerio de ciencia u tecno-
logía financian la investigación Metaevaluación del sistema de evaluación de las titulaciones
universitarias andaluzas, cuyo objetivo desde “una perspectiva de la metaevaluación (…) intenta
juzgar la calidad de la evaluación mediante la aplicación de un conjunto de criterios de valor que
ayudaran a destacar cuales son las principales virtudes y defectos del modelo actual” (Fernandez,
14
Rebolloso, & Cantón, 2010). Mediante un cuestionario de 82 ítems y utilizando cuyos participantes
fueron 81 docentes expertos en procesos de evaluación y acreditación donde los participantes puntua-
ban criterios de análisis y fases del proceso de evaluación a partir de los resultados obtenidos los auto-
res discuten en torno a la politización de su uso y el discurso de calidad educativa que la enmarca esta
evaluación. Se concluyó finalmente a partir del análisis de los resultados de los instrumentos aplicados
que se puede mejorar el sistema de evaluación en cuatro aspectos: “el valor de las evaluaciones como
herramienta para la rendición de cuentas (legitimidad), su capacidad para contribuir a la mejora de las
titulaciones, la promoción de actitudes democráticas en los procesos de gestión y la viabilidad global
de las propia evaluaciones”. (Fernandez, Rebolloso, & Cantón, 2010). Esta investigación representa
un antecedente de evaluación de un programa de evaluación, aunque en este caso no era una evalua-
ción escrita, brinda información importante sobre el análisis de un sistema de evaluación para desde
una perspectiva crítica proponer aspectos de mejora. Esta investigación se basa en una metodología
de tipo cuantitativo, aunque las características de un proceso de metaevaluación involucran un fuerte
análisis cualitativo de los resultados cuantitativos.
En el contexto de estos trabajos, cada uno de ellos tiene correspondencia con aspectos
tenidos en cuenta en la presente investigación que corresponde a la evaluación de un sistema de
evaluación externa y reúne el análisis paramétrico para evaluar la calidad de la construcción y
también criterios de análisis como el sistema de aplicación de la evaluación, la cantidad de eva-
luados, la estandarización y su influencia en los resultados.
1.5. Pregunta de investigación
¿Cómo el análisis mixto de ítems del programa de evaluación Martes de Prueba® puede
aportar al mejoramiento de sus procesos de diseño y construcción?
15
1.6. Objetivo general
Realizar un análisis mixto los ítems del programa de evaluación Martes de Prueba® en
cuanto a los parámetros de dificultad y discriminación a fin de contribuir a la mejora sus procesos
de diseño y construcción.
1.7. Objetivos especificos
• Determinar los valores de índice de dificultad y coeficiente de discriminación de una muestra
intencionada de ítems a fin de contrastarlos con los rangos establecidos.
• Realizar un análisis descriptivo de los ítems para establecer criterios y patrones generales que
caractericen su comportamiento a nivel estadístico.
• Generar recomendaciones específicas sobre la construcción de Martes de Prueba® a partir de
la información obtenida.
1.8. Hipótesis
Una vez analizado el problema de investigación en cuanto a su planteamiento, justifica-
ción y antecedentes, se establece la siguiente hipótesis:
“Las características de construcción de ítems presentan un impacto en los parámetros
estadísticos de calificación del programa de evaluación Martes de Prueba®”.
Se define en el marco de esta investigación que una vez establecidos los parámetros de
dificultad y discriminación para una serie de ítems, el análisis cualitativo de los mismos es una
manera efectiva de verificación de la hipótesis.
16
Capítulo 2. Marco de referencia
En este capítulo se reúnen diferentes aportes conceptuales en los cuales se apoya la pre-
sente investigación, se definieron tres categorías teóricas que orientan los objetivos planteados.
La tabla 2 presenta las categorías del marco de referencia y los autores cuyos aportes fundamen-
tan esta investigación.
Tabla 2.Categorías teóricas
Categoría Descripción Autores citados
Evaluación y evalua-ción estandarizada
Se presentan algunas defini-ciones importantes acerca de la evaluación: externa, inter-na, formativa etc., así como la historia de la evaluación estan-darizada y el contexto nacional.
(Abad, 2004), (De La Orden, 2000) (ICFES , 2016) (Pérez Juste, 2016) (Jornet, 2017) (AAMO, 2015) (MEN, 2013)
Seguidores y detrac-tores de la evalua-ción estandarizada
Se presentan dos posturas en tor-no a la evaluación estandariza-das, la perspectiva de la evalua-ción de programas evaluativos y la de oposición a este tipo de evaluaciones a nivel educativo.
(De La Orden, 2000) (Fernan-dez, Alcaraz, & Sola, 2017)
Construcción y califica-ción de las evaluaciones
Finalmente se presentan aspec-tos puntuales de la evaluación estandarizada como la construc-ción a partir del Modelo Basado en evidencia y se describen los parámetros de calificación.
(Backhoff, Larrazolo, & Ro-sas, 2000) (Córdoba, 2016) (Ebel & Frisbie, 1991) (Lee-nen, 2013) (Muñis, 2010) (Hulin, Drasgow, & Parsons, 1983) (Quevedo, 2011)
Nota: Elaboración propia a partir de los autores y documentos consultados
2.1. Evaluación y evaluación estandarizada
El Ministerio de Educación Nacional colombiano, establece que las competencias son
desarrolladas a partir del diseño de planes de estudios coherentes con los Estándares Básicos de
Competencias. (MEN, 2006).
17
Una de las partes más importantes de los procesos de enseñanza aprendizaje, es el pro-
ceso evaluativo, entendiendo la evaluación “como un proceso sistemático, diseñado intencional
y técnicamente para la recolección de información rigurosa, valida y fiable, orientado a valorar
la calidad y logros de un proceso”, (De la Orden, 2000, pág. 383) como base para una posterior
toma de decisiones en el contexto en el que se desarrolle.
La evaluación hace referencia a calcular encontrar el significado de algo entorno a un
criterio ya establecido, y puede aplicarse casi a cualquier actividad humana.
“Su naturaleza, orientada siempre a la mejora de la realidad evaluada, implica varios prin-
cipios, en particular el de su naturaleza instrumental y su carácter integral, integrado e integrador,
sin olvidar su imprescindible dimensión ética. No podría ser de otra manera ya que, si aceptamos
su carácter instrumental, debe servir, por coherencia, a aquello que es la naturaleza de la educa-
ción, que no es sino la mejora, el perfeccionamiento integral del ser humano y, por ende, de todo
lo que a ello contribuye”. (Pérez Juste, 2016, p. 15)
La estandarización en evaluación se entiende como “el proceso de sistematización de to-
dos los elementos de acercamiento a una acción de recogida e interpretación de información, de
manera que se utilicen los mismos: instrumentos o técnicas, criterios de corrección y/o síntesis o
análisis de la información y criterios de interpretación de la misma” (Jornet, 2017, pág. 5). En la
evaluación la estandarización se usa para el diseño de instrumentos, aplicación, obtención e inter-
pretación de resultados, de tal forma que estos sean comunes a la población que se busca evaluar.
La evaluación estandarizada en educación tiene varios matices, sin embargo es importan-
te analizarla desde su finalidad para así, poder comprender su funcionamiento, por lo cual va a
lugar conocer el recorrido histórico de la evaluación estandarizada y su origen: La Psicometría.
Como rama de la psicología la “psicometría se ocupa de los problemas de medición en Psicolo-
18
gía, utilizando la Estadística como pilar básico para la elaboración de teorías y para el desarrollo
de métodos y técnicas específicas de medición” (Abad, 2004, pág. 4). En 1890 M. Catell introdu-
jo el concepto de test mental como instrumento de medida de características psicológicas las cua-
les debían ser objetivas, así como el concepto de batería de pruebas las cuales se aplicaban a los
sujetos a fin de medir cuantitativamente algunas características. Posteriormente Alfred Binet, en
compañía de Theodore Simon crean en 1905 el primer test de inteligencia (test Binet-Simmons),
que buscaba medir la edad mental de los individuos evaluados a fin de establecer diagnósticos de
retraso mental. Los test de inteligencia fueron evolucionando a finales del siglo XIX, los aportes
de psicólogos matemáticos como Pearson y Spearman, contribuyeron a la fundamentación del
uso de instrumentos de medición en la psicología.
El desarrollo de las pruebas estandarizadas evoluciona hacia las pruebas de selección, te-
niendo su primer auge durante la primera y segunda guerra mundial, aplicando test de inteligen-
cia y tipificación a los soldados reclutados, durante todo el siglo XX los test psicológicos amplia-
ron su campo de acción hacia la psicología organizacional masificando el uso de instrumentos
psicométricos para medir características de los sujetos, utilizando teorías y modelos estadísticos
(teoría clásica de los test, teoría de respuesta al ítem) que permiten establecer relaciones entre
respuestas y determinados atributos que permiten identificar características, es decir el atributo
no es evaluado de forma directa sino mediante algunos indicadores de su existencia.
En la actualidad la mayoría de países del mundo poseen sistemas de evaluación estandari-
zada en las cuales participan los estudiantes de diferentes niveles educativos.
En Colombia la entidad encargada de la evaluación estandarizada es el Icfes y esta es de
carácter Censal, es decir es aplicada a la totalidad de estudiantes mediante las Pruebas Saber,
aplicadas anualmente a todos los estudiantes de los grados 3°, 5°, 9° y 11°; de igual modo se
19
aplican Pruebas Saber a estudiantes que finalizan carreras técnicas, tecnológicas y profesiona-
les mediante las Pruebas Saber T & T y SABER PRO. La evaluación estandarizada de mayor
importancia es la SABER 11 que evalúa el proceso académico de la educación media y permite
analizar cómo están los estudiantes en miras a la educación superior y ser un indicativo de la
calidad de la educación del país. Las Pruebas Saber se elaboran mediante el Modelo Basado en
Evidencias mediante el cual se espera bajo el fundamento de las teorías psicométricas que las
preguntas den cuenta de determinadas evidencias del cumplimiento de afirmaciones respecto
al desarrollo de competencias en los estudiantes, dichas competencias desarrolladas a partir del
diseño de planes de estudios coherentes con los Estandares Básicos de Competencias.
En el ámbito educativo, “una evaluación pretende hacer algunas afirmaciones sobre las
competencias, conocimientos, habilidades o capacidades de los estudiantes y se busca que estas
afirmaciones sean válidas” (MEN, 2013). Existen, varias formas de clasificar los procesos de
evaluación, la primera diferenciación amplia se encuentra entre la evaluación sumativa y la eva-
luación formativa, la evaluación sumativa tiene como objetivo fundamental certificar o valorar
un proceso, por lo general ya culminado que puede ser cuantificable, por su parte la evaluación
formativa necesariamente debe ser continua y trasversal al desarrollo de un proceso, su objetivo
fundamental es mejorar los procesos. Otro criterio de clasificación define a la evaluación interna,
realizada por la propia institución de acuerdo a las metas y propósitos que se deseen alcanzar y
a la evaluación externa, que “es toda evaluación previamente planeada, validada y realizada por
entidades especializadas o investigadores, con el propósito de identificar en la institución educa-
tiva el estado de desarrollo de las competencias básicas y disciplinares por parte de los educan-
dos, con referencia a estándares básicos de competencias y los estados del arte de las áreas del
plan de estudios”. (MEN, 2013).
20
2.2. Evaluación de programas evaluativos
La evaluación es parte del proceso educativo y de igual forma el uso de los resultados de
la evaluación desde su carácter instrumental para la mejora de la calidad de la educativa. Por lo
anterior De la Orden (2000) plantea la importancia del estudio de la evaluación y su validez a ni-
vel educativo y plantea ciertas condiciones para un programa de evaluación que busque la mejora
de la calidad educativa y a su vez que permita la evaluación de programas educativos, estas son
entre otras:
1. Que los objetivos del programa sean claramente identificados y formulados sin
ambigüedad.
2. Que los criterios de evaluación (lo que se exige del programa y cómo se exige)
deben constituir una adecuada muestra representativa de los contenidos y con-
ductas especificadas en los objetivos.
3. Que la forma, procedimientos e instrumentos de evaluación exijan los compor-
tamientos especificados en los objetivos del modo más directo.
4. Que la evaluación sea fiable y objetiva en el sentido de que el azar o los errores
instrumentales tengan un efecto mínimo en los resultados (pág. 386)
2.3. Otras perspectivas sobre la evaluación estandarizada
Fernandez, Alcaraz, & Sola (2017) exponen aspectos importantes sobre la evaluación es-
tandarizada y su uso, especialmente realizando un análisis de los paradigmas e ideologías que se
hallan inmersos en la realización de pruebas estandarizadas a los estudiantes. Los autores parten
de afirmar que las evaluaciones de carácter masivo miden competencias, el termino de compe-
21
tencias fue usado por la OCDE9, y anteriormente por otros teóricos que explican el aprendizaje
desde la técnica y el conductismo, según los autores las competencias son imposibles de medir
mediante pruebas escritas, de igual modo rechazan la idea de que estas aportan información so-
bre los resultados que está produciendo un sistema educativo determinado desestimando así a las
pruebas estandarizadas como un tipo de evaluación educativa. “La aparición de las competencias
como construcción referencial del aprendizaje” (Arroyo, 2016, pág. 23) se constituyen como un
paradigma técnico o tecnocrático de la educación el cual busca la eficiencia educativa y la educa-
ción laboral. Desde estas perspectivas son cuestionables, aspectos como los resultados arrojados
por las pruebas y su mal uso, especialmente en referencia a las pruebas PISA10; una de las apre-
ciaciones más importantes de esta perspectiva es la imposibilidad de tener mediciones exactas
en una evaluación estandarizada y el desconocimiento de estas evaluaciones de otros aspectos
importantes del acto educativo ya que hay factores que inciden en la falta de confiabilidad de los
resultados en evaluaciones estandarizadas debido a los altos índices de dispersión de los datos
que estas arrojan, de igual manera para identificar y entender diferentes perspectivas de la aplica-
ción y uso de los resultados de pruebas estandarizadas como insumos para el mejoramiento de la
calidad educativa.
2.4. Diseño de especificaciones a partir del modelo basado en evidencias
Teniendo en cuenta la definición de evaluación del Ministerio de educación nacional, la
evaluación busca validar afirmaciones que se hacen sobre las competencias, los conocimientos
y las habilidades de los estudiantes; Para que pueda darse dicha validación una evaluación debe
cumplir con varias características, principalmente en lo referente a su validez y su confiabilidad.
9. Organización para la Cooperación y el Desarrollo Económico10. Programme for International Student Assessment
22
La evaluación estandarizada se vale de pruebas escritas para cumplir con su objetivo. Las afirma-
ciones establecidas sobre los aprendizajes de los estudiantes deben ser cuantificables y medibles
mediante pruebas validas lo cual se refiere a que la prueba mida lo que pretende medir y a su vez
sus resultados sean interpretables y utilizables (MEN, 2013). Por su parte, la confiabilidad de la
prueba se refiere a la consistencia de los resultados. “En el análisis de la confiabilidad se busca
que los resultados de un proceso evaluativo concuerden con los resultados del mismo en otra
ocasión” (Melendez, 2015).
El Modelo Basado en Evidencias es un modelo de evaluación, se fundamenta en el diseño
de instrumentos que pretenden verificar afirmaciones a partir de las evidencias que arroja la prue-
ba sobre las mismas, en este caso la respuesta acertada es la evidencia de que la afirmación se
cumple. El diseño de especificaciones a partir del MBE “es una metodología que permite cons-
truir evaluaciones sustentadas en criterios objetivos, que generan información válida, confiable
y explícita sobre lo que los estudiantes saben y saben hacer en el marco de un propósito y de un
objeto de evaluación particular” (MEN, 2013).
El modelo empieza determinando el análisis del dominio, en este paso se definen los
alcances que se esperan de los estudiantes, es decir se parte de los Estándares Básicos de Compe-
tencias ya que estos permiten comparar posteriormente los resultados obtenidos con los procesos
por ciclo en que debe estar una población educativa, de estos se toman las acciones de pensa-
miento que se definen las competencias y componentes.
Estándar Acciónde Pensamiento
Dom
inio
Componente
Competencia
Figura 4. Definición del Dominio de una pregunta. Fuente: Elaboración propia a par
23
Cada acción de pensamiento, tiene unos pasos implícitos para su cumplimiento, los cua-
les no se encuentran en el documento de los estándares básicos de competencias, estas se deno-
minan afirmaciones deben ser construidas por el autor de la pregunta, son enunciados globales
que atienden a la pregunta ¿qué se quiere decir sobre los estudiantes a partir de sus respuestas?
De preferencia las afirmaciones deben ser la mayor cantidad posible por una acción de pensa-
miento y deben conservar correspondencia.
El cumplimiento de las afirmaciones debe poder ser corroborado, para lo cual deben
existir una serie de evidencias, las cuales representan acciones observables que hacen posible
verificar las afirmaciones, responde a la pregunta “¿qué tiene que hacer el estudiante que permi-
ta inferir que cumple una afirmación?, una afirmación puede tener varias evidencias son la base
para la construcción de las preguntas de las pruebas”. (AAMO, 2015, pág. 27).
Una vez formuladas las evidencias, estas se ven reflejadas en tareas las cuales represen-
tan una actividad específica, y permiten la construcción del contexto en el que se desarrollaran
la preguntas así como las diferentes preguntas que se pueden construir a partir de una tarea. A
través de las tareas es posible caracterizar la dificultad o complejidad de las preguntas.
Estándar Acciónde Pensamiento
Dom
inio
Componente
Competencia
Pregunta 1 Pregunta 2 Pregunta 3
Tarea 1 Tarea 2 Tarea 3
Evidencia Evidencia Evidencia
Afirmación Afirmación Afirmación
Figura 5. Diseño de especificaciones a partir del Modelo Basado en Evidencias. Fuente: Elaboración propia a partir de información recuperada en: http://www.icfes.gov.co/instituciones-educativas-y-secretarias/acerca-de-las-evalua-ciones/como-se-elaboran-
24
2.5. Recomendaciones para la construcción de ítems
Moreno, Martínez & Muñiz (2004) establecen doce directrices para la construcción de
ítems de opción múltiple divididos en tres categorías, la tabla 3 resume la propuesta que realizan
los autores a partir del análisis de diversas directrices previas.
Tabla 3.Directrices para la elaboración de ítems de opción múltiple
A. Elección de ContenidosDebe ser una muestra representativa del contenido recogi-do en una tabla de especificación, evitando ítems trivialesLa representatividad deberá marcar lo sencillo o complejo, concreto o abstracto, memorístico
B. Expresión del contenido del ítemLo central debe expresarse en el enunciado. Cada opción es un comple-mento que debe concordar gramaticalmente con el enunciadoLa sintaxis o estructura gramatical debe ser correcta. Evitar ítems demasiado escue-tos o profusos, ambiguos o confusos, cuidando además las expresiones negativasLa semántica debe estar ajustada al contenido y a las personas evaluadas
C. Construcción de las opciones de respuestaLa opción correcta debe ser sólo una, acompañada por distractoras plausiblesLa opción correcta debe estar repartida entre las distintas ubicaciones8. Las opciones deben ser preferiblemente tres.Las opciones deben presentarse usualmente en verticalEl conjunto de opciones de cada ítem debe aparecer estructuradoLas opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones «Todas las anteriores» y «Ninguna de las ante-riores “Ninguna opción debe destacar del resto ni en contenido ni en apariencia
Nota: Tomado de: (Moreno, Martinez, & Muñiz, 2004, pág. 496)
2.6. Teoría clásica de los test (TCT) y teoría de respuesta al ítem (TRI)
“La TCT es una teoría sobre la medición que se obtiene al aplicar un instrumento a una
persona” (Leenen, 2013, pág. 41). En esta teoría se plantea muy a grandes rasgos que es posible
medir características o rasgos de un evaluado, y que determinados rangos de puntaje establecerán
una proporción de la característica medida, como se mencionó con anterioridad, en el ámbito
25
educativo y más específicamente en la evaluación estandarizada la teoría clásica de los test esta-
blecería que es posible realizar mediciones de las habilidades (para el caso de Martes de Prue-
ba® de las competencias a través de las tareas planteadas en el MBE) de un estudiante evaluado.
La TCT establece la necesidad de validación de los instrumentos de medición ya que de estos
depende la toma de decisiones.
La teoría clásica de los test no asume una exactitud en la medición de rasgos, por lo
contrario tiene en cuenta que se pueden presentar errores de medición debido a factores externos
o perturbantes al momento de la aplicación de una prueba o de la resolución de un ítem, así para
conocer el puntaje de una persona en la medición de determinado rasgo es necesario tener en
cuenta que se obtendrá un puntaje empírico Xp y un error en la medición Ɛp que, la diferencia
entre ambos factores permitirá conocer el puntaje real Ʈp. La siguiente ecuación (Leenen, 2013,
pág. 42) permite reconocer el cálculo para reconocer el puntaje real en la medición de un rasgo
de acuerdo a la TCT:
Ʈp = Xp – Ɛp
En esta ecuación el error y el puntaje real o verdadero son supuestos teóricos dada la
dificultad de cálculo del error, esta, entre otras asociadas a la fiabilidad, es la limitación principal
de la TCT.
La TCT, como se observó, busca medir o cuantificar los rasgos de acuerdo al puntaje total
de la prueba realizada; dadas las limitaciones de la TCT y en búsqueda de formas que permitan
mediciones más confiables surge sin que esto implique un reemplazo total o una desestimación
del modelo clásico, la teoría de respuesta al ítem TRI; “El supuesto clave en los modelos de TRI
es que existe una relación funcional entre los valores de la variable que miden los ítems y la
probabilidad de acertar estos, denominando a dicha función Curva Característica del Ítem (CCI)”
26
(Muñis, 2010), en otras palabras el rasgo no se mide desde la prueba total sino desde cada ítem,
lo que permite medir más de un rasgo, característica o habilidad en la misma prueba y también
medir una habilidad desde diferentes formas, por ejemplo en una prueba que aplica el MBE, es
posible medir una competencia a partir de varias tareas, lo que podría implicar niveles de dificul-
tad diferentes y por tanto niveles de competencias diferentes.
Dentro del sistema de calificación de martes de prueba, se manejan cuatro niveles de difi-
cultad con los siguientes rangos:
Tabla 4.Índice de dificultad programa Martes de Prueba
Dificultad Índice de DificultadSuperior* [0 – 0.25]Alto (0.25-0.45]Medio (0.45-0.65]Bajo (0.65-1]
* Para efectos de la construcción los niveles de dificultad alto y superior se clasifica como nivel alto.
Nota: Adaptado de sistema de calificación porcentaje de acierto y nivel de dificultad FactorySuitePlantel/MasterPa-ges/Inicio.aspx#b
2.7. Modelos unidimensionales de teoría de respuesta al ítem
Córdoba (2016) , expone que los modelos de TRI son un caso particular y que como ya
se menciona establecen una relación entre las respuestas a un conjunto de ítems de un individuo
a quien se le aplica una prueba, evaluando un denominado rasgo latente, el cual corresponde
en este caso a la habilidad o competencia, debe ser medido sobre alguna escala definida (pág.
57). El autor cita a Hulin, Drasgow, & Parsons (1983) afirmando que “De manera específica, la
probabilidad de que cierto individuo acierte a un ítem se asume como una función θ, el símbolo
usado para denotar la característica que se quiere medir”. (pág. 57)
27
2.7.1. El modelo de rasch o logístico de un parámetro (1PL).
En 1960, Georg Racsh11 propone el principal modelo de la TRI, Rasch “modela la proba-
bilidad de que una persona p (de alguna población de personas) conteste correctamente un ítem
i (de alguna población de ítems)” (Leenen, 2013, pág. 45). Esta modelación se asocia con la difi-
cultad de los ítems, teniendo en cuenta que la probabilidad de acierto a un ítem es inversamente
proporcional a su dificultad, es decir a mayor probabilidad de acierto, menor dificultad y por
tanto también tendrá una puntuación diferente, siendo la puntuación directamente proporcional
a la dificultad, alcanzándose así puntajes más altos a medida que se acierta a ítems con dificultad
mayor que son a su vez los que acierta menor cantidad de población de personas. En la califi-
cación paramétrica este modelo se calcula mediante el denominado índice de dificultad Pi, que
relaciona la población que acierta a un ítem Ai con la población total evaluada Ni. La siguiente
ecuación presenta el cálculo del índice de dificultad:
Pi =AiNi
2.7.2. El modelo logístico de dos parámetros (2PL)
El modelo logístico 2PL introduce un segundo parámetro a la medición de los ítems,
necesariamente este parámetro se relaciona con el de dificultad, este parámetro se conoce como
de discriminación. Relaciona la probabilidad de acierto de un ítem con la habilidad de la perso-
na que lo responde, en este caso los ítems de mayor dificultad deberían ser contestados por los
evaluados con un mayor nivel de habilidad, dicho lo anterior, la probabilidad de acertar un ítem
de dificultad alta por una persona de habilidad baja tiende a cero.
11. (Odense, 21 de septiembre de 1901-19 de octubre de 1980) fue un matemático y estadístico danés.
28
Para efectos de control de la calidad de los ítems “un buen ítem debe discriminar entre
aquellos que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas cali-
ficaciones”. (Backhoff, Larrazolo, & Rosas, 2000, pág. 15) A la esta característica de los ítems se
les conoce como Poder Discriminativo.
Existen dos formas de cuantificar el poder discriminativos, que son el índice de discrimi-
nación Di y el coeficiente de discriminación, llamado coeficiente de correlación biserial de punto
rpbis.
Para efectos de la siguiente investigación Backhoff, Larrazolo, & Rosas (2000, pág. 16)
proponen como ecuación para el calculo del índice de discriminación Di la siguiente formula:
Di =GA aciertos – GB aciertos
N grupo mayor
GA aciertos: Se obtiene a partir los datos de los promedios o puntajes generales de las
personas, y tomar el 27% de los evaluados con puntajes más altos, el número de aciertos de esta
muestra poblacional será GA.
GB aciertos: Se obtiene a partir los datos de los promedios o puntajes generales de las
personas, y tomar el 27% de los evaluados con puntajes más bajos, el número de aciertos de
esta muestra poblacional será GB. N grupo mayor Puede tomar el valor de GA o de GB, corres-
ponderá al grupo que haya tenido mayor cantidad de aciertos, si el de puntajes más altos o el de
puntajes más bajos.
El coeficiente de discriminación es la segunda y más utilizada forma de cuantificar el
poder discriminativo, es la correlación biserial puntual o se punto, “la rpbis se utiliza para saber si
las personas “adecuadas” son las que obtienen las respuestas correctas, qué tanto poder predicti-
vo tiene el reactivo, y cómo puede contribuir a las predicciones.” (Backhoff, Larrazolo, & Rosas,
29
2000, pág. 16). Este coeficiente tiene en cuenta al 100% de los datos y relaciona los puntajes con
el acierto a un determinado ítem. A continuación se presenta la ecuación (Glass & Stanley, 1986)
permite calcular este coeficiente:
( )=−
×−
rx xS
n nn n 1pbs
x
1 0 1 0
x1 = Media de las puntuaciones totales de los evalua-dos que acertaron al ítem
x0 = Media de las puntuaciones totales los evaluados que no acertaron al ítem
Sx = Desviación estándar de las puntuaciones totales.n1 = Número de casos que respondieron correcta-
mente el ítem.n0 = Número de casos que respondieron incorrecta-
mente el ítem.n = n1 + n0
El coeficiente de correlación biserial de punto y el índice de discriminación, establecen
algunos rangos que permiten evaluar la calidad de las preguntas Evel & Frisbie (1991, pág. 232)
proponen el siguiente rango de valores para clasificar la calidad de las preguntas, según el índice
de discriminación Di:
Tabla 5.Evaluación de ítems según su Índice de Discriminación
Índice de Discriminación Evaluación del ítem0.40 o mayor Muy buenos ítems0.30-0.39 Buenos pero sujetos a mejora0.20-0.29 Ítems regulares, necesitan mejorarMenos de 0.19 Ítems pobres, deben ser mejorados e indica mejorar revisión
Nota: Traducción de Essentials of Educational Meassurement (Ebel & Frisbie, 1991, pág. 232)
2.8. Medidas de tendencia central y dispersión
“Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un
solo valor a un conjunto de valores” (Quevedo, 2011, pág. 2). Las medidas de tendencia central
más utilizadas son la media o promedio aritmético, la mediana y la moda. La media está definida
30
como la sumatoria de los valores analizados y su relación con el número total de valores analiza-
dos, dependiendo de las medidas de dispersión de los datos la media será o no representativa del
total de los datos. Por otra parte está la mediana, la cual corresponde en una secuencia de datos
ordenada el valor que se ubica en la mitad de los datos, es decir si tengo cien datos ubicados en
orden creciente el valor que ocupa la posición cincuenta corresponderá a la mediana; Por su parte
la moda, hace referencia al dato que más veces se repite en un conjunto de datos seleccionados.
Por otra parte se hallan las medidas de dispersión son parámetros estadísticos que indican
cómo se alejan los datos respecto a la media o promedio, es decir sirven como indicador de la
variabilidad de los datos. Las medidas de dispersión más comunes son la desviación estándar y la
varianza. Las siguientes ecuaciones representan las medidas de dispersión mencionadas:
∑σ ( )= −=nx x1i
i
n2 2
1Ecuación de la Varianza
∑σ ( )=−
−=nx x1
1 ii
n 2
1
Ecuación de la Desviación Estándar
Ambas medidas de dispersión aportan valores numéricos que brindan información sobre
un conjunto de datos, entre mayor sea su valor indicará mayor dispersión en los datos analizados.
31
Capitulo 3. Metodología de investigación
3.1. Enfoque de investigación
La presente investigación se encuentra enmarcada en el enfoque mixto, es decir, tanto
cuantitativa como cualitativa. Hernández, Fernández & Baptista (2010) establecen algunos crite-
rios para clasificar estos dos tipos de investigación, para este caso el enfoque cuantitativo se ve
reflejado en los siguientes criterios planteados por los autores:
• La recolección de datos se fundamenta en la medición.
• Los resultados obtenidos son cantidades numéricas y estos son analizados por métodos esta-
dísticos.
• Los fenómenos medidos no se ven afectados por la investigadora ya que sus variables poseen
cada una, un fundamento teórico para su medición.
• Los autores también plantean los siguientes aspectos aplicables a esta investigación que refle-
jan el enfoque cualitativo:
• La falta de secuencialidad en la investigación, ya que los datos obtenidos permitieron que se
formulara el problema.
• Se partió de una necesidad más no de una pregunta puntual de investigación.
• Se utilizaron algunos aspectos del paradigma interpretativo en cuanto al análisis de los ítems
y los instrumentos utilizados para este fin.
3.2. Tipo de investigación
El tipo de investigación realizada corresponde a un Estudio de Caso de tipo evaluativo, y
permite abordar los enfoques cualitativo y cuantitativo de forma integradora. Monje (2011, pág. 217)
describe los estudios de caso como un estudio exclusivo de uno o muy pocos objetos de investigación
32
que permite conocerlos de forma detallada, de igual forma “describe y explica pero además orienta la
formulación de juicios de valor que constituyan la base para tomar decisiones” (Monje, 2011). Este
estudio implica un examen sistemático de un fenómeno especifico en este caso el programa de evalua-
ción Martes de Prueba®, permitiendo la inclusión de datos cuantitativos.
3.3. Participantes (universo poblacional y muestra)
En esta investigación participarán 6 constructores de preguntas uno por cada área evalua-
da a excepción de inglés, a continuación se presenta cada uno de los participantes y el área a la
que corresponden:
Tabla 6.Participantes: Constructores Martes de Prueba® 2016
Constructor Materia Formación Experiencia
Constructor 1 Lenguaje
Licenciada en Educación Bási-ca con Énfasis en Lengua Cas-tellana. Universidad Distrital Francisco José De Caldas
Sin experiencia docente
Constructor 2 Biología
Licenciado en Biología. Univer-sidad Distrital Francisco José De Caldas. Magíster en didáctica de las ciencias Naturales, Universi-dad Autónoma de Colombia.
10 años de experiencia docente–Colegios
Constructor 3 Sociales
Licenciado en Ciencias Sociales, Universidad Pedagógica Nacio-nal. Magíster en Ciencia Políti-ca, Universidad de Los Andes.
3 años de experiencia docente–Colegios
33
Constructor Materia Formación Experiencia
Constructor 4 Matemáticas
Licenciada en Física y Matemá-ticas, Universidad Libre, Espe-cialista en Edumática, Universi-dad Autónoma de Colombia.
25 años de experien-cia docente- Colegios / Universidades
Constructor 5 Química
Licenciado en Química, Universidad Distrital Francisco José De Caldas, Magíster en didáctica de las ciencias naturales y experimentales, Uni-versidad Nacional de Colombia.
5 años de experiencia docente- Colegios
Constructor 6 Física Ingeniero Químico, Universi-dad Nacional de Colombia.
15 años de experien-cia docente- Univer-sidades / Colegios
Nota: Datos obtenidos a partir de indagación informal con cada uno de los participantes
Los constructores son una muestra de tipo intencional, son participantes en la investi-
gación por su experticia en el tema y en las áreas requeridas. En el caso de los estudiantes, y
teniendo en cuenta el promedio de respuestas en las prueba, el número de estudiantes fue 20.307,
esta muestra es aleatoria ya que se tomaron todos los datos obtenidos sin eliminar ni clasificar a
ninguno de los evaluados. Para este caso los estudiantes no son considerados participantes, sino
que los resultados obtenidos por ellos son fuente de información.
3.4. Variables o categorías de análisis
A partir de los objetivos de esta investigación y teniendo en cuenta que es un estudio de
carácter mixto se plantearon, tres categorías de análisis: El análisis cuantitativo de parámetros, el
análisis cualitativo y las recomendaciones basadas en los hallazgos y la teoría. La Tabla 7 repre-
senta la matriz categorial de análisis:
34
Tabla 7.Categorías de Análisis
Categoría Subcategoría de primer orden
Subcategoría de segundo orden Instrumentos Fuentes
Análisis Cuantitati-vo de parámetros
Índice de di-ficultad N/A
N/A ÍtemsBase de datos
Índice y coefi-ciente de dis-criminación
N/A
Indicadores cuantitativos de dispersión de los datos
Varianza.Desviación estándar.
Número de evaluados.
Análisis Cualitativo Características de construcción
Concordancia con el Mode-lo Basado en Evidencias
Análisis sintác-tico general
Matriz descrip-tiva de ítems
Matriz de revi-sión documental Ítems
Recomendacio-nes especificas N/A Matriz de revi-
sión documental N/A
Nota: Elaboración propia.
3.5. Proceso y forma de recolección de datos
Para efectos de esta investigación, se pidió a los seis constructores de ítems que seleccio-
naran un grado desde tercero hasta undécimo y para este se construyeran tres ítems especiales
que debían cumplir con los siguientes requisitos:
• Evaluar la misma competencia el mismo componente.
• Trabajar un mismo eje temático.
• Variar el nivel de dificultad intencional de cada ítem, de tal forma que de los tres uno fuera
alto, otro fuera medio y otro bajo.
35
El tener la misma competencia, el mismo componente y trabajar el mismo eje temático se
justifica desde el hecho que estos factores pueden variar la dificultad de la pregunta de forma no
intencional.
Para verificar que las preguntas intencionadas sirvieran para dar cumplimiento a los obje-
tivos de la investigación se siguió un esquema de revisión previo a la inclusión de las preguntas
en la prueba.
Entrega de formato de pre-diseño
(ANEXO 1)
Revisión de la pregunta
Correcciones de la pregunta
Revisión del formato Construcción de la pregunta
Inclusión de la pregunta en las
pruebas correspondientes
Correcciones Construcción de rejilla
Figura 6. Esquema de revisión de los ítems analizados
Una vez se estableció el pre-diseño o construcción de las rejillas de las preguntas estas se
clasificaron de manera que estuvieran repartidas a lo largo de las 20 pruebas aplicadas, lo ante-
rior con el fin de no alterar la aplicación original, el número de preguntas se estableció a fin de
no suponer un trabajo dispendioso adicional para los constructores participantes, por lo cual cada
participante aporto a la investigación con la elaboración de rejillas y construcción de tres pregun-
tas. En total, esta investigación analiza 18 ítems distribuidos en las 20 aplicaciones del año 2016
como se presenta en la tabla 8.
36
Tabla 8.Distribución de ítems analizados en Martes de Prueba® 2016.
Prueba Item Dificultad intencional
Química 10°4 7 Baja6 7 Media7 7 Alta
Biología 10°11 11 Media12 11 Alta13 11 Baja
Matemáticas 3°4 1 Baja17 1 Media18 1 Alta
Física 11°4 15 Baja8 14 Media9 16 Alta
Lenguaje 9°4 12 Baja6 12 Media16 12 Alta
Sociales 5°6 16 Baja13 16 Media17 16 Alta
Nota: Elaboración propia.
Las pruebas fueron aplicadas en los colegios que implementan el programa. Como se mencio-
naba en el capítulo 1 el tiempo de aplicación de cada prueba fue de una hora, la aplicación en el lapso
correspondiente a marzo y octubre del año 2016. Dado el número de colegios y de estudiantes evalua-
dos, la aplicación no es controlada. Después de la aplicación de cada prueba se realizó la recolección
de las hojas de respuesta, estas son calificadas por un escáner de lector óptico que genera un archivo
de texto el cual es posteriormente digitado en Excel y enviado a una interfaz de procesamiento y pu-
blicación de la información, esta plataforma almacena la información en sus servidores por un año. En
el mes de diciembre de ese mismo año, la información había sido recolectada en un 100%, descargada
directamente desde los servidores principales.
37
En marzo del 2017, se inició el procesamiento de la base de datos correspondiente a los
resultados nacionales del año 2016. Para cada prueba y para cada estudiante evaluado se tomaron
los siguientes datos:
• Opción de respuesta contestada.
• Puntaje promedio de la asignatura evaluada.
• Puntaje promedio en la prueba.
• Respuesta correcta del ítem.
Para los ítems se tuvieron en cuenta los siguientes datos:
• Número de respuestas total.
• Número de respuestas por cada opción de respuesta.
• Número de respuestas opción correcta.
• Los datos tomados por estudiante y por prueba permitieron calcular los índices de dificultad
y coeficiente de discriminación, así como también las medidas de dispersión utilizadas que
fueron la desviación estándar y la varianza.
3.5.1. Técnicas de análisis, instrumentos y fuentes
Teniendo en cuenta la metodología mixta de investigación se utilizaron dos técnicas de
análisis de los datos obtenidos. Se utilizaron en primer lugar métodos estadísticos correlacióna-
les, “en los métodos correlaciónales, la presencia de la estadística es indispensable, en la medida
en que el establecimiento de relaciones entre variables se apoya directamente en índices, técnicas
y procedimientos estadísticos específicos” (Gil, 2003). A fin de analizar la información cualita-
tiva y teniendo en cuenta que esta se apoya en datos cuantitativos, la segunda técnica de análisis
utilizada es la triangulación metodológica. “Se define como el uso de al menos dos métodos,
38
usualmente cualitativo y cuantitativo para direccionar el mismo problema de investigación”
(Morse, 2003). Pérez cita a Creswel, estableciendo los tipos de estudios mixtos donde se aplica
la triangulación metodológica, de allí es posible clasificar esa triangulación dentro de un diseño
“secuencial explicatorio” (Perez, 2011), técnica de análisis en la cual se realiza un análisis cuan-
titativo de los datos, seguida de una análisis cualitativo que busca reforzar o explicar los datos
obtenidos, los datos cuantitativos y cualitativos tienen igualdad de estatus en esta investigación.
En cuanto a las fuentes e instrumentos, para la recolección de datos cuantitativos se utili-
zaron las 18 preguntas aplicadas a lo largo de las pruebas, las cuales aportaron los datos requeri-
dos para esta investigación, para procesar y analizar la información proveniente de las preguntas
se contó con un una base de datos obtenida del sistema de información de calificación de las pre-
guntas el cual es a plataforma de resultados, según Monje, (2011, pág. 148) este tipo de fuentes
de información corresponden a fuentes secundarias de datos, en este caso la información obteni-
da de la base de datos fue el insumo principal para realizar el análisis cuantitativo de parámetros.
Dentro de la recolección de información cualitativa, el primer instrumento utilizado fue el
formato de pre diseño (Anexo 1), se utilizó la matriz descriptiva de ítems (Anexo 2) y también se
realizó una revisión documental para lo cual se elaboró una guía de revisión documental (Anexo
3). A continuación se describen en detalle cada uno de los instrumentos utilizados y su justifica-
ción respecto a la investigación realizada.
3.5.1.1. Fuente 1: base de datos
“Se define una base de datos como una serie de datos organizados y relacionados entre
sí, los cuales son recolectados y explotados por los sistemas de información de una empresa o
institución particular” (Perez Valdés, 2007). En una base de datos la información se encuentra
39
agrupada y organizada mediante el uso de filas y columnas. Una base de datos debe ser de fácil
utilización y acceso, para el caso de Martes de Prueba® el tipo de base de datos utilizada es
Microsoft SQL Server, la cual es una herramienta adecuada para el manejo de grandes cantidades
de información. Para el procesamiento de la información tomada de la base de datos se utiliza-
ron dos programas, Microsoft Excel 2013 y SPSS (Statistical Package for the Social Sciences)
los cuales permitían calcular las medidas de dispersión e introducir fórmulas adecuadas para el
cálculo de los índices de discriminación y dificultad.
3.5.1.2. Instrumento 1: formato de elaboración de rejilla
Este instrumento tuvo como finalidad que los constructores reconocieran las preguntas
analizadas de las que no lo fueron, se presenta la rejilla completa de construcción, acompañado
de los criterios a tener en cuenta para la posterior elaboración de la pregunta, el número del ítem
y de prueba donde aparecería.
3.5.1.3. Instrumento 2: matriz descriptiva de ítems
La matriz descriptiva se elaboró con el fin de analizar cada uno de los 18 ítems objeto de esta
investigación. Esta tiene como finalidad describir las características generales de dichas preguntas
para abordar un análisis sintáctico general y también la consistencia respecto al modelo basado en
evidencias. Apoyándose en algunas características y recomendaciones del manual de procedimien-
tos del departamento de producción y desarrollo de Asesorías Académicas Milton Ochoa frente a la
elaboración de las preguntas y también en los fundamentos teóricos esta tiene como objetivo explicar
el comportamiento estadístico de las preguntas analizadas a partir de sus características evidentes. La
matriz descriptiva se relaciona en el Anexo 2 del presente documento.
40
3.5.1.4. Instrumento 3: gúia de revisión documental
El análisis documental o “análisis de contenidos se considera una técnica indirecta que
consiste en el análisis de la realidad social a través de la observación y el análisis de los docu-
mentos que se crean o producen en ella” (Monje, 2011) . Los documentos que se pueden analizar
son de diferente tipo para esta investigación se revisaron manuales de procedimiento, documen-
tos de divulgación, presentaciones para capacitación tanto de fuentes teóricas como de elabora-
ción empresarial o de constructores y consultores, también referentes teóricos sobre construc-
ción, validación, calificación y análisis de ítems.
3.5.1.5. Validez
Los instrumentos utilizados deben permitir que la información recolectada brinde herra-
mientas de análisis adecuadas, para lo cual se hace indispensable su validación. Los instrumentos
puestos en consideración del Juicio de Expertos fueron el formato de elaboración de rejilla y la
matriz descriptiva de preguntas, en el caso de la matriz descriptiva, su validación se hizo median-
te una ficha de validación (Anexo 4). Se contó con la colaboración de los Magister en Educación
Giovanny Alejandro Araque, coordinador de revisión de bachillerato de Martes de Prueba®
quien no fue participante activo en la investigación y Cristian Orjuela Roa, líder de apoyo en
análisis de pruebas Saber Pro en la Universidad Minuto de Dios y experto en manejo estadís-
tico de datos. A pesar de no ser un instrumento, la base de datos como fuente de información,
especialmente el procesamiento de los datos, contaron con la revisión de dos expertos en uso de
software de procesamiento estadístico, nuevamente se contó con el apoyo del Magister Cristian
Orjuela Roa y del Licenciado en Matemáticas Wilson Ernesto Meneses quienes verificaron la
correcta ejecución de los cálculos realizados.
41
3.5.1.6. Consideraciones éticas
El grupo de docentes constructores de pruebas que participaron en esta investigación fue-
ron informados mediante una socialización del proyecto donde se detallaron las implicaciones y
alcances del mismo, se motivó al grupo a participar y a reconocer que los resultados podrían ser
positivos o negativos a nivel individual y que los fines eran netamente investigativos. En cuanto
a la empresa Asesorías Académicas Milton Ochoa su gerente general Diana Esperanza Bogotá
una vez presentado el avance de la investigación otorgó el consentimiento informado para el uso
y tratamiento de la base de datos y demás información de la empresa que fuera útil a la investiga-
ción lo cual había sido inicialmente pactado verbalmente con la investigadora.
42
Capitulo 4. Análsisis de la información y hallazgos
Una vez se culminó la recolección de la información, se dio inicio a su análisis teniendo en
cuenta tanto las categorías de análisis como las técnicas utilizadas. En primer lugar y tal como se
mencionó en el capítulo 3 se realizó el análisis cuantitativo de parámetros utilizando métodos esta-
dísticos correlaciónales, además de los parámetros se analiza la desviación estándar como medida
de dispersión y da cuenta del comportamiento estadístico de un ítem, para lo anterior se utilizó como
fuente de información la base de datos obtenida a partir de las preguntas establecidas. Posteriormente
el análisis continuó con la técnica de triangulación metodológica la cual parte de los datos obtenidos
cuantitativamente para realizar su análisis cualitativo, para lo anterior se utilizaron la matriz descrip-
tiva de ítems y el formato de revisión documental en donde se tuvieron en cuenta manuales de proce-
dimientos, presentaciones y documentos teóricos de fuentes como el Icfes, el ministerio de educación
y autores como Muñiz Moreno y Martínez (2004) quienes plantean directrices para la construcción
de ítems, para este análisis se realizaron matrices de triangulación por asignatura. El comportamiento
cuantitativo es explicado a través del análisis de los ítems donde se tuvo en cuenta su concordan-
cia con el Modelo Basado en Evidencias, descrito ampliamente en el marco teórico y se realizó un
análisis sintáctico general. Lo anterior permitió dar cumplimiento al objetivo general de la investiga-
ción que es realizar un análisis mixto del programa Martes de Prueba® a partir de los parámetros de
dificultad y discriminación de sus ítems. A continuación se describen los resultados partiendo de cada
una de las categorías de análisis planteadas.
4.1. Análisis cuantitativo de parámetros
Para el análisis cuantitativo se analizaron un promedio de 20307 respuestas por pregunta,
para las 18 preguntas se analizaron 366725 respuestas determinando así los índices de dificultad
43
y coeficiente de discriminación, la base de datos se procesó inicialmente en Microsoft Excel para
el índice de dificultad, para el de discriminación se utilizó el programa SPSS siglas en inglés de
Statistical Package for the Social Sciences. También se realizó el análisis estadístico de la disper-
sión de los datos mediante el establecimiento de intervalos de confianza que contribuyen a reco-
nocer la validez de los datos obtenidos. A continuación se presenta el análisis de la información
cuantitativa obtenida a partir del procesamiento de la base de datos.
4.1.1. Parametro de dificultad
El parámetro de dificultad se establece mediante el modelo RASH, este atribuye la difi-
cultad de un ítem de acuerdo a su porcentaje de acierto, de acuerdo a Leenen (2013) este pará-
metro se modela mediante la probabilidad de ítem para ser acertado de acuerdo a su dificultad
intencional. Para obtener el índice de dificultad se parte de un algoritmo Sencillo, donde se tienen
en cuenta la relación del número de respuestas correctas de un ítem con el total de respuestas
que este haya tenido o de respuestas posibles que corresponde al total de evaluados. En este caso
se utilizó el total de evaluados por pregunta dado que la omisión de respuesta fue contabilizada
como un no acierto. Los datos obtenidos para el índice de dificultad se contrastaron con el índi-
ce de dificultad establecido para las preguntas de Martes de Prueba® (Ver Tabla 8). La tabla 9
presenta los resultados obtenidos para el índice de dificultad .
Tabla 9.Datos para el índice de dificultad
Codigo de pregunta
Dificultad intencional
Porcentaje de acierto Evaluados Indice de
dificultad Dificultad real
Química 10°- constructor 51 Baja 15 23833 0,15 Alta2 Media 31 22736 0,31 Alta3 Alta 71 22256 0,71 Baja
44
Codigo de pregunta
Dificultad intencional
Porcentaje de acierto Evaluados Indice de
dificultad Dificultad real
Biología 10°- constructor 24 Media 36 17531 0,36 Alta5 Alta 20 17789 0,2 Alta6 Baja 30 17106 0,3 Alta
Matemáticas 3°- constructor 47 Baja 65 25142 0,65 Baja8 Media 38 11410 0,34 Alta9 Alta 34 10794 0,38 Alta
Física 11 10°- constructor 610 Baja 76 28693 0,76 Baja11 Media 44 24205 0,44 Media12 Alta 17 22598 0,17 Alta
Lenguaje 9°- constructor 113 Baja 35 28525 0,35 Alta14 Media 56 26899 0,56 Media15 Alta 39 11695 0,39 Alta
Sociales 5°- constructor 316 Baja 40 24287 0,4 Alta17 Media 26 19524 0,26 Alta18 Alta 23 11702 0,23 Alta
En la tabla 9 se evidencian a través de los índices de dificultad obtenidos a partir del
porcentaje de acierto que en la mayoría de los casos el nivel de dificultad intencional no coinci-
de con el nivel de dificultad real, los gráficos 5 y 6 presentan la diferencia entre el porcentaje de
preguntas por cada nivel de dificultad de forma intencional y la dificultad obtenida realmente.
ALTA 72%MEDIA 11%
BAJA 17%
Gráfico 4. Dificultad real de los ítems
ALTA 34%BAJA 33%
MEDIA 33%
Gráfico 5. Dificultad Intencional de los ítems
45
La dificultad se planteó inicialmente para que los ítems tuvieran niveles de dificultad
proporcionales entre sí, los resultados muestran que no solo el nivel de dificultad no coincide en
la mayoría de casos sino que el 72% de los ítems analizados presentaron un nivel de dificultad
alto. La mayor coincidencia entre los niveles de dificultad se presenta en el constructor 6, quien
es responsable de las preguntas de física, en este caso las preguntas analizadas correspondían
a preguntas de grado 11°. El gráfico 6 presenta la distribución de niveles de dificultad real por
constructor.
0 1 2 3
BajaMediaAlta
Constructor 1
Constructor 2
Constructor 3
Constructor 4
Constructor 5
Constructor 6
Gráfico 6. Dificultad de las preguntas por constructor
El constructor 6, de formación como ingeniero químico cuenta con 15 años de experien-
cia docente, por su parte la constructora 4 quien también logró coincidir en los niveles de dificul-
tad bajo y alto cuenta con 25 años de experiencia, lo cual indica que la experiencia docente favo-
rece el reconocimiento intencional de los niveles de dificultad, los demás docentes constructores
acertaron un nivel de dificultad, en la mayoría de los casos al alto. Es de resaltar que únicamente
los constructores 4 y 6 lograron coincidencia en el nivel de dificultad bajo, lo cual también es un
indicio de que este tipo de preguntas requieren más experticia o tienen mayor dificultad a la hora
de ser construidas.
46
4.1.2. Parametro de discriminación
Como se mencionó en el capítulo 2 el parámetro de discriminación busca relacionar la
dificultad de los ítems con el puntaje total de una prueba, para este caso será el puntaje total de la
asignatura analizada. Como lo establecen Backhoff, Larrazolo & Rosas (2000) para que un ítem
tenga buen Poder Discriminativo este debe poder discriminar entre los estudiantes que obtienen
buenos puntajes, de cierto modo este parámetro garantiza que el ítem mida lo que debe medir, en
este caso la habilidad o competencia que se busca reconocer o valorar.
El poder discriminativo se puede cuantificar a partir del índice de discriminación Di o el
coeficiente de discriminación llamado también coeficiente de correlación biserial rpbis aunque se
calcularon ambos datos, para el análisis se tendrá en cuenta el coeficiente de correlación biserial
rpbis ya que este tiene en cuenta la totalidad de los datos cuya ecuación fue propuesta por Glass
& Stanley (1986) y se presenta en el capítulo 2. Esta ecuación relaciona la media de los puntajes
de los evaluados que acertaron y la media de los puntajes de los que no acertaron con la des-
viación estándar, que es una medida de dispersión de los datos, también tiene en cuenta el total
de evaluados que acertaron, los que no acertaron y su relación con la cantidad de evaluados, es
aquí donde se establece la correlación con la dificultad de ítem, para realizar un análisis a mayor
profundidad y con más claridad los resultados se presentarán por área.
4.1.2.1. Química
Tabla 10.Coeficiente de discriminación química 10°
Codigo de pregunta
Puntaje acertados
Puntaje no acertados
Numero de aciertos
Numero de desaciertos
Correlación bise-rial de punto rpbis
Prome-dio rpbis
1 39,81 37,37 3575 20258 0,070,112 44,64 40,11 7048 15688 0,13
3 45,9 42,11 15802 6454 0,12
47
Para esta asignatura lo primero que se observa es que los puntajes de los estudiantes que
acertaron cada una de las preguntas es ligeramente más alto de los que no la acertaron pero la
diferencia no es muy significativa, por esta razón los datos obtenidos para la correlación biserial
o coeficiente de discriminación son bajos de acuerdo a los rangos establecidos Ebel & Frisbie
(1991) (Ver tabla 4) dentro de los cuales los valores obtenidos para química indican pobre dis-
criminación, es decir el acierto a las preguntas no se relaciona con el nivel de habilidad de quien
la responde. Es in indicativo como lo mencionan los autores de que los ítems y la revisión de los
mismos deben ser mejorados.
4.1.2.2. Biología
Tabla 11.Coeficiente de discriminación biología 10°
Codigo de pregunta
Puntaje acertados
Puntaje no acertados
Numero de aciertos
Numero de desaciertos
Correlación bise-rial de punto rpbis
Prome-dio rpbis
4 37,97 30,68 6311 11220 0,390,245 42,02 38,82 3558 14231 0,09
6 45,03 37,61 5132 11974 0,23
En el caso de biología de 11° se evidencian diferentes coeficientes de discriminación, el
promedio corresponde según la clasificación de Ebel & Frisbie (1991), a ítems regulares, que
requieren mejoras. Solamente una pregunta posee un índice de discriminación de 0,39 que es un
valor que entra en el rango de un ítem de buena calidad. En general los puntajes de los evaluados
que acertaron la pregunta no difieren considerablemente de los puntajes de los que no acertaron,
lo cual indica que las preguntas no se relacionan con la habilidad general del estudiante para la
asignatura. Lo anterior coincide en cierta manera con el desempeño del docente constructor en la
intención de dificultad de los ítems, ya que los tres analizados fueron de dificultad alta, el análisis
descriptivo de los ítems brindará más información al respecto.
48
4.1.2.3. Matemáticas
Tabla 12.Coeficiente de discriminación matemáticas 3°
Codigo de pregunta
Puntaje acertados
Puntaje no acertados
Numero de aciertos
Numero de desaciertos
Correlación bise-rial de punto rpbis
Prome-dio rpbis
7 54,27 41,86 16342 8800 0,320,358 61,61 45,39 3879 7531 0,34
9 55,25 40,52 4102 6692 0,39
Para el caso de matemáticas y observando la segunda y tercera columna de la tabla 11
se empiezan a observar diferencias considerables en los puntajes de los estudiantes que aciertan
o no las preguntas analizadas lo que conlleva a un coeficiente de discriminación más alto, en
promedio las preguntas en esta área tienen un rpbis de 0,35 y todas se encuentran en un rango que
según la clasificación de Ebel & Frisbie (1991) corresponde a ítems buenos pero sujetos a mejo-
ra. Es importante que en este caso la constructora 4 también presenta una buena relación entre la
dificultad planeada para sus preguntas y la dificultad real obtenida. Tal como se analizó para el
parámetro de dificultad y observando la tabla 5 (ver capítulo 3) la constructora, cuya formación
es licenciada en matemáticas y física y especialista en edumática, cuenta además con 25 años de
experiencia en aula, factor que es importante a la hora de analizar sus preguntas.
4.1.2.4. Física
Tabla 13.Coeficiente de discriminación Física 11°
Codigo de pregunta
Puntaje acertados
Puntaje no acertados
Numero de aciertos
Numero de desaciertos
Correlación bise-rial de punto rpbis
Prome-dio rpbis
10 46,11 35,58 21807 6886 0,310,1511 49,28 44,58 10650 13555 0,15
12 50,42 50,16 3842 18756 0,01
49
Para el caso de física, cuyo responsable es el constructor 6 se observa una discrepancia
entre los resultados muy buenos presentados en la intención de dificultad y la dificultad real y el
coeficiente de discriminación, las preguntas arrojan un promedio de rpbis de 0,15, valor que se
encuentra ubicado en un rango que corresponde a ítems pobres, que requieren mejoría en la revi-
sión y en los ítems mismos, el único ítem que presenta una discriminación buena y corresponde
a un buen ítem es el de dificultad baja, indicando tal vez que los otros dos ítems, especialmente
el de dificultad alta era bastante difícil de responder y no se relacionaba con la habilidad. Para
entender este resultado el análisis descriptivo de ítems brindará más información.
4.1.2.5. Lenguaje
Tabla 14.Coeficiente de discriminación Lenguaje 9°
Codigo de pregunta
Puntaje acertados
Puntaje no acertados
Numero de aciertos
Numero de desaciertos
Correlación bise-rial de punto rpbis
Prome-dio rpbis
13 50,44 42,57 9984 18541 0,230,2214 47,99 33,27 15063 11836 0,61
15 42,35 49,03 4561 7134 -0,18
Las preguntas de lenguaje como se observa en la tabla 14, difieren mucho en su coeficien-
te de discriminación , una de ellas incluso tiene un rpbis negativo lo cual está dentro del rango de
ítems pobres que requieren ser mejorados y revisados, otra presenta un valor que corresponde a
un ítem regular, y la pregunta donde la constructora acertó en su nivel de dificultad que es la de
dificultad media, tiene un coeficiente de discriminación de 0,61 que se ubica según los rangos
establecidos por Ebel & Frisbie (1991) como un muy buen ítem. La constructora de esta prueba
no cuenta con experiencia en aula.
50
4.1.2.6. Sociales
Tabla 15.Coeficiente de discriminación Sociales 3°
Codigo de pregunta
Puntaje acertados
Puntaje no acertados
Numero de aciertos
Numero de desaciertos
Correlación bise-rial de punto rpbis
Prome-dio rpbis
16 57,98 50,491 9715 14.572 0,00017 57,98 50,09 5076 14.448 0,00
18 52,44 46,1 2691 9.011 0,00
En este caso el coeficiente de discriminación, se aproxima para las tres preguntas anali-
zadas a cero, no se observan diferencias significativas entre los puntajes de quienes acertaron y
quienes no acertaron, para comprender este comportamiento estadístico será la descripción del
ítem la que nos brinde información concluyente.
Matemáticas es la asignatura que presenta mejor poder discriminativo y sociales y quí-
mica las que presentan un poder discriminativo más bajo como se puede observar en el gráfico
8, teniendo así el 56% de preguntas con discriminación pobre, el 11% regular, el 28% con buen
poder discriminativo y una pregunta equivalente al 5% considerada por la clasificación de Ebel
& Frisble (1991) como muy buena como se observa en el gráfico 7.
0 1 2 3
Muy bueno
Bueno
Regular
Pobre
Química
Biología
Matmáticas
Física
Lenguaje
Sociales
Gráfico 7. Poder discriminativo por asignatura
Muy bueno 5%Bueno 28%
Regular 11%
Pobre 56%
Gráfico 8. Poder discriminativo de los ítems analizados
4.1.3. Medidas de dispersión
Las medidas de dispersión a tener en cuenta son la varianza y la desviación estándar,
51
ambas en búsqueda de brindar confiabilidad a los resultados, la tabla 15 presenta los valores de
varianza y desviación estándar acompañados del número de evaluados para cada pregunta.
Tabla 16.Medidas de dispersión
Codigo de pregunta Evaluados Desviación estandar1 23833 12,5952 22736 15,523 22256 14,284 17531 8,945 17789 14,916 17106 14,687 25142 18,2238 11410 22,759 10794 18,1410 28693 14,5811 24205 15,9612 22598 16,4313 28525 16,2314 26899 12,0215 11695 18,3216 24287 18,3317 19524 18,3218 11702 18,14
La desviación estándar como se mencionó en el capítulo 2 es un criterio estadístico que
indica cómo se alejan los datos respecto a la media o promedio y sirve como indicador de la va-
riabilidad de los datos, su valor debe ser cercano a cero sin embargo en poblaciones muy grandes
como es este caso, las desviaciones pueden alcanzar valores superiores a 10, considerándose esto
normal. Para comprender mejor la validez de los datos se analizara gráficamente las preguntas de
cada asignatura a fin de reconocer los datos útiles para continuar el análisis mixto.
Para realizar los gráficos se tuvieron en cuenta los datos del puntaje promedio en la asig-
natura, contrastado por los puntajes obtenidos por los estudiantes que respondieron las tres pre-
52
guntas analizadas, para establecer cuales datos se encuentran dentro de un margen adecuado de
confianza, se establecen dos valores en torno al puntaje promedio que son la desviación mínima
y la desviación máxima, los datos que no se encuentren entre estos valores tienen poca validez
estadística debido a la su dispersión respecto al rango denominado intervalo de confianza.
4.1.3.1. Química
0 1 2 30
20
40
60
80
PromedioDesviación MáximaDesviación MínimaPuntaje
Gráfico 9. Intervalo de confianza química
En este caso la pregunta 1 presenta una dispersión más baja que la mínima y la máxima,
los estudiantes que contestaron esta pregunta fueron quienes tuvieron puntajes más bajos, recor-
dando que es la pregunta de química con menor porcentaje de acierto y más alto nivel de dificul-
tad, la pregunta 1 no se encontraría dentro del intervalo de confianza.
4.1.3.2. Biología
0 1 2 30
20
40
60
80
PromedioDesviación MáximaDesviación MínimaPuntaje
Gráfico 10. Intervalo de confianza biología
53
Los datos obtenidos en la asignatura de biología se encuentran todos dentro del intervalo
de confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos obteni-
dos.
4.1.3.3. Matemáticas
0 1 2 30
20
40
60
80
PromedioDesviación MáximaDesviación MínimaPuntaje
Gráfico 11. Intervalo de confianza matemáticas
Los datos obtenidos en la asignatura de matemáticas se encuentran todos dentro del in-
tervalo de confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos
obtenidos.
4.1.3.4. Física
0 1 2 30
20
40
60
80
PromedioDesviación MáximaDesviación MínimaPuntaje
Gráfico 12. Intervalo de confianza física
Los datos obtenidos en la asignatura de física se encuentran todos dentro del intervalo de
confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos obtenidos.
54
4.1.3.5. Lenguaje
0 1 2 30
20
40
60
80
PromedioDesviación MáximaDesviación MínimaPuntaje
Gráfico 13. Intervalo de confianza lenguaje
Los datos obtenidos en la asignatura de lenguaje se encuentran todos dentro del intervalo de
confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos obtenidos.
4.1.3.6. Sociales
0 1 2 30
20
40
60
80
PromedioDesviación MáximaDesviación MínimaPuntaje
Gráfico 14. Intervalo de confianza sociales
Los datos obtenidos en la asignatura de sociales se encuentran todos dentro del intervalo de
confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos obtenidos.
4.2. Análisis cualitativo
El análisis cualitativo realizado en esta investigación tiene como intención explicar algu-
nos resultados obtenidos a nivel cuantitativo, en cuyos casos la mera información numérica no
permite reconocer las características del ítem analizado, en el apartado anterior se analizaron va-
55
rios ítems con muy buen comportamiento estadístico en el primer parámetro y no en el segundo
o con un comportamiento que evidencia dificultades en la construcción de la pregunta en ambos
parámetros, a continuación mediante el uso de diferentes matrices de triangulación por cada asig-
natura y a partir del instrumento utilizado que es la matriz descriptiva de ítems, la revisión docu-
mental realizada y los datos cuantitativos obtenidos se realizará el análisis mixto de los ítems.
4.2.1. Química
Tabla 17.Matriz de triangulación química
Competencia: IndagaciónComponente: Aspectos analíticos de las sustancias
Tema: Propiedades periódicasCódigo de ítem
Dificultad Pi
Discriminación rpbis
Descripción
10,15 0,097 Los tres contextos contienen tablas con gran can-
tidad de información, se busca que el estudiante reconozca la expresión de los datos presentados en la tabla en una representación diferente a la mostrada. El constructor busco variar la dificultad de acuerdo al tipo de representación que pedía, en dos casos eran frases concluyentes y en el ter-cer caso mediante una representación gráfica, la cual presento menos dificultad. Las opciones de respuesta con texto tienden a repetir varias veces frases y palabras de forma igual o muy similar. Estas dos preguntas tuvieron mayor dificultad.
Alta Pobre
20,31 0,145
Alta Pobre
30,71 0,080
Baja Pobre
Estos ítems evidencian diferencias entre la percepción de dificultad del constructor y la
dificultad real, dado que para las misma competencia, componente y tema el constructor planteo
una dificultad intencional alta en la pregunta 3 donde el estudiante debía identificar una represen-
tación gráfica que significara lo mismo que se expresaba en la tabla y la pregunta tuvo un 71%
de acierto, es decir baja, teniendo una dificultad opuesta a la planeada. Las preguntas 1 y 2 de
56
dificultad intencional baja y media respectivamente piden frases concluyentes respecto a lo que se ex-
presa en la tabla, sin embargo las opciones de respuesta son repetitivas (ver imagen 1) lo cual dificulta
su comprensión e hizo que las preguntas tuvieran un nivel de dificultad mucho mayor al esperado,
además de requerir que el estudiante tuviera claridad sobre algunos conceptos memorísticos que no
aparecen en el contexto. La pregunta 1 de hecho tuvo apenas un 15% de acierto y dados los puntajes
de quienes respondieron, se considera un dato fuera del intervalo de confianza (ver gráfico 10).
Imagen 1. Opciones de respuesta pregunta 1
4.2.2. Biología
Tabla 18.Matriz de triangulación biología
Competencia: Uso comprensivo del conocimiento científicoComponente: Ecosistémico
Tema: Adaptaciones en los seres vivosCódigo de ítem
Dificultad Pi
Discriminación rpbis
Descripción
40,36 0,39
Las preguntas 4 y 5 poseen contextos similares y extensos, un párrafo y dos gráficas mientras que la pregunta 6 presenta un contexto continuo (solo tex-to) corto, en general las preguntas buscan que el es-tudiante relacione el contexto con un concepto dado o explícito en el contexto. Se utilizan nombres cien-tíficos de las especies nombradas pero aclarando el nombre común. En cuanto a las opciones de res-puesta la pregunta son repetitivas, las preguntas 4 y 5 tienen opciones de respuesta larga y la 6 respuesta corta, el autor utiliza opciones distractoras que resultan confusas. En general el nivel de dificultad es alto para las tres preguntas. El coeficiente de discriminación es diferente evidenciando dificultad para la intención en medir una habilidad particular.
Alta Bueno
50,20 0,09
Alta Pobre
60,30 0,23
Alta Regular
57
En biología se observan similitudes en el nivel de dificultad de las preguntas, pero am-
plias diferencias en la discriminación, lo cual evidencia poca asertividad en la intención de las
preguntas por parte del constructor, en general, las preguntas tienen problemas de redacción y re-
quieren ser leídas varias veces para identificar la intención del autor, la presencia de distractores
en las opciones de respuesta aumenta de forma innecesaria el nivel de dificultad y no son comu-
nes a la competencia evaluada en estos ítems, se evidencia una combinación de dos competencias
en las preguntas 5 y 6 donde el estudiante debe relacionar o asociar lo cual hace que la pregunta
pase a la competencia de explicación de fenómenos el marco conceptual de ciencias naturales del
Icfes (2007) establece que en la competencia de uso comprensivo del conocimiento científico lla-
mada también identificar, se reconoce y relaciona conceptos con fenómenos mostrados (pág. 33)
mientras que la competencia de explicación de fenómenos o explicar pide que el estudiante tenga
una actitud analítica que permita identifica un argumento correcto (pág. 34). Los contextos largos
como el caso de la pregunta 5 (ver imagen 2) también aumentan la dificultad de las preguntas ya
que en este caso todas presentan una dificultad alta y conllevan a que la pregunta no evalúe la
habilidad o competencia planeada.
Imagen 2. Contexto pregunta 5 biología
58
4.2.3. Matemáticas
Tabla 19.Matriz de triangulación matemáticas
Competencia: Planteamiento y resolución de problemasComponente: Numérico – variacional
Tema: Resolución de problemas con sumas o restasCódigo de ítem
Dificultad Pi
Discriminación rpbis
Descripción
70,65 0,32 En general los tres contextos presentan imágenes
con textos breves de situaciones cotidianas, tiempo libre, plantas y huevos las tres preguntas piden que el estudiante a partir de una situación presentada en una imagen resuelva un problema dado don-de debe solo restar o sumar y restar, las opciones de respuesta son cortas e incluyen respuestas que darían si el estudiante realizará el procedimiento incorrecto, lo cual puede ser un distractor para la respuesta correcta. En dos de las tres preguntas la constructora acierta al nivel de dificultad planea-do y todas las preguntas poseen un coeficiente de discriminación que clasifica los ítems como buenos.
Baja Bueno
80,38 0,32
Alta Bueno
90,34 0,32
Alta Bueno
Para matemáticas y como se analizó cuantitativamente el comportamiento es diferente a
las otras áreas presentando preguntas con alto grado de coincidencia en la dificultad real e inicial
y coeficientes de discriminación buenos, la habilidad que mide la pregunta coincide con los datos
cuantitativos y con la descripción de los ítems. La recomendación para estos ítems según Ebel
& Frisbie es que son buenos pero pueden ser mejorados, en este caso, la presencia de opciones
de respuesta que coincidieran con procedimientos equivocados puede llevar a que el índice de
discriminación no haya sido aún más alto. En este caso cabe anotar que la constructora de estas
preguntas es la más experimentada en cuando a docencia de aula se refiere, con 25 años ejercien-
do como docente lo cual denota su capacidad para predecir niveles de dificultad y reconocer la
forma adecuada de medir una habilidad.
59
4.2.4. Física
Tabla 20.Matriz de triangulación física
Competencia: uso comprensivo del conocimiento científicoComponente: mecánica clásica
Tema: diagramas de fuerzas Código de ítem
Dificultad Pi
Discriminación rpbis
Descripción
100,76 0,31 En los tres contextos se observan objetos sobre
los cuales actúan diferentes fuerzas, ya sean que estén flotando, colgados o en un plano inclina-do. Los contextos en los tres casos son imágenes apoyadas de poco texto, las preguntas son sencillas de comprender a pesar del tema, las opciones de respuesta en todos los casos también son imágenes que representan las direcciones de las fuerzas, la pregunta de dificultad baja es la que presenta una discriminación buena, mientras que para la de di-ficultad media y alta la discriminación es pobre, lo cual indica que no evalúan la habilidad propuesta.
Baja Buena
110,44 0,15
Media Pobre
120,17 0,01
Alta Pobre
Para una misma competencia y un mismo componente el constructor 6 logra coincidencia
con los niveles de dificultad planeados, sin embargo el coeficiente de discriminación eviden-
cia que las preguntas 11 y 12 no miden la habilidad planeada por el constructor, al analizar las
preguntas, en la pregunta 10 el constructor propone que el estudiante reconozca dos fuerzas que
inciden en que un cuerpo flote, en la pregunta 11 tres fuerzas que inciden en que un cuadro per-
manezca colgado y en la pregunta 13 cuatro fuerzas que influyen en un carrito subiendo por una
pendiente involucrando más de tres variables lo que en el caso de la pregunta 12 aumenta en ex-
ceso su dificultad convirtiéndola en una pregunta que evalúa contenido y no habilidad. La única
inconsistencia visible en la pregunta 11 son las opciones de respuesta con demasiada información
al igual que la pregunta 12 (ver imagen 3).
60
Imagen 3. Contextos y opciones de respuesta preguntas 11 y 12
4.2.5. Lenguaje
Tabla 21.Matriz de triangulación lenguaje
Competencia: InterpretativaComponente: Semántico
Tema: Veracidad o falsedad de una afirmaciónCódigo de ítem
Dificultad pi
Discriminación rpbis
Descripción
130,35 0,23 Los tres contextos corresponden a textos continuos
de aproximadamente una página, dos textos hablan sobre movimientos literarios colombianos y el ter-cero correspondiente a la pregunta 15 habla sobre el proceso de paz. En las opciones de respuesta se busca que el estudiante identifique la opción verda-dera o falsa según corresponda con el enunciado.
Alta Regular
140,56 0,61
Media Muy bueno
150,39 -0,18Alta Pobre
En el caso de lenguaje el poder de discriminación de los ítems es muy variado y al ana-
lizar las preguntas parecen muy parecidas entre sí, sin embargo hay detalles que hacen que su
dificultad se eleve y que la discriminación cambie. La pregunta 14 pide identificar una afirmación
verdadera dentro de opciones con afirmaciones falsas respecto al texto, la cual es explicita en el
texto, por su parte las preguntas 13 y 15 piden identificar la afirmación falsa dentro de opciones
con afirmaciones verdaderas, la pregunta 15 tiene una dificultad media y un índice de discrimi-
nación muy bueno, siendo la única pregunta del grupo de ítems analizados que cuenta con esta
61
característica. Los ítems 13 y 15 tienen ambos dificultad alta e índice de discriminación regular
y pobre, en el caso de la pregunta 15 este valor es incluso negativo evidenciando que la pregun-
ta no mide la habilidad evaluada, en esta pregunta tanto el tema del texto como las opciones de
respuesta son muy sensibles a la opinión de quien las responde ya que el texto es un artículo
de opinión acerca los acuerdos de paz y las opciones se prestan para coincidir con opiniones de
quienes las responden (ver imagen 4) respondiendo así desde la opinión y no desde el texto.
Imagen 4. Opciones de respuesta pregunta 15 de lenguaje
4.2.6. Sociales
Tabla 22.Matriz de triangulación sociales
Competencia: InterpretativaComponente: El tiempo y las culturas
Tema: Interpretación de líneas de tiempoCódigo de ítem
Dificultad Pi
Discriminación rpbis
Descripción
160,4 0.0 Los tres contextos son líneas de tiempo que pre-
sentan acontecimientos de la historia colombia-na, la discriminación de las preguntas tiene un valor de cero lo que significa que la correlación entre la habilidad evaluada y las respuestas es prácticamente nula y las tres tienen dificultad alta. Las opciones de respuesta relacionan he-chos o personajes que involucran conocimiento sobre el personaje o el momento histórico.
Alta Pobre
170,23 0,0
Alta Pobre
180,26 0,0
Alta Pobre
Sociales fue la asignatura con resultados de discriminación más bajos y se caracterizó
también por un alto nivel de dificultad, los contextos de líneas de tiempo en el caso de la pre-
62
gunta 16 buscaba que el estudiante reconociera el periodo de más corta duración en una línea
de tiempo muy simple que es casi incomprensible y más tratándose de una pregunta para grado
tercero (ver imagen 5). Las otras líneas de tiempo poseen gran cantidad de información y los
espacios entre acontecimiento y acontecimiento son iguales así haya pasado 10 años o 100 años
esto puede confundir a estudiantes de grado tercero, por su parte la línea de tiempo que propo-
ne una dificultad alta exige que los estudiantes no solo interpreten la línea de tiempo sino que
reconozcan el rol de los personajes en la sociedad colombiana como “líder político” incluyendo
personajes como Raúl Reyes o Alfonso Cano que en el contexto actual puede ser considerado por
un estudiante como líder político y que en la pregunta podría coincidir con la respuesta correcta
por lo que pide analizar. (Ver imagen 6).
Imagen 5. Contexto pregunta 16 sociales
Imagen 6. Opciones de respuesta pregunta 18 sociales
63
4.3. Discusión
En relación a los resultados y hallazgos de la investigación y partiendo de la pregunta de
investigación el análisis mixto de ítems del programa de evaluación Martes de Prueba® aporta
al mejoramiento de sus procesos de diseño y construcción debido a que los resultaros evidencian
discrepancias entre la dificultad intencional de los ítems y los índices de dificultad obtenidos, de
igual manera se encontró que los coeficientes de discriminación, los cuales determinan cuantita-
tivamente según rangos establecidos la calidad de los ítems, presentan valores correspondientes a
ítems de regular y pobre discriminación en una cantidad importante de las preguntas analizadas y
buena o excelente discriminación en solo algunas de ellas. El análisis cualitativo de cada uno de
los ítems permitió establecer que características de construcción presentaban los ítems y estable-
cer relaciones entre estas características y los valores obtenidos para los índices y coeficientes.
Lo anterior permite generar recomendaciones para preguntas futuras y así mejorar los procesos
de diseño y construcción de ítems. En relación al análisis cualitativo y teniendo en cuenta los
referentes teóricos De la Orden (2000), plantea que la evaluación debe ser fiable y objetiva en
el sentido de que el azar o los errores instrumentales tengan un efecto mínimo en los resultados,
lo cual no sucede en el análisis realizado ya que los hallazgos confirman la hipótesis plantea-
da siendo algunas características de construcción de cierto modo “responsables” de los valores
obtenidos en los parámetros medidos. De acuerdo con las recomendaciones para construcción
planteadas por Moreno, Martínez & Muñiz (2004) las características más frecuentes que generan
dificultad alta y discriminación baja son errores de sintaxis, uso de vocabulario no adecuado para
los evaluados y que las opciones de respuesta nos son plausibles en todos los casos lo cual genera
ambigüedad.
64
Capitulo 5. Conclusiones y recomendaciones
5.1. Conclusiones
Al realizar el análisis mixto de los ítems del programa de evaluación Martes de Prueba®
en cuanto a los parámetros de dificultad y discriminación y de acuerdo a los objetivos planteados
se logra en primer lugar cuantificar los parámetros objeto de la medición, en forma efectiva, cuya
posterior validación de los cálculos confirma la asertividad de los mismos y arroja datos conclu-
yentes qué permiten valorar la calidad de los ítems frente a los parámetros estudiados.
En segundo lugar los resultados aportan al mejoramiento en la construcción de los ítems
en la medida en que se logra identificar de manera profunda las características causantes de la
calidad de un ítem, ya fuera este pobre, regular, bueno o muy bueno.
Por otra parte el análisis cualitativo de las preguntas, es un insumo que permite hacia el
futuro diseñar planes de mejora efectivos y ajustados al proceso que se lleva a cabo en Asesorías
Académicas Milton Ochoa para el diseño y construcción de los ítems. En este orden de ideas
el análisis realizado contribuye al mejoramiento integral del programa martes de prueba, en la
medida en que la validez de las pregunta conlleve al cumplimiento de los objetivos del programa,
este mismo tendrá mejores resultados y permitirá ser más efectivo.
En el análisis cuantitativo realizado se encuentra que para el parámetro de dificultad el
72% de los ítems analizados presentan una dificultad alta; de acuerdo a los criterios de equili-
brio establecidos por el programas descritos en el Capítulo 1 (ver figura 2), las preguntas con un
índice de dificultad alto, deberían ser el 35%, razón por la cual se establece que las preguntas no
cumplen con el nivel de equilibrio establecido. Este resultado permite concluir que el sesgo de
evaluación se inclina hacia el no cumplimiento de los estándares básicos de competencia y no
permitiría establecer cuando el nivel de competencia es bajo o medio.
65
Al analizar los resultados obtenidos de forma individual, surge un criterio emergente al
comparar los resultados obtenidos por los constructores de preguntas, evidenciándose que los dos
constructores más experimentados tenían un mayor nivel de coincidencia entre la dificultad real y la
dificultad intencional de sus ítems. El análisis cualitativo pone en manifiesto que aquellos construc-
tores con mayor experiencia en docencia de aula, tienen una mayor precisión en la determinación
intencional de la dificultad de la pregunta.
En cuanto al parámetro de discriminación se encuentra que el 56% de los ítems, tienen un
poder discriminativo pobre, que según Evely Frisbie (1991) es un indicativo de problemas en la ela-
boración y revisión de las preguntas, ya que no se evidencia una relación entre el resultado obtenido
en la pregunta y el resultado obtenido en la asignatura evaluada dentro de la prueba. Los resultados
mostraron que los ítems de matemáticas presentan, un poder discriminativo Bueno, que corresponde
al 16,8% de las preguntas (el 28% del total de las preguntas fueron clasificadas como buenas), este
resultado de igual forma fue analizado teniendo en cuenta al constructor de las preguntas, dato que
coincide con el análisis de nivel de dificultad.
El análisis cualitativo permite describir las preguntas de acuerdo a su clasificación en dificul-
tad y en discriminación de la siguiente forma:
Preguntas de nivel de dificultad alto: la tendencia muestra que estas preguntas por mayoría
estadística, presentan un índice de discriminación pobre, esto se debe a los criterios de dificultad
utilizados en las preguntas; se evidenció para las asignaturas de sociales, física y química, que los
constructores empleaban conceptos memorísticos para aumentar la dificultad de las preguntas, lo cual
no permitía el uso de las habilidades evaluadas, si los estudiantes no reconocían el concepto. En la
asignatura de lenguaje y sociales, se observó que los constructores, incluían temas sensibles a opinión,
que genera que la respuesta se vea afectada por las creencias, sentimientos e información externa fren-
66
te al tema y no frente a la información aportada por el contexto de la pregunta.
Preguntas de nivel de dificultad medio y bajo: No se logró establecer una relación estadís-
tica entre el nivel de dificultad y el coeficiente de discriminación.
Preguntas con coeficiente de discriminación bueno o muy bueno: Sus características
muestran contextos claros, inferencias de acuerdo al mismo contexto, también está relacionado
con la experiencia docente del constructor.
La concordancia de las preguntas evaluadas con el modelo basado en evidencias, es alta
de acuerdo al análisis cualitativo realizado.
En las opciones de respuesta se utilizaron distractores que generan ambigüedad o con-
fusión al momento de dar respuesta al ítem, esto se evidenció en todas las asignaturas; Moreno,
Martínez, & Muñiz (2004) recomiendan usar errores comunes de los estudiantes dentro de las
opciones de respuesta incorrectas, sin embargo se encuentra que seguir esta recomendación pue-
de inducir al error en los estudiantes.
5.2. Recomendaciones
De acuerdo con los resultados obtenidos y el análisis de los mismos, esta investigación
aporta una serie de recomendaciones que contribuyen al mejoramiento de los procesos de diseño
y construcción del programa de evaluación martes de prueba.
Frente al uso de los datos obtenidos a partir del índice de dificultad, se sugiere implemen-
tar el análisis del parámetro de dificultas 1PL para el 100% de los ítems que se aplican anualmen-
te, lo cual teniendo en cuenta la experiencia en uso de la base de datos no requiere ninguna mo-
dificación ni cambios al procedimiento existente sino un mayor aprovechamiento de los insumos
con los que se cuenta.
67
En cuanto a la inclusión del parámetro de discriminación en el proceso de construcción
de preguntas, es necesario generar un plan de análisis de muestreo de ítems de forma continua
que permita reconocer el poder discriminativo y la calidad de los mismos de forma efectiva.
A partir del análisis continuo de la información se pueden generar prototipos de pregunta,
de acuerdo a los parámetros de dificultad y discriminación. Que constituyan una guía para los
constructores frente a la intención de dificultad de la pregunta y establezcan lineamientos frente a
su diseño.
Se sugiere que el proceso de revisión de pares académicos, sea replanteado dado que, por
los resultados de índice de discriminación, se denotan fallas en este proceso.
Específicamente en lo referente a la construcción de los ítems, se sugiere generar segui-
miento estadístico no paramétrico a algunos elementos del modelo basado en evidencias, como
las competencias en un mismo tema e implementar métodos de repetición de algunos ítems para
evaluar la confiabilidad de las preguntas.
De acuerdo con Moreno, Martínez, & Muñiz (2004) existen directrices para la construc-
ción de ítems que deben ser tenidas en cuenta para la construcción y diseño de martes de prueba,
en cuanto a la sintaxis de los ítems los autores recomiendan evitar que el contexto sea demasiado
ambiguo o redactados con “adornos” gramaticales que convierten el contexto en un texto de difí-
cil lectura. De igual forma ajustar la semántica de acuerdo con el grado de los evaluados.
En cuanto a las opciones de respuesta incorrectas, estás de preferencia deben ser de fácil
descarte para quienes poseen la habilidad y de difícil descarte para quienes no la poseen (More-
no, Martínez, & Muñiz 2004), evitando que hayan respuestas que parezcan o puedan ser correc-
tas y denoten una intención de no acierto.
Teniendo en cuenta el análisis emergente que se realizó de los perfiles de los construc-
68
tores se recomienda, que quienes construyen las evaluaciones, sean docentes con experiencia
en aula de clase de preferencia en varios niveles educativos, lo anterior permitirá, mejorar en la
intensión se dificultad y la validez de los ítems.
Se recomienda que en próximas investigaciones, se pueda profundizar sobre otros as-
pectos del programa martes de prueba, como la aplicación, la retroalimentación y el uso de los
resultados por parte de los colegios.
5.3. Limitaciones del estudio
A pesar de lograr obtener y analizar información importante este estudio tuvo varias
limitaciones que pueden ser tenidas en cuenta para futuras investigaciones. La primera fue la
cantidad de ítems utilizados, a pesar de ser muestras de cada constructor y cada asignatura las
conclusiones serían más contundentes de haber podido tomar una muestra mayor de ítems, sin
embargo un factor a tener en cuenta es que el programa ya tiene sus preguntas, temas y en gene-
ral su diseño establecido.
Otra limitación fue el tamaño de la base de datos, siendo está de más de 360.000 respues-
tas, el procesar de 10 mil a 20 mil respuestas por pregunta resultoó un reto en cuanto al manejo
de los programas estadísticos y también a los equipos utilizados, analizar únicamente 18 ítems
tardo aproximadamente 6 meses.
El último reto son las investigaciones respecto al tema ya que los antecedentes no son
muy amplios al respecto o se realizan análisis estadísticos con poblaciones más pequeñas, la falta
de información de evaluaciones a gran escala como las Pruebas Saber respecto al uso del análisis
estadístico acompañado de análisis cualitativo de los ítems resultó ser una dificultad a la hora del
realizar el diseño metodológico.
69
Bibliografía
AAMO. (2015). Documentos Comunicación y Divulgación. Gestión del Conocimiento–Proceso
de Construcción. Bogotá: CEINFES.
AAMO. (2015). Manual de procedimientos–Martes de Prueba. Bogotá: CEINFES.
Abad, F. (2004). Introducción a la psicometría: Teoría clasica de los test y teoría de respuesta al
ítem. Madrid: Universidad Autonoma de mAdrid, Facultad de psicología .
Arbelaéz, L. (2015). Fundación Universitaria Luis Amigó. Recuperado el 18 de Abril de 2018, de
Construcción de ítems tipo selección Múltiple con única respuesta: https://goo.gl/4BgaEn
Arroyo, F. (2016). Educación, Tecnocracia y Consumismo: Una reflexión sobre nuestro modelo
educativo. Tarbiya, Revista de Investigación e Innovación Educativa(44), 21-39.
Backhoff, E., Larrazolo, N., & Rosas, M. (2000). Nivel de dificultad y poder de discriminación
del Examen de Habilidades y Conocimientos Básicos (EXHCOBA). Revista Electronica
de Investigación Educativa (Redie) Vol. 2 N° 1.
Barrenechea, I. (2010). Evaluaciones Estandarizadas: Seis reflexiones Críticas. Archivos Análiti-
cos de Políticas Educativas, 1-27.
Cerdad, D., & Montero, E. (2017). Uso del modelo de Rasch para la construcción de tablas de
especificaciones: Propuesta metodológica aplicada a una prueba de selección universita-
ria. Actialidades Investigativas en Educación, 17(1), 1-16.
COLCIENCIAS. (15 de 12 de 2015). Modelo de medición de grupos de investigación, desarrollo
tecnológico o de innovación y reconocimiento de investigadores del sistema nacional de
ciencia tecnología e innovación. Versión Ajustada del Docimento de Oxctubre del 2015,
89. (D. d. Investigación, Ed.) Bogotá D.C. , Colombia : Departamento Administrativo de
Ciencia, Tecnología e Innovación.
70
Córdoba, M. F. (2016). Una aplicación de valores plausibles a la calificación de pruebas es-
tandarizadas vía simulación. Comunicaciones en estadistica, Vol. 9, No. 1. Universidad
Santo Tomás, 55-78.
CUC. (29 de Agosto de 2017). Universidad de la costa. Obtenido de https://goo.gl/bFUF3w
De la Orden, A. (1991). Inevstigación educativa y tecnología. Madrid: Santillana.
De la Orden, A. (2000). La Función Optimizante de la evaluación de programas evaluativos.
Revista de Investigación Educativa, 383.
De La Orden, A. (2000). La función optimizante de la evaluación de programas evaluativos. (R.
P. Juste, Ed.) Revista de Investigació Educativa, 18(2), 381-389.
Ebel, R., & Frisbie, D. (1991). Essentials of Educational Meassurement. Des Moines, Iowa.:
Prentice Hall.
Fernandez, B., Rebolloso, E., & Cantón, P. (2010). Metaevaluación del sistema de evaluación de
las titulaciones universitarias andaluzas. Gestión y análisis de políticas públicas- Institu-
to Nacional de Administración Pública de España, 139-165.
Fernandez, M., Alcaraz, N., & Sola, M. (2017). Evaluación y Pruebas Estandarizadas:Una
Reflexión sobre el Sentido, Utilidad y Efectos de estas pruebas en el campo educativo.
Revista Iberoamericana de Evaluación Educativa, 51-67.
Gil, J. (2003). La estadistíca en la investigación educativa. Revista de Investigación Educativa,
21(1), 231-238.
Glass, G., & Stanley, J. (1986). Metodos estadisticos aplicados a las ciencias sociales. Phoenix,
Arizona: Prentice Hall.
GUTIERREZ, A. (2017). Saber 11 en los procesos de admisión en colombia. Lima: Encuentro de
Responsables de Admisión al Pregrado de Universidades en Peru.
71
Hernandez, R., Fernandez, C., & Baptista, P. (2010). Metodología de la Investigación, Quinta
Edición. Mexico D.F.: Mc Graw Hill.
Hulin, C., Drasgow, F., & Parsons, C. (1983). Item Response Theory: Application to Psychologi-
cal Measuremen. Champaing, Illinois: Dorsey Pr.
Icfes. (13 de septiembre de 2015). Informacion de la prueba 3,5,9 . Recuperado el 11 de mayo de
2016, de https://goo.gl/nTy8Z1
Icfes . (10 de abril de 2016). Resultados por Establecimientos. Recuperado el mayo de 2016,
https://goo.gl/4Tv3L4
Icfes. (2007). Marco conceptual ciencias naturales. Bogotá: Instituto Colombiano para la evalua-
ción de la educación Icfes.
Icfes. (2017). Resultados Agregados Pruebas Saber 11 y Saber 3°, 5° y 9°. Bogotá.
Jornet, J. M. (2017). Editorial, Evaluación Estantarizada. Revista Iberoamericana de Evaluación
Educativa, 10(1), 5-8.
Leenen, I. (2013). Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación
educativa en las ciencias médicas. Investigación en educación medica, Facultad de Medi-
cina, Universidad Nacional Autónoma de México, México D.F., México, 40-55.
Martinez, R., & Fernandez, A. (2008). Metodologias e instrumentos para la formulación, eva-
luación y monitoreo de programas sociales, árbol de problema y áreas de intervención.
Mexico D.F.: Naciones Unidad, Cepal.
Melendez, A. (2015). TALLER CES 15_ Confiabilidad. Obtenido de Blog Red Docente:
http://200.11.208.195/blogRedDocente/alexisduran/wp-content/uploads/2015/11/15con-
fiabilidad.pdf
72
MEN. (2006). Estándares básicos de competencias para lenguaje, matemáticas, ciencias y ciu-
dadanas. Bogotá, Colombia. Ministerio de Educación Nacional.
MEN. (2013). Icfes: Contextualixación y conceptualización de las pruebas Saber 3° y 5°. Recu-
perado el 15 de 10 de 2017, de slidshare: https://goo.gl/Fm589d
MEN. (2013). Ministerio de Educación Nacional, Evaluación de los Educandos. Obtenido de
http://www.mineducacion.gov.co/1621/article-79425.html
MEN. (2016). Directorio Educativo Ministerio de Educación Nacional. Obtenido de https://goo.
gl/x6tSPR
Monje, C. A. (2011). Metodología de la investigación Cualitativa y Cuantitativa: Guía Didác-
tica. Neiva (Huila): Universidad Sur Colombiana, Programa de Comunicación Social y
Periodismo. .
Moreno, R., Martinez, R., & Muñiz, J. (2004). Directrices para la elección de ítems de opción
múltiple. Psicothema, 16(3), 490-497.
Morse, J. (2003). Asuntos críticos en mos métodos de investigación cualitativa. (J. Morse, Ed.)
Medellin, Colombia. : Universidad de Antioquia.
Muñis, J. (2010). Las teorías de los tests: teoría clásica y teoría de respuesta a los ítems. Papeles
del Psicólogo, vol. 31, núm. 1, enero-abril, 57-66.
Pérez Juste, R. (2016). ¿Quo vadis, evaluación? Reflexiones pedagógicas en torno a un tema tan
manido como. Revista de Investigación Educativa, 13-30.
Perez Valdés, D. (26 de Octubre de 2007). Maestros del Web by Pletzi. Obtenido de https://goo.
gl/c9rqMr
Perez, Z. (2011). Los diseños de método mixto en la investigación en educación: Una experien-
cia concreta. Revista eléctronica EduCare, XV(1), 15 -29.
73
Quevedo, F. (2011). Medidas de tendencia central y dispersión. Medwave. Año XI, No. 3. Esta-
dística Aplicada a la Investigación en Salud, 1-6.
Universidad Autonoma de Madrid. (2015). uam.es. Obtenido de https://www.uam.es/personal_
pdi/psicologia/cadalso/Docencia/Psicometria/Apuntes/tema2TyP_4.pdf
Vielle, J. P. (1989). Educacion y trabajo. Apuntes para un marco conceptual. Revista interameri-
cana de educacion de adultos, 97-116.
ANEXO.1
INSTRUMENTO 1. FORMATO DE ELABORACIÓN DE REJILLA
CICLO PRUEBA ITEM
TEMA DIFICULTAD
ÀREA/MATERIA COMPONENTE COMPETENCIA
ESTANDAR AFIRMACION EVIDENCIA TAREA
OBJETIVO Evaluar preguntas con el mismo tema específico, componente, competencia y MBE pero diferente nivel de dificultad.
DESCRIPCIÒN Tomando el mismo DBE: Componente competencia y el MBE: Tarea, estándar, afirmación y evidencia se elaboran preguntas con diferente nivel de dificultad. en el MBE pueden haber variaciones especialmente en la tarea teniendo en cuenta la dificultad de la pregunta
OBSERVACION PARA LA PREGUNTA
74
ANEXO 2:
INSTRUMENTO 2. MATRIZ DESCRIPTIVA DE ÍTEMS MARTES DE PRUEBA
Materia Prueba Ítem Clave Dificultad Di rpbis Componente Competencia
Estándar Acción
Afirmación Evidencia Tarea
Descripción del contexto y el enunciado
Descripción de las opciones de respuesta
Retroalimentación y observaciones
Respuesta correcta Consistencia con
MBE Estándar Componente Competencia Acción Afirmación Evidencia Tarea
B R M B R M B R M B R M B R M B R M B R M Observaciones
75
ANEXO 3. INSTRUMENTO 3. GUÍA DE REVISIÓN DOCUMENTAL
DOCUMENTO REVISADO N°: FECHA DE REVISIÓN: TIPO DE DOCUMENTO: AUTOR: AÑO: CIUDAD:PÁGINAS: PALABRAS CLAVES:DESCRIPCIÓN DEL CONTENIDO DOCUMENTO:
APORTES IMPORTANTES DEL DOCUMENTO:
CONCLUSIONES
76
ANEXO 4. FICHA DE VALIDACIÓN DE JUECES EXPERTOS
UNIVERSIDAD EXTERNADO DE COLOMBIA FACULDAD DE CIENCIAS DE LA EDUCACIÓN
MAESTRÍA EN EDUCACIÓN- ENFASIS EN GESTIÓN EDUCATIVA Y EVALUACIÓN
Respetado juez: Usted ha sido seleccionado para validar el instrumento “Matriz descriptiva de ítems” por su experiencia en revisión de ítems y conocimiento del Modelo Basado en Evidencias. La evaluación del instrumento es de gran relevancia para lograr que el análisis de los resultados sea válido y su uso sea eficiente en la medida en que cumpla los objetivos de la investigación. Agradecemos su valiosa colaboración.
Nombres y apellidos___________________________________________________________ Formación académica: _________________________________________________________ Áreas de experiencia profesional: _______________________________________________ Cargo actual: ______________________ Institución: ________________________________
Título de la investigación: “Análisis mixto los parámetros de dificultad y discriminación
en Martes de Prueba®”.
Objetivo del instrumento: Explicar el comportamiento a nivel estadístico de un ítem a
partir de la revisión de su concordancia con el Modelo Basado en Evidencias y su análisis
sintáctico general.
Factores a evaluar: Suficiencia, pertinencia, claridad.
Los siguientes son los indicadores que se deben tener en cuenta al calificar cada uno de los factores de acuerdo al objetivo del instrumento:
Criterio Calificación Indicador
Suficiencia: La información que se debe diligenciar en el instrumento
es suficiente para el cumplimiento del objetivo
del instrumento.
1. Cumple con elcriterio
La información que recoge el instrumento es suficiente para cumplir su objetivo.
2. Cumpleregularmente con el
criterio
Recoge gran cantidad de información pero esta no es suficiente para cumplir el objetivo. Incluir más datos
3. No cumple con elcriterio
El instrumento no recoge información para cumplir su objetivo. Incluir otros datos.
Pertinencia: La información que se debe
1. Cumple con elcriterio
La información que se recoge es relevante para
77
diligenciar en el instrumento es adecuada y corresponde con el objetivo propuesto.
cumplir el objetivo.
2. Cumpleregularmente con el
criterio
Se recoge información importante pero aún faltan datos relevantes para cumplir el objetivo.
3. No cumple con elcriterio
La información que se recoge no es relevante para cumplir el objetivo.
Claridad: El instrumento es entendible y fácil de diligenciar por un
constructor o revisor de pruebas
1. Cumple con elcriterio
El instrumento se puede diligenciar por un constructor o revisor de pruebas.
2. Cumpleregularmente con el
criterio
Aunque es claro, el instrumento requiere muchas instrucciones para su diligenciamiento.
3. No cumple con elcriterio
El instrumento es difícil de entender y diligenciar.
Suficiencia 1 2 3 Pertinencia 1 2 3
Claridad 1 2 3
OBSERVACIONES:
________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
78