ANÁLISIS MIXTO DE PARÁMETROS DEL PROGRAMA DE …...Icfes Instituto colombiano para la evaluación de la educación. EBC Estándares básicos de competencias MBE Modelo basado en

ANÁLISIS MIXTO DE PARÁMETROS DEL PROGRAMA DE EVALUACIÓN MARTES DE PRUEBA®

LUZ HELENA SANTOS FLÓREZ

Tesis para optar al título de Magíster en Educación con énfasis en Gestión Educativa y Evaluación

DIRECTOR: JAVIER CABALLERO SÁNCHEZ

UNIVERSIDAD EXTERNADO DE COLOMBIA

FACULTAD DE EDUCACIÓN

Bogotá, 2018

II

Agradecimientos:

Agradezco a mis padres Pedro Antonio y Edelmira por su apoyo, por ser un ejemplo en lo perso-nal, familiar e incluso lo académico, gracias por siempre esperar y exigir de mí lo mejor.

A mis hermanos Pedro y Jenny por su motivación y ayuda, mi querida hermana gracias por tras-nochar conmigo, brindarme confianza y leer una y otra vez.

A mi esposo Felipe, por su amor y apoyo incondicional, por motivarme e impulsarme a terminar todos esos sueños y metas inconclusas.

A Asesorías académicas Milton Ochoa & Bogotá, en especial a su gerente Diana Bogotá por per-mitirme realizar esta investigación, gracias por la confianza brindada, por entregar información y apoyo sin restricciones.

Al profesor Javier Caballero por su paciencia y sus pertinentes sugerencias, de igual forma a la facultad de educación de la Universidad Externado de Colombia por brindar espacios de investi-gación educativa.

III

Lista de siglas y abreviaturas

MEN Ministerio de educación nacional.

Icfes Instituto colombiano para la evaluación de la educación.

EBC Estándares básicos de competencias

MBE Modelo basado en evidencias

AAMO Asesorías Académicas Milton Ochoa y Bogotá

MP Martes de Prueba®

rpbis Coeficiente de correlación biserial de punto o coeficiente de discriminación

Di Índice de discriminación

Pi: Índice de dificultad

IV

Tabla de Contenidos

Capítulo 1. Problema de investigación 1

1.1. Planteamiento del problema 11.2. Contexto del problema 31.3. Justificación del problema 81.4. Antecedentes del problema 101.5. Pregunta de investigación 141.6. Objetivo general 151.7. Objetivos especificos 151.8. Hipótesis 15

Capítulo 2. Marco de referencia 16

2.1. Evaluación y evaluación estandarizada 162.2. Evaluación de programas evaluativos 202.3. Otras perspectivas sobre la evaluación estandarizada 202.4. Diseño de especificaciones a partir del modelo basado en evidencias 212.5. Recomendaciones para la construcción de ítems 242.6. Teoría clásica de los test (TCT) y teoría de respuesta al ítem (TRI) 242.7. Modelos unidimensionales de teoría de respuesta al ítem 26

2.7.1. El modelo de rasch o logístico de un parámetro (1PL). 272.7.2. El modelo logístico de dos parámetros (2PL) 27

2.8. Medidas de tendencia central y dispersión 29

Capitulo 3. Metodología de investigación 31

3.1. Enfoque de investigación 313.2. Tipo de investigación 313.3. Participantes (universo poblacional y muestra) 323.4. Variables o categorías de análisis 333.5. Proceso y forma de recolección de datos 34

3.5.1. Técnicas de análisis, instrumentos y fuentes 373.5.1.1. Fuente 1: base de datos 383.5.1.2. Instrumento 1: formato de elaboración de rejilla 393.5.1.3. Instrumento 2: matriz descriptiva de ítems 393.5.1.4. Instrumento 3: gúia de revisión documental 403.5.1.5. Validez 403.5.1.6. Consideraciones éticas 41

V

Capitulo 4. Análsisis de la información y hallazgos 42

4.1. Análisis cuantitativo de parámetros 424.1.1. Parametro de dificultad 434.1.2. Parametro de discriminación 46

4.1.2.1. Química 464.1.2.2. Biología 474.1.2.3. Matemáticas 484.1.2.4. Física 484.1.2.5. Lenguaje 494.1.2.6. Sociales 50

4.1.3. Medidas de dispersión 504.1.3.1. Química 524.1.3.2. Biología 524.1.3.3. Matemáticas 534.1.3.4. Física 534.1.3.5. Lenguaje 544.1.3.6. Sociales 54

4.2. Análisis cualitativo 544.2.1. Química 554.2.2. Biología 564.2.3. Matemáticas 584.2.4. Física 594.2.5. Lenguaje 604.2.6. Sociales 61

4.3. Discusión 63

Capitulo 5. Conclusiones y recomendaciones 64

5.1. Conclusiones 645.2. Recomendaciones 665.3. Limitaciones del estudio 68

Bibliografía 69Anexos 74

Anexo 1. Instrumento 1. Formato de elaboración de rejilla 74Anexo 2. Instrumento 2. Matiz descriptiva de ítems Martes de Prueba® 75Anexo 3. Instrumento 3. Guía de revisión documental 76Anexo4. Ficha de validación de jueces expertos! 77

VI

Índice de Tablas, Gráficos, Figuras e Imágenes

Tabla 1. Antecedentes del problema 11Tabla 2. Categorías teóricas 16Tabla 3. Directrices para la elaboración de ítems de opción múltiple 24Tabla 4. Índice de dificultad programa Martes de Prueba 26Tabla 5. Evaluación de ítems según su Índice de Discriminación 29Tabla 6. Participantes: Constructores Martes de Prueba® 2016 32Tabla 7. Categorías de Análisis 34Tabla 8. Distribución de ítems analizados en Martes de Prueba® 2016. 36Tabla 9. Datos para el índice de dificultad 43Tabla 10. Coeficiente de discriminación química 10° 46Tabla 11. Coeficiente de discriminación biología 10° 47Tabla 12. Coeficiente de discriminación matemáticas 3° 48Tabla 13. Coeficiente de discriminación Física 11° 48Tabla 14. Coeficiente de discriminación Lenguaje 9° 49Tabla 15. Coeficiente de discriminación Sociales 3° 50Tabla 16. Medidas de dispersión 51 Tabla 17. Matriz de triangulación química 55Tabla 18. Matriz de triangulación biología 56Tabla 19. Matriz de triangulación matemáticas 58Tabla 20. Matriz de triangulación física 59Tabla 21. Matriz de triangulación lenguaje 60Tabla 22. Matriz de triangulación sociales 61

Gráfico 1. Colegios que aplican Martes de prueba a Nivel Nacional. 5Gráfico 2. Colegios que aplican Martes de prueba Oficiales/No Oficiales. 6Gráfico 3. Distribución por departamentos en la aplicación de Martes de Prueba® 6Gráfico 4. Dificultad real de los ítems 44Gráfico 5. Dificultad Intencional de los ítems 44Gráfico 6. Dificultad de las preguntas por constructor 45Gráfico 7. Poder discriminativo por asignatura 50Gráfico 8. Poder discriminativo de los ítems analizados 50Gráfico 9. Intervalo de confianza química 52Gráfico 10. Intervalo de confianza biología 52Gráfico 11. Intervalo de confianza matemáticas 53Gráfico 12. Intervalo de confianza física 53Gráfico 13. Intervalo de confianza lenguaje 54Gráfico 14. Intervalo de confianza sociales 54

VII

Figura 1. Descripción general Martes de Prueba. 4Figura 2. Distribución de competencias y niveles de dificultad en Martes de Prueba. 5Figura 3. Proceso de elaboración de Martes de Prueba. 7Figura 4. Definición del Dominio de una pregunta. 22Figura 5. Diseño de especificaciones a partir del Modelo Basado en Evidencias. 23Figura 6. Esquema de revisión de los ítems analizados 35

Imagen 1. Opciones de respuesta pregunta 1 56Imagen 2. Contexto pregunta 5 biología 57Imagen 3. Contextos y opciones de respuesta preguntas 11 y 12 60Imagen 4. Opciones de respuesta pregunta 15 de lenguaje 61Imagen 5. Contexto pregunta 16 sociales 62Imagen 6. Opciones de respuesta pregunta 18 sociales 62

VIII

Resumen Analítico en Educación–RAE1. Información General

Tipo de documento Tesis de grado

Acceso al documento Universidad Externado de Colombia. Biblioteca Central

Título del documento

Análisis mixto de parámetros del programa de evaluación Martes de Prueba®

Autor(es) Luz Helena Santos Flórez

Director Javier Caballero Sánchez

Publicación

Unidad Patrocinante

Palabras ClavesEvaluación estandarizada, evaluación externa, ítems, índice de dificultad, coeficiente de discriminación, Modelo Basado en Evidencias, calidad de los ítems.

2. Descripción

La evaluación estandarizada es una herramienta ampliamente usada en el sector educativo ya sea de tipo estatal, o privada, esta última utilizada por los colegios como estrategia para medir procesos y simular evaluaciones estatales. Existen programas de evaluación estandarizada de carácter externo en el sector privado como Martes de Prueba® que es aplicado por el 16% de los colegios a nivel nacional y cuto objetivo principal es realizar un diagnóstico de las insti-tuciones educativas en miras a evidenciar la relación entre la evaluación externa y el currículo escolar y de este modo entrenar para las Pruebas Saber (programa de evaluación estatal colom-biano). Por esta razón Martes de Prueba® busca tener diferentes puntos comunes con la evalu-ación estatal, como los modelos de construcción y calificación de sus pruebas.Las investigaciones sobre el análisis de los parámetros que se utilizan para el diseño, construc-ción y calificación de evaluaciones estandarizadas evidencian que este permite establecer la calidad y el cumplimiento de objetivos de los programas de evaluación a partir de la cuantifi-cación de los parámetros y un análisis posterior de los resultados, de igual forma, en análisis de programas evaluativos, conlleva a que estos mejoren sus procesos y de esta manera cumplan su función y objetivos educativos. Por lo anterior resulta conveniente preguntar ¿Cómo el análisis mixto de ítems del programa de evaluación Martes de Prueba® puede aportar al mejoramiento de sus procesos de diseño y construcción? Para responder a esta pregunta se realizó un análisis mixto los ítems del programa de evaluación Martes de Prueba® en cuanto a los parámetros de dificultad y discriminación a fin de contribuir a la mejora sus procesos de diseño y construcción, esta investigación presenta los resultados y conclusiones obtenidas a partir de las construcciones teóricas que sustentan este tema y el análisis cuantitativo y cualitativo de los ítems estudiados.

IX

3. Fuentes

Las fuentes utilizadas en esta investigación se dividen en tres grupos, el primero de ellos es evaluación y evaluación estandarizada cuyos autores principales fueron (Abad, 2004), (De La Orden, 2000) (ICFES, 2016) (Pérez Juste, 2016) (Jornet, 2017) (AAMO, 2015) (MEN, 2013).El segundo grupo de fuentes están relacionadas con Seguidores y detractores de la evaluación estandarizada, lo cual sustentan autores como (De La Orden, 2000) (Fernández, Alcaraz, & Sola, 2017), finalmente se indago sobre Construcción y calificación de las evaluaciones para lo cual (Backhoff, Larrazolo, & Rosas, 2000) (Córdoba, 2016) (Ebel & Frisbie, 1991) (Leenen, 2013) (Muñís, 2010) (Hulin, Drasgow, & Parsons, 1983) (Quevedo, 2011) y (Martínez, Moreno & Muñiz, 1991) fueron autores que aportaron significativamente.

4. Contenidos

Esta investigación está conformada por cinco capítulos. El primer capítulo presenta el plant-eamiento del problema, el contexto, algunos antecedentes importantes y la justificación. El segundo capítulo es el marco de referencia, el cual está dividido sub temas que son: Evaluación y evaluación estandarizada, evaluación de programas evaluativos, otras perspectivas sobre la evaluación estandarizada, diseño de especificaciones a partir del modelo basado en evidencias, recomendaciones para la construcción de ítems, teoría clásica de los test y teoría de respuesta al ítem, modelos unidimensionales de la teoría de respuesta al ítem dentro de los cuales están el 1PL dificultad y el 2PL discriminación y finalmente las medidas de dispersión importantes.El tercer capítulo presenta el enfoque y tipo de investigación, los participantes, las variables y categorías de análisis, la forma de recolección de datos, las técnicas de investigación, los instru-mentos y fuentes con su respectiva validación, además de las consideraciones éticas tenidas en cuenta. El cuarto capítulo presenta los resultados y su análisis a partir de las categorías de análi-sis, por lo cual se divide en dos partes, análisis cuantitativo donde se presentan los resultados del índice de dificultad, coeficiente de discriminación y de la dispersión de datos a partir de la desviación estándar. La otra parte presenta el análisis cualitativo donde a partir de los resultados cuantitativos se describen las preguntas de acuerdo a su comportamiento estadístico. Finalmente el capítulo cinco presenta las conclusiones, recomendaciones y limitaciones del estudio.

5. Metodología

La investigación se basa en un enfoque mixto, siendo un tipo de estudio denominado estudio de caso, clasificado a su vez como un estudio de caso evaluativo de acuerdo a Monje (2011). Se utiliza como fuente de información la base de datos obtenida a partir de las 366725 respuestas de 18 ítems construidos intencionalmente en el marco de la aplicación del programa Martes de Prueba® en el año 2016. La base de datos fue analizada cuantitativamente con los programas Microsoft Excel y SPSS para obtener los valores del índice de dificultad y coeficiente de dis-criminación a partir de métodos estadísticos correlaciónales. Posteriormente se utilizó la trian-gulación metodológica para relacionar los resultados estadísticos con la descripción y carac-terísticas de los ítems analizados, Lo anterior permitió el análisis mixto de los ítems que aporta información concluyente y permite generar recomendaciones para la construcción y diseño de las pruebas.

X

6. Conclusiones

El análisis cualitativo de las preguntas, es un insumo que permite hacia el futuro diseñar planes de mejora efectivos y ajustados al proceso que se lleva a cabo en Asesorías Académicas Milton Ochoa para el diseño y construcción de los ítems. En este orden de ideas el análisis realizado contribuye al mejoramiento integral del programa martes de prueba, en la medida en que la validez de las pregunta conlleve al cumplimiento de los objetivos del programa, este mismo tendrá mejores resultados y permitirá ser más efectivo. En el análisis cuantitativo realizado se encuentra que para el parámetro de dificultad el 72% de los ítems analizados presentan una dificultad alta; de acuerdo a los criterios de equilibrio establecidos por el programas descritos en el Capítulo 1 (ver figura 2), las preguntas con un índice de dificultad alto, deberían ser el 35%, razón por la cual se establece que las preguntas no cumplen con el nivel de equilibrio estable-cido. En cuanto al parámetro de discriminación se encuentra que el 56% de los ítems, tienen un poder discriminativo pobre, que según Evely Frisbie (1991) es un indicativo de problemas en la elaboración y revisión de las preguntas, ya que no se evidencia una relación entre el resultado obtenido en la pregunta y el resultado obtenido en la asignatura evaluada dentro de la prueba. Los resultados mostraron que los ítems de matemáticas presentan, un poder discriminativo Bueno, que corresponde al 16,8 % de las preguntas (el 28% del total de las preguntas fueron clasificadas como buenas), este resultado de igual forma fue analizado teniendo en cuenta al constructor de las preguntas, dato que coincide con el análisis de nivel de dificultad. En las op-ciones de respuesta se utilizaron distractores que generan ambigüedad o confusión al momento de dar respuesta al ítem, esto se evidenció en todas las asignaturas; Moreno, Martínez, & Muñiz (2004) recomiendan usar errores comunes de los estudiantes dentro de las opciones de respuesta incorrectas, sin embargo según lo observado estadísticamente esto no es tan recomendable.Recomendaciones:En cuanto a la inclusión del parámetro de discriminación en el proceso de construcción de preguntas, es necesario generar un plan de análisis de muestreo de ítems de forma continua que permita reconocer el poder discriminativo y la calidad de los mismos de forma efectiva. De ac-uerdo con Moreno, Martínez, & Muñiz (2004) existen directrices para la construcción de ítems que deben ser tenidas en cuenta para la construcción y diseño de martes de prueba, en cuanto a la sintaxis de los ítems los autores recomiendan evitar que el contexto sea demasiado ambiguo o redactados con “adornos” gramaticales que convierten el contexto en un texto de difícil lectura. En cuanto a las opciones de respuesta se recomienda incorrectas deben ser de fácil descarte para quienes poseen la habilidad y de difícil descarte para quienes no la poseen (Moreno, Martínez, & Muñiz 2004), evitando que hayan respuestas que parezcan o puedan ser correctas y denoten una intención se no acierto.

Elaborado por: Luz Helena Santos Flórez

Revisado por:

Fecha de elaboración del Resumen: 15 07 2018

1

Capítulo 1. Problema de investigación

1.1. Planteamiento del problema

La evaluación estandarizada como proceso evaluativo en poblaciones data de finales del

siglo XIX1. La estandarización trae consigo la necesidad de garantizar la validez y la confiabilidad

en los instrumentos que se aplican en este tipo de evaluación. Fundamentada en teorías psico-

métricas, el uso de la evaluación estandarizada en la evaluación educativa tiene como objetivo

reconocer determinadas habilidades y conocimientos.

En Colombia hay programas de evaluación estandarizada y externa de carácter estatal y

privado dirigidos a instituciones de educación básica y media. Las Pruebas Saber2 son el prin-

cipal programa de evaluación estatal; por su parte, las evaluaciones externas que generan las

entidades privadas buscan realizar una medición continua de los procesos educativos o ser un

mecanismo de apoyo como entrenamiento artificial para las pruebas estatales. Las políticas de

incentivos3 para la mejora de resultados en las pruebas estatales favorecen la existencia de estos

programas de evaluación privados.

Una de las entidades privadas que ofrecen este tipo de evaluación es Asesorías Académi-

cas Milton Ochoa, empresa Colombiana, que presta servicios de evaluación externa y capacitación

a docentes y estudiantes de colegios públicos y privados, inició el proyecto Martes de Prueba® en

el año 2009 con el objetivo de realizar un programa de evaluación estandarizada de carácter exter-

no que hiciera posible la medición continua de los Estándares Básicos de Competencias4.

1. En los estados unidos, las primeras utilizaciones de test estandarizados fueron para análisis psicológico, y datan del año 1840. (Barrenechea, 2010)

2. “Son evaluaciones aplicadas periódicamente para monitorear el desarrollo de las competencias básicas de los estudiantes de educación básica y media como seguimiento de calidad del sistema educativo”. (Men, 2013)

3. El índice sintético de calidad educativa una medición que busca cuantificar la calidad educativa de los colegios teniendo dentro de sus factores de medición los resultados obtenidos por la institución en las pruebas saber.

4. Los estándares básicos de competencias en las áreas fundamentales del conocimiento son el producto un trabajo

2

Martes de Prueba® se consolida el año 2011, cuando Asesorías Académicas Milton Ochoa

decide crear el departamento de Producción y Desarrollo, cuyo equipo es responsable de forma

exclusiva de su diseño, desarrollo y construcción. Los objetivos del programa, en su orden de

importancia están descritos en el manual de procedimientos del departamento de consultoría de

Asesorías Académicas Milton Ochoa, de la siguiente forma: (AAMO, 2015):

1. Realizar un diagnóstico de la institución educativa.

2. Evidenciar la relación entre la evaluación externa y el currículo escolar.

3. Mejorar las habilidades y las destrezas a nivel lector.

4. Entrenar para las Pruebas Saber.

Para dar cumplimiento a los objetivos de Martes de Prueba®, su diseño busca tener simi-

litudes con las Pruebas Saber, lo que llevó a la implementación del Modelo Basado en Eviden-

cias5 en la construcción de los ítems de las pruebas; este modelo, espera que los ítems den cuenta

de determinadas evidencias respecto al cumplimiento de los procesos que los estudiantes apren-

den en la vida escolar. El programa también busca otros puntos de encuentro con las Pruebas

Saber, como el uso de modelos paramétricos, por lo cual ha iniciado una transición para incluir-

los dentro de su sistema de calificación; El Icfes6 utiliza para el análisis de resultados el Modelo

logístico de tres parámetros (3PL), estos son: Dificultad (1PL), discriminación (2PL) y pseudo

azar (3PL). Martes de Prueba® cuenta únicamente con el parámetro de dificultad (1PL) y este

interinstitucional y mancomunado entre el ministerio de educación nacional y las facultades de educación del país agrupadas en ascofade (asociación colombiana de facultades de educación). (Men, 2008) recuperado de: https://www.Mineducacion.Gov.Co/cvn/1665/article- 116042.Html 23 de agosto de 2017.

5. Modelo utilizado en los procesos de diseño de las pruebas desarrolladas y administradas por el Icfes desde 2007. Este modelo garantiza la elaboración de instrumentos de evaluación con igualdad de características durante un período largo de tiempo, debido a que provee los elementos necesarios para que los constructores de preguntas puedan producir pruebas equivalentes.” (GUTIERREZ, 2017).

6. Instituto Colombiano para la Evaluación de la Educación, entidad que administra la aplicación de las Pruebas Saber.

3

se utiliza para puntuar los ítems de acuerdo a su porcentaje de acierto pero no se hace ningún

análisis interno de los resultados.

Los parámetros de calificación, son obtenidos a partir de los resultados una vez las prue-

bas se han aplicado en una muestra significativa de población y brindan un aporte importante no

solo a los procesos estadísticos de calificación poblacional, sino también al estudio de los resulta-

dos para mejorar los procesos de elaboración de las pruebas, es decir, crean pautas para la cons-

trucción de ítems de pruebas futuras. Por lo anterior, resulta de gran importancia que los procesos

de construcción de pruebas en el marco de programas de evaluación externa como lo es Martes

de Prueba® utilicen un análisis estadístico y cualitativo de los parámetros de calificación.

Desde la perspectiva de la evaluación educativa y tal como lo plantea De La Orden es condi-

ción fundamental de un sistema de evaluación que sea educativamente válido (De La Orden, 2000),

esta validez incluye tanto los instrumentos utilizados como los criterios y objetivos de evaluación, los

errores instrumentales deben ser reducidos a posibilidades mínimas para que un programa de evalua-

ción pueda cumplir con los objetivos que se plantea. Lo anterior, a la luz de la gestión educativa abre

un campo importante de investigación y acción en procesos de desarrollo de instrumentos y análisis

de programas de evaluación en el ámbito educativo nacional. Es entonces, el objetivo de esta investi-

gación realizar un análisis mixto de los parámetros de dificultad y discriminación de ítems de Martes

de Prueba® a fin de establecer criterios de mejora de este programa de evaluación.

1.2. Contexto del problema

Martes de Prueba® es un programa de evaluación de naturaleza privada, que busca

evaluar el cumplimiento de los Estándares Básicos de Competencias del Ministerio de Educa-

ción Nacional (MEN). Un fundamento importante del programa es el Marco de Evaluación del

4

Instituto Colombiano para la Evaluación de la Educación Icfes (antes Instituto Colombiano para

el Fomento de la Educación Superior). Las pruebas desarrolladas en este programa se construyen

según el Modelo Basado en Evidencias (MBE). Este programa cumple con dos características: es

externo dado que representa una mirada “desde afuera” respecto al cumplimiento de los estánda-

res, es ajeno a los colegios que implementan el programa de evaluación y es estandarizado dado

que cumple con determinados criterios de normalización en cuanto a su aplicación, metodología,

número y tipo de preguntas, además de evaluar estándares comunes a toda la población que apli-

ca las pruebas. Algunas características importantes del programa se presentan en la figura 1.

20 Pruebas anuales de

1˚ a 10˚

ProgramaMartes

de Prueba

Decisión de implementación

por parte del colegio

Aplicacióndel primer ciclo

(5 puebas)

Visita 1: Socialización del

instructivo de aplicación y

plataforma de resultados

Visita 2: Retroalimentación del primer

ciclo.

Aplicación del ciclo 2 (Pruebas

6 a 10)


16 a 20)

Visita 3: Presentación

de informe final


11 a 15).

10 pruebas anuales

grado 11˚

4 pruebas anuales

preescolar

1 hora

Preescolar hasta 2˚

10 preguntas

3˚ hasta 9˚25 preguntas

10˚ y 11˚32 preguntas

Capacitaciónen planes demejoramiento

Figura 1. Descripción general Martes de Prueba. Fuente: Elaboración propia a partir de Manual de procedimientos departamento Consultoría AAMO

Martes de Prueba® evalúa las asignaturas de: Lenguaje, matemáticas, ciencias naturales

(química, física y biología a partir de grado décimo entregan puntajes separados), ciencias sociales e

inglés, cada área cuenta con constructores quienes según su especialidad y de acuerdo al Modelo

Basado en Evidencias elaboran las preguntas, que oscilan entre las 12 semanales para los constructores de

pruebas únicamente de 10° y 11° hasta las 37 preguntas semanales para las áreas evaluadas de 1° a 11°.

5

El primer parámetro de calificación (y único hasta la actualidad) tenido en cuenta en Martes

de Prueba® es el de dificultad, denominado también RASH7 este parámetro establece que la dificul-

tad de las preguntas es una medida poblacional y cuenta con un equilibrio el cual garantiza la evalua-

ción de las competencias en tres niveles de dificultad, la figura 2 presenta un resumen esquematizado

del equilibrio de Martes de Prueba® para cada una de las áreas evaluadas. Para que el equilibrio de la

prueba se cumpla el constructor debe establecer intencionalmente el nivel de dificultad.

Dominio Dificultad

Competencia 130% Alta 35%

Media 35%

Baja 30%

Competencia 240%

Competencia 330%

Figura 2. Distribución de competencias y niveles de dificultad en Martes de Prueba. Fuente: Matriz genera MP p 12l.

Para el año 2016 la cifra de colegios usuarios de este programa de evaluación externa su-

peraba los 3000, distribuidos en los diferentes departamentos. Teniendo en cuenta a los colegios

públicos, privados, calendario A y B las pruebas son aplicadas a un promedio de 350.000 estu-

diantes, los días martes según el calendario establecido por cada colegio. El grafico 1 representa

el porcentaje de colegios que aplican Martes de Prueba® en Colombia.

Total de Colegios Calendario A y B

Colegios que aplican Martes de Prueba

16%

84%

Gráfico 1. Colegios que aplican Martes de prueba a Nivel Nacional. . Fuente: Elaboración propia a partir de infor-mes del Departamento de Mercadeo y Ventas CEINFES/ Plataforma Administrativa Factory Suite y Base de datos Directorio Educativo MEN 2016.

7. En 1960 el matemático Danés Georg Rasch propuso este modelo de medida.

6

De los 20008 Colegios reportados en la base de datos del Ministerio de Educación Na-

cional8 (MEN, Directorio Educativo Ministerio de Educación Nacional, 2016) 3848 colegios

aplican por lo menos dos ciclos de Martes de prueba actualmente, correspondiendo así al 16%

de las instituciones educativas colombianas. El 81% de las instituciones que aplican martes de

prueba son no oficiales, siendo gran parte de estos colegios pertenecientes a los departamentos de

Bogotá D.C. y Cundinamarca. Los gráficos 3 y 4 ilustran la distribución de Martes de Prueba®

en el sector oficial y privado y en las diferentes regiones de Colombia.

Colegios No Oficiales que aplican Martes de Prueba

Colegios Oficiales que aplican Martes de Prueba19%

81%

Gráfico 2. Colegios que aplican Martes de prueba Oficiales/No Oficiales. Fuente: Elaboración propia a partir de informes del Departamento de Mercadeo y Ventas CEINFES/ Plataforma Administrativa Factory Suite.

10%

6%

30%

5%

11%

6%

6%

6%

20% Resto del pais

Eje Cafetero

Antioquia

Santander

Zona Sur Occidente

Costa Norte

Meta

Valle del Cauca

Bogotá y Cundinamarca

Gráfico 3. Distribución por departamentos en la aplicación de Martes de Prueba® Fuente: Elaboración propia a partir de la plataforma Factory suite

8. Se excluyeron de la búsqueda jardines infantiles e instituciones con jornada únicamente nocturna y/o sabatina.

7

Para garantizar validez en la construcción se sigue un esquema de revisión, la figura 3

representa el proceso de construcción de Martes de Prueba®. La Validación se basa en revisión

de pares académicos y revisión de expertos.

Matriz GeneralEquilibriode prueba

Construcción de Rejillas de acuerdo

al equilibrioy la matriz

Revisión de RejillaEntrega de Rejillas

al constructor

Correcciones 1 VERSIÓN 2

Revisión de Par académico

Revisión de experto 1

Construcción de ítems de acuerdo

a la rejilla VERSION 1

Revisión de expertos 2 (externos)



Armado de la prueba (Coordi-

nadores)

Correcciones 4 Diseño VERSIÓN

6 (PRINT)

Revisión Print Ojo Fresco Correc-

ciones 5

Revisión del constructor y

control de cambios VERSIÓN 5

Diseño y Diagramación

BodegaVersion Print Completa

Figura 3. Proceso de elaboración de Martes de Prueba. Fuente: Elaboración propia a partir de Manual de procedi-mientos departamento de producción y desarrollo CEINFES

Existen otras empresas dedicadas a la elaboración de programas de evaluación similares

a Martes de Prueba®, por ejemplo las pruebas SAI periódicas de la empresa Los Tres Editores,

consta de 4 pruebas anuales; Por otra parte el grupo educativo Helmer Pardo tiene dentro de su

portafolio de servicios las pruebas Aprender Para Saber, cuya estructura es muy similar a la de

Martes de Prueba® la cual consta de 3 aplicaciones anuales. El grupo educativo Helmer Pardo

es la competencia más directa en posicionamiento en el mercado.

8

1.3. Justificación del problema

La calificación paramétrica en pruebas estandarizadas es está determinada a partir del

análisis de los parámetros de su construcción, la dificultad, que es el primer parámetro de cali-

ficación permite, una vez se analicen los resultados de las pruebas aplicadas a una población,

establecer dos aspectos fundamentales:

• Identificar el nivel de habilidad, dirigido a quienes aplican las pruebas si hablamos del con-

texto educativo o de cualquier rasgo que se quiera medir en el caso de test psicométricos, es

decir se puede poseer una habilidad pero la dificultad del ítem determina si esta está en un

nivel bajo, medio o alto (se pueden utilizar rangos más amplios y detallados);

• Analizar internamente la prueba, es de incumbencia de quienes la elaboran y la califican. A

nivel de calificación, se asignan rangos de habilidad requerida dependiendo del porcentaje de

acierto que tenga un ítem, los que presentan menor porcentaje de acierto tendrán mayor nivel

de dificultad y viceversa, esta información se obtiene a partir del índice de dificultad. A nivel

de construcción una prueba es válida, en la medida que logra establecer el nivel de habilidad

en una persona o población que la aplica, para lo cual esta dificultad se establece de manera

intencional en los ítems, para verificar su validez se contrasta el nivel de dificultad intencio-

nal con los porcentajes de acierto obtenidos y es de esperarse que exista coincidencia entre

ambos, lo cual requiere una verificación posterior a la aplicación. En caso de no coincidir, la

construcción de la prueba presenta inconsistencias.

El segundo parámetro por su parte es más complejo ya que busca relacionar la habilidad

de quien responde un ítem con el puntaje total que se obtiene en la prueba. Una persona que

acierte a un ítem de alta dificultad es porque posee una habilidad en un nivel alto y por lo tanto

es de esperarse que su puntaje total se acerque al máximo posible, cuando esto no ocurre existen

9

dos posibilidades, se presumen indicios de respuesta al azar (los cuales son analizados por el ter-

cer parámetro) o se debe analizar su construcción, donde de acuerdo al índice de discriminación

se puntúa la calidad del ítem según su capacidad para medir realmente una habilidad llamada

poder discriminativo.

En la búsqueda de la transición del programa Martes de Prueba® hacia la utilización de

modelos de calificación paramétrica, algunas dificultades con el tamaño de la base de datos y la

escasa revisión acerca el índice de dificultad han sido un obstáculo no solo para la inclusión del

segundo parámetro sino para el análisis del primero, el cual solo utiliza la dificultad para pon-

derar la calificación. Actualmente, el programa no cuenta con mediciones oficiales ni compara-

ciones respecto a la intención de dificultad y discriminación de las preguntas salvo comentarios

informales del equipo nacional de consultoría, quienes asisten a los colegios a brindar soporte

en la interpretación y uso de resultados acerca de la dificultad de las preguntas, asegurando que

el nivel de dificultad es alto y no corresponde con los niveles de dificultad manejados por las

Pruebas Saber, lo cual discrepa con los objetivos del programa. Por lo anterior, el análisis real

de parámetros de calificación y construcción constituirán un aporte importante a la mejora de los

procesos.

Desde la perspectiva de la investigación educativa es de tener en cuenta que los estudios

estadísticos la enriquecen:

La Estadística habrá de ser vista como un conjunto de métodos, técnicas y procedimien-

tos (…) que contribuyen al estudio científico de los problemas planteados en el ámbito de la

educación y a la adquisición de conocimiento sobre las realidades educativas, a la toma de deci-

siones y a la mejora de la práctica desarrollada por los profesionales de la educación. (Gil, 2003,

pág. 233)

10

Es de resaltar que la evaluación es parte del proceso educativo y su construcción es inhe-

rente a un análisis real de los procesos, además de ser elaborada por profesionales de la educación

quienes tienen un rol preponderante en todas las etapas del proceso educativo. El uso de herramien-

tas estadísticas no resulta suficiente a la hora de realizar el análisis evaluativo por lo que se deben

incluir en ella métodos de triangulación de la información que involucren lo cualitativo. Morse en

discusión sobre la importancia de unir métodos cuantitativos y cualitativos para el estudio de un

fenómeno, establece que “ el análisis interpretativo es concomitante a la recolección de datos y el

producto final es el resultado que se genera en colaboración con los interesados” (Morse, 2003).

La entrega de información de resultados a las instituciones educativas que aplican Martes

de Prueba®, se soporta en el uso de una plataforma de resultados que administra la información

desde el año 2014 y ha permitido generar una extensa base de datos que sirve de insumo para el

análisis estadístico de la información. Los parámetros de dificultad y discriminación se miden

a partir del conocimiento de varios datos aportados por esta plataforma, tales como el número

de evaluados, el número de respuestas por cada opción y los puntajes totales de los estudiantes

que aplican las pruebas, por otra el acceso tanto a las preguntas realizadas como a sus rejillas

de construcción junto con el procesamiento de los datos y su contrastación permitirá realizar el

análisis mixto de la información.

1.4. Antecedentes del problema

Una vez se ha identificado el problema y el contexto de la presente investigación se

recopilaron trabajos investigativos relacionados con el análisis de parámetros de calificación y

construcción para la evaluación de ítems, así como aportes teóricos y críticos sobre la evaluación

externa y su importancia en la educación.

11

Se determinan dos categorías de antecedentes que aportan a la investigación; la primera

es el Análisis paramétrico en evaluaciones estandarizadas dentro de los cuales se documentaron

trabajos de investigación que analizan los parámetros medibles en evaluación estandarizada (difi-

cultad y discriminación) y su uso en análisis y reestructuración de evaluaciones aplicadas a gran

escala. La segunda es la Evaluación de programas evaluativos donde se estudia al papel pre-

ponderante de la evaluación en la educación y sus procesos de mejora, además de brindar otras

perspectivas de la evaluación estandarizada y externa, que cuestionan su uso y la confiabilidad de

los instrumentos, criterios y resultados.

Tabla 1.Antecedentes del problema

Categoría Datos de Publicación

Análisis paramétrico en evaluaciones estandarizadas

Autor: Backhoff, Larrazolo, & RosasTítulo: Nivel de dificultad y poder de discriminación del Exa-

men de habilidades y Conocimientos Básicos (EXHCOBA)Año: 2000 Revista electrónica de investiga-

ción educativa (Redie) Vol. 2 N° 1Autor: Cerdad & Montero

Título: Uso del modelo de Rasch para la construcción de tablas de especificaciones: Propuesta metodológi-ca aplicada a una prueba de selección universitaria

Año: 2017 Revista Actualidades Investigativas en Educa-ción, Facultad de educación- Universidad de Costa Rica

Evaluación de progra-mas evaluativos

Autor: Fernández, Rebolloso & CantónTítulo: Meta evaluación del sistema de evalua-ción de las titulaciones universitarias andaluzas

Año: 2010 Gestión y análisis de políticas públicas- Insti-tuto Nacional de Administración Pública de España.

Nota: Elaboración propia a partir de los autores y documentos consultados

En el año 2000 se publicó en la revista electrónica de investigación educativa el artículo:

Nivel de dificultad y poder de discriminación del Examen de Habilidades y Conocimientos Bási-

cos (EXHCOBA) (Backhoff, Larrazolo, & Rosas, 2000), en esta investigación los autores descri-

12

ben el análisis de los resultados de ítems desde los parámetros de dificultad y discriminación a fin

de contrastarlos con los estándares de calidad de este examen, el cual es realizado a gran escala

en México para el ingreso a la educación superior. Uno de los objetivos es la clasificación de las

preguntas según la recomendación que se establece desde el índice de discriminación para des-

cartar o conservar ítems de mala o buena calidad. Los resultados mostraron que la mayoría de los

reactivos del EXHCOBA tienen una dificultad media y un buen poder discriminativo. Asimismo,

se concluyó que los reactivos que mejor discriminan pertenecen al área de matemáticas y los que

poseen menor nivel de discriminación pertenecen al área de ciencias sociales.

Esta investigación logra una descripción detallada del EXCHOBA y brinda aportes teóri-

cos importantes como los algoritmos matemáticos usados en el índice de discriminación y su uso

en el análisis de la construcción de una prueba estandarizada. La investigación tiene un enfoque

cuantitativo, clasificado dentro de los estudios estadísticos como un análisis correlacional.

Recientemente, se publicó en la revista Actualidades Investigativas en Educación, de la

Facultad de educación de la Universidad de Costa Rica, el artículo Uso del modelo de Rasch

para la construcción de tablas de especificaciones: Propuesta metodológica aplicada a una

prueba de selección universitaria (Cerdad & Montero, 2017). Este estudio fue aplicado al com-

ponente de razonamiento en contextos matemáticos de la prueba de aptitud académica (nombre

que recibe la prueba para el ingreso a la Universidad de Costa Rica), la cual se realiza de acuerdo

al Modelo Basado en Evidencias. Su objetivo fundamental radica en el uso del modelo Rasch

(que indica el parámetro de dificultad en las pruebas), como herramienta de validación de los

ítems aplicados y futuros a partir de la elaboración de tablas de especificaciones. El funciona-

miento que adopta una tabla de especificaciones orienta a los constructores de ítems en la crea-

ción de nuevos reactivos. Los autores describen teóricamente el modelo Rasch y sus algoritmos

13

matemáticos. La clasificación de niveles de dificultad se realizó por jueces expertos, encontrando

en la investigación que algunos de ellos estiman de forma adecuada este parámetro mientras

otros lo exceden, es decir los ítems presentan una dificultad mayor a la estimada por el juez. Otro

hallazgo importante es que existían preguntas que requerían más de una habilidad o procedi-

miento para resolverse, lo cual aumenta la dificultad y no es concordante con el Modelo Basado

en Evidencias. La conclusión general de los autores es que este estudio de caso permite realizar

una correcta validación e implementación para la construcción de nuevos ítems en esta prueba

estandarizada. El análisis de la dificultad realizado en esta investigación brinda aportes desde lo

metodológico a la presente investigación ya que presenta un proceso de validación en una prue-

ba estandarizada de similar construcción a Martes de Prueba® dado que se fundamenta en el

mismo modelo y busca la implementación de parámetros para la optimización de sus procesos.

También permite establecer el uso de algoritmos similares de fácil utilización en herramientas

informáticas como Excel y SPSS, compararlos y aplicarlos en a la base de datos usada en esta

investigación.

En Europa, a partir de la declaración de Bolonia en 1999 se busca la convergencia en

diferentes aspectos de la educación superior del continente, a partir de este acuerdo las univer-

sidades y más específicamente los programas académicos se rigen por un sistema de evaluación

de las titulaciones, el cual representa cierta garantía de la calidad de los programas. En el 2010,

el Instituto Nacional de Administración Pública de España y su ministerio de ciencia u tecno-

logía financian la investigación Metaevaluación del sistema de evaluación de las titulaciones

universitarias andaluzas, cuyo objetivo desde “una perspectiva de la metaevaluación (…) intenta

juzgar la calidad de la evaluación mediante la aplicación de un conjunto de criterios de valor que

ayudaran a destacar cuales son las principales virtudes y defectos del modelo actual” (Fernandez,

14

Rebolloso, & Cantón, 2010). Mediante un cuestionario de 82 ítems y utilizando cuyos participantes

fueron 81 docentes expertos en procesos de evaluación y acreditación donde los participantes puntua-

ban criterios de análisis y fases del proceso de evaluación a partir de los resultados obtenidos los auto-

res discuten en torno a la politización de su uso y el discurso de calidad educativa que la enmarca esta

evaluación. Se concluyó finalmente a partir del análisis de los resultados de los instrumentos aplicados

que se puede mejorar el sistema de evaluación en cuatro aspectos: “el valor de las evaluaciones como

herramienta para la rendición de cuentas (legitimidad), su capacidad para contribuir a la mejora de las

titulaciones, la promoción de actitudes democráticas en los procesos de gestión y la viabilidad global

de las propia evaluaciones”. (Fernandez, Rebolloso, & Cantón, 2010). Esta investigación representa

un antecedente de evaluación de un programa de evaluación, aunque en este caso no era una evalua-

ción escrita, brinda información importante sobre el análisis de un sistema de evaluación para desde

una perspectiva crítica proponer aspectos de mejora. Esta investigación se basa en una metodología

de tipo cuantitativo, aunque las características de un proceso de metaevaluación involucran un fuerte

análisis cualitativo de los resultados cuantitativos.

En el contexto de estos trabajos, cada uno de ellos tiene correspondencia con aspectos

tenidos en cuenta en la presente investigación que corresponde a la evaluación de un sistema de

evaluación externa y reúne el análisis paramétrico para evaluar la calidad de la construcción y

también criterios de análisis como el sistema de aplicación de la evaluación, la cantidad de eva-

luados, la estandarización y su influencia en los resultados.

1.5. Pregunta de investigación

¿Cómo el análisis mixto de ítems del programa de evaluación Martes de Prueba® puede

aportar al mejoramiento de sus procesos de diseño y construcción?

15

1.6. Objetivo general

Realizar un análisis mixto los ítems del programa de evaluación Martes de Prueba® en

cuanto a los parámetros de dificultad y discriminación a fin de contribuir a la mejora sus procesos

de diseño y construcción.

1.7. Objetivos especificos

• Determinar los valores de índice de dificultad y coeficiente de discriminación de una muestra

intencionada de ítems a fin de contrastarlos con los rangos establecidos.

• Realizar un análisis descriptivo de los ítems para establecer criterios y patrones generales que

caractericen su comportamiento a nivel estadístico.

• Generar recomendaciones específicas sobre la construcción de Martes de Prueba® a partir de

la información obtenida.

1.8. Hipótesis

Una vez analizado el problema de investigación en cuanto a su planteamiento, justifica-

ción y antecedentes, se establece la siguiente hipótesis:

“Las características de construcción de ítems presentan un impacto en los parámetros

estadísticos de calificación del programa de evaluación Martes de Prueba®”.

Se define en el marco de esta investigación que una vez establecidos los parámetros de

dificultad y discriminación para una serie de ítems, el análisis cualitativo de los mismos es una

manera efectiva de verificación de la hipótesis.

16

Capítulo 2. Marco de referencia

En este capítulo se reúnen diferentes aportes conceptuales en los cuales se apoya la pre-

sente investigación, se definieron tres categorías teóricas que orientan los objetivos planteados.

La tabla 2 presenta las categorías del marco de referencia y los autores cuyos aportes fundamen-

tan esta investigación.

Tabla 2.Categorías teóricas

Categoría Descripción Autores citados

Evaluación y evalua-ción estandarizada

Se presentan algunas defini-ciones importantes acerca de la evaluación: externa, inter-na, formativa etc., así como la historia de la evaluación estan-darizada y el contexto nacional.

(Abad, 2004), (De La Orden, 2000) (ICFES , 2016) (Pérez Juste, 2016) (Jornet, 2017) (AAMO, 2015) (MEN, 2013)

Seguidores y detrac-tores de la evalua-ción estandarizada

Se presentan dos posturas en tor-no a la evaluación estandariza-das, la perspectiva de la evalua-ción de programas evaluativos y la de oposición a este tipo de evaluaciones a nivel educativo.

(De La Orden, 2000) (Fernan-dez, Alcaraz, & Sola, 2017)

Construcción y califica-ción de las evaluaciones

Finalmente se presentan aspec-tos puntuales de la evaluación estandarizada como la construc-ción a partir del Modelo Basado en evidencia y se describen los parámetros de calificación.

(Backhoff, Larrazolo, & Ro-sas, 2000) (Córdoba, 2016) (Ebel & Frisbie, 1991) (Lee-nen, 2013) (Muñis, 2010) (Hulin, Drasgow, & Parsons, 1983) (Quevedo, 2011)

Nota: Elaboración propia a partir de los autores y documentos consultados

2.1. Evaluación y evaluación estandarizada

El Ministerio de Educación Nacional colombiano, establece que las competencias son

desarrolladas a partir del diseño de planes de estudios coherentes con los Estándares Básicos de

Competencias. (MEN, 2006).

17

Una de las partes más importantes de los procesos de enseñanza aprendizaje, es el pro-

ceso evaluativo, entendiendo la evaluación “como un proceso sistemático, diseñado intencional

y técnicamente para la recolección de información rigurosa, valida y fiable, orientado a valorar

la calidad y logros de un proceso”, (De la Orden, 2000, pág. 383) como base para una posterior

toma de decisiones en el contexto en el que se desarrolle.

La evaluación hace referencia a calcular encontrar el significado de algo entorno a un

criterio ya establecido, y puede aplicarse casi a cualquier actividad humana.

“Su naturaleza, orientada siempre a la mejora de la realidad evaluada, implica varios prin-

cipios, en particular el de su naturaleza instrumental y su carácter integral, integrado e integrador,

sin olvidar su imprescindible dimensión ética. No podría ser de otra manera ya que, si aceptamos

su carácter instrumental, debe servir, por coherencia, a aquello que es la naturaleza de la educa-

ción, que no es sino la mejora, el perfeccionamiento integral del ser humano y, por ende, de todo

lo que a ello contribuye”. (Pérez Juste, 2016, p. 15)

La estandarización en evaluación se entiende como “el proceso de sistematización de to-

dos los elementos de acercamiento a una acción de recogida e interpretación de información, de

manera que se utilicen los mismos: instrumentos o técnicas, criterios de corrección y/o síntesis o

análisis de la información y criterios de interpretación de la misma” (Jornet, 2017, pág. 5). En la

evaluación la estandarización se usa para el diseño de instrumentos, aplicación, obtención e inter-

pretación de resultados, de tal forma que estos sean comunes a la población que se busca evaluar.

La evaluación estandarizada en educación tiene varios matices, sin embargo es importan-

te analizarla desde su finalidad para así, poder comprender su funcionamiento, por lo cual va a

lugar conocer el recorrido histórico de la evaluación estandarizada y su origen: La Psicometría.

Como rama de la psicología la “psicometría se ocupa de los problemas de medición en Psicolo-

18

gía, utilizando la Estadística como pilar básico para la elaboración de teorías y para el desarrollo

de métodos y técnicas específicas de medición” (Abad, 2004, pág. 4). En 1890 M. Catell introdu-

jo el concepto de test mental como instrumento de medida de características psicológicas las cua-

les debían ser objetivas, así como el concepto de batería de pruebas las cuales se aplicaban a los

sujetos a fin de medir cuantitativamente algunas características. Posteriormente Alfred Binet, en

compañía de Theodore Simon crean en 1905 el primer test de inteligencia (test Binet-Simmons),

que buscaba medir la edad mental de los individuos evaluados a fin de establecer diagnósticos de

retraso mental. Los test de inteligencia fueron evolucionando a finales del siglo XIX, los aportes

de psicólogos matemáticos como Pearson y Spearman, contribuyeron a la fundamentación del

uso de instrumentos de medición en la psicología.

El desarrollo de las pruebas estandarizadas evoluciona hacia las pruebas de selección, te-

niendo su primer auge durante la primera y segunda guerra mundial, aplicando test de inteligen-

cia y tipificación a los soldados reclutados, durante todo el siglo XX los test psicológicos amplia-

ron su campo de acción hacia la psicología organizacional masificando el uso de instrumentos

psicométricos para medir características de los sujetos, utilizando teorías y modelos estadísticos

(teoría clásica de los test, teoría de respuesta al ítem) que permiten establecer relaciones entre

respuestas y determinados atributos que permiten identificar características, es decir el atributo

no es evaluado de forma directa sino mediante algunos indicadores de su existencia.

En la actualidad la mayoría de países del mundo poseen sistemas de evaluación estandari-

zada en las cuales participan los estudiantes de diferentes niveles educativos.

En Colombia la entidad encargada de la evaluación estandarizada es el Icfes y esta es de

carácter Censal, es decir es aplicada a la totalidad de estudiantes mediante las Pruebas Saber,

aplicadas anualmente a todos los estudiantes de los grados 3°, 5°, 9° y 11°; de igual modo se

19

aplican Pruebas Saber a estudiantes que finalizan carreras técnicas, tecnológicas y profesiona-

les mediante las Pruebas Saber T & T y SABER PRO. La evaluación estandarizada de mayor

importancia es la SABER 11 que evalúa el proceso académico de la educación media y permite

analizar cómo están los estudiantes en miras a la educación superior y ser un indicativo de la

calidad de la educación del país. Las Pruebas Saber se elaboran mediante el Modelo Basado en

Evidencias mediante el cual se espera bajo el fundamento de las teorías psicométricas que las

preguntas den cuenta de determinadas evidencias del cumplimiento de afirmaciones respecto

al desarrollo de competencias en los estudiantes, dichas competencias desarrolladas a partir del

diseño de planes de estudios coherentes con los Estandares Básicos de Competencias.

En el ámbito educativo, “una evaluación pretende hacer algunas afirmaciones sobre las

competencias, conocimientos, habilidades o capacidades de los estudiantes y se busca que estas

afirmaciones sean válidas” (MEN, 2013). Existen, varias formas de clasificar los procesos de

evaluación, la primera diferenciación amplia se encuentra entre la evaluación sumativa y la eva-

luación formativa, la evaluación sumativa tiene como objetivo fundamental certificar o valorar

un proceso, por lo general ya culminado que puede ser cuantificable, por su parte la evaluación

formativa necesariamente debe ser continua y trasversal al desarrollo de un proceso, su objetivo

fundamental es mejorar los procesos. Otro criterio de clasificación define a la evaluación interna,

realizada por la propia institución de acuerdo a las metas y propósitos que se deseen alcanzar y

a la evaluación externa, que “es toda evaluación previamente planeada, validada y realizada por

entidades especializadas o investigadores, con el propósito de identificar en la institución educa-

tiva el estado de desarrollo de las competencias básicas y disciplinares por parte de los educan-

dos, con referencia a estándares básicos de competencias y los estados del arte de las áreas del

plan de estudios”. (MEN, 2013).

20

2.2. Evaluación de programas evaluativos

La evaluación es parte del proceso educativo y de igual forma el uso de los resultados de

la evaluación desde su carácter instrumental para la mejora de la calidad de la educativa. Por lo

anterior De la Orden (2000) plantea la importancia del estudio de la evaluación y su validez a ni-

vel educativo y plantea ciertas condiciones para un programa de evaluación que busque la mejora

de la calidad educativa y a su vez que permita la evaluación de programas educativos, estas son

entre otras:

1. Que los objetivos del programa sean claramente identificados y formulados sin

ambigüedad.

2. Que los criterios de evaluación (lo que se exige del programa y cómo se exige)

deben constituir una adecuada muestra representativa de los contenidos y con-

ductas especificadas en los objetivos.

3. Que la forma, procedimientos e instrumentos de evaluación exijan los compor-

tamientos especificados en los objetivos del modo más directo.

4. Que la evaluación sea fiable y objetiva en el sentido de que el azar o los errores

instrumentales tengan un efecto mínimo en los resultados (pág. 386)

2.3. Otras perspectivas sobre la evaluación estandarizada

Fernandez, Alcaraz, & Sola (2017) exponen aspectos importantes sobre la evaluación es-

tandarizada y su uso, especialmente realizando un análisis de los paradigmas e ideologías que se

hallan inmersos en la realización de pruebas estandarizadas a los estudiantes. Los autores parten

de afirmar que las evaluaciones de carácter masivo miden competencias, el termino de compe-

21

tencias fue usado por la OCDE9, y anteriormente por otros teóricos que explican el aprendizaje

desde la técnica y el conductismo, según los autores las competencias son imposibles de medir

mediante pruebas escritas, de igual modo rechazan la idea de que estas aportan información so-

bre los resultados que está produciendo un sistema educativo determinado desestimando así a las

pruebas estandarizadas como un tipo de evaluación educativa. “La aparición de las competencias

como construcción referencial del aprendizaje” (Arroyo, 2016, pág. 23) se constituyen como un

paradigma técnico o tecnocrático de la educación el cual busca la eficiencia educativa y la educa-

ción laboral. Desde estas perspectivas son cuestionables, aspectos como los resultados arrojados

por las pruebas y su mal uso, especialmente en referencia a las pruebas PISA10; una de las apre-

ciaciones más importantes de esta perspectiva es la imposibilidad de tener mediciones exactas

en una evaluación estandarizada y el desconocimiento de estas evaluaciones de otros aspectos

importantes del acto educativo ya que hay factores que inciden en la falta de confiabilidad de los

resultados en evaluaciones estandarizadas debido a los altos índices de dispersión de los datos

que estas arrojan, de igual manera para identificar y entender diferentes perspectivas de la aplica-

ción y uso de los resultados de pruebas estandarizadas como insumos para el mejoramiento de la

calidad educativa.

2.4. Diseño de especificaciones a partir del modelo basado en evidencias

Teniendo en cuenta la definición de evaluación del Ministerio de educación nacional, la

evaluación busca validar afirmaciones que se hacen sobre las competencias, los conocimientos

y las habilidades de los estudiantes; Para que pueda darse dicha validación una evaluación debe

cumplir con varias características, principalmente en lo referente a su validez y su confiabilidad.

9. Organización para la Cooperación y el Desarrollo Económico10. Programme for International Student Assessment

22

La evaluación estandarizada se vale de pruebas escritas para cumplir con su objetivo. Las afirma-

ciones establecidas sobre los aprendizajes de los estudiantes deben ser cuantificables y medibles

mediante pruebas validas lo cual se refiere a que la prueba mida lo que pretende medir y a su vez

sus resultados sean interpretables y utilizables (MEN, 2013). Por su parte, la confiabilidad de la

prueba se refiere a la consistencia de los resultados. “En el análisis de la confiabilidad se busca

que los resultados de un proceso evaluativo concuerden con los resultados del mismo en otra

ocasión” (Melendez, 2015).

El Modelo Basado en Evidencias es un modelo de evaluación, se fundamenta en el diseño

de instrumentos que pretenden verificar afirmaciones a partir de las evidencias que arroja la prue-

ba sobre las mismas, en este caso la respuesta acertada es la evidencia de que la afirmación se

cumple. El diseño de especificaciones a partir del MBE “es una metodología que permite cons-

truir evaluaciones sustentadas en criterios objetivos, que generan información válida, confiable

y explícita sobre lo que los estudiantes saben y saben hacer en el marco de un propósito y de un

objeto de evaluación particular” (MEN, 2013).

El modelo empieza determinando el análisis del dominio, en este paso se definen los

alcances que se esperan de los estudiantes, es decir se parte de los Estándares Básicos de Compe-

tencias ya que estos permiten comparar posteriormente los resultados obtenidos con los procesos

por ciclo en que debe estar una población educativa, de estos se toman las acciones de pensa-

miento que se definen las competencias y componentes.

Estándar Acciónde Pensamiento

Dom

inio

Componente

Competencia

Figura 4. Definición del Dominio de una pregunta. Fuente: Elaboración propia a par

23

Cada acción de pensamiento, tiene unos pasos implícitos para su cumplimiento, los cua-

les no se encuentran en el documento de los estándares básicos de competencias, estas se deno-

minan afirmaciones deben ser construidas por el autor de la pregunta, son enunciados globales

que atienden a la pregunta ¿qué se quiere decir sobre los estudiantes a partir de sus respuestas?

De preferencia las afirmaciones deben ser la mayor cantidad posible por una acción de pensa-

miento y deben conservar correspondencia.

El cumplimiento de las afirmaciones debe poder ser corroborado, para lo cual deben

existir una serie de evidencias, las cuales representan acciones observables que hacen posible

verificar las afirmaciones, responde a la pregunta “¿qué tiene que hacer el estudiante que permi-

ta inferir que cumple una afirmación?, una afirmación puede tener varias evidencias son la base

para la construcción de las preguntas de las pruebas”. (AAMO, 2015, pág. 27).

Una vez formuladas las evidencias, estas se ven reflejadas en tareas las cuales represen-

tan una actividad específica, y permiten la construcción del contexto en el que se desarrollaran

la preguntas así como las diferentes preguntas que se pueden construir a partir de una tarea. A

través de las tareas es posible caracterizar la dificultad o complejidad de las preguntas.

Estándar Acciónde Pensamiento

Dom

inio

Componente

Competencia

Pregunta 1 Pregunta 2 Pregunta 3

Tarea 1 Tarea 2 Tarea 3

Evidencia Evidencia Evidencia

Afirmación Afirmación Afirmación

Figura 5. Diseño de especificaciones a partir del Modelo Basado en Evidencias. Fuente: Elaboración propia a partir de información recuperada en: http://www.icfes.gov.co/instituciones-educativas-y-secretarias/acerca-de-las-evalua-ciones/como-se-elaboran-

24

2.5. Recomendaciones para la construcción de ítems

Moreno, Martínez & Muñiz (2004) establecen doce directrices para la construcción de

ítems de opción múltiple divididos en tres categorías, la tabla 3 resume la propuesta que realizan

los autores a partir del análisis de diversas directrices previas.

Tabla 3.Directrices para la elaboración de ítems de opción múltiple

A. Elección de ContenidosDebe ser una muestra representativa del contenido recogi-do en una tabla de especificación, evitando ítems trivialesLa representatividad deberá marcar lo sencillo o complejo, concreto o abstracto, memorístico

B. Expresión del contenido del ítemLo central debe expresarse en el enunciado. Cada opción es un comple-mento que debe concordar gramaticalmente con el enunciadoLa sintaxis o estructura gramatical debe ser correcta. Evitar ítems demasiado escue-tos o profusos, ambiguos o confusos, cuidando además las expresiones negativasLa semántica debe estar ajustada al contenido y a las personas evaluadas

C. Construcción de las opciones de respuestaLa opción correcta debe ser sólo una, acompañada por distractoras plausiblesLa opción correcta debe estar repartida entre las distintas ubicaciones8. Las opciones deben ser preferiblemente tres.Las opciones deben presentarse usualmente en verticalEl conjunto de opciones de cada ítem debe aparecer estructuradoLas opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras. Por ello, deben evitarse las opciones «Todas las anteriores» y «Ninguna de las ante-riores “Ninguna opción debe destacar del resto ni en contenido ni en apariencia

Nota: Tomado de: (Moreno, Martinez, & Muñiz, 2004, pág. 496)

2.6. Teoría clásica de los test (TCT) y teoría de respuesta al ítem (TRI)

“La TCT es una teoría sobre la medición que se obtiene al aplicar un instrumento a una

persona” (Leenen, 2013, pág. 41). En esta teoría se plantea muy a grandes rasgos que es posible

medir características o rasgos de un evaluado, y que determinados rangos de puntaje establecerán

una proporción de la característica medida, como se mencionó con anterioridad, en el ámbito

25

educativo y más específicamente en la evaluación estandarizada la teoría clásica de los test esta-

blecería que es posible realizar mediciones de las habilidades (para el caso de Martes de Prue-

ba® de las competencias a través de las tareas planteadas en el MBE) de un estudiante evaluado.

La TCT establece la necesidad de validación de los instrumentos de medición ya que de estos

depende la toma de decisiones.

La teoría clásica de los test no asume una exactitud en la medición de rasgos, por lo

contrario tiene en cuenta que se pueden presentar errores de medición debido a factores externos

o perturbantes al momento de la aplicación de una prueba o de la resolución de un ítem, así para

conocer el puntaje de una persona en la medición de determinado rasgo es necesario tener en

cuenta que se obtendrá un puntaje empírico Xp y un error en la medición Ɛp que, la diferencia

entre ambos factores permitirá conocer el puntaje real Ʈp. La siguiente ecuación (Leenen, 2013,

pág. 42) permite reconocer el cálculo para reconocer el puntaje real en la medición de un rasgo

de acuerdo a la TCT:

Ʈp = Xp – Ɛp

En esta ecuación el error y el puntaje real o verdadero son supuestos teóricos dada la

dificultad de cálculo del error, esta, entre otras asociadas a la fiabilidad, es la limitación principal

de la TCT.

La TCT, como se observó, busca medir o cuantificar los rasgos de acuerdo al puntaje total

de la prueba realizada; dadas las limitaciones de la TCT y en búsqueda de formas que permitan

mediciones más confiables surge sin que esto implique un reemplazo total o una desestimación

del modelo clásico, la teoría de respuesta al ítem TRI; “El supuesto clave en los modelos de TRI

es que existe una relación funcional entre los valores de la variable que miden los ítems y la

probabilidad de acertar estos, denominando a dicha función Curva Característica del Ítem (CCI)”

26

(Muñis, 2010), en otras palabras el rasgo no se mide desde la prueba total sino desde cada ítem,

lo que permite medir más de un rasgo, característica o habilidad en la misma prueba y también

medir una habilidad desde diferentes formas, por ejemplo en una prueba que aplica el MBE, es

posible medir una competencia a partir de varias tareas, lo que podría implicar niveles de dificul-

tad diferentes y por tanto niveles de competencias diferentes.

Dentro del sistema de calificación de martes de prueba, se manejan cuatro niveles de difi-

cultad con los siguientes rangos:

Tabla 4.Índice de dificultad programa Martes de Prueba

Dificultad Índice de DificultadSuperior* [0 – 0.25]Alto (0.25-0.45]Medio (0.45-0.65]Bajo (0.65-1]

* Para efectos de la construcción los niveles de dificultad alto y superior se clasifica como nivel alto.

Nota: Adaptado de sistema de calificación porcentaje de acierto y nivel de dificultad FactorySuitePlantel/MasterPa-ges/Inicio.aspx#b

2.7. Modelos unidimensionales de teoría de respuesta al ítem

Córdoba (2016) , expone que los modelos de TRI son un caso particular y que como ya

se menciona establecen una relación entre las respuestas a un conjunto de ítems de un individuo

a quien se le aplica una prueba, evaluando un denominado rasgo latente, el cual corresponde

en este caso a la habilidad o competencia, debe ser medido sobre alguna escala definida (pág.

57). El autor cita a Hulin, Drasgow, & Parsons (1983) afirmando que “De manera específica, la

probabilidad de que cierto individuo acierte a un ítem se asume como una función θ, el símbolo

usado para denotar la característica que se quiere medir”. (pág. 57)

27

2.7.1. El modelo de rasch o logístico de un parámetro (1PL).

En 1960, Georg Racsh11 propone el principal modelo de la TRI, Rasch “modela la proba-

bilidad de que una persona p (de alguna población de personas) conteste correctamente un ítem

i (de alguna población de ítems)” (Leenen, 2013, pág. 45). Esta modelación se asocia con la difi-

cultad de los ítems, teniendo en cuenta que la probabilidad de acierto a un ítem es inversamente

proporcional a su dificultad, es decir a mayor probabilidad de acierto, menor dificultad y por

tanto también tendrá una puntuación diferente, siendo la puntuación directamente proporcional

a la dificultad, alcanzándose así puntajes más altos a medida que se acierta a ítems con dificultad

mayor que son a su vez los que acierta menor cantidad de población de personas. En la califi-

cación paramétrica este modelo se calcula mediante el denominado índice de dificultad Pi, que

relaciona la población que acierta a un ítem Ai con la población total evaluada Ni. La siguiente

ecuación presenta el cálculo del índice de dificultad:

Pi =AiNi

2.7.2. El modelo logístico de dos parámetros (2PL)

El modelo logístico 2PL introduce un segundo parámetro a la medición de los ítems,

necesariamente este parámetro se relaciona con el de dificultad, este parámetro se conoce como

de discriminación. Relaciona la probabilidad de acierto de un ítem con la habilidad de la perso-

na que lo responde, en este caso los ítems de mayor dificultad deberían ser contestados por los

evaluados con un mayor nivel de habilidad, dicho lo anterior, la probabilidad de acertar un ítem

de dificultad alta por una persona de habilidad baja tiende a cero.

11. (Odense, 21 de septiembre de 1901-19 de octubre de 1980) fue un matemático y estadístico danés.

28

Para efectos de control de la calidad de los ítems “un buen ítem debe discriminar entre

aquellos que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas cali-

ficaciones”. (Backhoff, Larrazolo, & Rosas, 2000, pág. 15) A la esta característica de los ítems se

les conoce como Poder Discriminativo.

Existen dos formas de cuantificar el poder discriminativos, que son el índice de discrimi-

nación Di y el coeficiente de discriminación, llamado coeficiente de correlación biserial de punto

rpbis.

Para efectos de la siguiente investigación Backhoff, Larrazolo, & Rosas (2000, pág. 16)

proponen como ecuación para el calculo del índice de discriminación Di la siguiente formula:

Di =GA aciertos – GB aciertos

N grupo mayor

GA aciertos: Se obtiene a partir los datos de los promedios o puntajes generales de las

personas, y tomar el 27% de los evaluados con puntajes más altos, el número de aciertos de esta

muestra poblacional será GA.

GB aciertos: Se obtiene a partir los datos de los promedios o puntajes generales de las

personas, y tomar el 27% de los evaluados con puntajes más bajos, el número de aciertos de

esta muestra poblacional será GB. N grupo mayor Puede tomar el valor de GA o de GB, corres-

ponderá al grupo que haya tenido mayor cantidad de aciertos, si el de puntajes más altos o el de

puntajes más bajos.

El coeficiente de discriminación es la segunda y más utilizada forma de cuantificar el

poder discriminativo, es la correlación biserial puntual o se punto, “la rpbis se utiliza para saber si

las personas “adecuadas” son las que obtienen las respuestas correctas, qué tanto poder predicti-

vo tiene el reactivo, y cómo puede contribuir a las predicciones.” (Backhoff, Larrazolo, & Rosas,

29

2000, pág. 16). Este coeficiente tiene en cuenta al 100% de los datos y relaciona los puntajes con

el acierto a un determinado ítem. A continuación se presenta la ecuación (Glass & Stanley, 1986)

permite calcular este coeficiente:

( )=−

×−

rx xS

n nn n 1pbs

x

1 0 1 0

x1 = Media de las puntuaciones totales de los evalua-dos que acertaron al ítem

x0 = Media de las puntuaciones totales los evaluados que no acertaron al ítem

Sx = Desviación estándar de las puntuaciones totales.n1 = Número de casos que respondieron correcta-

mente el ítem.n0 = Número de casos que respondieron incorrecta-

mente el ítem.n = n1 + n0

El coeficiente de correlación biserial de punto y el índice de discriminación, establecen

algunos rangos que permiten evaluar la calidad de las preguntas Evel & Frisbie (1991, pág. 232)

proponen el siguiente rango de valores para clasificar la calidad de las preguntas, según el índice

de discriminación Di:

Tabla 5.Evaluación de ítems según su Índice de Discriminación

Índice de Discriminación Evaluación del ítem0.40 o mayor Muy buenos ítems0.30-0.39 Buenos pero sujetos a mejora0.20-0.29 Ítems regulares, necesitan mejorarMenos de 0.19 Ítems pobres, deben ser mejorados e indica mejorar revisión

Nota: Traducción de Essentials of Educational Meassurement (Ebel & Frisbie, 1991, pág. 232)

2.8. Medidas de tendencia central y dispersión

“Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un

solo valor a un conjunto de valores” (Quevedo, 2011, pág. 2). Las medidas de tendencia central

más utilizadas son la media o promedio aritmético, la mediana y la moda. La media está definida

30

como la sumatoria de los valores analizados y su relación con el número total de valores analiza-

dos, dependiendo de las medidas de dispersión de los datos la media será o no representativa del

total de los datos. Por otra parte está la mediana, la cual corresponde en una secuencia de datos

ordenada el valor que se ubica en la mitad de los datos, es decir si tengo cien datos ubicados en

orden creciente el valor que ocupa la posición cincuenta corresponderá a la mediana; Por su parte

la moda, hace referencia al dato que más veces se repite en un conjunto de datos seleccionados.

Por otra parte se hallan las medidas de dispersión son parámetros estadísticos que indican

cómo se alejan los datos respecto a la media o promedio, es decir sirven como indicador de la

variabilidad de los datos. Las medidas de dispersión más comunes son la desviación estándar y la

varianza. Las siguientes ecuaciones representan las medidas de dispersión mencionadas:

∑σ ( )= −=nx x1i

i

n2 2

1Ecuación de la Varianza

∑σ ( )=−

−=nx x1

1 ii

n 2

1

Ecuación de la Desviación Estándar

Ambas medidas de dispersión aportan valores numéricos que brindan información sobre

un conjunto de datos, entre mayor sea su valor indicará mayor dispersión en los datos analizados.

31

Capitulo 3. Metodología de investigación

3.1. Enfoque de investigación

La presente investigación se encuentra enmarcada en el enfoque mixto, es decir, tanto

cuantitativa como cualitativa. Hernández, Fernández & Baptista (2010) establecen algunos crite-

rios para clasificar estos dos tipos de investigación, para este caso el enfoque cuantitativo se ve

reflejado en los siguientes criterios planteados por los autores:

• La recolección de datos se fundamenta en la medición.

• Los resultados obtenidos son cantidades numéricas y estos son analizados por métodos esta-

dísticos.

• Los fenómenos medidos no se ven afectados por la investigadora ya que sus variables poseen

cada una, un fundamento teórico para su medición.

• Los autores también plantean los siguientes aspectos aplicables a esta investigación que refle-

jan el enfoque cualitativo:

• La falta de secuencialidad en la investigación, ya que los datos obtenidos permitieron que se

formulara el problema.

• Se partió de una necesidad más no de una pregunta puntual de investigación.

• Se utilizaron algunos aspectos del paradigma interpretativo en cuanto al análisis de los ítems

y los instrumentos utilizados para este fin.

3.2. Tipo de investigación

El tipo de investigación realizada corresponde a un Estudio de Caso de tipo evaluativo, y

permite abordar los enfoques cualitativo y cuantitativo de forma integradora. Monje (2011, pág. 217)

describe los estudios de caso como un estudio exclusivo de uno o muy pocos objetos de investigación

32

que permite conocerlos de forma detallada, de igual forma “describe y explica pero además orienta la

formulación de juicios de valor que constituyan la base para tomar decisiones” (Monje, 2011). Este

estudio implica un examen sistemático de un fenómeno especifico en este caso el programa de evalua-

ción Martes de Prueba®, permitiendo la inclusión de datos cuantitativos.

3.3. Participantes (universo poblacional y muestra)

En esta investigación participarán 6 constructores de preguntas uno por cada área evalua-

da a excepción de inglés, a continuación se presenta cada uno de los participantes y el área a la

que corresponden:

Tabla 6.Participantes: Constructores Martes de Prueba® 2016

Constructor Materia Formación Experiencia

Constructor 1 Lenguaje

Licenciada en Educación Bási-ca con Énfasis en Lengua Cas-tellana. Universidad Distrital Francisco José De Caldas

Sin experiencia docente

Constructor 2 Biología

Licenciado en Biología. Univer-sidad Distrital Francisco José De Caldas. Magíster en didáctica de las ciencias Naturales, Universi-dad Autónoma de Colombia.

10 años de experiencia docente–Colegios

Constructor 3 Sociales

Licenciado en Ciencias Sociales, Universidad Pedagógica Nacio-nal. Magíster en Ciencia Políti-ca, Universidad de Los Andes.

3 años de experiencia docente–Colegios

33

Constructor Materia Formación Experiencia

Constructor 4 Matemáticas

Licenciada en Física y Matemá-ticas, Universidad Libre, Espe-cialista en Edumática, Universi-dad Autónoma de Colombia.

25 años de experien-cia docente- Colegios / Universidades

Constructor 5 Química

Licenciado en Química, Universidad Distrital Francisco José De Caldas, Magíster en didáctica de las ciencias naturales y experimentales, Uni-versidad Nacional de Colombia.

5 años de experiencia docente- Colegios

Constructor 6 Física Ingeniero Químico, Universi-dad Nacional de Colombia.

15 años de experien-cia docente- Univer-sidades / Colegios

Nota: Datos obtenidos a partir de indagación informal con cada uno de los participantes

Los constructores son una muestra de tipo intencional, son participantes en la investi-

gación por su experticia en el tema y en las áreas requeridas. En el caso de los estudiantes, y

teniendo en cuenta el promedio de respuestas en las prueba, el número de estudiantes fue 20.307,

esta muestra es aleatoria ya que se tomaron todos los datos obtenidos sin eliminar ni clasificar a

ninguno de los evaluados. Para este caso los estudiantes no son considerados participantes, sino

que los resultados obtenidos por ellos son fuente de información.

3.4. Variables o categorías de análisis

A partir de los objetivos de esta investigación y teniendo en cuenta que es un estudio de

carácter mixto se plantearon, tres categorías de análisis: El análisis cuantitativo de parámetros, el

análisis cualitativo y las recomendaciones basadas en los hallazgos y la teoría. La Tabla 7 repre-

senta la matriz categorial de análisis:

34

Tabla 7.Categorías de Análisis

Categoría Subcategoría de primer orden

Subcategoría de segundo orden Instrumentos Fuentes

Análisis Cuantitati-vo de parámetros

Índice de di-ficultad N/A

N/A ÍtemsBase de datos

Índice y coefi-ciente de dis-criminación

N/A

Indicadores cuantitativos de dispersión de los datos

Varianza.Desviación estándar.

Número de evaluados.

Análisis Cualitativo Características de construcción

Concordancia con el Mode-lo Basado en Evidencias

Análisis sintác-tico general

Matriz descrip-tiva de ítems

Matriz de revi-sión documental Ítems

Recomendacio-nes especificas N/A Matriz de revi-

sión documental N/A

Nota: Elaboración propia.

3.5. Proceso y forma de recolección de datos

Para efectos de esta investigación, se pidió a los seis constructores de ítems que seleccio-

naran un grado desde tercero hasta undécimo y para este se construyeran tres ítems especiales

que debían cumplir con los siguientes requisitos:

• Evaluar la misma competencia el mismo componente.

• Trabajar un mismo eje temático.

• Variar el nivel de dificultad intencional de cada ítem, de tal forma que de los tres uno fuera

alto, otro fuera medio y otro bajo.

35

El tener la misma competencia, el mismo componente y trabajar el mismo eje temático se

justifica desde el hecho que estos factores pueden variar la dificultad de la pregunta de forma no

intencional.

Para verificar que las preguntas intencionadas sirvieran para dar cumplimiento a los obje-

tivos de la investigación se siguió un esquema de revisión previo a la inclusión de las preguntas

en la prueba.

Entrega de formato de pre-diseño

(ANEXO 1)

Revisión de la pregunta

Correcciones de la pregunta

Revisión del formato Construcción de la pregunta

Inclusión de la pregunta en las

pruebas correspondientes

Correcciones Construcción de rejilla

Figura 6. Esquema de revisión de los ítems analizados

Una vez se estableció el pre-diseño o construcción de las rejillas de las preguntas estas se

clasificaron de manera que estuvieran repartidas a lo largo de las 20 pruebas aplicadas, lo ante-

rior con el fin de no alterar la aplicación original, el número de preguntas se estableció a fin de

no suponer un trabajo dispendioso adicional para los constructores participantes, por lo cual cada

participante aporto a la investigación con la elaboración de rejillas y construcción de tres pregun-

tas. En total, esta investigación analiza 18 ítems distribuidos en las 20 aplicaciones del año 2016

como se presenta en la tabla 8.

36

Tabla 8.Distribución de ítems analizados en Martes de Prueba® 2016.

Prueba Item Dificultad intencional

Química 10°4 7 Baja6 7 Media7 7 Alta

Biología 10°11 11 Media12 11 Alta13 11 Baja

Matemáticas 3°4 1 Baja17 1 Media18 1 Alta

Física 11°4 15 Baja8 14 Media9 16 Alta

Lenguaje 9°4 12 Baja6 12 Media16 12 Alta

Sociales 5°6 16 Baja13 16 Media17 16 Alta

Nota: Elaboración propia.

Las pruebas fueron aplicadas en los colegios que implementan el programa. Como se mencio-

naba en el capítulo 1 el tiempo de aplicación de cada prueba fue de una hora, la aplicación en el lapso

correspondiente a marzo y octubre del año 2016. Dado el número de colegios y de estudiantes evalua-

dos, la aplicación no es controlada. Después de la aplicación de cada prueba se realizó la recolección

de las hojas de respuesta, estas son calificadas por un escáner de lector óptico que genera un archivo

de texto el cual es posteriormente digitado en Excel y enviado a una interfaz de procesamiento y pu-

blicación de la información, esta plataforma almacena la información en sus servidores por un año. En

el mes de diciembre de ese mismo año, la información había sido recolectada en un 100%, descargada

directamente desde los servidores principales.

37

En marzo del 2017, se inició el procesamiento de la base de datos correspondiente a los

resultados nacionales del año 2016. Para cada prueba y para cada estudiante evaluado se tomaron

los siguientes datos:

• Opción de respuesta contestada.

• Puntaje promedio de la asignatura evaluada.

• Puntaje promedio en la prueba.

• Respuesta correcta del ítem.

Para los ítems se tuvieron en cuenta los siguientes datos:

• Número de respuestas total.

• Número de respuestas por cada opción de respuesta.

• Número de respuestas opción correcta.

• Los datos tomados por estudiante y por prueba permitieron calcular los índices de dificultad

y coeficiente de discriminación, así como también las medidas de dispersión utilizadas que

fueron la desviación estándar y la varianza.

3.5.1. Técnicas de análisis, instrumentos y fuentes

Teniendo en cuenta la metodología mixta de investigación se utilizaron dos técnicas de

análisis de los datos obtenidos. Se utilizaron en primer lugar métodos estadísticos correlacióna-

les, “en los métodos correlaciónales, la presencia de la estadística es indispensable, en la medida

en que el establecimiento de relaciones entre variables se apoya directamente en índices, técnicas

y procedimientos estadísticos específicos” (Gil, 2003). A fin de analizar la información cualita-

tiva y teniendo en cuenta que esta se apoya en datos cuantitativos, la segunda técnica de análisis

utilizada es la triangulación metodológica. “Se define como el uso de al menos dos métodos,

38

usualmente cualitativo y cuantitativo para direccionar el mismo problema de investigación”

(Morse, 2003). Pérez cita a Creswel, estableciendo los tipos de estudios mixtos donde se aplica

la triangulación metodológica, de allí es posible clasificar esa triangulación dentro de un diseño

“secuencial explicatorio” (Perez, 2011), técnica de análisis en la cual se realiza un análisis cuan-

titativo de los datos, seguida de una análisis cualitativo que busca reforzar o explicar los datos

obtenidos, los datos cuantitativos y cualitativos tienen igualdad de estatus en esta investigación.

En cuanto a las fuentes e instrumentos, para la recolección de datos cuantitativos se utili-

zaron las 18 preguntas aplicadas a lo largo de las pruebas, las cuales aportaron los datos requeri-

dos para esta investigación, para procesar y analizar la información proveniente de las preguntas

se contó con un una base de datos obtenida del sistema de información de calificación de las pre-

guntas el cual es a plataforma de resultados, según Monje, (2011, pág. 148) este tipo de fuentes

de información corresponden a fuentes secundarias de datos, en este caso la información obteni-

da de la base de datos fue el insumo principal para realizar el análisis cuantitativo de parámetros.

Dentro de la recolección de información cualitativa, el primer instrumento utilizado fue el

formato de pre diseño (Anexo 1), se utilizó la matriz descriptiva de ítems (Anexo 2) y también se

realizó una revisión documental para lo cual se elaboró una guía de revisión documental (Anexo

3). A continuación se describen en detalle cada uno de los instrumentos utilizados y su justifica-

ción respecto a la investigación realizada.

3.5.1.1. Fuente 1: base de datos

“Se define una base de datos como una serie de datos organizados y relacionados entre

sí, los cuales son recolectados y explotados por los sistemas de información de una empresa o

institución particular” (Perez Valdés, 2007). En una base de datos la información se encuentra

39

agrupada y organizada mediante el uso de filas y columnas. Una base de datos debe ser de fácil

utilización y acceso, para el caso de Martes de Prueba® el tipo de base de datos utilizada es

Microsoft SQL Server, la cual es una herramienta adecuada para el manejo de grandes cantidades

de información. Para el procesamiento de la información tomada de la base de datos se utiliza-

ron dos programas, Microsoft Excel 2013 y SPSS (Statistical Package for the Social Sciences)

los cuales permitían calcular las medidas de dispersión e introducir fórmulas adecuadas para el

cálculo de los índices de discriminación y dificultad.

3.5.1.2. Instrumento 1: formato de elaboración de rejilla

Este instrumento tuvo como finalidad que los constructores reconocieran las preguntas

analizadas de las que no lo fueron, se presenta la rejilla completa de construcción, acompañado

de los criterios a tener en cuenta para la posterior elaboración de la pregunta, el número del ítem

y de prueba donde aparecería.

3.5.1.3. Instrumento 2: matriz descriptiva de ítems

La matriz descriptiva se elaboró con el fin de analizar cada uno de los 18 ítems objeto de esta

investigación. Esta tiene como finalidad describir las características generales de dichas preguntas

para abordar un análisis sintáctico general y también la consistencia respecto al modelo basado en

evidencias. Apoyándose en algunas características y recomendaciones del manual de procedimien-

tos del departamento de producción y desarrollo de Asesorías Académicas Milton Ochoa frente a la

elaboración de las preguntas y también en los fundamentos teóricos esta tiene como objetivo explicar

el comportamiento estadístico de las preguntas analizadas a partir de sus características evidentes. La

matriz descriptiva se relaciona en el Anexo 2 del presente documento.

40

3.5.1.4. Instrumento 3: gúia de revisión documental

El análisis documental o “análisis de contenidos se considera una técnica indirecta que

consiste en el análisis de la realidad social a través de la observación y el análisis de los docu-

mentos que se crean o producen en ella” (Monje, 2011) . Los documentos que se pueden analizar

son de diferente tipo para esta investigación se revisaron manuales de procedimiento, documen-

tos de divulgación, presentaciones para capacitación tanto de fuentes teóricas como de elabora-

ción empresarial o de constructores y consultores, también referentes teóricos sobre construc-

ción, validación, calificación y análisis de ítems.

3.5.1.5. Validez

Los instrumentos utilizados deben permitir que la información recolectada brinde herra-

mientas de análisis adecuadas, para lo cual se hace indispensable su validación. Los instrumentos

puestos en consideración del Juicio de Expertos fueron el formato de elaboración de rejilla y la

matriz descriptiva de preguntas, en el caso de la matriz descriptiva, su validación se hizo median-

te una ficha de validación (Anexo 4). Se contó con la colaboración de los Magister en Educación

Giovanny Alejandro Araque, coordinador de revisión de bachillerato de Martes de Prueba®

quien no fue participante activo en la investigación y Cristian Orjuela Roa, líder de apoyo en

análisis de pruebas Saber Pro en la Universidad Minuto de Dios y experto en manejo estadís-

tico de datos. A pesar de no ser un instrumento, la base de datos como fuente de información,

especialmente el procesamiento de los datos, contaron con la revisión de dos expertos en uso de

software de procesamiento estadístico, nuevamente se contó con el apoyo del Magister Cristian

Orjuela Roa y del Licenciado en Matemáticas Wilson Ernesto Meneses quienes verificaron la

correcta ejecución de los cálculos realizados.

41

3.5.1.6. Consideraciones éticas

El grupo de docentes constructores de pruebas que participaron en esta investigación fue-

ron informados mediante una socialización del proyecto donde se detallaron las implicaciones y

alcances del mismo, se motivó al grupo a participar y a reconocer que los resultados podrían ser

positivos o negativos a nivel individual y que los fines eran netamente investigativos. En cuanto

a la empresa Asesorías Académicas Milton Ochoa su gerente general Diana Esperanza Bogotá

una vez presentado el avance de la investigación otorgó el consentimiento informado para el uso

y tratamiento de la base de datos y demás información de la empresa que fuera útil a la investiga-

ción lo cual había sido inicialmente pactado verbalmente con la investigadora.

42

Capitulo 4. Análsisis de la información y hallazgos

Una vez se culminó la recolección de la información, se dio inicio a su análisis teniendo en

cuenta tanto las categorías de análisis como las técnicas utilizadas. En primer lugar y tal como se

mencionó en el capítulo 3 se realizó el análisis cuantitativo de parámetros utilizando métodos esta-

dísticos correlaciónales, además de los parámetros se analiza la desviación estándar como medida

de dispersión y da cuenta del comportamiento estadístico de un ítem, para lo anterior se utilizó como

fuente de información la base de datos obtenida a partir de las preguntas establecidas. Posteriormente

el análisis continuó con la técnica de triangulación metodológica la cual parte de los datos obtenidos

cuantitativamente para realizar su análisis cualitativo, para lo anterior se utilizaron la matriz descrip-

tiva de ítems y el formato de revisión documental en donde se tuvieron en cuenta manuales de proce-

dimientos, presentaciones y documentos teóricos de fuentes como el Icfes, el ministerio de educación

y autores como Muñiz Moreno y Martínez (2004) quienes plantean directrices para la construcción

de ítems, para este análisis se realizaron matrices de triangulación por asignatura. El comportamiento

cuantitativo es explicado a través del análisis de los ítems donde se tuvo en cuenta su concordan-

cia con el Modelo Basado en Evidencias, descrito ampliamente en el marco teórico y se realizó un

análisis sintáctico general. Lo anterior permitió dar cumplimiento al objetivo general de la investiga-

ción que es realizar un análisis mixto del programa Martes de Prueba® a partir de los parámetros de

dificultad y discriminación de sus ítems. A continuación se describen los resultados partiendo de cada

una de las categorías de análisis planteadas.

4.1. Análisis cuantitativo de parámetros

Para el análisis cuantitativo se analizaron un promedio de 20307 respuestas por pregunta,

para las 18 preguntas se analizaron 366725 respuestas determinando así los índices de dificultad

43

y coeficiente de discriminación, la base de datos se procesó inicialmente en Microsoft Excel para

el índice de dificultad, para el de discriminación se utilizó el programa SPSS siglas en inglés de

Statistical Package for the Social Sciences. También se realizó el análisis estadístico de la disper-

sión de los datos mediante el establecimiento de intervalos de confianza que contribuyen a reco-

nocer la validez de los datos obtenidos. A continuación se presenta el análisis de la información

cuantitativa obtenida a partir del procesamiento de la base de datos.

4.1.1. Parametro de dificultad

El parámetro de dificultad se establece mediante el modelo RASH, este atribuye la difi-

cultad de un ítem de acuerdo a su porcentaje de acierto, de acuerdo a Leenen (2013) este pará-

metro se modela mediante la probabilidad de ítem para ser acertado de acuerdo a su dificultad

intencional. Para obtener el índice de dificultad se parte de un algoritmo Sencillo, donde se tienen

en cuenta la relación del número de respuestas correctas de un ítem con el total de respuestas

que este haya tenido o de respuestas posibles que corresponde al total de evaluados. En este caso

se utilizó el total de evaluados por pregunta dado que la omisión de respuesta fue contabilizada

como un no acierto. Los datos obtenidos para el índice de dificultad se contrastaron con el índi-

ce de dificultad establecido para las preguntas de Martes de Prueba® (Ver Tabla 8). La tabla 9

presenta los resultados obtenidos para el índice de dificultad .

Tabla 9.Datos para el índice de dificultad

Codigo de pregunta

Dificultad intencional

Porcentaje de acierto Evaluados Indice de

dificultad Dificultad real

Química 10°- constructor 51 Baja 15 23833 0,15 Alta2 Media 31 22736 0,31 Alta3 Alta 71 22256 0,71 Baja

44

Codigo de pregunta

Dificultad intencional

Porcentaje de acierto Evaluados Indice de

dificultad Dificultad real

Biología 10°- constructor 24 Media 36 17531 0,36 Alta5 Alta 20 17789 0,2 Alta6 Baja 30 17106 0,3 Alta

Matemáticas 3°- constructor 47 Baja 65 25142 0,65 Baja8 Media 38 11410 0,34 Alta9 Alta 34 10794 0,38 Alta

Física 11 10°- constructor 610 Baja 76 28693 0,76 Baja11 Media 44 24205 0,44 Media12 Alta 17 22598 0,17 Alta

Lenguaje 9°- constructor 113 Baja 35 28525 0,35 Alta14 Media 56 26899 0,56 Media15 Alta 39 11695 0,39 Alta

Sociales 5°- constructor 316 Baja 40 24287 0,4 Alta17 Media 26 19524 0,26 Alta18 Alta 23 11702 0,23 Alta

En la tabla 9 se evidencian a través de los índices de dificultad obtenidos a partir del

porcentaje de acierto que en la mayoría de los casos el nivel de dificultad intencional no coinci-

de con el nivel de dificultad real, los gráficos 5 y 6 presentan la diferencia entre el porcentaje de

preguntas por cada nivel de dificultad de forma intencional y la dificultad obtenida realmente.

ALTA 72%MEDIA 11%

BAJA 17%

Gráfico 4. Dificultad real de los ítems

ALTA 34%BAJA 33%

MEDIA 33%

Gráfico 5. Dificultad Intencional de los ítems

45

La dificultad se planteó inicialmente para que los ítems tuvieran niveles de dificultad

proporcionales entre sí, los resultados muestran que no solo el nivel de dificultad no coincide en

la mayoría de casos sino que el 72% de los ítems analizados presentaron un nivel de dificultad

alto. La mayor coincidencia entre los niveles de dificultad se presenta en el constructor 6, quien

es responsable de las preguntas de física, en este caso las preguntas analizadas correspondían

a preguntas de grado 11°. El gráfico 6 presenta la distribución de niveles de dificultad real por

constructor.

0 1 2 3

BajaMediaAlta

Constructor 1

Constructor 2

Constructor 3

Constructor 4

Constructor 5

Constructor 6

Gráfico 6. Dificultad de las preguntas por constructor

El constructor 6, de formación como ingeniero químico cuenta con 15 años de experien-

cia docente, por su parte la constructora 4 quien también logró coincidir en los niveles de dificul-

tad bajo y alto cuenta con 25 años de experiencia, lo cual indica que la experiencia docente favo-

rece el reconocimiento intencional de los niveles de dificultad, los demás docentes constructores

acertaron un nivel de dificultad, en la mayoría de los casos al alto. Es de resaltar que únicamente

los constructores 4 y 6 lograron coincidencia en el nivel de dificultad bajo, lo cual también es un

indicio de que este tipo de preguntas requieren más experticia o tienen mayor dificultad a la hora

de ser construidas.

46

4.1.2. Parametro de discriminación

Como se mencionó en el capítulo 2 el parámetro de discriminación busca relacionar la

dificultad de los ítems con el puntaje total de una prueba, para este caso será el puntaje total de la

asignatura analizada. Como lo establecen Backhoff, Larrazolo & Rosas (2000) para que un ítem

tenga buen Poder Discriminativo este debe poder discriminar entre los estudiantes que obtienen

buenos puntajes, de cierto modo este parámetro garantiza que el ítem mida lo que debe medir, en

este caso la habilidad o competencia que se busca reconocer o valorar.

El poder discriminativo se puede cuantificar a partir del índice de discriminación Di o el

coeficiente de discriminación llamado también coeficiente de correlación biserial rpbis aunque se

calcularon ambos datos, para el análisis se tendrá en cuenta el coeficiente de correlación biserial

rpbis ya que este tiene en cuenta la totalidad de los datos cuya ecuación fue propuesta por Glass

& Stanley (1986) y se presenta en el capítulo 2. Esta ecuación relaciona la media de los puntajes

de los evaluados que acertaron y la media de los puntajes de los que no acertaron con la des-

viación estándar, que es una medida de dispersión de los datos, también tiene en cuenta el total

de evaluados que acertaron, los que no acertaron y su relación con la cantidad de evaluados, es

aquí donde se establece la correlación con la dificultad de ítem, para realizar un análisis a mayor

profundidad y con más claridad los resultados se presentarán por área.

4.1.2.1. Química

Tabla 10.Coeficiente de discriminación química 10°

Codigo de pregunta

Puntaje acertados

Puntaje no acertados

Numero de aciertos

Numero de desaciertos

Correlación bise-rial de punto rpbis

Prome-dio rpbis

1 39,81 37,37 3575 20258 0,070,112 44,64 40,11 7048 15688 0,13

3 45,9 42,11 15802 6454 0,12

47

Para esta asignatura lo primero que se observa es que los puntajes de los estudiantes que

acertaron cada una de las preguntas es ligeramente más alto de los que no la acertaron pero la

diferencia no es muy significativa, por esta razón los datos obtenidos para la correlación biserial

o coeficiente de discriminación son bajos de acuerdo a los rangos establecidos Ebel & Frisbie

(1991) (Ver tabla 4) dentro de los cuales los valores obtenidos para química indican pobre dis-

criminación, es decir el acierto a las preguntas no se relaciona con el nivel de habilidad de quien

la responde. Es in indicativo como lo mencionan los autores de que los ítems y la revisión de los

mismos deben ser mejorados.

4.1.2.2. Biología

Tabla 11.Coeficiente de discriminación biología 10°

Codigo de pregunta

Puntaje acertados


Numero de aciertos



Prome-dio rpbis

4 37,97 30,68 6311 11220 0,390,245 42,02 38,82 3558 14231 0,09

6 45,03 37,61 5132 11974 0,23

En el caso de biología de 11° se evidencian diferentes coeficientes de discriminación, el

promedio corresponde según la clasificación de Ebel & Frisbie (1991), a ítems regulares, que

requieren mejoras. Solamente una pregunta posee un índice de discriminación de 0,39 que es un

valor que entra en el rango de un ítem de buena calidad. En general los puntajes de los evaluados

que acertaron la pregunta no difieren considerablemente de los puntajes de los que no acertaron,

lo cual indica que las preguntas no se relacionan con la habilidad general del estudiante para la

asignatura. Lo anterior coincide en cierta manera con el desempeño del docente constructor en la

intención de dificultad de los ítems, ya que los tres analizados fueron de dificultad alta, el análisis

descriptivo de los ítems brindará más información al respecto.

48

4.1.2.3. Matemáticas

Tabla 12.Coeficiente de discriminación matemáticas 3°

Codigo de pregunta

Puntaje acertados


Numero de aciertos



Prome-dio rpbis

7 54,27 41,86 16342 8800 0,320,358 61,61 45,39 3879 7531 0,34

9 55,25 40,52 4102 6692 0,39

Para el caso de matemáticas y observando la segunda y tercera columna de la tabla 11

se empiezan a observar diferencias considerables en los puntajes de los estudiantes que aciertan

o no las preguntas analizadas lo que conlleva a un coeficiente de discriminación más alto, en

promedio las preguntas en esta área tienen un rpbis de 0,35 y todas se encuentran en un rango que

según la clasificación de Ebel & Frisbie (1991) corresponde a ítems buenos pero sujetos a mejo-

ra. Es importante que en este caso la constructora 4 también presenta una buena relación entre la

dificultad planeada para sus preguntas y la dificultad real obtenida. Tal como se analizó para el

parámetro de dificultad y observando la tabla 5 (ver capítulo 3) la constructora, cuya formación

es licenciada en matemáticas y física y especialista en edumática, cuenta además con 25 años de

experiencia en aula, factor que es importante a la hora de analizar sus preguntas.

4.1.2.4. Física

Tabla 13.Coeficiente de discriminación Física 11°

Codigo de pregunta

Puntaje acertados


Numero de aciertos



Prome-dio rpbis

10 46,11 35,58 21807 6886 0,310,1511 49,28 44,58 10650 13555 0,15

12 50,42 50,16 3842 18756 0,01

49

Para el caso de física, cuyo responsable es el constructor 6 se observa una discrepancia

entre los resultados muy buenos presentados en la intención de dificultad y la dificultad real y el

coeficiente de discriminación, las preguntas arrojan un promedio de rpbis de 0,15, valor que se

encuentra ubicado en un rango que corresponde a ítems pobres, que requieren mejoría en la revi-

sión y en los ítems mismos, el único ítem que presenta una discriminación buena y corresponde

a un buen ítem es el de dificultad baja, indicando tal vez que los otros dos ítems, especialmente

el de dificultad alta era bastante difícil de responder y no se relacionaba con la habilidad. Para

entender este resultado el análisis descriptivo de ítems brindará más información.

4.1.2.5. Lenguaje

Tabla 14.Coeficiente de discriminación Lenguaje 9°

Codigo de pregunta

Puntaje acertados


Numero de aciertos



Prome-dio rpbis

13 50,44 42,57 9984 18541 0,230,2214 47,99 33,27 15063 11836 0,61

15 42,35 49,03 4561 7134 -0,18

Las preguntas de lenguaje como se observa en la tabla 14, difieren mucho en su coeficien-

te de discriminación , una de ellas incluso tiene un rpbis negativo lo cual está dentro del rango de

ítems pobres que requieren ser mejorados y revisados, otra presenta un valor que corresponde a

un ítem regular, y la pregunta donde la constructora acertó en su nivel de dificultad que es la de

dificultad media, tiene un coeficiente de discriminación de 0,61 que se ubica según los rangos

establecidos por Ebel & Frisbie (1991) como un muy buen ítem. La constructora de esta prueba

no cuenta con experiencia en aula.

50

4.1.2.6. Sociales

Tabla 15.Coeficiente de discriminación Sociales 3°

Codigo de pregunta

Puntaje acertados


Numero de aciertos



Prome-dio rpbis

16 57,98 50,491 9715 14.572 0,00017 57,98 50,09 5076 14.448 0,00

18 52,44 46,1 2691 9.011 0,00

En este caso el coeficiente de discriminación, se aproxima para las tres preguntas anali-

zadas a cero, no se observan diferencias significativas entre los puntajes de quienes acertaron y

quienes no acertaron, para comprender este comportamiento estadístico será la descripción del

ítem la que nos brinde información concluyente.

Matemáticas es la asignatura que presenta mejor poder discriminativo y sociales y quí-

mica las que presentan un poder discriminativo más bajo como se puede observar en el gráfico

8, teniendo así el 56% de preguntas con discriminación pobre, el 11% regular, el 28% con buen

poder discriminativo y una pregunta equivalente al 5% considerada por la clasificación de Ebel

& Frisble (1991) como muy buena como se observa en el gráfico 7.

0 1 2 3

Muy bueno

Bueno

Regular

Pobre

Química

Biología

Matmáticas

Física

Lenguaje

Sociales

Gráfico 7. Poder discriminativo por asignatura

Muy bueno 5%Bueno 28%

Regular 11%

Pobre 56%

Gráfico 8. Poder discriminativo de los ítems analizados

4.1.3. Medidas de dispersión

Las medidas de dispersión a tener en cuenta son la varianza y la desviación estándar,

51

ambas en búsqueda de brindar confiabilidad a los resultados, la tabla 15 presenta los valores de

varianza y desviación estándar acompañados del número de evaluados para cada pregunta.

Tabla 16.Medidas de dispersión

Codigo de pregunta Evaluados Desviación estandar1 23833 12,5952 22736 15,523 22256 14,284 17531 8,945 17789 14,916 17106 14,687 25142 18,2238 11410 22,759 10794 18,1410 28693 14,5811 24205 15,9612 22598 16,4313 28525 16,2314 26899 12,0215 11695 18,3216 24287 18,3317 19524 18,3218 11702 18,14

La desviación estándar como se mencionó en el capítulo 2 es un criterio estadístico que

indica cómo se alejan los datos respecto a la media o promedio y sirve como indicador de la va-

riabilidad de los datos, su valor debe ser cercano a cero sin embargo en poblaciones muy grandes

como es este caso, las desviaciones pueden alcanzar valores superiores a 10, considerándose esto

normal. Para comprender mejor la validez de los datos se analizara gráficamente las preguntas de

cada asignatura a fin de reconocer los datos útiles para continuar el análisis mixto.

Para realizar los gráficos se tuvieron en cuenta los datos del puntaje promedio en la asig-

natura, contrastado por los puntajes obtenidos por los estudiantes que respondieron las tres pre-

52

guntas analizadas, para establecer cuales datos se encuentran dentro de un margen adecuado de

confianza, se establecen dos valores en torno al puntaje promedio que son la desviación mínima

y la desviación máxima, los datos que no se encuentren entre estos valores tienen poca validez

estadística debido a la su dispersión respecto al rango denominado intervalo de confianza.

4.1.3.1. Química

0 1 2 30

20

40

60

80

PromedioDesviación MáximaDesviación MínimaPuntaje

Gráfico 9. Intervalo de confianza química

En este caso la pregunta 1 presenta una dispersión más baja que la mínima y la máxima,

los estudiantes que contestaron esta pregunta fueron quienes tuvieron puntajes más bajos, recor-

dando que es la pregunta de química con menor porcentaje de acierto y más alto nivel de dificul-

tad, la pregunta 1 no se encontraría dentro del intervalo de confianza.

4.1.3.2. Biología

0 1 2 30

20

40

60

80


Gráfico 10. Intervalo de confianza biología

53

Los datos obtenidos en la asignatura de biología se encuentran todos dentro del intervalo

de confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos obteni-

dos.

4.1.3.3. Matemáticas

0 1 2 30

20

40

60

80


Gráfico 11. Intervalo de confianza matemáticas

Los datos obtenidos en la asignatura de matemáticas se encuentran todos dentro del in-

tervalo de confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos

obtenidos.

4.1.3.4. Física

0 1 2 30

20

40

60

80


Gráfico 12. Intervalo de confianza física

Los datos obtenidos en la asignatura de física se encuentran todos dentro del intervalo de

confianza establecido, lo cual indica que la dispersión no rechaza ninguno de los datos obtenidos.

54

4.1.3.5. Lenguaje

0 1 2 30

20

40

60

80


Gráfico 13. Intervalo de confianza lenguaje

Los datos obtenidos en la asignatura de lenguaje se encuentran todos dentro del intervalo de


4.1.3.6. Sociales

0 1 2 30

20

40

60

80


Gráfico 14. Intervalo de confianza sociales

Los datos obtenidos en la asignatura de sociales se encuentran todos dentro del intervalo de


4.2. Análisis cualitativo

El análisis cualitativo realizado en esta investigación tiene como intención explicar algu-

nos resultados obtenidos a nivel cuantitativo, en cuyos casos la mera información numérica no

permite reconocer las características del ítem analizado, en el apartado anterior se analizaron va-

55

rios ítems con muy buen comportamiento estadístico en el primer parámetro y no en el segundo

o con un comportamiento que evidencia dificultades en la construcción de la pregunta en ambos

parámetros, a continuación mediante el uso de diferentes matrices de triangulación por cada asig-

natura y a partir del instrumento utilizado que es la matriz descriptiva de ítems, la revisión docu-

mental realizada y los datos cuantitativos obtenidos se realizará el análisis mixto de los ítems.

4.2.1. Química

Tabla 17.Matriz de triangulación química

Competencia: IndagaciónComponente: Aspectos analíticos de las sustancias

Tema: Propiedades periódicasCódigo de ítem

Dificultad Pi

Discriminación rpbis

Descripción

10,15 0,097 Los tres contextos contienen tablas con gran can-

tidad de información, se busca que el estudiante reconozca la expresión de los datos presentados en la tabla en una representación diferente a la mostrada. El constructor busco variar la dificultad de acuerdo al tipo de representación que pedía, en dos casos eran frases concluyentes y en el ter-cer caso mediante una representación gráfica, la cual presento menos dificultad. Las opciones de respuesta con texto tienden a repetir varias veces frases y palabras de forma igual o muy similar. Estas dos preguntas tuvieron mayor dificultad.

Alta Pobre

20,31 0,145

Alta Pobre

30,71 0,080

Baja Pobre

Estos ítems evidencian diferencias entre la percepción de dificultad del constructor y la

dificultad real, dado que para las misma competencia, componente y tema el constructor planteo

una dificultad intencional alta en la pregunta 3 donde el estudiante debía identificar una represen-

tación gráfica que significara lo mismo que se expresaba en la tabla y la pregunta tuvo un 71%

de acierto, es decir baja, teniendo una dificultad opuesta a la planeada. Las preguntas 1 y 2 de

56

dificultad intencional baja y media respectivamente piden frases concluyentes respecto a lo que se ex-

presa en la tabla, sin embargo las opciones de respuesta son repetitivas (ver imagen 1) lo cual dificulta

su comprensión e hizo que las preguntas tuvieran un nivel de dificultad mucho mayor al esperado,

además de requerir que el estudiante tuviera claridad sobre algunos conceptos memorísticos que no

aparecen en el contexto. La pregunta 1 de hecho tuvo apenas un 15% de acierto y dados los puntajes

de quienes respondieron, se considera un dato fuera del intervalo de confianza (ver gráfico 10).

Imagen 1. Opciones de respuesta pregunta 1

4.2.2. Biología

Tabla 18.Matriz de triangulación biología

Competencia: Uso comprensivo del conocimiento científicoComponente: Ecosistémico

Tema: Adaptaciones en los seres vivosCódigo de ítem

Dificultad Pi


Descripción

40,36 0,39

Las preguntas 4 y 5 poseen contextos similares y extensos, un párrafo y dos gráficas mientras que la pregunta 6 presenta un contexto continuo (solo tex-to) corto, en general las preguntas buscan que el es-tudiante relacione el contexto con un concepto dado o explícito en el contexto. Se utilizan nombres cien-tíficos de las especies nombradas pero aclarando el nombre común. En cuanto a las opciones de res-puesta la pregunta son repetitivas, las preguntas 4 y 5 tienen opciones de respuesta larga y la 6 respuesta corta, el autor utiliza opciones distractoras que resultan confusas. En general el nivel de dificultad es alto para las tres preguntas. El coeficiente de discriminación es diferente evidenciando dificultad para la intención en medir una habilidad particular.

Alta Bueno

50,20 0,09

Alta Pobre

60,30 0,23

Alta Regular

57

En biología se observan similitudes en el nivel de dificultad de las preguntas, pero am-

plias diferencias en la discriminación, lo cual evidencia poca asertividad en la intención de las

preguntas por parte del constructor, en general, las preguntas tienen problemas de redacción y re-

quieren ser leídas varias veces para identificar la intención del autor, la presencia de distractores

en las opciones de respuesta aumenta de forma innecesaria el nivel de dificultad y no son comu-

nes a la competencia evaluada en estos ítems, se evidencia una combinación de dos competencias

en las preguntas 5 y 6 donde el estudiante debe relacionar o asociar lo cual hace que la pregunta

pase a la competencia de explicación de fenómenos el marco conceptual de ciencias naturales del

Icfes (2007) establece que en la competencia de uso comprensivo del conocimiento científico lla-

mada también identificar, se reconoce y relaciona conceptos con fenómenos mostrados (pág. 33)

mientras que la competencia de explicación de fenómenos o explicar pide que el estudiante tenga

una actitud analítica que permita identifica un argumento correcto (pág. 34). Los contextos largos

como el caso de la pregunta 5 (ver imagen 2) también aumentan la dificultad de las preguntas ya

que en este caso todas presentan una dificultad alta y conllevan a que la pregunta no evalúe la

habilidad o competencia planeada.

Imagen 2. Contexto pregunta 5 biología

58

4.2.3. Matemáticas

Tabla 19.Matriz de triangulación matemáticas

Competencia: Planteamiento y resolución de problemasComponente: Numérico – variacional

Tema: Resolución de problemas con sumas o restasCódigo de ítem

Dificultad Pi


Descripción

70,65 0,32 En general los tres contextos presentan imágenes

con textos breves de situaciones cotidianas, tiempo libre, plantas y huevos las tres preguntas piden que el estudiante a partir de una situación presentada en una imagen resuelva un problema dado don-de debe solo restar o sumar y restar, las opciones de respuesta son cortas e incluyen respuestas que darían si el estudiante realizará el procedimiento incorrecto, lo cual puede ser un distractor para la respuesta correcta. En dos de las tres preguntas la constructora acierta al nivel de dificultad planea-do y todas las preguntas poseen un coeficiente de discriminación que clasifica los ítems como buenos.

Baja Bueno

80,38 0,32

Alta Bueno

90,34 0,32

Alta Bueno

Para matemáticas y como se analizó cuantitativamente el comportamiento es diferente a

las otras áreas presentando preguntas con alto grado de coincidencia en la dificultad real e inicial

y coeficientes de discriminación buenos, la habilidad que mide la pregunta coincide con los datos

cuantitativos y con la descripción de los ítems. La recomendación para estos ítems según Ebel

& Frisbie es que son buenos pero pueden ser mejorados, en este caso, la presencia de opciones

de respuesta que coincidieran con procedimientos equivocados puede llevar a que el índice de

discriminación no haya sido aún más alto. En este caso cabe anotar que la constructora de estas

preguntas es la más experimentada en cuando a docencia de aula se refiere, con 25 años ejercien-

do como docente lo cual denota su capacidad para predecir niveles de dificultad y reconocer la

forma adecuada de medir una habilidad.

59

4.2.4. Física

Tabla 20.Matriz de triangulación física

Competencia: uso comprensivo del conocimiento científicoComponente: mecánica clásica

Tema: diagramas de fuerzas Código de ítem

Dificultad Pi


Descripción

100,76 0,31 En los tres contextos se observan objetos sobre

los cuales actúan diferentes fuerzas, ya sean que estén flotando, colgados o en un plano inclina-do. Los contextos en los tres casos son imágenes apoyadas de poco texto, las preguntas son sencillas de comprender a pesar del tema, las opciones de respuesta en todos los casos también son imágenes que representan las direcciones de las fuerzas, la pregunta de dificultad baja es la que presenta una discriminación buena, mientras que para la de di-ficultad media y alta la discriminación es pobre, lo cual indica que no evalúan la habilidad propuesta.

Baja Buena

110,44 0,15

Media Pobre

120,17 0,01

Alta Pobre

Para una misma competencia y un mismo componente el constructor 6 logra coincidencia

con los niveles de dificultad planeados, sin embargo el coeficiente de discriminación eviden-

cia que las preguntas 11 y 12 no miden la habilidad planeada por el constructor, al analizar las

preguntas, en la pregunta 10 el constructor propone que el estudiante reconozca dos fuerzas que

inciden en que un cuerpo flote, en la pregunta 11 tres fuerzas que inciden en que un cuadro per-

manezca colgado y en la pregunta 13 cuatro fuerzas que influyen en un carrito subiendo por una

pendiente involucrando más de tres variables lo que en el caso de la pregunta 12 aumenta en ex-

ceso su dificultad convirtiéndola en una pregunta que evalúa contenido y no habilidad. La única

inconsistencia visible en la pregunta 11 son las opciones de respuesta con demasiada información

al igual que la pregunta 12 (ver imagen 3).

60

Imagen 3. Contextos y opciones de respuesta preguntas 11 y 12

4.2.5. Lenguaje

Tabla 21.Matriz de triangulación lenguaje

Competencia: InterpretativaComponente: Semántico

Tema: Veracidad o falsedad de una afirmaciónCódigo de ítem

Dificultad pi


Descripción

130,35 0,23 Los tres contextos corresponden a textos continuos

de aproximadamente una página, dos textos hablan sobre movimientos literarios colombianos y el ter-cero correspondiente a la pregunta 15 habla sobre el proceso de paz. En las opciones de respuesta se busca que el estudiante identifique la opción verda-dera o falsa según corresponda con el enunciado.

Alta Regular

140,56 0,61

Media Muy bueno

150,39 -0,18Alta Pobre

En el caso de lenguaje el poder de discriminación de los ítems es muy variado y al ana-

lizar las preguntas parecen muy parecidas entre sí, sin embargo hay detalles que hacen que su

dificultad se eleve y que la discriminación cambie. La pregunta 14 pide identificar una afirmación

verdadera dentro de opciones con afirmaciones falsas respecto al texto, la cual es explicita en el

texto, por su parte las preguntas 13 y 15 piden identificar la afirmación falsa dentro de opciones

con afirmaciones verdaderas, la pregunta 15 tiene una dificultad media y un índice de discrimi-

nación muy bueno, siendo la única pregunta del grupo de ítems analizados que cuenta con esta

61

característica. Los ítems 13 y 15 tienen ambos dificultad alta e índice de discriminación regular

y pobre, en el caso de la pregunta 15 este valor es incluso negativo evidenciando que la pregun-

ta no mide la habilidad evaluada, en esta pregunta tanto el tema del texto como las opciones de

respuesta son muy sensibles a la opinión de quien las responde ya que el texto es un artículo

de opinión acerca los acuerdos de paz y las opciones se prestan para coincidir con opiniones de

quienes las responden (ver imagen 4) respondiendo así desde la opinión y no desde el texto.

Imagen 4. Opciones de respuesta pregunta 15 de lenguaje

4.2.6. Sociales

Tabla 22.Matriz de triangulación sociales

Competencia: InterpretativaComponente: El tiempo y las culturas

Tema: Interpretación de líneas de tiempoCódigo de ítem

Dificultad Pi


Descripción

160,4 0.0 Los tres contextos son líneas de tiempo que pre-

sentan acontecimientos de la historia colombia-na, la discriminación de las preguntas tiene un valor de cero lo que significa que la correlación entre la habilidad evaluada y las respuestas es prácticamente nula y las tres tienen dificultad alta. Las opciones de respuesta relacionan he-chos o personajes que involucran conocimiento sobre el personaje o el momento histórico.

Alta Pobre

170,23 0,0

Alta Pobre

180,26 0,0

Alta Pobre

Sociales fue la asignatura con resultados de discriminación más bajos y se caracterizó

también por un alto nivel de dificultad, los contextos de líneas de tiempo en el caso de la pre-

62

gunta 16 buscaba que el estudiante reconociera el periodo de más corta duración en una línea

de tiempo muy simple que es casi incomprensible y más tratándose de una pregunta para grado

tercero (ver imagen 5). Las otras líneas de tiempo poseen gran cantidad de información y los

espacios entre acontecimiento y acontecimiento son iguales así haya pasado 10 años o 100 años

esto puede confundir a estudiantes de grado tercero, por su parte la línea de tiempo que propo-

ne una dificultad alta exige que los estudiantes no solo interpreten la línea de tiempo sino que

reconozcan el rol de los personajes en la sociedad colombiana como “líder político” incluyendo

personajes como Raúl Reyes o Alfonso Cano que en el contexto actual puede ser considerado por

un estudiante como líder político y que en la pregunta podría coincidir con la respuesta correcta

por lo que pide analizar. (Ver imagen 6).

Imagen 5. Contexto pregunta 16 sociales

Imagen 6. Opciones de respuesta pregunta 18 sociales

63

4.3. Discusión

En relación a los resultados y hallazgos de la investigación y partiendo de la pregunta de

investigación el análisis mixto de ítems del programa de evaluación Martes de Prueba® aporta

al mejoramiento de sus procesos de diseño y construcción debido a que los resultaros evidencian

discrepancias entre la dificultad intencional de los ítems y los índices de dificultad obtenidos, de

igual manera se encontró que los coeficientes de discriminación, los cuales determinan cuantita-

tivamente según rangos establecidos la calidad de los ítems, presentan valores correspondientes a

ítems de regular y pobre discriminación en una cantidad importante de las preguntas analizadas y

buena o excelente discriminación en solo algunas de ellas. El análisis cualitativo de cada uno de

los ítems permitió establecer que características de construcción presentaban los ítems y estable-

cer relaciones entre estas características y los valores obtenidos para los índices y coeficientes.

Lo anterior permite generar recomendaciones para preguntas futuras y así mejorar los procesos

de diseño y construcción de ítems. En relación al análisis cualitativo y teniendo en cuenta los

referentes teóricos De la Orden (2000), plantea que la evaluación debe ser fiable y objetiva en

el sentido de que el azar o los errores instrumentales tengan un efecto mínimo en los resultados,

lo cual no sucede en el análisis realizado ya que los hallazgos confirman la hipótesis plantea-

da siendo algunas características de construcción de cierto modo “responsables” de los valores

obtenidos en los parámetros medidos. De acuerdo con las recomendaciones para construcción

planteadas por Moreno, Martínez & Muñiz (2004) las características más frecuentes que generan

dificultad alta y discriminación baja son errores de sintaxis, uso de vocabulario no adecuado para

los evaluados y que las opciones de respuesta nos son plausibles en todos los casos lo cual genera

ambigüedad.

64

Capitulo 5. Conclusiones y recomendaciones

5.1. Conclusiones

Al realizar el análisis mixto de los ítems del programa de evaluación Martes de Prueba®

en cuanto a los parámetros de dificultad y discriminación y de acuerdo a los objetivos planteados

se logra en primer lugar cuantificar los parámetros objeto de la medición, en forma efectiva, cuya

posterior validación de los cálculos confirma la asertividad de los mismos y arroja datos conclu-

yentes qué permiten valorar la calidad de los ítems frente a los parámetros estudiados.

En segundo lugar los resultados aportan al mejoramiento en la construcción de los ítems

en la medida en que se logra identificar de manera profunda las características causantes de la

calidad de un ítem, ya fuera este pobre, regular, bueno o muy bueno.

Por otra parte el análisis cualitativo de las preguntas, es un insumo que permite hacia el

futuro diseñar planes de mejora efectivos y ajustados al proceso que se lleva a cabo en Asesorías

Académicas Milton Ochoa para el diseño y construcción de los ítems. En este orden de ideas

el análisis realizado contribuye al mejoramiento integral del programa martes de prueba, en la

medida en que la validez de las pregunta conlleve al cumplimiento de los objetivos del programa,

este mismo tendrá mejores resultados y permitirá ser más efectivo.

En el análisis cuantitativo realizado se encuentra que para el parámetro de dificultad el

72% de los ítems analizados presentan una dificultad alta; de acuerdo a los criterios de equili-

brio establecidos por el programas descritos en el Capítulo 1 (ver figura 2), las preguntas con un

índice de dificultad alto, deberían ser el 35%, razón por la cual se establece que las preguntas no

cumplen con el nivel de equilibrio establecido. Este resultado permite concluir que el sesgo de

evaluación se inclina hacia el no cumplimiento de los estándares básicos de competencia y no

permitiría establecer cuando el nivel de competencia es bajo o medio.

65

Al analizar los resultados obtenidos de forma individual, surge un criterio emergente al

comparar los resultados obtenidos por los constructores de preguntas, evidenciándose que los dos

constructores más experimentados tenían un mayor nivel de coincidencia entre la dificultad real y la

dificultad intencional de sus ítems. El análisis cualitativo pone en manifiesto que aquellos construc-

tores con mayor experiencia en docencia de aula, tienen una mayor precisión en la determinación

intencional de la dificultad de la pregunta.

En cuanto al parámetro de discriminación se encuentra que el 56% de los ítems, tienen un

poder discriminativo pobre, que según Evely Frisbie (1991) es un indicativo de problemas en la ela-

boración y revisión de las preguntas, ya que no se evidencia una relación entre el resultado obtenido

en la pregunta y el resultado obtenido en la asignatura evaluada dentro de la prueba. Los resultados

mostraron que los ítems de matemáticas presentan, un poder discriminativo Bueno, que corresponde

al 16,8% de las preguntas (el 28% del total de las preguntas fueron clasificadas como buenas), este

resultado de igual forma fue analizado teniendo en cuenta al constructor de las preguntas, dato que

coincide con el análisis de nivel de dificultad.

El análisis cualitativo permite describir las preguntas de acuerdo a su clasificación en dificul-

tad y en discriminación de la siguiente forma:

Preguntas de nivel de dificultad alto: la tendencia muestra que estas preguntas por mayoría

estadística, presentan un índice de discriminación pobre, esto se debe a los criterios de dificultad

utilizados en las preguntas; se evidenció para las asignaturas de sociales, física y química, que los

constructores empleaban conceptos memorísticos para aumentar la dificultad de las preguntas, lo cual

no permitía el uso de las habilidades evaluadas, si los estudiantes no reconocían el concepto. En la

asignatura de lenguaje y sociales, se observó que los constructores, incluían temas sensibles a opinión,

que genera que la respuesta se vea afectada por las creencias, sentimientos e información externa fren-

66

te al tema y no frente a la información aportada por el contexto de la pregunta.

Preguntas de nivel de dificultad medio y bajo: No se logró establecer una relación estadís-

tica entre el nivel de dificultad y el coeficiente de discriminación.

Preguntas con coeficiente de discriminación bueno o muy bueno: Sus características

muestran contextos claros, inferencias de acuerdo al mismo contexto, también está relacionado

con la experiencia docente del constructor.

La concordancia de las preguntas evaluadas con el modelo basado en evidencias, es alta

de acuerdo al análisis cualitativo realizado.

En las opciones de respuesta se utilizaron distractores que generan ambigüedad o con-

fusión al momento de dar respuesta al ítem, esto se evidenció en todas las asignaturas; Moreno,

Martínez, & Muñiz (2004) recomiendan usar errores comunes de los estudiantes dentro de las

opciones de respuesta incorrectas, sin embargo se encuentra que seguir esta recomendación pue-

de inducir al error en los estudiantes.

5.2. Recomendaciones

De acuerdo con los resultados obtenidos y el análisis de los mismos, esta investigación

aporta una serie de recomendaciones que contribuyen al mejoramiento de los procesos de diseño

y construcción del programa de evaluación martes de prueba.

Frente al uso de los datos obtenidos a partir del índice de dificultad, se sugiere implemen-

tar el análisis del parámetro de dificultas 1PL para el 100% de los ítems que se aplican anualmen-

te, lo cual teniendo en cuenta la experiencia en uso de la base de datos no requiere ninguna mo-

dificación ni cambios al procedimiento existente sino un mayor aprovechamiento de los insumos

con los que se cuenta.

67

En cuanto a la inclusión del parámetro de discriminación en el proceso de construcción

de preguntas, es necesario generar un plan de análisis de muestreo de ítems de forma continua

que permita reconocer el poder discriminativo y la calidad de los mismos de forma efectiva.

A partir del análisis continuo de la información se pueden generar prototipos de pregunta,

de acuerdo a los parámetros de dificultad y discriminación. Que constituyan una guía para los

constructores frente a la intención de dificultad de la pregunta y establezcan lineamientos frente a

su diseño.

Se sugiere que el proceso de revisión de pares académicos, sea replanteado dado que, por

los resultados de índice de discriminación, se denotan fallas en este proceso.

Específicamente en lo referente a la construcción de los ítems, se sugiere generar segui-

miento estadístico no paramétrico a algunos elementos del modelo basado en evidencias, como

las competencias en un mismo tema e implementar métodos de repetición de algunos ítems para

evaluar la confiabilidad de las preguntas.

De acuerdo con Moreno, Martínez, & Muñiz (2004) existen directrices para la construc-

ción de ítems que deben ser tenidas en cuenta para la construcción y diseño de martes de prueba,

en cuanto a la sintaxis de los ítems los autores recomiendan evitar que el contexto sea demasiado

ambiguo o redactados con “adornos” gramaticales que convierten el contexto en un texto de difí-

cil lectura. De igual forma ajustar la semántica de acuerdo con el grado de los evaluados.

En cuanto a las opciones de respuesta incorrectas, estás de preferencia deben ser de fácil

descarte para quienes poseen la habilidad y de difícil descarte para quienes no la poseen (More-

no, Martínez, & Muñiz 2004), evitando que hayan respuestas que parezcan o puedan ser correc-

tas y denoten una intención de no acierto.

Teniendo en cuenta el análisis emergente que se realizó de los perfiles de los construc-

68

tores se recomienda, que quienes construyen las evaluaciones, sean docentes con experiencia

en aula de clase de preferencia en varios niveles educativos, lo anterior permitirá, mejorar en la

intensión se dificultad y la validez de los ítems.

Se recomienda que en próximas investigaciones, se pueda profundizar sobre otros as-

pectos del programa martes de prueba, como la aplicación, la retroalimentación y el uso de los

resultados por parte de los colegios.

5.3. Limitaciones del estudio

A pesar de lograr obtener y analizar información importante este estudio tuvo varias

limitaciones que pueden ser tenidas en cuenta para futuras investigaciones. La primera fue la

cantidad de ítems utilizados, a pesar de ser muestras de cada constructor y cada asignatura las

conclusiones serían más contundentes de haber podido tomar una muestra mayor de ítems, sin

embargo un factor a tener en cuenta es que el programa ya tiene sus preguntas, temas y en gene-

ral su diseño establecido.

Otra limitación fue el tamaño de la base de datos, siendo está de más de 360.000 respues-

tas, el procesar de 10 mil a 20 mil respuestas por pregunta resultoó un reto en cuanto al manejo

de los programas estadísticos y también a los equipos utilizados, analizar únicamente 18 ítems

tardo aproximadamente 6 meses.

El último reto son las investigaciones respecto al tema ya que los antecedentes no son

muy amplios al respecto o se realizan análisis estadísticos con poblaciones más pequeñas, la falta

de información de evaluaciones a gran escala como las Pruebas Saber respecto al uso del análisis

estadístico acompañado de análisis cualitativo de los ítems resultó ser una dificultad a la hora del

realizar el diseño metodológico.

69

Bibliografía

AAMO. (2015). Documentos Comunicación y Divulgación. Gestión del Conocimiento–Proceso

de Construcción. Bogotá: CEINFES.

AAMO. (2015). Manual de procedimientos–Martes de Prueba. Bogotá: CEINFES.

Abad, F. (2004). Introducción a la psicometría: Teoría clasica de los test y teoría de respuesta al

ítem. Madrid: Universidad Autonoma de mAdrid, Facultad de psicología .

Arbelaéz, L. (2015). Fundación Universitaria Luis Amigó. Recuperado el 18 de Abril de 2018, de

Construcción de ítems tipo selección Múltiple con única respuesta: https://goo.gl/4BgaEn

Arroyo, F. (2016). Educación, Tecnocracia y Consumismo: Una reflexión sobre nuestro modelo

educativo. Tarbiya, Revista de Investigación e Innovación Educativa(44), 21-39.

Backhoff, E., Larrazolo, N., & Rosas, M. (2000). Nivel de dificultad y poder de discriminación

del Examen de Habilidades y Conocimientos Básicos (EXHCOBA). Revista Electronica

de Investigación Educativa (Redie) Vol. 2 N° 1.

Barrenechea, I. (2010). Evaluaciones Estandarizadas: Seis reflexiones Críticas. Archivos Análiti-

cos de Políticas Educativas, 1-27.

Cerdad, D., & Montero, E. (2017). Uso del modelo de Rasch para la construcción de tablas de

especificaciones: Propuesta metodológica aplicada a una prueba de selección universita-

ria. Actialidades Investigativas en Educación, 17(1), 1-16.

COLCIENCIAS. (15 de 12 de 2015). Modelo de medición de grupos de investigación, desarrollo

tecnológico o de innovación y reconocimiento de investigadores del sistema nacional de

ciencia tecnología e innovación. Versión Ajustada del Docimento de Oxctubre del 2015,

89. (D. d. Investigación, Ed.) Bogotá D.C. , Colombia : Departamento Administrativo de

Ciencia, Tecnología e Innovación.

70

Córdoba, M. F. (2016). Una aplicación de valores plausibles a la calificación de pruebas es-

tandarizadas vía simulación. Comunicaciones en estadistica, Vol. 9, No. 1. Universidad

Santo Tomás, 55-78.

CUC. (29 de Agosto de 2017). Universidad de la costa. Obtenido de https://goo.gl/bFUF3w

De la Orden, A. (1991). Inevstigación educativa y tecnología. Madrid: Santillana.

De la Orden, A. (2000). La Función Optimizante de la evaluación de programas evaluativos.

Revista de Investigación Educativa, 383.

De La Orden, A. (2000). La función optimizante de la evaluación de programas evaluativos. (R.

P. Juste, Ed.) Revista de Investigació Educativa, 18(2), 381-389.

Ebel, R., & Frisbie, D. (1991). Essentials of Educational Meassurement. Des Moines, Iowa.:

Prentice Hall.

Fernandez, B., Rebolloso, E., & Cantón, P. (2010). Metaevaluación del sistema de evaluación de

las titulaciones universitarias andaluzas. Gestión y análisis de políticas públicas- Institu-

to Nacional de Administración Pública de España, 139-165.

Fernandez, M., Alcaraz, N., & Sola, M. (2017). Evaluación y Pruebas Estandarizadas:Una

Reflexión sobre el Sentido, Utilidad y Efectos de estas pruebas en el campo educativo.

Revista Iberoamericana de Evaluación Educativa, 51-67.

Gil, J. (2003). La estadistíca en la investigación educativa. Revista de Investigación Educativa,

21(1), 231-238.

Glass, G., & Stanley, J. (1986). Metodos estadisticos aplicados a las ciencias sociales. Phoenix,

Arizona: Prentice Hall.

GUTIERREZ, A. (2017). Saber 11 en los procesos de admisión en colombia. Lima: Encuentro de

Responsables de Admisión al Pregrado de Universidades en Peru.

71

Hernandez, R., Fernandez, C., & Baptista, P. (2010). Metodología de la Investigación, Quinta

Edición. Mexico D.F.: Mc Graw Hill.

Hulin, C., Drasgow, F., & Parsons, C. (1983). Item Response Theory: Application to Psychologi-

cal Measuremen. Champaing, Illinois: Dorsey Pr.

Icfes. (13 de septiembre de 2015). Informacion de la prueba 3,5,9 . Recuperado el 11 de mayo de

2016, de https://goo.gl/nTy8Z1

Icfes . (10 de abril de 2016). Resultados por Establecimientos. Recuperado el mayo de 2016,

https://goo.gl/4Tv3L4

Icfes. (2007). Marco conceptual ciencias naturales. Bogotá: Instituto Colombiano para la evalua-

ción de la educación Icfes.

Icfes. (2017). Resultados Agregados Pruebas Saber 11 y Saber 3°, 5° y 9°. Bogotá.

Jornet, J. M. (2017). Editorial, Evaluación Estantarizada. Revista Iberoamericana de Evaluación

Educativa, 10(1), 5-8.

Leenen, I. (2013). Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación

educativa en las ciencias médicas. Investigación en educación medica, Facultad de Medi-

cina, Universidad Nacional Autónoma de México, México D.F., México, 40-55.

Martinez, R., & Fernandez, A. (2008). Metodologias e instrumentos para la formulación, eva-

luación y monitoreo de programas sociales, árbol de problema y áreas de intervención.

Mexico D.F.: Naciones Unidad, Cepal.

Melendez, A. (2015). TALLER CES 15_ Confiabilidad. Obtenido de Blog Red Docente:

http://200.11.208.195/blogRedDocente/alexisduran/wp-content/uploads/2015/11/15con-

fiabilidad.pdf

72

MEN. (2006). Estándares básicos de competencias para lenguaje, matemáticas, ciencias y ciu-

dadanas. Bogotá, Colombia. Ministerio de Educación Nacional.

MEN. (2013). Icfes: Contextualixación y conceptualización de las pruebas Saber 3° y 5°. Recu-

perado el 15 de 10 de 2017, de slidshare: https://goo.gl/Fm589d

MEN. (2013). Ministerio de Educación Nacional, Evaluación de los Educandos. Obtenido de

http://www.mineducacion.gov.co/1621/article-79425.html

MEN. (2016). Directorio Educativo Ministerio de Educación Nacional. Obtenido de https://goo.

gl/x6tSPR

Monje, C. A. (2011). Metodología de la investigación Cualitativa y Cuantitativa: Guía Didác-

tica. Neiva (Huila): Universidad Sur Colombiana, Programa de Comunicación Social y

Periodismo. .

Moreno, R., Martinez, R., & Muñiz, J. (2004). Directrices para la elección de ítems de opción

múltiple. Psicothema, 16(3), 490-497.

Morse, J. (2003). Asuntos críticos en mos métodos de investigación cualitativa. (J. Morse, Ed.)

Medellin, Colombia. : Universidad de Antioquia.

Muñis, J. (2010). Las teorías de los tests: teoría clásica y teoría de respuesta a los ítems. Papeles

del Psicólogo, vol. 31, núm. 1, enero-abril, 57-66.

Pérez Juste, R. (2016). ¿Quo vadis, evaluación? Reflexiones pedagógicas en torno a un tema tan

manido como. Revista de Investigación Educativa, 13-30.

Perez Valdés, D. (26 de Octubre de 2007). Maestros del Web by Pletzi. Obtenido de https://goo.

gl/c9rqMr

Perez, Z. (2011). Los diseños de método mixto en la investigación en educación: Una experien-

cia concreta. Revista eléctronica EduCare, XV(1), 15 -29.

73

Quevedo, F. (2011). Medidas de tendencia central y dispersión. Medwave. Año XI, No. 3. Esta-

dística Aplicada a la Investigación en Salud, 1-6.

Universidad Autonoma de Madrid. (2015). uam.es. Obtenido de https://www.uam.es/personal_

pdi/psicologia/cadalso/Docencia/Psicometria/Apuntes/tema2TyP_4.pdf

Vielle, J. P. (1989). Educacion y trabajo. Apuntes para un marco conceptual. Revista interameri-

cana de educacion de adultos, 97-116.

ANEXO.1

INSTRUMENTO 1. FORMATO DE ELABORACIÓN DE REJILLA

CICLO PRUEBA ITEM

TEMA DIFICULTAD

ÀREA/MATERIA COMPONENTE COMPETENCIA

ESTANDAR AFIRMACION EVIDENCIA TAREA

OBJETIVO Evaluar preguntas con el mismo tema específico, componente, competencia y MBE pero diferente nivel de dificultad.

DESCRIPCIÒN Tomando el mismo DBE: Componente competencia y el MBE: Tarea, estándar, afirmación y evidencia se elaboran preguntas con diferente nivel de dificultad. en el MBE pueden haber variaciones especialmente en la tarea teniendo en cuenta la dificultad de la pregunta

OBSERVACION PARA LA PREGUNTA

74

ANEXO 2:

INSTRUMENTO 2. MATRIZ DESCRIPTIVA DE ÍTEMS MARTES DE PRUEBA

Materia Prueba Ítem Clave Dificultad Di rpbis Componente Competencia

Estándar Acción

Afirmación Evidencia Tarea

Descripción del contexto y el enunciado

Descripción de las opciones de respuesta

Retroalimentación y observaciones

Respuesta correcta Consistencia con

MBE Estándar Componente Competencia Acción Afirmación Evidencia Tarea

B R M B R M B R M B R M B R M B R M B R M Observaciones

75

ANEXO 3. INSTRUMENTO 3. GUÍA DE REVISIÓN DOCUMENTAL

DOCUMENTO REVISADO N°: FECHA DE REVISIÓN: TIPO DE DOCUMENTO: AUTOR: AÑO: CIUDAD:PÁGINAS: PALABRAS CLAVES:DESCRIPCIÓN DEL CONTENIDO DOCUMENTO:

APORTES IMPORTANTES DEL DOCUMENTO:

CONCLUSIONES

76

ANEXO 4. FICHA DE VALIDACIÓN DE JUECES EXPERTOS

UNIVERSIDAD EXTERNADO DE COLOMBIA FACULDAD DE CIENCIAS DE LA EDUCACIÓN

MAESTRÍA EN EDUCACIÓN- ENFASIS EN GESTIÓN EDUCATIVA Y EVALUACIÓN

Respetado juez: Usted ha sido seleccionado para validar el instrumento “Matriz descriptiva de ítems” por su experiencia en revisión de ítems y conocimiento del Modelo Basado en Evidencias. La evaluación del instrumento es de gran relevancia para lograr que el análisis de los resultados sea válido y su uso sea eficiente en la medida en que cumpla los objetivos de la investigación. Agradecemos su valiosa colaboración.

Nombres y apellidos___________________________________________________________ Formación académica: _________________________________________________________ Áreas de experiencia profesional: _______________________________________________ Cargo actual: ______________________ Institución: ________________________________

Título de la investigación: “Análisis mixto los parámetros de dificultad y discriminación

en Martes de Prueba®”.

Objetivo del instrumento: Explicar el comportamiento a nivel estadístico de un ítem a

partir de la revisión de su concordancia con el Modelo Basado en Evidencias y su análisis

sintáctico general.

Factores a evaluar: Suficiencia, pertinencia, claridad.

Los siguientes son los indicadores que se deben tener en cuenta al calificar cada uno de los factores de acuerdo al objetivo del instrumento:

Criterio Calificación Indicador

Suficiencia: La información que se debe diligenciar en el instrumento

es suficiente para el cumplimiento del objetivo

del instrumento.

1. Cumple con elcriterio

La información que recoge el instrumento es suficiente para cumplir su objetivo.

2. Cumpleregularmente con el

criterio

Recoge gran cantidad de información pero esta no es suficiente para cumplir el objetivo. Incluir más datos

3. No cumple con elcriterio

El instrumento no recoge información para cumplir su objetivo. Incluir otros datos.

Pertinencia: La información que se debe


La información que se recoge es relevante para

77

diligenciar en el instrumento es adecuada y corresponde con el objetivo propuesto.

cumplir el objetivo.


criterio

Se recoge información importante pero aún faltan datos relevantes para cumplir el objetivo.


La información que se recoge no es relevante para cumplir el objetivo.

Claridad: El instrumento es entendible y fácil de diligenciar por un

constructor o revisor de pruebas


El instrumento se puede diligenciar por un constructor o revisor de pruebas.


criterio

Aunque es claro, el instrumento requiere muchas instrucciones para su diligenciamiento.


El instrumento es difícil de entender y diligenciar.

Suficiencia 1 2 3 Pertinencia 1 2 3

Claridad 1 2 3

OBSERVACIONES:

________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

78

Documents

ANÁLISIS MIXTO DE PARÁMETROS DEL PROGRAMA DE …...Icfes Instituto colombiano para la evaluación de la educación. EBC Estándares básicos de competencias MBE Modelo basado en