Tema 1 La evaluación lingüística

TEMA 1LA EVALUACIÓN LINGÜÍSTICA: CONTEXTO, HISTORIA, TEMAS Y

TENDENCIAS

Tabla de contenido

1 INTRODUCCIÓN..........................................................................................................2

2 EL INTERÉS POR LA EVALUACIÓN.......................................................................2

2.1 La naturaleza y la calidad de las pruebas................................................................32.2 Los efectos de la evaluación en los estudiantes.......................................................52.3 La justicia de las pruebas con las minorías.............................................................6

3 BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA.....................................73.1 La tendencia precientífica........................................................................................73.2 La tendencia psicométrica-estructuralista...............................................................83.3 La tendencia integradora-sociolingüística.............................................................123.4 La tendencia comunicativa....................................................................................13

4 LOS AVANCES TECNOLÓGICOS EN LA EVALUACIÓN LINGÜÍSTICA.........13

5 REFERENCIAS BIBLIOGRÁFICAS.........................................................................15

1

1 INTRODUCCIÓN

En este tema introductorio voy a tratar los siguientes aspectos:

1. Las causas del interés creciente en la evaluación educativa en general y en la evaluación de lenguas extranjeras en particular y tres áreas que han ocasionado una intensa polémica en la evaluación educativa en general: (1) la naturaleza y la calidad de las pruebas, (2) los efectos de la evaluación en los estudiantes y (3) la justicia con las minorías.

2. La historia de la evaluación lingüística.3. La influencia de las nuevas tecnologías de la información y la comunicación en

la evaluación lingüística.

Los resultados específicos del aprendizaje que el estudiante debe alcanzar al final de este tema son:

1. El estudiante define, utiliza y relaciona una serie de conceptos generales de la evaluación educativa.

2. El estudiante define, utiliza y relaciona una serie de conceptos que han ido apareciendo a lo largo del desarrollo de la evaluación lingüística.

3. El estudiante define, utiliza y relaciona una serie de conceptos relacionados con la utilización de las nuevas tecnologías de la información y la comunicación en la evaluación lingüística.

2 EL INTERÉS POR LA EVALUACIÓN

La competencia global, los programas de evaluación autonómicos, nacionales e internacionales, los nuevos currículos nacionales y autonómicos y la incorporación de representantes de todos los sectores de la comunidad escolar a los órganos de gestión y control de los centros educativos han contribuido al aumento de la importancia de la evaluación educativa, en general, y de la evaluación lingüística, en particular. Sin embargo, la dependencia de los instrumentos de evaluación también ha dado lugar a debates acerca de la justicia de los usos y de las interpretaciones de los instrumentos de evaluación.

La mayoría de las administraciones educativas exigen la realización de pruebas en determinados cursos, que a veces son instrumentos desarrollados ex profeso por la propia administración. En España, por ejemplo, la Ley Orgánica 2/2006, de 3 de mayo, de Educación (L.O.E.) (España, 2006) establece la obligatoriedad de realizar dos evaluaciones generales de diagnóstico de las competencias básicas alcanzadas por los alumnos: una evaluación al finalizar el segundo ciclo de la educación primaria (art. 21) y otra al finalizar el segundo curso de la educación secundaria obligatoria (art. 29). La L.O.E., además, señala que el Instituto de Evaluación y los organismos correspondientes de las comunidades autónomas colaborarán en la realización de estas evaluaciones generales de diagnóstico (art. 144.1). Las pruebas a veces tienen su origen en la participación en estudios nacionales o internacionales, como las pruebas del Programa Internacional de Aprovechamiento de los Estudiantes (Programme for International Student Assessment (PISA) (Organización para la Cooperación y el Desarrollo Económicos, s.d.) o en evaluaciones de programas educativos, como el Programa

2

andaluz de Adaptación Lingüística (Andalucía, 2005, p. 31). Otro tipo de prueba educativa que nuestros lectores seguro que han “sufrido” es la prueba para entrar en una universidad.

Los instrumentos de evaluación lingüística han desempeñado un papel muy destacado en las discusiones acerca del estado de la enseñanza de lenguas extranjeras en todo el mundo y en las reformas de los sistemas de enseñanza de las lenguas extranjeras. Las pruebas lingüísticas han sido el centro de un intenso debate por multitud de razones: acusaciones de que las pruebas estaban sesgadas contra las minorías o de que influyen en la enseñanza de un modo indeseable, por prestar demasiada atención a ciertos tipos de contenidos en detrimento de otros, etc. Teniendo en cuenta la importancia de la evaluación en la práctica de la enseñanza de lenguas, y las cuestiones y debates asociados, es esencial que los profesores comprendan el diseño, los usos y los abusos de los instrumentos de evaluación lingüística.

Las decisiones acerca de la elección de una prueba educativa, acerca de una convocatoria, o acerca de un uso de una prueba lingüística, o de las pruebas educativas en general, ya no interesan sólo a los profesores. En la actualidad, la sociedad exige efectividad en los programas de enseñanza de las lenguas extranjeras. Esta mayor preocupación por las cuestiones relacionadas con la evaluación lingüística tiene su origen, en parte, en la concienciación de las consecuencias sociales de la evaluación, especialmente el peligro que ciertas pruebas constituyen para los derechos y las oportunidades de determinados individuos y grupos. Esta preocupación ha adoptado la forma de ataques a las pruebas, a la industria de la evaluación y a las nuevas normas que regulan la evaluación, o de solicitudes de aplazamiento de la aplicación de los nuevos instrumentos de evaluación, o de acusaciones de que las pruebas están sesgadas y son discriminatorias. En realidad, existen muchas razones de peso que justifican la preocupación por las consecuencias sociales de la evaluación. Sin embargo, es importante, distinguir entre, por un lado, las consecuencias negativas para los individuos o grupos que tienen su origen en fallos de los instrumentos de evaluación y, por otro, los fallos causados por una mala interpretación o un el mal uso de las puntuaciones de una prueba.

Linn y Gronlund (2000, p. 18) mencionan tres áreas que causan polémica en la evaluación educativa, y que son perfectamente aplicables a la evaluación lingüística: (1) la naturaleza y la calidad de las pruebas, (2) los efectos de la evaluación en los estudiantes y (3) la justicia con las minorías.

2.1 La naturaleza y la calidad de las pruebas

A principios de los años 60, algunos autores, como Hoffman (1962, p. 22), sostuvieron que los ítems de elecciones múltiples penalizaban a las personas más inteligentes, originales o “excepcionales”. Hoffman (1962) apoyó sus afirmaciones en una revisión de ítems de pruebas estandarizadas que mostraba que era probable que algunos estudiantes muy creativos y con un grado elevado en la capacidad evaluada realizaran interpretaciones que no habían sido previstas por los diseñadores de las pruebas1.

1 Davies et al. (1999, p. 187) definen una prueba estandarizada como sigue:

Una prueba que idealmente tiene las siguientes características, aunque las pruebas lingüísticas llamadas estandarizadas no siempre poseen todas estas características:

Un desarrollo riguroso, un ensayo y un proceso de revisión, que determinan las propiedades métricas de la prueba…

3

Hoffman (1962, p. 17), por ejemplo, incluyó la siguiente carta, dirigida al director del Times:

Estimado señor:

Entre las preguntas del tipo “marca el elemento diferente” que mi hijo tuvo que responder en una prueba para entrar en un colegio estaba: “¿Cuál es el elemento diferente en cricket, fútbol, billar y hockey?

Yo dije billar porque es el único juego que se realiza dentro de un edificio. Un compañero dijo fútbol porque es el único en el que la pelota no es golpeada con un instrumento. Un vecino dijo cricket porque en los demás juegos el objetivo es meter la pelota en una red; y mi hijo, con la confianza que dan nueve primaveras, se decide por el hockey porque “es el único juego de niñas”.

Aunque las críticas de Hoffman (1962) tuvieron bastante eco, Hoffman también animó a que los autores de las pruebas añadieran un análisis lógico y cuidadoso de los ítems al análisis estadístico de los ítems. Frederiksen (1984, p. 199) observó que los problemas en las pruebas estandarizadas suelen estar bien estructurados, es decir, “están expresados con claridad, toda la información necesaria para resolver el problema está disponible en el problema o -presumiblemente- en la cabeza del estudiante, y existe un algoritmo que garantiza una solución correcta si se aplica adecuadamente”. Sin embargo, la mayoría de los problemas importantes a los que uno se enfrenta en la vida están mal estructurados, es decir, son

complejos, sin criterios definidos para determinar cuándo se ha solucionado el problema, sin toda la información necesaria para resolver el problema, y sin un ‘generador de movimientos legales’ para encontrar todas las posibilidades en cada paso durante la resolución del problema (ibid.).

Estas críticas han conducido a un mayor énfasis en las preguntas abiertas y en el diseño de pruebas que utilizan simulaciones por ordenador.

Una gran parte de las malas interpretaciones y de los malos usos de las puntuaciones de las pruebas se evitarían si el usuario de la prueba fuera consciente de la naturaleza limitada de la información que una prueba proporciona. Un buen usuario de una prueba tiene en cuenta el error que puede existir en las puntuaciones de la prueba y utiliza otras informaciones, aparte de la puntuación en la prueba, a la hora de tomar su decisión. Afirmar que se toman mejores decisiones sin las puntuaciones de las pruebas es afirmar que se toman mejores decisiones cuando existe menos información. Las puntuaciones de una prueba son ciertamente falibles, pero probablemente son menos falibles que la mayoría de los otros tipos de información que se utilizan para tomar las decisiones educativas.

2.2 Los efectos de la evaluación en los estudiantes

Procedimientos normalizados para la convocatoria y la puntuación de la prueba. El contenido de la prueba está normalizado en todas las versiones. Este contenido

está basado en un conjunto de especificaciones de la prueba que pueden reflejar una teoría de la competencia lingüística o una concepción de las necesidades previstas de los candidatos. Las formas alternativas de la prueba son examinadas para comprobar si existe equivalencia en los contenidos.

4

Los críticos de la evaluación afirman que la evaluación tiene efectos indeseables en los estudiantes. Algunos de las críticas más mencionadas al uso de las pruebas aparecen a continuación, seguidas de unos breves comentarios.

Crítica 1: Las pruebas producen ansiedad

No cabe duda de que la ansiedad aumenta durante la realización de una prueba. Para la mayoría de los estudiantes, la evaluación los obliga a actuar mejor. Para unos pocos, la ansiedad causada por la prueba puede ser tan elevada que interfiere en la actuación en la prueba. Estos estudiantes suelen tener una ansiedad elevada y la prueba, simplemente, aumenta su nivel de ansiedad. Se pueden utilizar diferentes procedimientos para reducir la ansiedad causada por la prueba, como una preparación concienzuda antes de la prueba, el ensayo de la prueba, y proporcionar el tiempo suficiente para que el estudiante pueda realizar la prueba con una cierta tranquilidad. Afortunadamente, en los últimos años los diseñadores de muchas pruebas también proporcionan versiones para que el estudiante ensaye y se ha pasado de las pruebas de velocidad a las pruebas de potencia. Esto debería ayudar, pero, aun así, resulta necesario observar cuidadosamente a los estudiantes durante la realización de la prueba y reflexionar acerca de las puntuaciones obtenidas por los estudiantes a los que la prueba les produce un elevado nivel de ansiedad.

Crítica 2: Las pruebas clasifican a los estudiantes

La clasificación de los individuos puede convertirse en un problema grave, especialmente si la clasificación en un determinado grupo es una simple excusa para no dar el tratamiento que el estudiante necesita para conseguir un mayor aprendizaje. Cuando los estudiantes son, por ejemplo, clasificados como retrasados mentales o como “inmigrantes”, esto influye en el modo en que los profesores y los compañeros los consideran, en el que modo en que ellos se ven a sí mismos y en la elección del programa educativo que se les proporciona. Si los estudiantes son considerados, erróneamente, competentes en español, como está ocurriendo con algunos miembros de las minorías étnicas, el problema se agrava.

La división de los estudiantes en diferentes grupos puede aumentar la eficiencia en la gestión del tiempo en la clase y de los recursos del centro educativo. Sin embargo, cualquier clasificación debe tener en cuenta que la prueba mide sólo una muestra limitada de las capacidades de un estudiante y que los estudiantes están cambiando constantemente. Los usuarios de una prueba deben tener en cuenta que las clasificaciones basadas en esta prueba son provisionales y flexibles. Cuando las categorías son consideradas permanentes, entonces la clasificación sí constituye un problema importante. Pero en este caso, el culpable no es la prueba, sino el usuario de la prueba.

Crítica 3: Las pruebas dañan el autoconcepto de los estudiantes

Existen profesores que a partir de las puntuaciones en las pruebas atribuyen estereotipos a los estudiantes, que puede tener un efecto no deseado en el autoconcepto de los estudiantes. También ocurre que el estudiante desarrolla un sentimiento general de fracaso a partir de una puntuación baja. Los profesores debemos explicar a los estudiantes que reciben una puntuación baja que las pruebas son medidas limitadas y que nuestras competencias (y, por tanto, las puntuaciones) cambian. Además, se puede

5

limitar el desarrollo del sentimiento de fracaso si se mencionan los aspectos positivos que el estudiante muestra en la prueba. Las pruebas pueden ayudar a que los estudiantes identifiquen sus puntos fuertes y sus puntos débiles, y, con ello, contribuyen a un mejor aprendizaje y a una imagen propia positiva.

Crítica 4: Las pruebas influyen en las expectativas de los profesores, que, a su vez, influyen en las expectativas propias de los estudiantes

Aquéllos que utilizan esta crítica sostienen que cuando un profesor asigna una puntuación a una prueba se produce el siguiente proceso:

1. Las puntuaciones en las pruebas crean expectativas en los profesores acerca del aprendizaje de cada estudiante.

2. El profesor enseña a cada estudiante en función de estas expectativas.3. Los estudiantes responden situándose en el nivel esperado.

Por tanto, aquéllos de quienes se espera que consigan más, consiguen más, y aquéllos de quienes se espera que consigan menos, consiguen menos. Este efecto, llamado efecto Pygmalion, fue estudiado por Rosenthal y Jacobsen (1968), aunque el estudio fue luego cuestionado por otros investigadores (Elashoff y Snow, 1971; West y Anderson, 1976). Está muy extendida la creencia de que las expectativas del profesor aumentan u obstaculizan el aprovechamiento de un estudiante.

En resumen, existe algo de razón en las diferentes críticas acerca de los efectos indeseables de las pruebas en los estudiantes. Pero en la mayoría de los casos estas críticas deberían ser dirigidas a los usuarios de las pruebas, en lugar de a las pruebas mismas. Es probable que las mismas personas que utilizan mal los resultados de una prueba utilicen mal otras informaciones, que probablemente son menos precisas y objetivas. Por tanto, la solución no es dejar de utilizar las pruebas, sino empezar a utilizar las pruebas y otros datos con más efectividad. Cuando se utilizan las pruebas de un modo positivo –es decir, para ayudar a que los estudiantes mejoren su aprendizaje– es probable que las consecuencias sean beneficiosas.

2.3 La justicia de las pruebas con las minorías

La cuestión de la justicia con las minorías raciales y étnicas es crítica en cualquier programa de evaluación. La justicia ha recibido una atención creciente en la literatura sobre la evaluación lingüística a lo largo de los últimos años. El término justicia está relacionado, según Linn y Gronlund (2000, pp. 21-22), con diferentes conceptos:

1. Ausencia de sesgo: Según Association of Language Testers in Europe Members (1998, p. 204), “una prueba o ítem está sesgado si un grupo determinado de la población de candidatos resulta favorecido o perjudicado a causa de una característica de la prueba o de un ítem que no sea pertinente para lo que se pretende medir”. El origen del sesgo puede estar vinculado al sexo, la edad, la cultura, etc.

2. Justicia en el procedimiento, que está relacionada con cuestiones como: ¿tienen los examinandos las mismas oportunidades de demostrar lo que saben en la prueba? ¿Son las respuestas de redacción puntuadas de un modo consistente por los correctores, sin tener en cuenta el origen étnico o racial del examinando?

6

3. Oportunidad de aprender: Evidentemente, se considerará que una prueba que evalúa algo es injusta si sólo algunos examinandos han tenido la oportunidad de aprender el material que es evaluado.

4. Igualdad en los resultados: desde esta perspectiva, una prueba es justa si las medias de las puntuaciones de cada grupo (por ejemplo, castellanoparlantes, catalanoparlantes, chinos, africanos, latinos) son iguales.

Los diferentes conceptos pueden conducir a conclusiones bastante diferentes acerca de la justicia de cualquier prueba o instrumento de evaluación. El cuarto concepto, la igualdad de los resultados, es incompatible con otros principios de la evaluación, como el objetivo de conseguir una medida fiable y válida de lo que los estudiantes saben, independientemente de su origen o grupo étnico. Si grupos diferentes de estudiantes difieren en la enseñanza que han recibido, en sus experiencias dentro y fuera del centro educativo, y en sus intereses y esfuerzo, una prueba o instrumento de evaluación que proporcione diferentes medias de puntuaciones para los grupos minoritarios y para el grupo mayoritario puede reflejar las consecuencias de un tratamiento injusto a las minorías por parte de la sociedad.

Una ausencia de sesgo y la justicia en el procedimiento son esenciales para que una evaluación tenga un elevado grado de validez.

3 BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA

Bernard Spolsky (1978, v) distinguió tres tendencias en la evaluación lingüística, que coexisten en la actualidad:

1. La tendencia precientífica.2. La tendencia psicométrica-estructuralista.3. La tendencia integradora-sociolingüística.

3.1 La tendencia precientífica

Para Spolsky (1978, v), la tendencia precientífica, que aún prevalece en muchos lugares del mundo, se puede caracterizar por una ausencia de preocupación por las cuestiones estadísticas o por nociones como la objetividad y la fiabilidad:

En su forma más simple, presupone que podemos y debemos basarnos totalmente en el juicio de un profesor experimentado, que puede decir qué calificación se debe dar después de una conversación de varios minutos, o después de leer la respuesta a una redacción (Spolsky, 1978, p. v).

En la tendencia precientífica es difícil encontrar exámenes orales y los exámenes suelen consistir de preguntas abiertas que deben ser respondidas por escrito. Estos exámenes suelen incluir:

1. Fragmentos que deben ser traducidos a o desde la lengua extranjera.2. Redacciones libres en la lengua extranjera.3. Ítems gramaticales, textuales o culturales.

En este movimiento la construcción de las pruebas lingüísticas es una tarea asignada a los profesores de lengua o, en determinadas situaciones, antiguos profesores de lengua

7

que han pasado a trabajar como examinadores. Para quienes poseen una concepción de la evaluación basada en la tendencia precientífica, los profesores no necesitan una formación especial: “si una persona sabe cómo enseñar, se supone que puede valorar la competencia de sus estudiantes” (Spolsky, 1978, pp. v-vi).

3.2 La tendencia psicométrica-estructuralista

La tendencia psicométrica-estructuralista se caracteriza por la interacción de dos tipos de expertos, que están de acuerdo en que la evaluación puede ser “precisa, objetiva, fiable y científica” (Spolsky, 1978, vi):

1. Los evaluadores, es decir, los psicólogos responsables del desarrollo de las teorías y las técnicas modernas de la medición en la educación, cuyo objetivo principal es proporcionar medidas objetivas mediante la utilización de diferentes técnicas estadísticas, que permiten que las puntuaciones sean fiables y que las interpretaciones que realizamos a partir de las puntuaciones sean válidas:

La forma de las pruebas… está determinada principalmente por la necesidad de evaluar la fiabilidad y la validez de las pruebas. Ésta es la razón por la que, por ejemplo, la técnica de las respuestas de elecciones múltiples es tan común. En la evaluación lingüística esto quiere decir que normalmente recurrimos a las destrezas de la escritura y la comprensión oral (Ingram, 1968, p. 74).

Los evaluadores habían advertido la escasa fiabilidad de los exámenes tradicionales (Pilliner, 1968, p. 27). Starch y Elliott (1912), por ejemplo, observaron que las puntuaciones que 142 profesores de inglés habían asignado a una prueba oscilaban entre 64 y 98, mientras que en otra prueba las puntuaciones oscilaban entre 50 y 98 (Starch, 1913, p. 630). Starch (1913, ibid.) confeccionó la Tabla 1 a partir de las puntuaciones asignadas por diez profesores a 10 pruebas finales de inglés del primer curso de la Universidad de Wisconsin, en la que podemos apreciar la gran disparidad en las puntuaciones que los profesores (instructors) asignan a una prueba (paper) realizada por el mismo estudiante. El profesor 4, por ejemplo, asigna una puntuación de 20 a la prueba realizada por el estudiante 4, mientras que el profesor 8 asigna una puntuación de 68 a esta misma prueba:

Tabla 1 Puntuaciones asignadas por 10 profesores (instructors) a una muestra de 10 pruebas (papers) finales de inglés del primer curso de la Universidad de Wisconsin (Starch, 1913, p. 630).

Los evaluadores educativos han desarrollado diferentes tipos de ítems, como los ítems de elecciones múltiples, que permiten comprobar con relativa facilidad si las puntuaciones son fiables, y una serie de técnicas cuyo objetivos son conseguir que

8

las puntuaciones que los diferentes correctores asignan sean más fiables. En esta tendencia se considera que la cuantificación de la fiabilidad y de la validez en las pruebas tiene la máxima importancia.

Spolsky (1978, p. vi) mencionó dos problemas que tienen las pruebas lingüísticas desarrolladas exclusivamente por los evaluadores:

1. Los nuevos tipos de tareas (como la tarea en la que el examinando contesta eligiendo una opción de entre varias opciones posibles) exigen una respuesta escrita, lo cual limita la evaluación lingüística a las actividades de comprensión escrita y comprensión oral. Agard y Dunkel (1948), por ejemplo, afirmaban que las únicas pruebas disponibles eran pruebas escritas de vocabulario, lectura y gramática y que ninguna de estas pruebas evaluaban las destrezas de producción y comprensión orales (cit. en Spolsky, 1978, p. vi; Fulcher, 1999, p. 391).

2. Una prueba desarrollada exclusivamente por evaluadores no tiene en cuenta los nuevos conceptos, procedimientos y descubrimientos de la enseñanza y el aprendizaje de lenguas.

2. Los expertos con formación en evaluación educativa y en lingüística. Ya en los años 50 existieron voces que recomendaban la combinación de conocimientos procedentes de la evaluación educativa con conocimientos lingüísticos para la construcción de pruebas lingüísticas. Robert Lado (1950), por ejemplo, aplicó esta combinación de conocimientos al diseño de pruebas de aprovechamiento de inglés para estudiantes latinoamericanos y concluía lo siguiente en su tesis doctoral:

Se obtienen varias conclusiones. Estas conclusiones son (1) que existe un gran retraso en la medición del inglés como lengua extranjera, (2) que el retraso está relacionado con concepciones acientíficas de la lengua, (3) que la ciencia del lenguaje debería ser utilizada en la definición de qué enseñar… El estudio proporciona procedimientos para la aplicación de la lingüística al desarrollo de pruebas de lengua extranjera (Lado, 1950, cit. en Carroll, 1953, p. 195).

Para Carroll (1953, p. 195), el retraso existía, en realidad, en “toda la medición de las lenguas extranjeras”. A lo largo de los años 50 y 60 Lado refinó sus conceptos de evaluación lingüística y en 1961 publicó Language Testing, un libro dirigido a los “profesores de lenguas extranjeras y de inglés como lengua extranjera”, que se basa en el supuesto de que “el conocimiento lingüístico” es una “contribución principal” a la evaluación lingüística, es decir, para Lado (1961, p. vii) las pruebas lingüísticas debían tener en cuenta “el desarrollo de la lingüística lingüística moderna durante los últimos treinta y cinco años”.

Según Spolsky (1978, p. vii), durante los años 50 y 60 se combinaron la concepción estructuralista de la lengua, las teorías psicológicas y las necesidades prácticas de los evaluadores. Por un lado, los diseñadores de pruebas lingüísticas necesitaban extensas listas de ítems que permitieran la selección de ciertos ítems, que serían incluidos en pruebas objetivas, mientras que, por otro, los lingüistas estructuralistas estaban describiendo la lengua como un sistema compuesto de elementos que se combinan entre sí. En la lingüística estructural americana de los años 50 se postulaban una serie de niveles jerárquicos en el estudio del lenguaje, compuestos de una serie de unidades, de cuya combinación surgían las unidades del nivel superior. Lado (1961, p. 25), por ejemplo, afirmaba que “el lenguaje se construye a partir de sonidos, la entonación, el

9

acento, morfemas, palabras y combinaciones de palabras”. Mediante esta combinación de la visión estructural de la lengua y los procedimientos de evaluación educativa objetiva quedaba expedito el camino hacia la construcción de una prueba objetiva con preguntas de elecciones múltiples basada en la lingüística estructural. Los elementos lingüísticos pueden ser evaluados, según Lado (1961, p. 204), aisladamente o en combinación en una “destreza integrada”, como la comprensión oral (listening), la comprensión oral (reading), la producción oral (speaking), la escritura (writing) o la traducción (translation). A continuación presento dos ítems que aparecen en Lado (1961), que evalúan elementos aislados y elementos combinados:

Ejemplo de ítem de elecciones múltiples para evaluar el control de estructuras gramaticales:

El señor Martin visitó al profesor. John los vio…

(1) El señor Martin sabe quién visitó a John.(2) John sabe quién visitó al señor Martín.(3) El profesor sabe a quien visitó John.(4) John sabe a quien visitó el señor Martín.(5) John sabe a quien visitó el profesor.

(Lado, 1961, p. 159)

Ejemplo de ítem de elecciones múltiples para evaluar la destreza integrada de la lectura:

La autopista del cielo por encima de la cima del mundo se ha convertido en la piedra de toque de la historia del viaje intercontinental, marcando el comienzo de una nueva edad en la aviación comercial (Mapa de las Rutas de las Líneas Aéreas Escandinavas)

1. “Autopista” en esta oración quiere decir

(A) ‘vía para autómoviles’(B) ‘ruta para aviones’(C) ‘grupo de estrellas’(D) ‘animal con alas’

(Lado, 1961, p. 235)

En 1961 Carroll (1961[1965], p. 370) distinguió en la evaluación lingüística entre el enfoque de los puntos estructurales discretos (dicrete structure-point approach) y el enfoque integrador (integrative approach):

1. En el enfoque de los puntos estructurales discretos los diseñadores construyen pruebas que evalúan

ítems muy específicos de conocimiento lingüístico y de destreza que han sido sensatamente seleccionados del conjunto generalmente enorme de ítems posibles… Es el tipo de enfoque que es necesario y recomendado… donde deben ser evaluados el conocimiento de la estructura y el léxico, la discriminación auditiva y la producción oral de sonidos, y la lectura y la escritura de símbolos y palabras individuales (Carroll, 1961[1965], p. 369)2.

2 Oller (1979, p. 37) definió una prueba de puntos discretos como una prueba “que intenta concentrar la atención en un punto de la gramática cada vez”:

10

2. El enfoque integrador de la evaluación lingüística:

Las cuatro destrezas de la comprensión oral (listening), producción oral (speaking), lectura, y escritura también deben ser consideradas actuaciones integradas que exigen que el candidato domine la lengua como un todo, es decir, su fonología, estructura y léxico. Merece la pena especificar el nivel de competencia deseado en cada una de ellas… porque cada una está relacionada con elementos de velocidad en la respuesta… No creo… que la evaluación lingüística (o la especificación de la competencia lingüística) esté completa sin el uso de… un enfoque que exija una actuación integrada y fluida al examinando… yo recomiendo pruebas en las que se presta menos atención a determinados puntos estructurales o a determinados vocabularios que al efecto comunicativo total de un enunciado. Por ejemplo, he tenido gran éxito en la determinación de niveles de formación audiolingüe mediante una prueba de comprensión oral en la que oraciones de longitud y velocidad crecientes presentadas auditivamente deben ser asociadas al dibujo correspondiente, de los cuatro presentados. El examinando no está interesado en los puntos estructurales específicos o en el léxico especifico, sino en el significado total de la oración, independientemente del modo en que pueda comprenderla (Carroll, 1961[1965], pp. 369-370).

Este énfasis en un enfoque integrado convierte a Carroll, según Spolsky (1978, p. ix), en el primer partidario de la tendencia integradora-sociolingüística, que es el objeto del siguiente apartado.

3.3 La tendencia integradora-sociolingüística

Según Carroll (1961[1965], p. 370), el enfoque integrador poseía ciertas ventajas que no tenía la tendencia psicométrica-estructuralista:

1. Los ítems o las tareas que constituyen una prueba diseñada según la tendencia integradora-sociolingüística se seleccionan a partir de un conjunto que es más amplio que el conjunto a partir del cual se seleccionan los ítems o las tareas de una prueba psicométrica-estructuralista. Según Carroll, esto es una ventaja, puesto que facilita la construcción de una prueba que es independiente de los currículos que han seguido los examinandos que van a realizar la prueba.

2. Parece que es más sencillo relacionar las tareas de una prueba integradora-sociolingüística con diferentes niveles de competencia.

3. En un enfoque integrador no resulta tan necesario realizar un análisis contrastivo entre la primera lengua de los examinandos y la segunda evaluada en la prueba.

Según Spolsky (1978, p. ix), la tendencia integradora-sociolingüística se caracteriza, entre otras cosas, por:

Cada ítem de la prueba tiene como objetivo un único elemento de un determinado componente de una gramática (o quizás deberíamos decir de una gramática que es postulada), como la fonología, la sintaxis, o el vocabulario. Además, una prueba de puntos discretos tiene como fin evaluar sólo una destreza cada vez (por ejemplo, la comprensión oral, o la producción oral, o la lectura, o la escritura) y sólo un aspecto de una destreza (por ejemplo, productivo en lugar de receptivo u oral en lugar de visual). Dentro de cada destreza, aspecto y componente, los ítems discretos supuestamente tienen por objeto exactamente uno y sólo un fonema, morfema, elemento léxico, regla gramatical, o lo que quiera que sea el elemento correspondiente (Oller, 1979, p. 37).

11

1. La utilización de pruebas clozes, que Association of Language Testers in Europe Members (1998, p. 198) definen como un “tipo de actividad que consiste en rellenar huecos en un texto en el cual han sido suprimidas palabras enteras”, y dictados, un “tipo de actividad de examen en el cual el candidato ha de escuchar un texto y escribir las palabras escuchadas” (ibid., p. 179). La razón por la cual se incluyen este tipo de tareas en una prueba integradora-sociolingüística tiene su origen en el supuesto de que “en el uso normal de la lengua… siempre es posible predecir parcialmente lo que vendrá a continuación” (Oller, 1979, p. 25). Por tanto, la inclusión de las pruebas cloze y de los dictados permite que el examinando utilice esta capacidad de predicción.

2. La importancia concedida a la evaluación de la competencia comunicativa. Con el transcurso del tiempo el concepto de competencia lingüística fue haciéndose cada vez más complejo y ha sido sustituido por el concepto de competencia comunicativa. Los lingüistas se dieron cuenta de que la lengua no está constituida sólo por “sonidos, la entonación, el acento, morfemas, palabras y combinaciones de palabras” (Lado, 1961, p. 25). Hymes (1972, p. 281), por ejemplo, afirmó que existen cuatro tipos diferentes de sistemas de reglas que subyacen a la conducta lingüística, que se reflejan en los cuatro tipos de juicios que un hablante comunicativamente competente puede realizar acerca de la lengua:

1. Si (y en qué grado) algo es formalmente posible;2. Si (y en qué grado) algo es factible en virtud de los medios disponibles de

implementación;3. Si (y en qué grado) algo es apropiado (adecuado, bien adaptado, tiene éxito) en

relación al contexto en el que es utilizado y evaluado.4. Si (y en qué grado) se hace algo de hecho, algo es realmente realizado, y qué

conlleva esta acción3.

Posteriormente, Canale and Swain (1980, pp. 28-31) y Canale (1983, 338-342) desarrollaron su concepto de competencia comunicativa, que ha sido muy influyente en la evaluación lingüística.

3.4 La tendencia comunicativa

Otros autores han dividido la evolución de la evaluación linguistic de un modo ligeramente diferente a Spolsky (1978). James Dean Brown (2005, pp. 19-24), por ejemplo, distingue cuatro movimientos en la evaluación lingüística, que coexisten en la actualidad: (i) el movimiento precientífico, (ii) el movimiento psicométrico-estructuralista, (iii) el movimiento integrativo-sociolingüístico, y (iv) el movimiento comunicativo, mientras que Elana Shohamy (1997, p. 141) distingue tres periodos en la historia de la evaluación lingüística: el período de los puntos discretos, el período integrativo y el período comunicativo.

La tendencia comunicativa, que comenzó en el Reino Unido y que después se extendió a los Estados Unidos, se basa en tres principios:

1. El aprendizaje de una lengua debe ser interactivo.2. Las situaciones en las que se aprende una lengua deben ser muy parecidas a las

situaciones en las que los sujetos van a utilizar la lengua (Shohamy, 1997, p. 142).

3 En cursiva en el original.

12

3. El uso de las pruebas de actuación lingüística (performance assessment), es decir, pruebas que obligan a que “los candidatos produzcan una muestra de lengua, escrita o hablada (por ejemplo, redacciones y entrevistas orales). Estos procedimientos están diseñados para reproducir la actuación tal como se produce en contextos reales de comunicación” (Association of Language Testers in Europe Members, 1998, pp. 198-199).

El trasfondo específico de este movimiento está compuesto de proposiciones tomadas de diversos campos de la enseñanza de lenguas, como el enfoque nocional-funcional de la enseñanza de lenguas o la enseñanza de lenguas para fines específicos. El concepto de competencia comunicativa de Canale y Swain (1981) y Canale (1983) también ha influido en el diseño de las pruebas diseñadas dentro de la tendencia comunicativa.

4 LOS AVANCES TECNOLÓGICOS EN LA EVALUACIÓN LINGÜÍSTICA

Con el aumento de la disponibilidad y la potencia de los microordenadores a un precio relativamente bajo, no es sorprendente que se haya generalizado el uso de programas informáticos para evaluar la competencia lingüística de los individuos. Hasta puede que algunos de vosotros ya hayáis realizado, por ejemplo, las pruebas DIALANG (www.dialang.org).

La utilización de un ordenador para presentar los ítems de una prueba lingüística puede tener varias ventajas. Por ejemplo, en lugar de tener que realizar la prueba el día de la convocatoria, los examinandos pueden solicitar realizarla en un momento que se ajuste mejor a sus necesidades. Además, en lugar de tener que esperar varias semanas para recibir los resultados de la prueba, las puntuaciones pueden ser obtenidas inmediatamente. Pearson Driving Assessment (2007) cita las siguientes ventajas de la evaluación basada en ordenadores:

La capacidad de realizar las pruebas cuando el candidato lo solicita y cuando es conveniente para el candidato.

La posibilidad de crear preguntas que se pueden almacenar en “bancos de preguntas” y de presentar estas preguntas aleatoriamente, reduciendo la evaluación “en serie”, es decir, la necesidad de evaluar el mismo día a la misma hora a todos los candidatos.

La desaparición de complejos problemas logísticos, como la distribución, el almacenamiento y el seguimiento de los impresos de examen.

Las pruebas pueden ser realizadas sin una conexión a Internet, por lo que se minimiza el riesgo de fallos del sistema.

Reducción del esfuerzo y del tiempo al corregir y presentar los informes de los resultados. Resultados instantáneos y retroalimentación diagnóstica inmediata, que indican los puntos

fuertes y las áreas que el candidato debe mejorar.

Aunque estas ventajas son importantes, los cambios más significativos importantes han tenido lugar como consecuencia del hecho de que el ordenador puede hacer fácilmente cosas que no resultan sencillas con una prueba de lápiz y papel. La tecnología permite, por ejemplo, introducir grabaciones en vídeo o plantear problemas que obligan a los estudiantes a utilizar Internet, lo cual añade todas las ventajas que estas tecnologías pueden aportar durante los procesos de enseñanza y evaluación.

El cambio más ampliamente difundido en la evaluación lingüística ha sido el uso del ordenador para realizar pruebas adaptativas, es decir, pruebas en las que la elección del siguiente ítem está basado en las respuestas previas del examinando, como las pruebas DIALANG. Las pruebas adaptativas pueden aumentar la calidad de la

13

http://www.dialang.org/

información disponible y, por tanto, de las decisiones que se adoptan a partir de la información disponible. Una prueba adaptativa normalmente comienza con la presentación de un ítem que se cree que tiene una dificultad media para el examinando. El segundo ítem y los siguientes están determinados por las respuestas previas del examinando. En general, si un examinando responde un ítem correctamente, el programa selecciona a continuación un ítem un poco más difícil. Y, al contrario, se presenta un ítem un poco más fácil después de una respuesta incorrecta. La prueba finaliza cuando las estimaciones de la actuación del examinando alcanzan un nivel predeterminado de precisión o cuando se ha presentado un determinado número de ítems. Se ha demostrado que la evaluación adaptativa puede aumentar la eficiencia y la precisión de las medidas de ciertos tipos de conceptos, destrezas y habilidades. En algunos casos, las pruebas adaptativas pueden alcanzar el mismo nivel de fiabilidad que una prueba convencional de lápiz y papel, pero en la mitad de tiempo.

Sin embargo, no comprenderéis todo el potencial de la utilización de los ordenadores durante el proceso de evaluación si sólo consideráis que los ordenadores son herramientas para presentar los ítems más fácilmente: ¡el ordenador puede medir competencias que no se miden adecuadamente en las pruebas convencionales de lápiz y papel! Las grabaciones en video permiten presentar problemas que tienen un mayor realismo que los problemas normalmente planteados en las pruebas de lápiz y papel. La simulación de problemas presentada a través de un ordenador tienen varias ventajas respecto a las pruebas de lápiz y papel en la enseñanza del español como segunda lengua: la simulación puede obligar a que el examinando concentre su atención en el uso de la información para resolver un problema y puede ayudar a evaluar no sólo el producto del estudiante sino también el proceso que el estudiante utiliza para realizar la actividad, incluyendo el modo en que la actividad es abordada, la calidad de la solución y el número de sugerencias que pueden ser necesarias para resolver la actividad.

5 REFERENCIAS BIBLIOGRÁFICAS

AGARD, F.B.; DUNKEL, H.B. An investigation of second language teaching. Boston, Massachusetts: Ginn, 1948.

ANDALUCÍA. Acuerdo de 22 de marzo de 2005, del Consejo de Gobierno, por el que se aprueba el Plan de Fomento del Plurilingüismo en Andalucía. Boletín Oficial de la Junta de Andalucía, 5 de abril de 2005, n.º 65, pp. 8-39.

ASSOCIATION OF LANGUAGE TESTERS IN EUROPE MEMBERS. Multilingual glossary of language testing terms. Cambridge: Cambridge University Press, 1998.

BROWN, James Dean. Testing in language programs. New York: McGraw-Hill ESL/ELT, 2005.

DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom; MCNAMARA, Tim F. Dictionary of language testing. Cambridge: Cambridge University Press, 1999.

CANALE, Michael. “On some dimensions of language proficiency”. En: OLLER, John W. (ed.). Issues in language testing research. Rowley, Massachusetts: Newbury House, pp. 333-342.

CANALE, Michael; SWAIN, Merrill. “Theoretical bases of communicative approaches to second language teaching and testing”. Applied Linguistics. 1980, vol. 1, pp. 1-47.

CARROLL, John Bissell. The study of language: A survey of linguistics and related disciplines in America. Cambridge: Harvard University Press, 1953.

14

CARROLL, John Bissell. “Fundamental considerations in testing for English language proficiency of foreign students”. En: Testing the English proficiency of foreign students. Washington, D.C.: Center for Applied Linguistics, 1961, pp. 30-40. Reimpr. en: ALLEN, Harold B (ed.). Teaching English as a second language: A book of readings. New York: McGraw-Hill, 1965, 364-372.

DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom; McNamara, Tim F. Dictionary of language testing. Cambridge: Cambridge University Press, 1999.

ELASHOFF, Janet D.; SNOW, Richard E. Pygmalion reconsidered; a case study in statistical inference: reconsideration of the Rosenthal-Jacobson data on teacher expectancy. Worthington, Ohio: Charles A. Jones, 1971.

ESPAÑA. Ley Orgánica 2/2006, de 3 de mayo, de Educación. Boletín Oficial del Estado, 4 de mayo de 2006, núm. 106, pp. 17158-17207.

FREDERIKSEN, Norman. “The real test bias: Influences of testing on teaching and learning”. American Psychologist. 1984, vol. 39, n.º 3, pp. 193-202.

FULCHER, Glenn. “Book Review: A history of foreign language testing in the United States: from its beginnings to the present”. Language Testing. 1999, vol. 16, no. 3, pp. 389-398.

HOFFMAN, Banesh. The tyranny of testing. New York: Crowell-Collier, 1962.HYMES, D.H. “On communicative competence”. En: PRIDE, J.B.; HOLMES, Janet

(eds.). Sociolinguistics: selected readings. Hardmondsworth: Penguin, 1972, pp. 269-293.

INGRAM, Elisabeth. “Attainment and diagnostic test”. En: DAVIES, Alan (ed.). Language testing symposium: a psycholinguistic approach. London: Oxford University Press, 1968, pp. 70-97.

LADO, Robert. Measurement in English as a foreign language with special reference to Spanish-speaking adults. Tesis doctoral. Ann Arbor, Michigan: University of Michigan, 1950.

LINN, Robert L.; GRONLUND, Norman E. Measurement and assessment in teaching. Saddle River, New Jersey: Prentice-Hall, 2000.

OLLER, John W. Language tests at schools. London: Longman, 1979.ORGANIZACIÓN PARA LA COOPERACIÓN Y EL DESARROLLO

ECONÓMICOS. Organisation for Economic Co-operation and Development [en línea]. Paris: Organisation for Economic Co-operation and Development, s.d. [ref. de 14 de enero de 2007 5:06]. OECD Programme for International Student Assessment (PISA): PISA en español. Disponible en World Wide Web: <http://www.pisa.oecd.org/document/25/0,3343,en_32252351_32235731_39733465_1_1_1_1,00.html>.

PEARSON DRIVING ASSESSMENT. Pearson VUE [en línea]. London: Pearson VUE, 2007 [ref. de 27 de octubre de 2007 20:37]. Computer-based testing: benefits. Disponible en World Wide Web: <http://www.pearsonvue.co.uk/home/cbt/benefits/>.

PILLINER, Albert E.G. “Subjective and objective testing”. En: DAVIES, Alan (ed.). Language testing symposium: a psycholinguistic approach. London: Oxford University Press, 1968, pp. 19-35.

ROSENTHAL, Robert; JACOBSEN, Lenore. Pygmalion in the classroom: teacher expectation and pupils’ intellectual development. New York: Holt, Rinehart and Winston, 1969.

15

http://www.refworks.com/Refworks/~0~






SHOHAMY, Elana. “Second language assessment”. En: TUCKER, G. Richard; CORSON, David (eds.). Encyclopedia of language and education, vol. 4: second language education. Dordrecht: Kluwer, 1997, pp. 141-149.

SPOLSKY, Bernard. “Introduction: linguists and language testers”. En: SPOLSKY, Bernard (ed.). Approaches to language testing. Arlington, Virginia: Center for Applied Linguistics, 1978, pp. v-x.

STARCH, Daniel. “Reliability and distribution of grades”. Science. 1913, vol. 38, no. 983, pp. 630-636.

STARCH, Daniel; ELLIOTT, Edward C. “Reliability of the grading of high-school work in English”. The School Review. 1912, vol. 20, no. 7, pp. 442-457.

WEST, Charles K.; ANDERSON, Thomas H. “The question of teacher preponderant causation in teacher expectancy research”. Review of Educational Research. 1976, vol. 46, pp. 613-630.

16






Documents

Tema 1 La evaluación lingüística