Теория и практика педагогического тестирования. Современные подходы

Теория и практика . педагогического тестирования

Современныеподходы

: Автор Карданова ЕленаЮрьевна

4Часть

-Центр повышенияквалификации ГУ ВШЭ2010

Недостатки классической теории

тестирования

ипреимущества современной теории

тестирования

Классическая теория тестирования (КТТ):

первая половина 20-го века достоинства - простота обработки и интерпретации результатов обладает целым рядом существенных недостатков

Item Response Theory (IRT): современная теория тестирования, теория моделирования и параметризации тестов (ТМПТ)

вторая половина 20-го века позволяет преодолеть недостатки КТТ открывает возможности для использования новых технологий

тестирования и дополнительного анализа данных

Зависимость параметров трудности тестовых заданий от уровня

подготовленности конкретной выборкииспытуемых

КТТ: Оценки трудности тестовых заданий зависят от уровня подготовленности конкретной выборки испытуемых

IRT (модели Раша): Оценки трудности тестовых заданий инвариантны относительно контингента испытуемых, по результатам тестирования которых они получены

Оценки трудности заданий по двум группам ( )испытуемых КТТ

Номер задания Оценка трудности для общей группы

Оценка трудности для сильной группы

1 0,53 0,83

2 0,7 0,92

3 0,54 0,76

4 0,65 0,89

5 0,73 0,9

6 0,55 0,83

7 0,6 0,84

8 0,44 0,7

9 0,61 0,82

10 0,43 0,65

11 0,2 0,32

12 0,09 0,15

13 0,3 0,57

14 0,2 0,36

15 0,03 0,06

Оценки трудности техже заданий(IRT)

Номер заданияОценка трудности для общей группы Ср. кв. ошибка

Оценка трудности для сильной группы Ср. кв. ошибка

Статистикаt

1 -1,32 0,09 -1,66 0,15 -0,94

2 -2,33 0,10 - 2,60 0,21 -1,16

3 -1,39 0,09 -1,17 0,14 1,32

4 -2,04 0,10 -2,25 0,18 -1,02

5 -2,57 0,10 -2,32 0,19 1,16

6 -1,44 0,09 -1,66 0,15 -1,26

7 -1,73 0,10 -1,73 0,16 0,00

8 -0,76 0,10 -0,85 0,13 -0,55

9 -1,81 0,10 -1,61 0,15 1,11

10 -0,74 0,10 -0,58 0,13 0,98

11 0,88 0,12 1,11 0,13 1,30

12 2,11 0,15 2,34 0,17 1,01

13 0,09 0,10 -0,16 0,12 -1,60

14 0,88 0,12 0,89 0,13 0,06

15 3,61 0,25 3,58 0,25 -0,08

Зависимость оценокмер испытуемых от уровня трудности

конкретного теста

КТТ: Оценки уровня подготовленности испытуемых (первичные баллы) зависят от уровня трудности конкретного теста

IRT: Оценки уровня подготовленности испытуемых инварианты относительно тестовых заданий, по результатам выполнения которых они получены

Надежность теста и ошибкаизмерения

вКТТ

Все методы оценивания надежности требуют существенных ограничений, не имеют прямого отношения к определению надежности и дают искаженные результаты

Вопрос об ошибке измерения в КТТ часто вообще игнорируется, и первичный балл испытуемого принимается за его истинный балл

Ошибка измерения является величиной постоянной для всех испытуемых

Ошибка измерения зависит от распределения конкретной выборки испытуемых, то есть не является характеристикой исключительно теста

Ошибка измерения заданий не оценивается

Надежность теста и ошибкаизмерения

в IRT

Ошибка измерения оценивается индивидуально для каждого испытуемого и каждого задания

Знание ошибки измерения позволяет строить индивидуальные доверительные интервалы для каждой оценки

Ошибка измерения средних испытуемых меньше ошибки измерения испытуемых, удаленных от центра распределения

Ошибка измерения заданий средней трудности меньше ошибки измерения заданий экстремальной трудности

Точность оценивания параметров заданий более высока, чем точность оценивания мер испытуемых

Возможно оценить отдельно надежность измерения испытуемых и надежность оценивания заданий теста

Распределение ошибкиизмеренияиспытуемых

Уровеньшкалы

КТТ: Шкала первичных баллов является порядковой. Никакое преобразование первичных баллов в КТТ не повышает уровня шкалы

IRT: Шкала тестовых баллов является шкалой более высокого порядка - интервальной, что дает возможность перейти от ранжирования испытуемых и заданий к измерению соответственно уровня подготовленности и уровня трудности

IRT: оценки параметров заданийи мериспытуемыхнаходятся на

единойметрическойшкале

КТТ: - уровни подготовленности испытуемых и параметры заданий теста

находятся на различных шкалах- невозможно предсказать исход выполнения данным испытуемым

данного задания

IRT: - параметры испытуемых и заданий находятся на общей метрической шкале- возможно предсказать вероятность правильного выполнения любым испытуемым любого задания (даже, если это задание данному испытуемому не предлагалось)

- возможно провести качественный анализ уровня подготовленности любого испытуемого, то есть осуществима критериально-ориентированная интерпретация результатов тестирования

IRT: Возможность объективногосравнения

• уровней подготовленности двух испытуемых • уровней трудности двух заданий• уровня подготовленности испытуемого относительно уровня трудности заданий• уровня подготовленности испытуемого относительно некоторого порогового значения уровня подготовленности в определенной области знаний.

Нормальность распределенияпараметров

КТТ: Нормальное распределение баллов испытуемых и трудностей заданий теста играет существенную роль

IRT: Нормальность распределения параметров не требуется

Проблема выравнивания вКТТ

Предлагаются некоторые способы выравнивания только баллов испытуемых, полученных при использовании различных вариантов одного и того же теста. Остальные ситуации вообще не могут быть рассмотрены в рамках КТТ

Наиболее распространены два метода: метод линейного выравнивания и метод равнопроцентильного выравнивания. Оба метода требуют серьезных предположений, которые редко выполняются на практике

Выравнивание в КТТ подразумевает только установление соответствия между баллами по различным вариантам теста и не предполагает создания общей шкалы

Проблема выравнивания в IRT

Возможно выполнить процедуру выравнивания показателей различных вариантов и осуществить шкалирование на единой метрической шкале

Возможно создание банков заданий, то есть множества откалиброванных заданий, параметры которых находятся на единой шкале

IRT: Компьютерное адаптивноетестирование

для каждого испытуемого в процессе тестирования формируется индивидуальный набор заданий

каждое последующее задание выбирается из банка

заданий в зависимости от ответа данного испытуемого на предыдущее задание

процесс заканчивается, когда достигнута требуемая точность измерения уровня подготовленности данного испытуемого

Анализ влияния дополнительныхфакторов

КТТ: традиционно анализ концентрируется на оценивании параметров заданий и мер испытуемых

Возможен анализ влияния дополнительных факторов на оценки параметров заданий и мер испытуемых, например, анализ влияния деятельности экспертов на оценки испытуемых

Наиболее существенные аспекты влияния экспертов

Эффект строгости / снисходительности. Большинство экспертов могут быть отнесены к одному из классов: «оценивающие строго» или «оценивающие снисходительно», причем строгость или снисходительность могут быть рассмотрены как «стабильная характеристика эксперта (более похожая на личное качество), которая неотъемлемо вносится в каждую ситуацию оценки»

Эффект гало, который связан с внутренней тенденцией эксперта оценивать испытуемого скорее за общие заслуги, чем по какому-либо конкретному показателю. То есть на результат оценки влияет общее впечатление об индивидууме

Эффект центральной тенденции, проявляющийся в том, что эксперт, у которого присутствует данная тенденция, предпочитает использовать средние баллы по шкале, избегая крайних категорий. Одной из причин «тяготения к центру» является то, что эксперт опасается ставить слишком высокие или низкие баллы при оценке испытуемых, которых он не знает лично

Вес тестового задания и его информационныйвклад

КТТ: искусственное назначение весов заданиям может привести к искажению информации об уровне подготовленности испытуемых

Вес (информационный вклад) тестового задания может быть вычислен отдельно вне зависимости от характеристик других заданий

Информационнаяфункциязадания

характеризует количество информации, соответствующей данному заданию

является функцией уровня подготовленности: одно и то же задание может быть информативным для одного испытуемого (или одной группы испытуемых) и абсолютно бесполезным для оценивания другого (или другой группы)

задание наиболее информативно для тех испытуемых, уровень подготовленности которых наиболее близок к трудности данного задания

характеризует эффективность задания для оценивания испытуемых с различным уровнем подготовки

Информационныефункции двухзаданий

Введение в современнуютеорию тестирования IRT

Hambleton R., Swaminathan H., Rogers H.J. Fundamentals of Item Response Theory. – London.: Sage publications, 1991

Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. – М.: Прометей, 2000

Карданова Е.Ю. Моделирование и параметризация тестов: основы теории и приложения. – М.: Федеральный центр тестирования, 2008

Объективность оценок подразумевает выполнение

следующих двух условий

инвариантность оценок испытуемых относительно тестовых заданий, по результатам выполнения которых эти оценки получены. Это означает, что при тестировании одного и того же испытуемого различными тестами (с подобной содержательной валидностью) должны получаться близкие, с точностью до погрешности вычислений, результаты

инвариантность характеристик тестовых заданий относительно контингента испытуемых, по результатам тестирования которых эти характеристики получены. Это означает, что при выполнении одного и того же теста различными группами испытуемых должны получаться близкие, с точностью до погрешности вычислений, оценки трудности тестовых заданий

Некоторыеизшироко применяемых моделей IRT

основная дихотомическая модель Раша (Dichotomous Rasch

Model) двух- и трехпараметрические модели (модели Бирнбаума) Partial Credit Model (модель с произвольными

промежуточными категориями выполнения заданий; модель частичного оценивания)

Rating Scale Model (модель с фиксированными промежуточными категориями выполнения заданий; модель рейтинговых шкал)

многопараметрическая модель (Many-Facet Rasch Model, Linacre J.M.)

многомерные модели (Multidimensional Rasch Model, Wilson M., и др.)

Специальные компьютерныепрограммы

Winsteps (модели Раша – дихотомическая, PCM, RSM)

Bilog, Multilog, Parscale (модели Бирнбаума и их расширения для политомических заданий)

Facets (Many-Facet Rasch Model)

Conquest (многомерные модели)

:Преимуществамоделей Раша

простейшие модели, в рамках которых обеспечивается инвариантность параметров, характеризующих уровни подготовленности испытуемых и уровни трудности заданий теста

число параметров, входящих в эти модели, минимально параметры допускают простую интерпретацию, могут быть достаточно

легко оценены, причем на метрической шкале и с указанием точности могут быть применены к заданиям всех форм, которые наиболее часто

встречаются в педагогическом тестировании хорошо развита теория анализа заданий и испытуемых легко решаемы все специфические проблемы тестирования

Характеристическая криваязадания

Графики вероятностей категорий для дихотомического задания

Графики вероятностей категорий в двухшаговом задании

Основные этапыанализа данных в рамках современной теориитестирования

Выбор модели измерения Оценивание параметров Исследование согласия эмпирических данных с моделью Анализ заданий теста (согласие с моделью, функционирование

категорий политомических заданий, оптимизация схемы оценивания)

Анализ испытуемых (обнаружение невалидных профилей и их анализ)

Анализ теста (размерность теста, ошибка измерения и надежность, совместное функционирование заданий различных типов, валидность, функционирование заданий по отношению к различным группам испытуемых)

Специфические проблемы (анализ деятельности экспертов, назначение проходного балла, обнаружение недостоверных результатов тестирования, выравнивание результатов)

Анализ испытуемых

Номериспытуе-

мого

Оценка уровня

подготовл.

Ошибка измерения

Коэффиц.корреля-

ции

Статистики согласия

Un(1) tn(1) Un(2) tn(2)

10 1,01 0,31 -0,01 1,90 2,70 1,65 2,50

15 2,07 0,39 -0,16 1,65 1,10 1,69 1,90

148 1,21 0,32 0,22 1,22 0,70 1,41 1,50

156 1,31 0,32 0,13 1,46 1,30 1,01 0,10

482 -1,38 0,34 -0,18 3,34 4,00 1,63 2,70

517 -0,04 0,29 0,09 1,55 2,40 1,37 2,00

307 0,29 0,29 0,71 0,62 -2,20 0,80 -1,30

Анализ профилей ответов

Индивид. номер

Тестовый балл

Ряд ответов с пометками существенных отклонений(* — , + — существенное отрицательное существенное

)положительное

| | Часть А Часть В Часть С

10 1,0111100 11100 11111 11011 11111 11110 10010 10001 10001 12213 ** * * * +

15 2,0711110 11011 11110 11011 11101 11111 01020 11111 11111 22213 * * * * * * * * +

148 1,2111111 11111 11111 11111 11111 00000 10021 11002 11111 12000 ***** *

156 1,3110001 10111 11111 11111 11101 11111 11020 11121 00111 10012 *** *

482 -1,3801000 00000 10000 00001 00010 00000 00001 00120 00011 11100 + + ++ ++ + +

517 -0,0411110 10000 00000 00110 01011 11111 01100 00120 11011 01020 * * + + + +

307 0,2911111 11010 11111 11111 11011 01111 11010 00000 01001 00000

Documents

Теория и практика педагогического тестирования. Современные подходы