XÂY DỰNG MÔ HÌNH TRẮC NGHIỆM THÍCH NGHI TRÊN …it.husc.edu.vn/Media/ChuyenMuc/KhoaHoc/Hoithao... · câu hỏi phù hợp với khả năng hiện tại của thí sinh

XÂY DỰNG MÔ HÌNH TRẮC NGHIỆM THÍCH NGHI TRÊN

CƠ SỞ LÝ THUYẾT ĐÁP ỨNG CÂU HỎI

Lê Xuân Tài – TS. Đặng Hoài Phương

Trường Đại học Bách Khoa – Đại học Đà Nẵng

Tóm tắt:

Hiện nay, tại Việt Nam mô hình trắc nghiệm khách quan (Objective test) đang được sử

dụng phổ biến. Tuy nhiên, trắc nghiệm khách quan không thực sự đưa ra kết quả đúng đắn

hoặc công bằng do một số nguyên nhân: các câu hỏi trong một bài kiểm tra được lựa chọn

một cách ngẫu nhiên do đó có bài kiểm tra quá khó hoặc quá dễ, dẫn đến gây nhàm chán

cho thí sinh khi làm toàn câu hỏi quá dễ hoặc ức chế khi gặp phải câu hỏi quá khó. Vì vậy

việc đưa ra một mô hình trắc nghiệm mà trong đó tại mỗi thời điểm trắc nghiệm, thí sinh sẽ

trả lời câu hỏi phù hợp với năng lực hiện tại của mình là vấn đề cấp thiết. Một trong những

mô hình đang được nghiên cứu hiện nay là mô hình trắc nghiệm thích nghi (Adaptive test).

Trắc nghiệm thích nghi là trắc nghiệm đánh giá năng lực thí sinh với sự giúp đỡ của máy

tính. Với việc sử dụng trắc nghiệm thích nghi thì số lượng và thứ tự câu hỏi đưa ra cho mỗi

thí sinh là khác nhau, tùy thuộc vào năng lực hiện tại của thí sinh. Vì vậy, việc đánh giá

năng lực thí sinh sẽ trở nên nhanh chóng, chính xác và khách quan hơn.

Bài báo đề cập và phân tích một số mô hình và hệ thống trắc nghiệm thích nghi hiện có

như: mô hình trắc nghiệm thích nghi sử dụng phương pháp lựa chọn câu hỏi theo tiêu

chuẩn thông tin tối đa (Maximum Information - MI), mô hình trắc nghiệm thích nghi sử

dụng phương pháp lựa chọn câu hỏi theo thông tin toàn cục (Kullback-Leibler – KL), mô

hình trắc nghiệm thích nghi sử dụng phương pháp lựa chọn câu hỏi dựa trên phân tích tiên

đoán được (maximum expected information - MEI). Các mô hình trên đều hiệu quả trong

việc làm giảm số câu hỏi cần thiết trong mỗi bài kiểm tra. Tuy nhiên, để lựa chọn, đưa ra

câu hỏi phù hợp với khả năng hiện tại của thí sinh thì các mô hình trên vẫn chưa đáp ứng

tốt. Để giải quyết nhược điểm nêu trên chúng tôi đề xuất xây dựng mô hình trắc nghiệm

thích nghi dựa trên cơ sở lý thuyết đáp ứng câu hỏi (Item Theory Response) và thiết kế hệ

thống trắc nghiệm trên cơ sở mô hình đề xuất.

Từ khóa: Trắc nghiệm khách quan, Trắc nghiệm thích nghi, Lý thuyết đáp ứng câu hỏi,

Thuật toán lựa chọn câu hỏi.

1 Giới thiệu

Các hình thức kiểm tra, đánh giá truyền thống trong hoạt động dạy - học nặng về đánh

giá khả năng ghi nhớ, trình bày lại những nội dung mà người dạy truyền thụ như kiểm tra vấn

đáp bài học cũ, kiểm tra viết trong thời gian ngắn hoặc dài theo chương, mục bài giảng v.v.. đã

và đang bộc lộ nhiều hạn chế nâng cao tính tích cực học tập và khả năng vận dụng linh hoạt -

sáng tạo các kiến thức - kỹ năng của người học trong các tình huống thực tế đa dạng. Để khắc

phục các hạn chế trên, ở nhiều nước trên thế giới đã nghiên cứu và vận dụng các phương pháp

đánh giá bằng các trắc nghiệm (test). Các bộ trắc nghiệm được nghiên cứu thử nghiệm cho từng

loại hình dạy - học và mục đích khác nhau rất công phu (Trắc nghiệm trí thông minh IQ, trắc

nghiệm kiểm tra tiếng Anh TOEFL, trắc nghiệm kiểm tra luật giao thông v.v...). Cũng có những

6

loại trắc nghiệm đánh giá đơn giản để đáp ứng yêu cầu đánh giá kiến thức hoặc kỹ năng trong

một bài dạy lý thuyết hoặc thực hành.

Trên thế giới hiện nay có các hình thức trắc nghiệm như: Trắc nghiệm chủ quan

(Subjective test), trắc nghiệm khách quan (Objective test) và trắc nghiệm thích nghi (Adaptive

test). Tất cả các hình thức trắc nghiệm này đều nhằm đến mục đích đánh giá trình độ, năng lực

cũng như kết quả học tập của người học nhưng mỗi hình thức có phương pháp tiến hành và

hiệu quả mang lại là khác nhau. Một số nghiên cứu gần đây đã chỉ ra rằng xu hướng chủ yếu

của tương lai là ứng dụng trắc nghiệm thích nghi trong việc đánh giá kiến thức, nhận thức và

kỹ năng, đặc biệt là mô hình thích nghi trên máy tính (Computerized Adaptive Testing - CAT)

[1].

Trong bài báo này, chúng tôi trình bày nghiên cứu về việc xây dựng mô hình TNTN trên

cơ sở lý thuyết đáp ứng câu hỏi (Item Response Theory). Đây là lý thuyết trắc nghiệm được xây

dựng dựa trên mô hình toán học, đòi hỏi nhiều tính toán, nhưng nhờ sự tiến bộ vượt bậc của

công nghệ tính toán bằng máy tính điện tử vào cuối thế kỷ 20 – đầu thế kỷ 21 nên nó đã phát

triển nhanh chóng và đạt được những thành tựu quan trọng [3, 4].

2 Tổng quan về trắc nghiệm thích nghi

2.1 Khái niệm về Trắc nghiệm thích nghi

Trắc nghiệm thích nghi (TNTN), tiếng Anh gọi là “Adaptive Test” [1, 2], là thuật ngữ để

chỉ một phương pháp đánh giá thí sinh (học sinh, sinh viên, bệnh nhân, …) bằng hình thức

kiểm tra trắc nghiệm nhưng đánh giá theo hướng năng lực của thí sinh bằng bộ câu hỏi tương

ứng với mức năng lực đó. Hệ thống TNTN là một hệ thống phần mềm được phát triển trên cơ

sở mô hình TNTN để đánh giá thí sinh. Về hoạt động ta có thể hình dung hệ thống TNTN cố

gắng bắt chước phương pháp đánh giá của một người giáo viên đối với học sinh. Có nghĩa là,

lần đầu tiên hệ thống cung cấp cho thí sinh một câu hỏi vừa đủ khó đối với thí sinh. Nếu thí

sinh trả lời câu trả lời một cách chính xác, thì sau đó một câu hỏi khó hơn sẽ được đề nghị và

nếu không một câu hỏi có độ khó thấp hơn được đề nghị. Quá trình này nên được lặp đi lặp lại

cho đến khi có đủ bằng chứng để xác định trình độ kiến thức của thí sinh. Trong TNTN, quá

trình này được thực hiện một cách tự động. Ban đầu có thể tạm thời ước lượng một mức năng

lực của thí sinh, sau khi đặt ra một câu hỏi và thí sinh trả lời. Một ước lượng mới về năng lực

của thí sinh sẽ được tính toán lại. Với ước tính này, câu hỏi kế tiếp sẽ được chọn một cách chính

xác hơn. Ta có thể xem TNTN như là một thuật toán lặp với thông số đầu vào là ước tính ban

đầu về mức độ năng lực của thí sinh, thuật toán được bao gồm các bước sau:

Bước 1. Tất cả các câu hỏi chưa được hệ thống lựa chọn sẽ là câu hỏi ứng cử cho lựa chọn

tiếp theo (dựa vào trình độ năng lực hiện tại của thí sinh);

Bước 2. Câu hỏi tiếp theo phù hợp với năng lực hiện tại của thí sinh được đưa ra và thí

sinh trả lời câu hỏi đó;

Bước 3. Theo kết quả câu trả lời của thí sinh, một ước lượng mới của mức độ năng lực

được tính toán;

Jos.hueuni.edu.vn Tập. 97; Số. 9; Năm 2015

7

Bước 4. Quay lại Bước 1 nếu các điều kiện ngừng của TNTN xác định chưa thỏa mãn.

Do vậy, trong mô hình TNTN: thuật toán lựa chọn câu hỏi tiếp theo phù hợp với khả

năng hiện tại của thí sinh là khó khăn vì phải được tính toán một cách phức tạp. Ngày nay với

sự phát triển của khoa học máy tính thì vấn đề trên đã được giải quyết một cách tốt hơn.

2.2 Các mô hình trắc nghiệm thích nghi hiện có

Như đã đề cập ở trên, thuật toán lựa chọn câu hỏi tiếp theo là phần quan trọng nhất trong

mô hình TNTN. Cho đến hiện nay, tồn tại các mô hình TNTN sử dụng một số thuật toán lựa

chọn câu hỏi tiếp theo phù hợp với năng lực của thí sinh như: thuật toán lựa chọn câu hỏi theo

tiêu chuẩn thông tin tối đa (Maximum Information - MI), thuật toán lựa chọn câu hỏi theo

thông tin toàn cục (Kullback-Leibler – KL), thuật toán lựa chọn câu hỏi dựa trên sự phân tích

tiên đoán theo tiêu chí tối đa thông tin (Maximum Expected Information - MEI).

Thuật toán lựa chọn câu hỏi theo tiêu chuẩn thông tin tối đa (MI) [5] là thuật toán phổ

biến được sử dụng trong các mô hình TNTN. Câu hỏi thứ n+1 được lựa chọn cho thí sinh là câu

hỏi cung cấp thông tin tối đa cho phép ước lượng khả năng của thí sinh (n) dựa trên n câu hỏi

trước đó mà thí sinh đã trả lời.

Thuật toán lựa chọn câu hỏi theo thông tin toàn cục (KL) là thuật toán lựa chọn câu hỏi

dựa trên phương pháp thông tin tổng thể được đề xuất bởi Chang and Ying (1996) [6]. Thuật

toán này sử dụng độ đo Kullback-Leibler để tính toán ước lượng trong việc lựa chọn câu hỏi.

Thuật toán lựa chọn câu hỏi dựa trên sự phân tích tiên đoán theo tiêu chí tối đa thông tin

(MEI) là thuật toán lựa chọn câu hỏi dựa trên việc phân tích tiên đoán các tiêu chí tối đa thông

tin dự kiến được đề xuất bởi van der Linden (1998) [7].

Các thuật toán lựa chọn câu hỏi trên được thực hiện như sau:

[1] Khởi tạo: Mức năng lực ban đầu của mỗi thí sinh là 0;

[2] Bước Lặp: Ước lượng lại năng lực của thí sinh sau khi thí sinh trả lời câu hỏi. Câu

hỏi tiếp theo sẽ được lựa chọn dựa trên mức năng lực . Cho i là câu hỏi thứ i trong ngân hàng

câu hỏi (i=1..n) và k là số câu hỏi đã được chọn (đưa ra cho thí sinh). Gọi tập Sk-1 là tập hợp câu

hỏi đã được chọn Sk-1={i1,…, ik-1}; tập Rk={1..n}\Sk-1 là tập hợp các câu hỏi còn lại chưa được chọn.

Khi đó câu hỏi thứ k được chọn theo nguyên tắc:

Thuật toán MI: Với giá trị năng lực hiện tại , câu hỏi tiếp theo được lựa chọn là câu hỏi

thứ k có giá trị hàm thông tin ��,�(��) lớn nhất:

�� ≡ �� ,��,… ,��:� ∈ ��, (1)

Trong đó:

��,�(�)=��(�)

��

��(�)[��(�)] . (2)

8

Thuật toán KL: Với giá trị năng lực hiện tại , câu hỏi tiếp theo được lựa chọn là câu hỏi

thứ k có giá trị hàm thông tin ��(��) lớn nhất:

�� ≡ �� ∫ ��(�||��):� ∈ ��

�, (3)

Trong đó:

��(�||��)= ��(��)log��(��)

��(�)�+ [1 − ��(��)]log�

��(��)

��(�)� . (4)

Và �� =�

√�.

Thuật toán MEI: Với giá trị năng lực hiện tại , câu hỏi tiếp theo được lựa chọn là câu

hỏi thứ k với trọng số ��(��) bởi các khả năng tiên đoán ��(��|��, … , ��)có giá trị

lớn nhất

�� ≡ �� (0|��, … , ��)��,… ,��,��,… ,��,��+

��(1|��, … , ��)��,… ,��,��,… ,��,��:� ∈ ��,

Trong đó:

��(��|��, … , ��)= ∫ ��(��|�)�(�|��, … , ��)�� (6)

là khả năng tiên đoán của trả lời us,

��,… ,��(�)= −�� (�;��,… ,��)

�� là độ lệch của tiên đoán. (7)

Và �(�;��, … , ��)= ∏ ��(�)��[1 − ��(�)]

�� là tích xác suất trả lời đúng và sai của thí

sinh trong k-1 câu hỏi trước đó.

[3] Điều kiện dừng: Khi tất cả các câu hỏi được lựa chọn hoặc mức năng lực � của thí

sinh đã được xác định.

Tiêu chuẩn lỗi (SE) của thuật toán MI, KL và MEI. Khi SE đủ nhỏ thì thuật toán lựa chọn

câu hỏi của TNTN sẽ dừng. Khi đó có thể nói đã xác định được mức năng lực � của thí sinh.

Giả sử Với hai mức tiêu chuẩn lỗi lần lượt là 0.4 và 0.2. Số câu hỏi cần thiết để hệ thống

TNTN xác định năng lực � thí sinh. Trong đó −3 ≤ � ≤ +3 như sau:

Bảng 1. Phân bố của 500 bài đánh giá TNTN theo số lượng câu hỏi và tiêu chuẩn lỗi (SE) là 0.4 và 0.2.

Số câu hỏi được

yêu cầu bởi hệ

thống TNTN

SE=0.4 SE=0.2

MI KL MEI MI KL MEI

Nhỏ hơn 10 41 38 81 - - -

Từ 11 đến 20 300 310 270 - - -

Từ 21 đến 30 95 99 95 - - -

Từ 31 đến 40 32 23 20 - - -

Từ 41 đến 50 10 10 11 77 79 68

Từ 51 đến 60 4 8 8 60 70 68

Từ 61 đến 70 2 2 4 42 50 36

Từ 71 trở lên 16 10 11 321 314 328

(5)


9

Từ bảng trên ta thấy, khi điều kiện dừng được đặt với tiêu chuẩn lỗi SE=0.4. Với thủ tục

chọn MI có 341 trên 500 bài kiểm tra cần dưới 20 câu hỏi; Với thủ tục chọn KL có 348 trên 500

bài kiểm tra cần dưới 20 câu hỏi; Với thủ tục chọn MEI có 351 trên 500 bài kiểm tra cần dưới 20

câu hỏi. Tuy nhiên, khi điều kiện dừng được đặt với tiêu chuẩn lỗi SE=0.2 tất cả các thủ tục

chọn đều cần trên 40 câu hỏi.

Bảng 2. Bảng đánh giá các thuật toán lựa chọn MI, KL và MEI (+: có, -: không).

Thuật toán lựa

chọn câu hỏi

Đánh giá thông

số câu hỏi

Khả năng thích

ứng liên tục với

tham số năng lực

Số câu hỏi để xác

định tiêu chuẩn

lỗi (SE)

Thời gian tính

toán hàm thông

tin

Thuật toán MI - - +/- +/-

Thuật toán KL - - +/- +/-

Thuật toán MEI - - +/- +/-

Phân tích các mô hình TNTN sử dụng các thuật toán lựa chọn câu hỏi trên không tính

toán đến thông số của câu hỏi sẽ ảnh hưởng như thế nào đến việc lựa chọn (ví dụ như độ khó

của câu hỏi), không có khả năng thích ứng liên tục với tham số năng lực của thí sinh. Ngoài ra,

khi tiêu chuẩn lỗi được đặt cố định ở mức thấp đòi hỏi phải cần nhiều câu hỏi cho bài kiểm tra

và thời gian tính toán hàm thông tin phụ thuộc nhiều vào ngân hàng câu hỏi. Do đó, chúng tôi

đề xuất xây dựng mô hình TNTN trên cơ sở lý thuyết đáp ứng câu hỏi (Item Response Theory)

nhằm khắc phục các nhược điểm nêu trên.

3 Xây dựng mô hình trắc nghiệm thích nghi

3.1 Lý thuyết đáp ứng câu hỏi (Item Response Theory – IRT)

Lý thuyết đáp ứng câu hỏi là một mô hình toán học để mô tả thí sinh đáp ứng như thế

nào với các câu hỏi trong bài trắc nghiệm (Embretson & Reise, 2000) [8]. Mô hình này đã được

sử dụng trong việc đánh giá tâm lý con người (Van der Linden & Hambleton, 1997) [9].

Lý thuyết đáp ứng câu hỏi xây dựng mô hình tính toán để xử lý dữ liệu dựa trên việc

nghiên cứu mọi cặp tương tác giữa “Thí sinh” và “Câu hỏi” khi triển khai một bài thi trắc

nghiệm. Mỗi thí sinh đứng trước một câu hỏi sẽ trả lời như thế nào, điều đó phụ thuộc vào

năng lực () của thí sinh và một số đặc trưng của câu hỏi.

Một câu hỏi có 3 tham số đặc trưng đó là “độ khó” (b), “độ phân biệt” (a) và “độ đoán

mò” (c). Trong tham số quan trọng nhất đó là độ khó của câu hỏi, tham số b sẽ được sử dụng

để đối sánh với tham số năng lực của thí sinh. Tham số b được sử dụng để thể hiện đặc trưng

phân biệt của câu hỏi và tham số c để chỉ tỉ lệ đoán mò của thí sinh khi gặp câu hỏi. Hiện nay có

3 mô hình tính toán phổ biến trong lý thuyết đáp ứng câu hỏi, các mô hình này được phân loại

theo số tham số đặc trưng mà nó sử dụng. Mô hình 1 tham số (mô hình Rasch) chỉ xét đến độ

10

khó của câu hỏi, mô hình 2 tham số (mô hình Birnbaum) xét thêm độ phân biệt của câu hỏi, và

mô hình 3 tham số xét thêm mức độ đoán mò của thí sinh khi trả lời câu hỏi. Cả ba mô hình

được thể hiện chung qua công thức (8), được gọi là đường cong đặc trưng câu hỏi (Item

Characteristic Curve - ICC)

�(�)= �+ (1 − �)��(�� )

��(��) (8)

Trong đó: Các tham số � là giá trị năng lực của thí sinh, a là độ phân biệt câu hỏi, b là độ

khó của câu hỏi và c là độ đoán mò của thí sinh đối với mỗi câu hỏi. �(�) được gọi là xác suất

để thí sinh có năng lực � trả lời đúng câu hỏi.

Trong bài báo này chúng tôi sử dụng mô hình IRT 2 tham số a và b (c = 0). Lúc này, công

thức (8) trở thành:

�(�)=��(�� )

��(��) (8.1)

Mục đích cuối cùng của hệ thống là đánh giá năng lực của thí sinh. Trong mô hình hệ

thống TNTN dựa trên cơ sở lý thuyết IRT, vấn đề này được thực hiện bởi hàm khả năng sau:

�(�;��, … , ��)= ∏ ��(�)��(1 − ��(�))

�� (9)

Trong đó ��, … , �� lần lượt là k câu hỏi mà thí sinh đã trả lời.

Và năng lực của thí sinh sau sau hỏi thứ k tương ứng là:

�� = m ax��∑ ��(�)

��

�� (�;��, … , ��). (10)

Trong đó: ��(�) là hàm thông tin câu hỏi: ��(�)= � ��(�;��)/��

�(�;��)��

Ngoài ra trong lý thuyết đáp ứng câu hỏi còn cung cấp công thức về độ lệch chuẩn (SE)

được sử dụng làm điều kiện dừng của hệ thống:

��(��)=�

�∑ ��(��)��

(11)

Hàm thông tin câu hỏi trả về giá trị kỳ vọng của sự thay đổi của năng lực. Hay nói cách

khác, câu hỏi i đã đóng góp như thế nào cho sự thay đổi của tham số năng lực. Công thức (11)

xác định tiêu chuẩn ước lượng trong giới hạn. Và ta có thể sử dụng nó như điều kiện dừng của

hệ thống.

3.2 Mô hình trắc nghiệm thích nghi dựa trên lý thuyết đáp ứng câu hỏi

Một mô hình tổng thể TNTN cần có các thành phần sau:

Ngân hàng câu hỏi (Item banking);

Các thuật toán: Start (khởi tạo), Select (lựa chọn câu hỏi), Administer (thi hành), Score

(đánh giá kết quả), Compute (tính toán), Stop (dừng), Report (báo cáo).

Ngân hàng câu hỏi (NHCH)


11

Để có thể quản lý một hệ thống TNTN, một NHCH phải có đủ số lượng tốt các câu hỏi

phù hợp một mô hình TNTN trên cơ sở lý thuyết đáp ứng câu hỏi (mô hình tham số IRT). Về

nguyên tắc, các tiêu chí cho câu hỏi tốt không khác so với các tiêu chuẩn cho các mục trong một

trắc nghiệm trên giấy thông thường. Tuy nhiên, các câu hỏi cũng phải được hiệu chỉnh theo

một mô hình tham số IRT được lựa chọn. Trong mô hình tham sô IRT mỗi câu hỏi có các tham

số như độ khó, độ phân biệt và đoán mò. Trong đề tài này chúng tôi quyết định lựa chọn mô

hình IRT với 2 tham số của câu hỏi (độ khó và độ phân biệt) để thực hiện trong hệ thống TNTN

của mình.

Các thuật toán trong hệ thống TNTN

Về cơ bản hệ thống TNTN có thể được phân làm 3 loại: Khởi đầu, Lặp và kết thúc. Khi đó

thuật toán Start, Stop và Report được sử dụng 1 lần và các thuật toán Select Administer, Score

và Compute sẽ được lặp nhiều lần trong quá trình hoạt động của hệ thống. Trong đó thuật toán

lựa chọn câu hỏi Select là quan trọng nhất của hệ thống. Trong hệ thống TNTN này, chúng tôi

sử dụng mô hình lý thuyết IRT để xây dựng thuật toán. Chi tiết về mô hình thuật toán này

được trình bày bên dưới.

Hình. 1. Mô hình tổng thể hệ thống TNTN dựa trên lý thuyết IRT

Start

Select

Administer

Score

Compute

Stop

Report

yes

no

12

- Start: thuật toán này mục đích lựa chọn câu hỏi đầu tiên cho bài kiểm tra. Giả sử thí

sinh khi bắt đầu có một giá trị năng lực ở mức độ trung bình. Mặc dù, ta có thể lựa

chọn bắt đầu từ câu hỏi dễ nhất hoặc khó nhất. Khi đó thuật toán sẽ lựa chọn câu hỏi

từ ngân hàng với các tham số tương ứng phù hợp.

- Select: Sau mỗi vòng lặp thuật toán sẽ lựa chọn câu hỏi tiếp theo có tiêu chí phù hợp

với mức năng lực hiện tại của thí sinh. Để lựa chọn câu hỏi, cần có sự đánh giá về

năng lực hiện tại của thí sinh và các tham số tương ứng của câu hỏi. Vấn đề này

chúng tôi sẽ trình bày kỹ hơn trong phần sau.

- Administer and Score: đây là quá trình thi hành của hệ thống. Trong giai đoạn này,

câu hỏi sẽ được trình bày, thí sinh trả lời và hệ thống ghi nhận kết quả.

- Compute: Thuật toán xử lý điểm số của thí sinh. Điểm số sẽ dựa trên thông tin về

mức năng lực hiện tại của thí sinh và kết quả trả lời câu hỏi hiện tại.

- Stop: Sau khi hệ thống xử lý hoàn thành các thao tác cần thiết đối với một câu hỏi với

thí sinh. Hệ thống sẽ quyết định dừng hoặc tiếp tục quá trình trắc nghiệm phụ thuộc

vào kết quả của Stop. Khi các điều kiện dừng thõa mãn thì Stop sẽ có kết quả là True,

lúc này hệ thống sẽ dừng và ngược lại.

- Report: Hệ thống sẽ thông báo kết quả đánh giá năng lực của thí sinh đồng thời ghi

nhận kết quả vào hệ thống cho các lần kiểm tra tiếp theo nếu có.

Thuật toán lựa chọn câu hỏi.

Trong hệ thống TNTN, sau mỗi lần lặp hệ thống sẽ lựa chọn câu hỏi tiếp theo trong ngân

hàng câu hỏi để đề cử cho quá trình thực hiện đánh giá tiếp theo. Trong mô hình này, câu hỏi

được chọn cần phù hợp với mức năng lực hiện tại của thí sinh. Chúng tôi sử dụng hàm thông

tin câu hỏi (10) trong lý thuyết đáp ứng câu hỏi để đánh giá và lựa chọn câu hỏi tiếp theo phù

hợp với khả năng hiện tại của thí sinh.

Thuật toán Select gồm các bước:

- Dựa trên tham số năng lực hiện tại, tính toán giá trị hàm thông tin các câu hỏi ứng cử

(tất cả các câu hỏi chưa đưa ra cho thí sinh trả lời);

- Tìm và lựa chọn câu hỏi có giá trị thông tin lớn nhất (với câu hỏi có hàm thông tin lớn

nhất có nghĩa là câu hỏi đó phù hợp với khả năng hiện tại của thí sinh nhất).

Với lựa chọn mô hình IRT 2 tham số, thì hàm thông tin sẽ là:

��(�)= ��(�)[1 − ��(�)] (12)

3.3 Hệ thống trắc nghiệm thích nghi

Dựa trên mô hình TNTN đã đề xuất, nhóm tác giả tiến hành phát triển hệ thống TNTN

như sau:


13

Phần Giao diện thí sinh: Đây là phần giao diện làm việc của thí sinh khi thao tác trên hệ

thống TNTN. Phần này gồm có:

- Quản lý đăng nhập: Thí sinh chưa có tài khoản thì có thể đăng ký mới để đăng nhập

vào hệ thống đánh giá TNTN, hệ thống sẽ khởi tạo thí sinh mới có mức năng lực

trung bình. Đối với thí sinh cũ có thể đăng nhập tài khoản đã có.

- Giao diện thực hiện quá trình kiểm tra: Đây là nơi thí sinh sẽ thực hiện thao tác trả lời

câu hỏi của hệ thống TNTN. Mỗi lượt sẽ xuất hiện câu hỏi và các đáp án lựa chọn.

Thí sinh chọn đáp án và gửi về hệ thống. Hệ thống đánh giá và thông báo kết quả lựa

chọn (đúng/sai). Ngoài ra, có thể thông báo luôn kết quả của việc đánh giá năng lực

hiện tại của thí sinh.

Hình. 2. Kiến trúc tổng thể hệ thống TNTN dựa trên lý thuyết IRT

Phần quản trị: Đây là phần làm việc của người quản trị hệ thống (Giáo viên). Phần này

gồm có:

Quản lý đăng nhập

Giao diện thực hiện

quá trình kiểm tra

Quản lý

thí sinh

Quản lý

câu hỏi

Giao

diện

Quản trị

Hệ thống

Hệ thống TNTN

Select

Administer

Score

Compute

Report

Stop

Start

Database

14

- Phần giao diện: cho phép người quản trị thực hiện các thao tác đối với hệ thống đánh

giá TNTN của mình như: thao tác đối với câu hỏi (thêm, xóa, sửa, tìm kiếm) trong

ngân hàng câu hỏi; thao tác đối với thí sinh (xem, xuất kết quả đánh giá, xem lịch sử,

…), thao tác quản trị hệ thống.

- Quản lý câu hỏi: có nhiệm vụ kết nối và thực hiện các thao tác cần thiết với ngân

hàng câu hỏi (Cơ sở dữ liệu). Ngoài ra, thành phần này còn có chức năng lấy câu hỏi

từ CSDL theo yêu cầu từ hệ thống TNTN.

- Quản lý thí sinh: cho phép kết nối và thực hiện các thao tác cần thiết với dữ liệu thí

sinh.

- Quản trị hệ thống: cho phép thiết lập các chức năng của hệ thống (đăng nhập, phân

quyền, …).

- Hệ thống TNTN: là thành phần trung tâm của hệ thống, thực hiện quá trình đánh giá

thí sinh khi có yêu cầu. Hệ thống lựa chọn câu hỏi, gửi về thành phần giao diện, nhận

kết quả, đánh giá năng lực hiện tại, trả kết quả đánh giá, …

- Cơ sở dữ liệu: chứa toàn bộ dữ liệu về thông tin câu hỏi, thông tin thí sinh và thông

tin đăng nhập. Hệ thống được kết nối với các bộ phận quản trị tương ứng để nhận và

trả dữ liệu theo yêu cầu của hệ thống.

4 Kết quả và thảo luận

Để thử nghiệm mô hình này, chúng tôi đã tiến hành thiết kế hệ thống TNTN trên cơ sở

mô hình đề xuất, xây dựng ngân hàng câu hỏi cho môn Tin học tại trường THPT Tôn Đức

Thắng – Đức Cơ – Gia Lai. Tiến hành thử nghiệm bộ dữ liệu trên với hệ thống trắc nghiệm thích

nghi dựa trên mô hình đề xuất với các thí sinh có giá trị năng lực 0 ban đầu lần lượt là -1.5, 0,

và 1.5 như sau:

Bảng 3. Kết quả của các thí sinh đánh giá qua hệ thống TNTN.

Câu hỏi

chọn

Độ

khó

(b)

Độ

phân

biệt

(a)

Trả

lời

0 = -1.5 0 = 0 0 = 1.5

Năng

lực (k)

Tiêu

chuẩn lỗi

(SE)

Năng

lực (k)

Tiêu

chuẩn lỗi

(SE)

Năng

lực (k)

Tiêu

chuẩn lỗi

(SE)

Câu 1 -2.51 0.80 0 0.11 2.71 0.03 3.87 0.01 6.47

Câu 2 -3.56 0.88 1 0.13 2.09 0.04 3.2 0.01 5.53

Câu 3 -2.40 0.97 1 0.12 1.53 0.04 2.4 0.01 4.34

Câu 4 -1.93 1.05 0 0.06 1.21 0.01 1.87 0 3.5

Câu 5 -2.32 0.92 1 0.05 1.07 0.01 1.65 0 3.08

Câu 6 -1.69 0.93 1 0.03 0.96 0.01 1.43 0 2.62

Câu 7 -1.58 1.12 1 0.02 0.85 0.01 1.24 0 2.34

Câu 8 -1.03 1.68 0 0.01 0.71 0 1 0 2.12

Câu 9 -1.17 1.20 0 0.01 0.65 0 0.9 0 1.9

Câu 10 -1.58 0.96 0 0 0.62 0 0.85 0 1.77

Câu 11 -1.73 0.91 1 0 0.6 0 0.82 0 1.67

Câu 12 -1.50 1.00 1 0 0.57 0 0.78 0 1.57


15

Câu 13 -1.38 1.15 1 0 0.55 0 0.74 0 1.49

Câu 14 -1.14 1.17 0 0 0.52 0 0.7 0 1.41

Câu 15 -1.61 0.98 1 0 0.5 0 0.68 0 1.35

Câu 16 -0.91 1.29 0 0 0.48 0 0.63 0 1.27

Câu 17 -1.24 1.08 0 0 0.47 0 0.61 0 1.22

Câu 18 -1.42 0.87 1 0 0.46 0 0.6 0 1.18

Câu 19 -1.12 1.07 0 0 0.45 0 0.58 0 1.13

Câu 20 -1.68 0.90 1 0 0.44 0 0.56 0 1.1

Câu 21 -1.51 0.91 1 0 0.43 0 0.55 0 1.07

Câu 22 -1.31 0.97 1 0 0.42 0 0.54 0 1.04

Câu 23 -0.91 1.28 0 0 0.41 0 0.52 0 1

Câu 24 -1.08 0.91 0 0 0.4 0 0.51 0 0.97

Câu 25 -1.10 0.90 1 0 0.39 0 0.5 0 0.94

Từ bảng trên cho thấy rằng với các giá trị năng lực giả sử ban đầu khác nhau. Trong

phương pháp của chúng tôi, với 3 đến 10 câu hỏi là đã có thể xác định chính xác năng lực thực

sự của thí sinh. Ngoài ra, với công thức tính toán chủ yếu phụ thuộc vào các tham số tương

quan giữa năng lực thí sinh và tham số câu hỏi. Đây là các tham số đã có, do đó việc tính toán

rất dễ dàng và nhanh chóng.

Hình. 3. Biểu đồ minh họa kết quả năng lực thí sinh trong mô hình đề xuất.

5 Kết luận

Bài báo đã tiến hành phân tích các mô hình TNTN hiện có với việc sử dụng các thuật toán

lựa chọn câu hỏi khác nhau, nhưng các mô hình và thuật toán nói trên đều không thỏa mãn các

khả năng: đánh giá thông số câu hỏi, khả năng thích ứng liên tục với tham số năng lực của thí

sinh, tối ưu hóa số câu hỏi và thời gian tính toán. Do đó chúng tôi đề xuất mô hình TNTN trên

cơ sở lý thuyết đáp ứng câu hỏi (IRT) nhằm giải quyết những vấn đề nêu trên.

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

16

Với sự giúp đỡ của máy tính điện tử, việc sử dụng mô hình TNTN cho thấy có thể làm

giảm đáng kể thời gian đánh giá trong các kỳ kiểm tra nhưng vẫn đảm bảo tính chính xác về

năng lực thí sinh so với phương pháp truyền thống. Mô hình TNTN mà chúng tôi đề xuất có

khả năng:

Đánh giá liên tục các thông số câu hỏi cho phép tìm kiếm câu hỏi phù hợp với năng lực

hiện tại của thí sinh một cách chính xác hơn, đồng thời dựa vào đó chúng ta có thể tiến

hành đánh giá lại các thông số câu hỏi nhằm đảm bảo cho quá trình trắc nghiệm được

tốt hơn;

Thích ứng liên tục với năng lực của mỗi thí sinh và khả năng tính toán nhanh chóng với

việc ứng dụng mô hình TNTN trên máy tính.

Hướng nghiên cứu tiếp theo của chúng tôi là hoàn thiện hệ thống TNTN, tiến hành thử

nghiệm, đánh giá, so sánh với các mô hình TNTN đã tồn tại và đưa hệ thống vào ứng dụng

trong thực tế.

Tài liệu tham khảo

1. Salma Parhizgar (2012). Testing and Technology: Past, Present and Future, Shiraz University, Shiraz, Iran. ISSN 1799-2591, pp. 174-178.

2. Adaptive testing algorithm design methods. Authors: Dang Hoai Phuong, Shabalina O.A., Kamaev V.A.. Pro-ceedings VSTU. Series "Actual problems of management, computer science and informatics in technical sys-tems". No: 4. Pages: 107-113. Year 2012.

3. Baker, F (2001). The Basics of Item Response Theory, University of Maryland, College Park, MD: ERIC Clear-inghouse on Assessment and Evaluation.

4. Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah NJ, Lawrence Erlbaum Associates.

5. Costa, D. R., Karino, C. A., Moura, F. A. S., & Andrade, D. F. (2009). A comparison of three methods of item selection for computerized adaptive testing. In D. J. Weiss (Ed.), Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing.

6. Chang, H.H., Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psy-chological Measurement, 20, 213.

7. Van Der Linden WJ (1998). Bayesian Item Selection Criteria for Adaptive Testing. Psychometrika, 63, 201–216.

8. Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah NJ, Lawrence Erlbaum Associates.

9. J. Rost. Logistic mixture models. In W. J. van der Linden and R. K. Hambleton, editors, Handbook of modern item response theory, pages 449–463. Springer, New York, 1997.

BUILDING ADAPTIVE TEST MODEL BASED ON THE ITEM

RESPONSE THEORY

Le Xuan Tai – Ph.D Đặng Hoài Phương

Danang University of Technology - Danang University


17

Abstract.

Currently, Objective test model is being used in Vietnam. However, objective test does

not really provide accurate result or equality due to several causes: randomly chosen

questions for a test are the reason of making that test too hard or too easy, so that it is boring

for the candidate to do all easy or difficult questions. Thus, it is significant to make a model

of adaptive test, at each time of testing in which, the candidates will answer questions that

are suitable for them.

Adaptive Test is model test evaluating the ability of candidates with the help of

computers. By using adaptive test, the number and order of questions are provided to each

candidate is different, depending on the current ability of candidate. Therefore, the

assessment of contes-tants will be more accurate and objective.

The article discussed and analyzed some avaiable adapting test models and systems as:

the adaptive test model uses the method of selecting questions based on the standard

maximum information (Maximum Information - MI), the adaptive test model uses the

method of selec-ting question based on the local information (Kullback-Leibler - KL), the

adaptive test model uses the method of selecting questions based on predictive analysis

(maximum expected information - MEI). The models above are effective in reducing the

number of required ques-tions for each test. However, those models do not satisfy a good

solution in choosing questions in accordance with the current ability of the contestants. In

order to solve the above disadvantage, the author proposes to build an adaptive test model

based on theory of response questions IRT (Item Response Theory) and build a system test

based on the proposed model.

Keywords: Objective test, Adaptive test, Item Response Theory, Selection Item Algorithm

Documents

XÂY DỰNG MÔ HÌNH TRẮC NGHIỆM THÍCH NGHI TRÊN …it.husc.edu.vn/Media/ChuyenMuc/KhoaHoc/Hoithao... · câu hỏi phù hợp với khả năng hiện tại của thí sinh