63
行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討 計 畫 類 別 :個別型 : NSC 100-2410-H-656-007- 執 行 期 間 : 100 年 10 月 01 日至 101 年 09 月 30 日 執 行 單 位 : 國家教育研究院測驗及評量研究中心 計 畫 主 持 人 : 吳慧 共 同 主 持 人 : 郭伯臣 計畫參與人員: 碩士班研究生-兼任助理人員:張育蓁 碩士班研究生-兼任助理人員:歐陽惠萍 博士班研究生-兼任助理人員:楊智為 博士班研究生-兼任助理人員:陳俊華 博士班研究生-兼任助理人員:鄭俊彥 博士班研究生-兼任助理人員:鄧青平 博士班研究生-兼任助理人員:曾彥鈞 其他-兼任助理人員:林姮君 報 告 附 件 : 出席國際會議研究心得報告及發表論文 公 開 資 訊 : 本計畫可公開查詢 中 華 民 國 101 年 12 月 28 日

行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

行政院國家科學委員會專題研究計畫 期末報告

認知診斷模式之測驗編製及適性測驗選題策略之探討

計 畫 類 別 個別型

計 畫 編 號 NSC 100-2410-H-656-007-

執 行 期 間 100年 10 月 01 日至 101年 09 月 30 日

執 行 單 位 國家教育研究院測驗及評量研究中心

計 畫主持人吳慧

共 同主持人郭伯臣

計畫參與人員碩士班研究生-兼任助理人員張育蓁

碩士班研究生-兼任助理人員歐陽惠萍

博士班研究生-兼任助理人員楊智為

博士班研究生-兼任助理人員陳俊華

博士班研究生-兼任助理人員鄭俊彥

博士班研究生-兼任助理人員鄧青平

博士班研究生-兼任助理人員曾彥鈞

其他-兼任助理人員林姮君

報 告 附 件 出席國際會議研究心得報告及發表論文

公 開 資 訊 本計畫可公開查詢

中 華 民 國 101年 12 月 28 日

中 文 摘 要 本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之

認知診斷測驗編製和成效分析認知診斷測驗常透過 Q矩陣

表徵試題和認知屬性之關係目前對於認知診斷測驗的研究

仍是以無結構性的 Q矩陣設計為主本計畫以知識結構為基

礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q矩陣設計中探討不同的 Q矩陣設計對

於認知診斷模式之影響模擬研究結果顯示無結構性 Q矩

陣時隨著 Q矩陣包含單一認知屬性試題的題數越多不同

認知診斷模式的猜測度與粗心度估計誤差均越小且受試者認

知屬性正確分類率的估計精準度越高對於結構性 Q矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估

計效果實證資料研究顯示結合專家知識結構之 Q矩陣設

計具有較佳的估計效果

中文關鍵詞 知識結構認知診斷測驗Q矩陣建構反應題

英 文 摘 要 This study is proposed for one-year period of

research implementation The project focuses on

developing cognitive diagnostic assessments combining

knowledge structures in the Q matrix designs and

evaluating its performance Implementation of the

cognitive diagnosis models requires construction of a

Q matrix to describe how the test items are related

to the attributes Many applications of cognitive

diagnosis are based on the assumption that attributes

are independent however it is more reasonable to

assume that attributes are dependent and follow some

type of structure in some application In this study

based on knowledge structure a cognitive diagnostic

assessment with both multiple choice and constructed

response items has be developed The effects of

different designs (independent and structured) on

cognitive diagnosis models were explored In the

simulation study under the independent Q matrix

designs with increasing of one-attribute items the

estimation errors on item and attribute parameters

decrease in diagnostic models under the structured

Q matrix designs the performance of attribute and

item estimation depended on different structured Q

matrix design With two types of the Q matrixes the

performance of the expert knowledge structure was

better than that of the student knowledge structure

In the empirical study with two types of the Q

matrixes the performance of the expert knowledge

structure was better than that of the student

knowledge structure

英文關鍵詞 cognitive diagnostic assessment knowledge structure

Q matrix

I

期中進度報告 行政院國家科學委員會補助專題研究計畫

期末報告

認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫類別個別型計畫 整合型計畫

計畫編號NSC 100-2410-H-656 -007 -

執行期間100 年 10 月 1 日至 101 年 9 月 30 日

執行機構及系所國家教育研究院測驗及評量研究中心

計畫主持人吳慧珉 助理研究員

共同主持人郭伯臣 教授

計畫參與人員楊智為 國立臺中教育大學 教育測驗統計所博士生

陳俊華 國立臺中教育大學 教育測驗統計所博士生

鄭俊彥 國立臺中教育大學 教育測驗統計所博士生

鄧青平 國立臺中教育大學 教育測驗統計所博士生

曾彥鈞 國立臺中教育大學 教育測驗統計所博士生

張育蓁 國立臺中教育大學 教育測驗統計所碩士生

歐陽惠萍國立臺中教育大學 教育測驗統計所碩士生

林姮君 國家教育研究院 測驗及評量研究中心助理

本計畫除繳交成果報告外另含下列出國報告共 _1_ 份

出席國際學術會議心得報告

處理方式除列管計畫及下列情形者外得立即公開查詢

涉及專利或其他智慧財產權一年二年後可公開查詢

中 華 民 國 101 年 12 月 20 日

I

目錄 目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅠ

表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅡ

圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅣ

中文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅤ

英文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅥ

壹前言helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip1

貳研究目的helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

參文獻探討helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

一認知診斷模式helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

二結合知識結構之 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

三大型測驗中建構反應題型與計分規則helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

肆研究方法helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

一研究流程helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

二研究步驟helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

伍結果與討論 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

參考文獻helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

II

表目錄 表 1 分數的減法認知屬性 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 2 「分數的減法」例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 3 表 2 例題之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 4 試題 j 與試題 k 之聯合邊際機率 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表 5 專家定義之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表6 可達矩陣R helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 7 認知屬性關聯試題矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 8 資料變項與估計方式彙整表 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

表 9 實驗 T1~T8 的 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

表 10 模擬變項設計 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表11 線型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表12 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表13 收斂型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表14 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表15 發散型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表16 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表 17 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

表 18 選擇題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 19 建構反應題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 20 認知屬性對應試題的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip20

表 21 結合專家知識結構的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip21

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)helliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

表23 實驗T1~T8的試題參數估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

表24 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

表 25 線型 Q矩陣實驗設計認知屬性估計和試題參數估計sg~uniform(00504)hellip30

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 30

表27 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 2: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

中 文 摘 要 本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之

認知診斷測驗編製和成效分析認知診斷測驗常透過 Q矩陣

表徵試題和認知屬性之關係目前對於認知診斷測驗的研究

仍是以無結構性的 Q矩陣設計為主本計畫以知識結構為基

礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q矩陣設計中探討不同的 Q矩陣設計對

於認知診斷模式之影響模擬研究結果顯示無結構性 Q矩

陣時隨著 Q矩陣包含單一認知屬性試題的題數越多不同

認知診斷模式的猜測度與粗心度估計誤差均越小且受試者認

知屬性正確分類率的估計精準度越高對於結構性 Q矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估

計效果實證資料研究顯示結合專家知識結構之 Q矩陣設

計具有較佳的估計效果

中文關鍵詞 知識結構認知診斷測驗Q矩陣建構反應題

英 文 摘 要 This study is proposed for one-year period of

research implementation The project focuses on

developing cognitive diagnostic assessments combining

knowledge structures in the Q matrix designs and

evaluating its performance Implementation of the

cognitive diagnosis models requires construction of a

Q matrix to describe how the test items are related

to the attributes Many applications of cognitive

diagnosis are based on the assumption that attributes

are independent however it is more reasonable to

assume that attributes are dependent and follow some

type of structure in some application In this study

based on knowledge structure a cognitive diagnostic

assessment with both multiple choice and constructed

response items has be developed The effects of

different designs (independent and structured) on

cognitive diagnosis models were explored In the

simulation study under the independent Q matrix

designs with increasing of one-attribute items the

estimation errors on item and attribute parameters

decrease in diagnostic models under the structured

Q matrix designs the performance of attribute and

item estimation depended on different structured Q

matrix design With two types of the Q matrixes the

performance of the expert knowledge structure was

better than that of the student knowledge structure

In the empirical study with two types of the Q

matrixes the performance of the expert knowledge

structure was better than that of the student

knowledge structure

英文關鍵詞 cognitive diagnostic assessment knowledge structure

Q matrix

I

期中進度報告 行政院國家科學委員會補助專題研究計畫

期末報告

認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫類別個別型計畫 整合型計畫

計畫編號NSC 100-2410-H-656 -007 -

執行期間100 年 10 月 1 日至 101 年 9 月 30 日

執行機構及系所國家教育研究院測驗及評量研究中心

計畫主持人吳慧珉 助理研究員

共同主持人郭伯臣 教授

計畫參與人員楊智為 國立臺中教育大學 教育測驗統計所博士生

陳俊華 國立臺中教育大學 教育測驗統計所博士生

鄭俊彥 國立臺中教育大學 教育測驗統計所博士生

鄧青平 國立臺中教育大學 教育測驗統計所博士生

曾彥鈞 國立臺中教育大學 教育測驗統計所博士生

張育蓁 國立臺中教育大學 教育測驗統計所碩士生

歐陽惠萍國立臺中教育大學 教育測驗統計所碩士生

林姮君 國家教育研究院 測驗及評量研究中心助理

本計畫除繳交成果報告外另含下列出國報告共 _1_ 份

出席國際學術會議心得報告

處理方式除列管計畫及下列情形者外得立即公開查詢

涉及專利或其他智慧財產權一年二年後可公開查詢

中 華 民 國 101 年 12 月 20 日

I

目錄 目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅠ

表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅡ

圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅣ

中文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅤ

英文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅥ

壹前言helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip1

貳研究目的helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

參文獻探討helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

一認知診斷模式helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

二結合知識結構之 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

三大型測驗中建構反應題型與計分規則helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

肆研究方法helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

一研究流程helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

二研究步驟helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

伍結果與討論 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

參考文獻helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

II

表目錄 表 1 分數的減法認知屬性 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 2 「分數的減法」例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 3 表 2 例題之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 4 試題 j 與試題 k 之聯合邊際機率 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表 5 專家定義之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表6 可達矩陣R helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 7 認知屬性關聯試題矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 8 資料變項與估計方式彙整表 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

表 9 實驗 T1~T8 的 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

表 10 模擬變項設計 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表11 線型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表12 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表13 收斂型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表14 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表15 發散型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表16 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表 17 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

表 18 選擇題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 19 建構反應題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 20 認知屬性對應試題的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip20

表 21 結合專家知識結構的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip21

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)helliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

表23 實驗T1~T8的試題參數估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

表24 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

表 25 線型 Q矩陣實驗設計認知屬性估計和試題參數估計sg~uniform(00504)hellip30

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 30

表27 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 3: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

In the empirical study with two types of the Q

matrixes the performance of the expert knowledge

structure was better than that of the student

knowledge structure

英文關鍵詞 cognitive diagnostic assessment knowledge structure

Q matrix

I

期中進度報告 行政院國家科學委員會補助專題研究計畫

期末報告

認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫類別個別型計畫 整合型計畫

計畫編號NSC 100-2410-H-656 -007 -

執行期間100 年 10 月 1 日至 101 年 9 月 30 日

執行機構及系所國家教育研究院測驗及評量研究中心

計畫主持人吳慧珉 助理研究員

共同主持人郭伯臣 教授

計畫參與人員楊智為 國立臺中教育大學 教育測驗統計所博士生

陳俊華 國立臺中教育大學 教育測驗統計所博士生

鄭俊彥 國立臺中教育大學 教育測驗統計所博士生

鄧青平 國立臺中教育大學 教育測驗統計所博士生

曾彥鈞 國立臺中教育大學 教育測驗統計所博士生

張育蓁 國立臺中教育大學 教育測驗統計所碩士生

歐陽惠萍國立臺中教育大學 教育測驗統計所碩士生

林姮君 國家教育研究院 測驗及評量研究中心助理

本計畫除繳交成果報告外另含下列出國報告共 _1_ 份

出席國際學術會議心得報告

處理方式除列管計畫及下列情形者外得立即公開查詢

涉及專利或其他智慧財產權一年二年後可公開查詢

中 華 民 國 101 年 12 月 20 日

I

目錄 目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅠ

表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅡ

圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅣ

中文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅤ

英文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅥ

壹前言helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip1

貳研究目的helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

參文獻探討helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

一認知診斷模式helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

二結合知識結構之 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

三大型測驗中建構反應題型與計分規則helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

肆研究方法helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

一研究流程helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

二研究步驟helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

伍結果與討論 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

參考文獻helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

II

表目錄 表 1 分數的減法認知屬性 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 2 「分數的減法」例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 3 表 2 例題之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 4 試題 j 與試題 k 之聯合邊際機率 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表 5 專家定義之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表6 可達矩陣R helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 7 認知屬性關聯試題矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 8 資料變項與估計方式彙整表 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

表 9 實驗 T1~T8 的 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

表 10 模擬變項設計 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表11 線型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表12 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表13 收斂型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表14 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表15 發散型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表16 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表 17 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

表 18 選擇題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 19 建構反應題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 20 認知屬性對應試題的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip20

表 21 結合專家知識結構的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip21

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)helliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

表23 實驗T1~T8的試題參數估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

表24 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

表 25 線型 Q矩陣實驗設計認知屬性估計和試題參數估計sg~uniform(00504)hellip30

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 30

表27 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 4: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

I

期中進度報告 行政院國家科學委員會補助專題研究計畫

期末報告

認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫類別個別型計畫 整合型計畫

計畫編號NSC 100-2410-H-656 -007 -

執行期間100 年 10 月 1 日至 101 年 9 月 30 日

執行機構及系所國家教育研究院測驗及評量研究中心

計畫主持人吳慧珉 助理研究員

共同主持人郭伯臣 教授

計畫參與人員楊智為 國立臺中教育大學 教育測驗統計所博士生

陳俊華 國立臺中教育大學 教育測驗統計所博士生

鄭俊彥 國立臺中教育大學 教育測驗統計所博士生

鄧青平 國立臺中教育大學 教育測驗統計所博士生

曾彥鈞 國立臺中教育大學 教育測驗統計所博士生

張育蓁 國立臺中教育大學 教育測驗統計所碩士生

歐陽惠萍國立臺中教育大學 教育測驗統計所碩士生

林姮君 國家教育研究院 測驗及評量研究中心助理

本計畫除繳交成果報告外另含下列出國報告共 _1_ 份

出席國際學術會議心得報告

處理方式除列管計畫及下列情形者外得立即公開查詢

涉及專利或其他智慧財產權一年二年後可公開查詢

中 華 民 國 101 年 12 月 20 日

I

目錄 目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅠ

表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅡ

圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅣ

中文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅤ

英文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅥ

壹前言helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip1

貳研究目的helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

參文獻探討helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

一認知診斷模式helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

二結合知識結構之 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

三大型測驗中建構反應題型與計分規則helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

肆研究方法helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

一研究流程helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

二研究步驟helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

伍結果與討論 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

參考文獻helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

II

表目錄 表 1 分數的減法認知屬性 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 2 「分數的減法」例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 3 表 2 例題之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 4 試題 j 與試題 k 之聯合邊際機率 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表 5 專家定義之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表6 可達矩陣R helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 7 認知屬性關聯試題矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 8 資料變項與估計方式彙整表 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

表 9 實驗 T1~T8 的 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

表 10 模擬變項設計 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表11 線型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表12 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表13 收斂型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表14 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表15 發散型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表16 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表 17 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

表 18 選擇題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 19 建構反應題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 20 認知屬性對應試題的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip20

表 21 結合專家知識結構的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip21

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)helliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

表23 實驗T1~T8的試題參數估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

表24 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

表 25 線型 Q矩陣實驗設計認知屬性估計和試題參數估計sg~uniform(00504)hellip30

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 30

表27 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 5: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

I

目錄 目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅠ

表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅡ

圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅣ

中文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅤ

英文摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipⅥ

壹前言helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip1

貳研究目的helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

參文獻探討helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

一認知診斷模式helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip2

二結合知識結構之 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

三大型測驗中建構反應題型與計分規則helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

肆研究方法helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

一研究流程helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

二研究步驟helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

伍結果與討論 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

參考文獻helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

II

表目錄 表 1 分數的減法認知屬性 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 2 「分數的減法」例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 3 表 2 例題之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 4 試題 j 與試題 k 之聯合邊際機率 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表 5 專家定義之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表6 可達矩陣R helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 7 認知屬性關聯試題矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 8 資料變項與估計方式彙整表 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

表 9 實驗 T1~T8 的 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

表 10 模擬變項設計 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表11 線型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表12 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表13 收斂型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表14 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表15 發散型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表16 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表 17 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

表 18 選擇題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 19 建構反應題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 20 認知屬性對應試題的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip20

表 21 結合專家知識結構的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip21

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)helliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

表23 實驗T1~T8的試題參數估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

表24 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

表 25 線型 Q矩陣實驗設計認知屬性估計和試題參數估計sg~uniform(00504)hellip30

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 30

表27 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 6: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

II

表目錄 表 1 分數的減法認知屬性 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 2 「分數的減法」例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 3 表 2 例題之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip3

表 4 試題 j 與試題 k 之聯合邊際機率 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表 5 專家定義之 Q矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip4

表6 可達矩陣R helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 7 認知屬性關聯試題矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

表 8 資料變項與估計方式彙整表 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip9

表 9 實驗 T1~T8 的 Q 矩陣設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

表 10 模擬變項設計 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表11 線型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip11

表12 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表13 收斂型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

表14 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表15 發散型Q矩陣helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表16 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

表 17 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15

表 18 選擇題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 19 建構反應題例題 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17

表 20 認知屬性對應試題的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip20

表 21 結合專家知識結構的 Q 矩陣 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip21

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)helliphelliphelliphelliphelliphelliphelliphelliphelliphellip22

表23 實驗T1~T8的試題參數估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

表24 線型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

表 25 線型 Q矩陣實驗設計認知屬性估計和試題參數估計sg~uniform(00504)hellip30

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 30

表27 收斂型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 7: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

III

表 28 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

表 29 收斂型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31

表30 發散型Q矩陣實驗設計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表 31 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(00504) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

表 32 發散型 Q矩陣實驗設計認知屬性估計和試題參數估計

sg~uniform(005025) helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip32

表33 因數與倍數認知屬性內容 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表() helliphelliphelliphelliphelliphelliphelliphelliphellip 33

表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip34

表 36 三種不同 Q矩陣設計辨識率比較()helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 8: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

IV

圖目錄 圖 1 學生試題順序結構helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5

圖 2 本計劃之研究流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip8

圖 3(a) 線型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(b) 收斂型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 3(c) 發散型 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10

圖 4 專家知識結構圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16

圖 5 G-DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

圖 6 DINA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

圖 7 DINO 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip25

圖 8 G-NIDA 模式之圖示helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip27

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip28

圖10 學生知識結構圖 helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 9: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

V

認知診斷模式之測驗編製及適性測驗選題策略之探討(I)

摘要

本研究是一年期計畫主要是探討結合知識結構及 Q矩陣之認知診斷測驗編製和成效分析認知

診斷測驗常透過 Q矩陣表徵試題和認知屬性之關係目前對於認知診斷測驗的研究仍是以無結構性的

Q 矩陣設計為主本計畫以知識結構為基礎編製包含選擇題和建構反應題型之認知診斷測驗將知識

結構之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響模擬研究結果

顯示無結構性 Q 矩陣時隨著 Q 矩陣包含單一認知屬性試題的題數越多不同認知診斷模式的猜

測度與粗心度估計誤差均越小且受試者認知屬性正確分類率的估計精準度越高對於結構性 Q 矩陣

需根據不同結構設計不同的形式試題方能得到較佳的估計效果實證資料研究顯示結合專家知

識結構之 Q 矩陣設計具有較佳的估計效果 關鍵字知識結構認知診斷測驗Q 矩陣建構反應題

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 10: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

VI

The research in developing assessments and adaptive item selection algorithms based on cognitive

diagnostic models (I) Abstract

This study is proposed for one-year period of research implementation The project focuses on developing cognitive diagnostic assessments combining knowledge structures in the Q matrix designs and evaluating its performance Implementation of the cognitive diagnosis models requires construction of a Q matrix to describe how the test items are related to the attributes Many applications of cognitive diagnosis are based on the assumption that attributes are independent however it is more reasonable to assume that attributes are dependent and follow some type of structure in some application In this study based on knowledge structure a cognitive diagnostic assessment with both multiple choice and constructed response items has be developed The effects of different designs (independent and structured) on cognitive diagnosis models were explored In the simulation study under the independent Q matrix designs with increasing of one-attribute items the estimation errors on item and attribute parameters decrease in diagnostic models under the structured Q matrix designs the performance of attribute and item estimation depended on different structured Q matrix design With two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure In the empirical study with two types of the Q matrixes the performance of the expert knowledge structure was better than that of the student knowledge structure

Key-words cognitive diagnostic assessment expert knowledge structure Q matrix

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 11: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

1

壹 前言 美國政府於 2002 年實施「沒有落後的孩子」(No Child Left Behind Act NCLB)法案包括規定各

州建立教育課責制度界定每年學生進步尺度實施 3 至 8 年級閱讀及數學測驗提供高素質教師以

及採用科學實證及有效的教育方法(李文欽2008)受此法案影響美國中小學教育開始進行積極的

改革旨在提高學校的績效表現及學童的學習能力與學術成就受到此一風潮之影響認知診斷模型

(cognitive diagnostic models CDMs)近年來在心理計量研究領域中備受重視相較於試題反應理論

(item response theory IRT)將受試者能力定義在一個連續的量尺上適合用於排序受試者認知診斷

模型更能針對受試者之特定能力如離散的技能(skills)或認知屬性(attributes)是否精熟(mastered)的狀

態以更有效的方式讓教師快速的獲得學生學習上的強項及弱點等的詳細訊息以利提升學習效果 (Huebner 2010)

在認知診斷模型的發展中對於技能或認知屬性等是如何地影響測驗的結果有許多不同的假設

而延伸出了許多種測量模式如 DINA 模型(deterministic input noisy ldquoand gate) (de la Torre2009a Junker amp Sijtsma 2001)NIDA 模型(noisy input deterministic ldquoand gate model)( Junker amp Sijtsma 2001)RUM 模型(reparametrized unified model) (Hartz 2002)DINO 模型(deterministic input noisy ldquoor gate model) (Templin amp Henson 2006)以及 G-DINA 模型( generalized DINA)( de la Torre 2011)等這些不同的認知診斷模式彼此之間是否具有關連性及各模式適用的情境為何國外已有許多學者

投注於此方面的研究如 Henson ampDouglas (2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)等但國內目前仍較少見這一方面之研究是屬於一新興之議題故本計畫

擬透過模擬實驗與實證資料探究不同認知診斷模式之適用情境嘗試找出較具強韌性之認知診斷模

式 使用認知診斷評量模式時須依據測驗目的建立所要評量的認知屬性再考量屬性的難易度與相

似程度組合成試題並藉由關聯矩陣(incidence matrix)通常以 Q 矩陣表示每個試題對應到的概念

(Tatsuoka 1985)施測者可藉由受試者的試題反應組型與 Q 矩陣推估受試者具備或缺乏哪些概念

進而據此瞭解受試者的學習狀況進行補救教學(de la Torre 2008)Q 矩陣在認知診斷測驗設計上

具有相當重要地位例如Rupp ampTemplin (2008)探究不正確使用或不適合的 Q 矩陣的結果de la Torre ( 2008)提出 Q 矩陣之驗證方法探究 Q 矩陣是否被正確界定對於參數估計之影響

目前對於認知診斷測驗的研究或編製仍是假設認知屬性間是獨立的為主然而從認知領域的觀

點認知屬性在某些情況下應被視為是彼此相依且依循某種結構是比較合理的(de la Torre 2010)根

據 Leighton Gierl amp Hunka (2004)的研究在認知屬性加上階層式的架構是合理的這樣在估計受試

者認知屬性時就可以減少屬性組合數de la Torre (2010)研究指出若認知屬性具有結構關係在進行

認知診斷分析時在先驗分布上加入屬性的階層關係可以降低認知屬性的誤診率(misclassification rate)然這些研究僅在估計受試者認知反應組型時在先驗分佈的設定上考慮認知屬性的階層關係

並未將認知屬性間的結構關係納入 Q 矩陣設計中Gagne(1977)提出知識結構(knowledge structure)定義概念之階層關係即要精熟某些概念之前需先精熟其先備概念Wu Kuo ampYang (2012 )以知

識結構為基礎編製國小數學科測驗顯示數學領域之學習概念具有階層性此研究利用知識結構之階

層性達到節省施測題數之目的本計畫以知識結構為基礎編製數學領域認知診斷測驗並將知識結構

之階層性納入 Q 矩陣設計中探討不同的 Q 矩陣設計對於認知診斷模式之影響 在認知診斷評量中選擇題型的計分客觀性及使用便利性成為最常使用的題型之一但和建構

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 12: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

2

式反應題(constructed-response)相比選擇題較容易受猜測因素影響(盧雪梅2009)現今一些大

型測驗如國家教育進展評量(National Assessment of Educational Progress NAEP)國際學生評量(The Programme for International Student Assessment PISA)及國際數理趨勢研究(The Trend in International Mathematics and Science Study TIMSS)除發展選擇題外也增加建構反應題(constructed-response)或實作測驗主要目的是希望獲得更多的資訊瞭解受試者的學習狀況(Allen Jenkins amp Schoeps 2004)本計畫將參考這些大型測驗建構反應題設計及計分方式編製包含選擇題型與建構反應題型

之認知診斷測驗透過分析解題歷程及面談診斷受試者認知屬性之有無除了作為實證資料之效標

外並嘗試利用建構反應題可以提供明確的診斷訊息之特性期望在受試者屬性狀態的估計上降低

模式估計的複雜度並提升估計的精準度

貳 研究目的 本研究原為一兩年期計畫審核時通過為一年期計畫第一年之研究目的條列如下

一探討不同認知診斷模式及適用情形 二以模擬研究探討不同認知診斷模型之成效

三探討結合知識結構與 Q 矩陣之認知診斷測驗編製方法

四結合選擇題與建構反應題之認知診斷模型成效分析 五以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

參 文獻探討

一認知診斷模式

在認知診斷模式中常需界定每道試題所具備的認知屬性Q 矩陣能提供這樣的功能(Tatsuoka 1985)以Q 矩陣為基礎進行診斷在 CDMs 中佔有不可或缺的重要性Q矩陣大小為 KJ times 其中

J 是試題數 K 是其認知屬性數矩陣元素第 j 列第 k 行 jkq 代表要答對試題 j 是否需具備認知

屬性 k 公式定義如下

⎩⎨⎧

=其他0

k知屬性假如答對試題j需要認1jkq (1)

以 de la torre (2009b)中的範例說明表 1 為分數的減法的認知屬性表 2 為測驗學生是否具備這

些認知屬性而設計的題目表 3 為例題之 Q 矩陣由表 3 可知解此題目需具備認知屬性 A1~A3

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 13: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

3

表 1 分數的減法認知屬性

表 2 「分數的減法」例題

=minus127

1242

(A) 1232 (B)

412 (C)

1291 (D)

431

表 3 表 2 例題之 Q 矩陣

A1 A2 A3 A4 A5

試題 1 1 1 1 0 0 目前已有許多認知診斷模式被開發且應用本研究將集中探討具有代表性的認知診斷模型包含

Junker amp Sijstma (2001)命名的兩個認知診斷模式DINA 模式和 NIDA 模式Hartz (2002)與 Hartz Roussos amp Stout (2002)提出的融合模式(fusion model)de la Torre amp Douglus (2004)提出的 HO-DINA模式(higher-order DINA model)Templin amp Henson (2006)提出的 DINO 模式de la Torre (2009b)提出的 MC-DINA 模式(multiple-choice DINA model)de la Torre (2011)提出的 G-DINA 模式等模式

的詳細介紹請參閱計畫書

二結合知識結構之 Q 矩陣設計 (一)順序理論

Airasian amp Bart (1973)提出順序理論(ordering theory OT)用以表示試題間的順序性理論介紹如

下 令 )( 21 JXXXX L= 表示一個向量包含 J 個二元試題成績變數每一個受試者作答 J 題得到一個 0

與 1 的向量 )( 21 JXXXX L= 之後兩試題 j 和 k 的聯合邊際機率如表 4

認知屬性 敘述

A1 從整數部分借 1

A2 基本分數減法

A3 化簡

A4 將整數與分數部分分開

A5 將整數變成分數

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 14: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

4

表 4 試題 j 與試題 k 之聯合邊際機率

試題 k 1=kX 0=kX 總和

1=jX )11( == kj XXP )01( == kj XXP )1( =jXP

0=jX )10( == kj XXP )00( == kj XXP )0( =jXP 試題 j

總和 )1( =kXP )0( =kXP 1

假設 )10( === kjjk XXPε 為試題 j 答錯而試題 k 答對的機率當 εε ltjk 時( ε 為一閾值設定

040020 lele ε )即表示試題 j 和試題 k 則有順序關係兩個試題的關係可標記為 kj XX rarr 也就是試

題 j 是試題 k 的下位試題 Wu Kuo ampYang (2012) 針對各種不同的知識結構包括 DiagnosysOTitem relational structure

theory(IRS)與專家結構比較估計成效研究結果發現在 OT 結構中樣本數大小對於預測精確性

的影響較小且 OT 結構比專家結構的預測精準度好利用具有階層性的知識結構可以快速有效的

評量學生的學習成效以 OT 結構為基礎的電腦化適性測驗是有效的評量模式 除了上述研究之外亦有多位學者運用 OT 演算法進行相關研究如曾彥鈞(2006)莊惠萍

(2007)林立敏(2007)劉育隆(2007)林婉星(2008)白曉珊(2008)汪端正(2008)莊銘

豪(2008)許曜瀚(2008)何秀芳(2009)卓淑瑜(2011)等都是將 OT 演算法運用在建立學

生試題結構因此本研究採用 OT 演算法分析學生試題結構並結合詮釋結構模式建立學生知識結構

(二)結合學生知識結構的Q矩陣

學者佐藤隆博(1979)提出詮釋結構模式劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及

OT 分析得到的學生試題結構互相結合建立學生知識結構演算法其研究結果顯示學生認知屬性

結構能夠比專家依照教學順序編製的專家知識結構更明確的呈現學生學習認知屬性的過程可做為

補救教學路徑本研究參考劉育隆(2012)提出建立學生概念結構演算法演算法則以範例說明如下 1專家定義的 Q 矩陣包含四個認知屬性五題試題矩陣中呈現專家認為要答對 1I 試題必須具

備 1A 要答對 2I 試題必須具備 1A 與 3A 兩個概念以此類推如表 5 所示

表 5 專家定義之 Q 矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 0 0 1 0 0

3A 0 1 0 1 0

4A 0 0 0 1 1 2利用順序理論建立學生的試題結構得到圖 1 學生試題順序結構及表 6 可達矩陣 R

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 15: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

5

圖 1 學生試題順序結構

表 6 可達矩陣 R

3利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI如表 7

本研究將此矩陣KI 定義為結合學生知識結構的 Q 矩陣

表 7 認知屬性關聯試題矩陣

試題

認知屬性 1I 2I 3I 4I 5I

1A 1 1 0 0 0

2A 1 1 1 0 0

3A 1 1 0 1 0

4A 1 1 0 1 1

三大型測驗中建構反應題型與計分規則

建構反應題即非選擇題旨在測量學生說明整合應用分析評估和傳達科學資訊的能力

(National Assessment Governing Board 2005)Linn amp Gronlund (2000)也認為建構反應試題能測量

學生運用思考解決問題組織統整和表達想法的能力即透過學生獨立思考自我批判組織整

1I 2I 3I 4I 5I

1I 0 0 0 0 0

2I 1 0 0 0 0

3I 1 1 0 0 0

4I 1 1 0 0 0

5I 1 1 0 1 0

I 1

I 2

I 4

I 5

I 3

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 16: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

6

合系統評鑑並呈現成果 國外已有大型測驗加入建構反應題型如國家教育進展評量(NAEP)國際學生評量(TPISA)

及國際數理趨勢研究(TIMSS)以下將列舉大型測驗其建構反應題題型範例及計分說明 (一) NAEP之建構反應題型與計分規則(Lee Grigg amp Dion 2007)

1題目

2計分說明 (1)延伸的正確顯示九種不同的方式並在第二部分回答〝是〞或〝不是〞且作適當的解釋 (2)良好的

a 顯示 7 或 8 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種不同的方式但在第二部份沒有做適當的解釋或做了不適當的解釋

(3)部分的顯示 4 ~ 6 種不同的方式但第二部份有或沒有適當的解釋 (4)最小的

a 顯示 1 ~ 3 種不同的方式但在第二部份有或沒有做適當的解釋 b 顯示 9 種方式但沒有清楚的定義

(5)錯誤的錯誤的反應 (二)PISA之建構反應題型與計分規則(OECD2005)

Jan 點心舖有三種不同的冰淇淋-香草巧克力和草莓並有三種冰淇淋盛裝的方式-盤裝甜

筒和一般捲筒現在有九個客人每一個人都可以選擇一種口味的冰淇淋和一種盛裝方式但是

他們九人的選擇組合都是不同的請你列出這九種不同的選擇組合 今天若有一個新的客人進來點心舖他的選擇會跟上面九種選擇組合不同嗎請你回答並說

明為什麼

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 17: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

7

1題目 2計分說明 (1)滿分

代號 217 格全對 (2)部分分數

a代號 11在 n=234 時均答對但 n=5 答錯一格或未作答 b代號 12n=5 中的數量均答對但在 n=23 或 4 中有一格錯或未作答

(3)零分【表格中有兩個或以上的錯誤】 a代號 01在 n=234 均答對但 n=5 兩個空格全錯 b代號 02其它答案

(4)代號 99沒有作答 (三)TIMSS之建構反應題型與計分規則(Mullis Michael Graham Christine Alka ampEbru 2007) 1題目

農夫將蘋果樹種在正方形的果園為了保護蘋果樹不怕風吹他在蘋果樹的周圍重針葉樹在

下圖裡你可以看到農夫所種植蘋果樹的列數(n)和蘋果樹數量及針葉樹數量的規律

問題請完成下表的空格 n 蘋果樹數 針葉樹數 1 1 8 2 4 3 4 5

每一小格的面積為1平方公分請依照現有的粗線條上面繼續完成使它圍出來的圖形面積為13平方公分

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 18: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

8

2計分說明 (1)正確回答

代號 10畫出的圖形面積為 13 平方公分 (2)不正確的回答

a代號 70誤將半格計算為一格 b代號 71直接畫出一條直線使這個圖形形成一個封閉的圖形 c代號 72圖形為一個對稱的圖形 d代號 73其他不正確的類型(包括擦掉刪掉或留下與本題無關的筆跡)

(3)沒有回答 代號 99空白 大型測驗中建構反應題型之計分規則是先歸納整理出受試者可能發生的反應組型再由專家歸

納類型並給予得分若受試者作答反應未包含於計分規則中的反應組型將判斷為其他作答反應

且不給予分數由上述範例觀察可知題目的設計若過於複雜可能出現的反應組型過多將增加計

分規則設計的困難 本研究將參考上述建構反應題設計及計分方式編製包含建構反應題型之認知診斷測驗透過分

析解題歷程及面談診斷受試者認知屬性之有無作為實證資料之效標外

肆 研究方法

一研究流程 本計畫第一年進行各種不同認知診斷模式文獻蒐集探討各種模式適用情境並探討結合知識結

構及 Q 矩陣之認知診斷測驗編製方法以國小數學「因數與倍數」為範例進行認知診斷測驗編製

同時以模擬計畫探討不同認知診斷模型於診斷測驗成效分析再以編製的測驗收集測驗資料以進行

實徵資料驗證模擬研究分析結果研究流程圖如圖 2 所示

圖 2 本計劃之研究流程圖

認知診斷模型

文獻探討

編製認知診斷測驗

並進行紙筆施測(含

建構反應題)

撰寫認知診斷模型估計

程式

認知診斷模型

模擬計畫比較成效

數學領域「因數與倍數」相關

內容文獻探討

模擬實驗設計

認知診斷模型實證計畫

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 19: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

9

二研究步驟 本研究將依研究目的詳細說明研究步驟

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模

式DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得本計畫使用文獻探究的方式探討不同的認知診斷模式之間的關係

目的二 以模擬研究探討不同認知診斷模型之成效 本計畫透過模擬研究探究不同的 Q 矩陣樣本數試題參數概念屬性個數測驗長度在不同

的認知診斷模式之分析成效研究設計主要分為無結構性 Q 矩陣和結構性 Q 矩陣之情境實驗設計

說明如下 (一) 無結構性 Q 矩陣設計

1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計本研究的實驗設計參考 de la Torre (2010)共有實驗 T1~T8每個實驗設計模擬資

料變項與估計方式如表 8 所示 表 8 資料變項與估計方式彙整表

變數 變項 Q 矩陣 30=J K =5

試題參數 10== jj gs j 為試題 受試者樣本數 N =1000 受試者能力 Alpha~Uniform(01)受試者每個概念精熟機率為 05 估計模型 DINAHO-DINAG-DINA 模擬次數 30 次

如表 9 所示實驗 T1 的 Q 矩陣包含 30 題單一概念試題實驗 T2 的 Q 矩陣包含 20 題單一概念

試題與 10 題 2 個概念試題實驗 T3 的 Q 矩陣包含 10 題單一概念試題與 20 題 2 個概念試題實驗

T4~T8 以此類推每個實驗的 Q 矩陣所設計的題型與該題型的題數皆能涵蓋該題型所有可能的概

念組型如實驗 T4 的題型二總共有 10 題其涵蓋 2 個概念的所有組型如(11000)(10100)hellip(00011)共 10 種題型三總共有 10 題其涵蓋 3 個概念的所有組型如(11100)(11010)hellip(00111)共 10 種目

的可以測量到受試者所有的概念組型(Rupp amp Templin 2008)

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 20: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

10

表 9 實驗 T1~T8 的 Q 矩陣設計 試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8

1 個概念(題型一) 30 20 10 10 10 10 2 個概念(題型二) 10 20 10 10 3 個概念(題型三) 10 10 10 10 4 個概念(題型四) 10 10 10 10 5 個概念(題型五) 10 10

(二) 結構性 Q矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討

實驗設計本研究根據 Leighton Gierl amp Hunka (2004) Gierl Leighton amp Hunka (2007)提出的結構

性 Q 矩陣共分成三種結構的 Q 矩陣線型收斂型發散型三種結構型 Q 矩陣(圖 3(a)(b)(c))每個實驗設計模擬資料變項與估計方式如表 10 所示

圖 3(a) 線型 圖 3(b) 收斂型 圖 3(c) 發散型

A1

A2 A3 A4

A5 A6 A7 A8 A9 A10

A1 A2 A3 A4 A5 A6

A7 A8 A9

A10 A5

A1

A2

A3

A4

A6

A7

A8

A9

A10

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 21: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

11

表 10 模擬變項設計 變數 變項

Q 矩陣 結構性(線型收斂型發散型) 樣本數 1000

)40050(~ Uniforms j )40050(~ Uniformg j j 為試題 試題參數

)250050(~ Uniforms j )250050(~ Uniformg j j 為試題

能力參數 )10(~ Uniformikα 概念屬性個數 10 測驗長度 1530

認知診斷模式 DINA 模擬次數 30 次

表 11 線型 Q矩陣

試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A101 個概念 1 0 0 0 0 0 0 0 0 0 2 個概念 1 1 0 0 0 0 0 0 0 0 3 個概念 1 1 1 0 0 0 0 0 0 0 4 個概念 1 1 1 1 0 0 0 0 0 0 5 個概念 1 1 1 1 1 0 0 0 0 0 6 個概念 1 1 1 1 1 1 0 0 0 0 7 個概念 1 1 1 1 1 1 1 0 0 0 8 個概念 1 1 1 1 1 1 1 1 0 0 9 個概念 1 1 1 1 1 1 1 1 1 0 10 個概念 1 1 1 1 1 1 1 1 1 1

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 22: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

12

表 12 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3

表 13 收斂型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

1 個概念

0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 3 個概念 0 0 0 0 1 1 0 0 1 0

10 個概念 1 1 1 1 1 1 1 1 1 1

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 23: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

13

表 14 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 15 發散型 Q 矩陣 試題的概念數 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

1 個概念 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 2 個概念 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 1 0

3 個概念

1 0 0 1 0 0 0 0 0 1

表 16 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 11 和表 12 為線型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含

1 個屬性(A1)15 題T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其

他依此類推表 13 和表 14 為收斂型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含

最下層只含 1 個概念的屬性(A1-A6)15 題T2 則是第二層(含 3 個概念)各 1 題最上層(10 個概念)也1 題其他 11 題都在最下層也就是最下層幾乎每個概念(A7-A9)都可以測到 2 題其他依此類推

表 15 和表 16 為發散型的 Q 矩陣和其實驗設計當中再分為 15 題和 30 題T1 僅包含最下層只含 1個屬性(A1)15 題 T2 包含全部屬性(A1-A10)各至少一題而且最下層只含 1 個屬性的多 5 題其他

依此類推 (三)評估指標

本研究模擬研究評估指標分為受試者認知屬性估計成效評估和試題參數估計成效評估認知屬性

估計成效評估是以模擬產生之受試者認知屬性當作真值與估計的受試者認知屬性進行比較使用單

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 24: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

14

一認知屬性的正確分類率(correct classification rates CCR)與整體認知屬性的正確分類率作為評估指

標試題參數估計成效評估是以模擬產生之試題參數當作真值與估計的試題參數進行比較計算平

均絕對誤差(mean absolute bias MAB)三種計算方式公式如下

1單一認知屬性的正確分類率

NK

nCCR

K

k

kc

times=sum=1

)(

其中N表示受試者總人數 K表示 Q 矩陣的認知屬性數 )(kcn 表示受試者在認知屬性 k 被正

確分類的數量

2整體認知屬性的正確分類率

N

DWCCR

N

iiisum

== 1)ˆ(

)(_αα

α 其中⎩⎨⎧

ne=

=αααα

ααˆ0ˆ1

)ˆ(i

iiii if

ifD

其中N表示受試者總人數 iα 表示受試者 i認知屬性狀態真值 iα 表示受試者 i認知屬性狀態

估計值

3試題參數估計誤差

sum=

minus=J

jjj ss

JMAB

1|ˆ|1

其中J表示試題總數 js 表示試題 j 真值 js 表示試題 j 估計值

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法

(一)結合知識結構及 Q 矩陣認知診斷測驗編製方法 本研究依據九年一貫數學能力指標「5-n-03 能理解因數倍數公因數與公倍數」分析五年級

因數與倍數單元所包含的認知屬性依照認知屬性編製ㄧ份診斷測驗經專家會議討論與修正後進

行施測專家由受試者在建構反應題的作答資料獲得部分認知屬性的判斷資訊其餘的認知屬性則藉

由選擇題的作答選項加上個別訪談藉以獲得專家判定受試者是否具備該試題所對應的認知屬性的資

料作為本研究之效標本研究依據能力指標分析出 13 個認知屬性編製診斷測驗試題共有 20 題選

擇題3 題建構反應題編製流程說明如下 1教材內容分析 根據分析各版本教材內容及參考文獻資料將五年級「因數與倍數」單元所包含的認知屬性整理

如表 17

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 25: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

15

表 17 因數與倍數認知屬性內容 認知屬性敘述 A1 從除法的結果中認識「因數」 A2 以幾的幾倍認識「倍數」 A3 以除法或乘法找出所有的因數 A4 以乘法或除法判別兩數的倍數關係 A5 認識 2 5 及 10 的倍數判別方法 A6 能利用因數解決生活情境中的問題 A7 列出兩數所有的因數兩數共同的因數稱為「公因數」

A8 能利用倍數解決生活情境中的問題 A9 列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍數

A10 利用甲的因數做為除數找出甲乙兩數的公因數 A11 能利用公因數解決生活情境中的問題 A12 能利用公倍數解決生活情境中的問題 A13 認識因數和倍數的關係

2編製專家知識結構圖

依照課程順序及認知屬性的階層性繪製知識結構圖再由專家會議討論結果如圖 3

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 26: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

16

圖 4 專家知識結構圖

【A13】認識因數

和倍數的關係

【A6】能利

用因數解

決生活情

境中的問

【A7】列出兩

數所有的因

數兩數共同

的因數稱為

「公因數」

【A10】利用甲的

因數做為除數找

出甲乙兩數的公

因數

【A11】能利

用公因數解

決生活情境

中的問題

【A3】以除法或乘法找出

所有的因數

【A1】從除法的結果中認

識「因數」

【A4】以乘法

或除法判別

兩數的倍數關

【A9】列出某

數的倍數數

列利用數列

找出兩數的公

倍數

【A8】能利

用倍數解

決生活情

境中的問

【A5】認識

25及 10 的

倍數判別方

【A12】能利用

公倍數解決生

活情境中的問

【A2】以幾的幾倍

認識「倍數」

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 27: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

17

3編製試題命題卡 本研究試題為自編試卷分析教材內容根據專家知識結構編寫命題卡命題範例如下 表 18 選擇題例題 表 19 建構反應題例題

4編製 Q 矩陣

本研究的測驗試題包含選擇題 20 題建構反應題 3 題認知屬性數共 13 個Q 矩陣的設計中「1」代表該題有測量到該認知屬性「0」則代表該題沒有測量到該認知屬性根據王文卿(2010)研究

結果不平衡的 Q 矩陣設計估計準確性較平衡的 Q 矩陣為佳當單一認知屬性對應到的題數較多

時可以提升該認知屬性的辨識率成效並且影響到之後的認知屬性辨識率故本研究的 Q 矩陣設

計是採用不平衡設計意即在測驗中每個認知屬性對應到的試題數總和是不相同的本研究設計的認

知屬性對應試題的 Q 矩陣如表 20

題目 ( )1請問 25 的全部因數有幾個( 1 3 5 無限多)個 選項 選項 1 選項 2 選項 3 選項 4

反應類型 【B9】認為任何

數的因數只有 1

【B2】沒有完全

看清題目就作

答認為題目在

問因數有哪些

【B4】不理解因

數或公因數的認

知屬性

缺乏的認

知屬性

【A3】以除法或

乘法找出所有的

因數

【A3】以除法或

乘法找出所有的

因數

【A1】從除法的

結果中認識「因

數」

題目 21糖果一大包不超過 50 顆4 顆裝一盒或 6 顆裝一盒都可以全部裝完

這一包糖果可能有幾顆請列出所有可能的答案

正確答案 (12243648)顆

反應類型

【B05】不理解倍數或公倍數的認知屬性 【B06】找所有因數或倍數時無法完整列出而有缺漏 【B10】使用錯誤的運算策略 【B11】認為公倍數只有兩數相乘的積只寫出 24 顆 【B15】忽略題目中數字範圍限制

缺 乏 的 認

知屬性

【A9】列出兩數的倍數數列認識「公倍數」利用數列找出兩數的公倍

數 【A12】解決公倍數的應用問題

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 28: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

18

表 20 認知屬性對應試題的 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 0 0 1 0 0 0 0 1 0 0 0 0 2

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 0 0 1 0 0 0 1 0 0 0 0 0 0 2

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 0 0 0 1 0 0 0 0 0 0 0 0 2

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item14 0 0 1 0 0 1 0 0 0 0 0 0 0 2

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item17 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item18 0 0 0 0 0 0 1 0 0 0 1 0 0 2

Item19 0 1 0 0 0 0 0 0 1 0 0 0 1 3

Item20 0 0 0 1 0 0 0 1 0 0 0 0 0 2

Item21 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 0 0 1 0 0 0 1 0 0 0 1 0 0 3 合計 6 6 6 5 2 2 5 2 6 2 2 3 2

(二)結合知識結構之 Q 矩陣設計

1結合專家知識結構之 Q 矩陣

結合專家知識結構之 Q 矩陣是以圖 4 之專家知識結構圖為基礎將該認知屬性的下位認知屬性也

納入試題中意即將認知屬性的上下位關係與 Q 矩陣結合編製結合專家知識結構的 Q 矩陣如表

21 所示

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 29: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

19

表 21 結合專家知識結構的 Q 矩陣

2結合學生知識結構之 Q 矩陣

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 0 0 0 0 0 0 0 0 0 0 0 0 1

Item2 0 1 0 0 0 0 0 0 0 0 0 0 0 1

Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3

Item5 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item6 1 0 1 0 0 0 1 0 0 0 0 0 0 3

Item7 0 1 0 1 0 0 0 0 0 0 0 0 0 2

Item8 0 1 0 0 1 0 0 0 1 0 0 0 0 3

Item9 1 1 0 0 1 0 0 0 0 0 0 0 0 3

Item10 1 1 0 0 0 0 0 0 0 0 0 0 1 3

Item11 0 0 0 0 0 0 1 0 0 1 0 0 0 2

Item12 0 0 0 0 0 0 0 0 1 0 0 1 0 2

Item13 1 0 1 0 0 0 1 0 0 1 0 0 0 4

Item14 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item15 1 0 1 0 0 0 0 0 0 0 0 0 0 2

Item16 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item17 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item18 1 0 1 0 0 0 1 0 0 0 1 0 0 4

Item19 1 1 0 1 0 0 0 0 1 0 0 0 1 5

Item20 0 1 0 1 0 0 0 1 0 0 0 0 0 3

Item21 0 1 0 1 0 0 0 0 1 0 0 1 0 4

Item22 1 0 1 0 0 1 0 0 0 0 0 0 0 3

Item23 1 0 1 0 0 0 1 0 0 0 1 0 0 4

合計 12 12 8 8 2 2 5 2 6 2 2 3 2

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 30: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

20

本計畫參考劉育隆(2012)將認知屬性對應試題的 Q 矩陣以及 OT 分析得到的學生試題結構互相

結合建立學生知識結構演算法說明如下 (1)專家定義 Q 矩陣 (2)利用順序理論建立學生的試題結構得到學生試題順序結構及可達矩陣 R (3)利用公式 )( IRQKI += 矩陣運算(布林加法代數)建立認知屬性關聯試題矩陣KI 本計畫

將此矩陣KI 定義為結合學生知識結構的 Q 矩陣 目的四 結合選擇題與建構反應題之認知診斷模型成效分析 (一)編製選擇題型和建構反應題型認知診斷測驗

本計畫將認知屬性融入試題選項中編製選擇題型和建構反應題型之認知診斷測驗命題卡範例

詳見目的三

(二)試卷施測收集作答反應資料

(三) 建構反應題及計分模式

在建構反應題題型的部分本計畫參考國際大型測驗之建構反應題設計題型和計分規則設計建

構反應題做為專家效標之判讀依據為節省篇幅僅列出第 21 題部分編碼計分模式第 21 題編碼

原則全對給 5分列式正確給 2分答案正確但有缺漏給 2分格式正確(找倍數或因數)給 1分(表

22)

表 22 本研究設計之建構反應題第 21 題之計分模式(部分)

0409 【A09】列出兩

數的倍數數列

認識「公倍

數」利用數列

找出兩數的公

倍數

【倍數寫錯】

6 的倍數612182430364248

4 的倍數4812162024283234404448

6 和 4 的公倍數 122448(缺 36)

【倍數缺漏】

6 的倍數612182430364248

4 的倍數48162024283236 404448

6 和 4 的公倍數 243648(缺 12)

【公倍數缺漏】

(1)6的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 122448(缺 36)

(2)6 的倍數612182430364248

4 的倍數4812162024283236 404448

6 和 4 的公倍數 243648(缺 12)

目的五 以實徵資料驗證目的三及目的四 所提出之認知診斷模型成效分析 (一)設計不同類型之 Q 矩陣

以專家會議編製之結合專家知識結構 Q矩陣目的三所發展之結合學生知識結構之 Q矩陣Q

矩陣作為不同類型之 Q矩陣

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 31: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

21

(二)專家效標之建立 根據分析建構反應題學生之解題歷程及個別訪談在本計畫中建構反應題分別為第 212223

題測驗內容包含找出所有的因數所有的公因數及限定範圍內的公倍數共包含 7 個認知屬性(A1A3A6A7A9A11A12)提供更多資訊作為專家判定學生是否擁有該認知屬性的效標並

減少判讀認知屬性的時間其餘在建構反應題中未測得的認知屬性則依照選擇題的作答情形進行判

斷若有學生在同一個認知屬性出現反應不一致的情形則進一步做個別晤談瞭解學生解題的過程

與方法藉以判斷學生是否具備該認知屬性

(三)評估準則 本計畫使用辨識率作為評估準則辨識率是指受試者的認知屬性狀態在認知診斷模式的估計是否

與專家判定的結果一致辨識率愈高其估計的結果愈準確專家在判定學生是否具有該試題所必須

的認知屬性時首先根據建構反應題的作答反應判定部分認知屬性的有無再根據個別晤談及選擇

題作答情形判定受試者認知屬性的有無 辨識率計算公式如下

模式診斷結果

Yes(1) No(0)

Yes(1) 11n 10n 專家判斷

No(0) 01n 00n

Nnn 0011 +=辨識率

其中 N 為樣本數 ijn 代表專家判斷為 i 且估計結果為 j 的事件總數如 11n 表示專家判斷受試者

具備認知屬性且 認知診斷模式判斷受試者亦具備認知屬性的事件總數

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 32: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

22

伍 結果與討論

以下將依研究目的詳細說明本計畫之研究結果

目的一 探討不同認知診斷模式及適用情形 目前已有許多不同的認知診斷模式被提出如本計畫在文獻探討中提及的 DINA 模式NIDA 模式

DINO 模式等這些模式之間的關係和其適用情境是一值得探究的議題Henson Templin amp Willse (2009)使用 log-linear model 重新定義不同的認知診斷模式清楚闡述認知診斷模式之間的關連性de la Torre(2011)提出 G-DINA 模式說明 DINA 模式DINO 模式NIDA 模式R-RUN 模式都可以透

過 G-DINA 模式重新表徵而得 (一)G-DINA 模式

假設一份題數 J 題診斷 K 個認知屬性的測驗受試者 i 在試題 j 的作答反應是 ijΧ認知反應組型

是 21 )( iKiiilj ααααα K== G-DINA 模式可以透過三種不同的連結函式(link function)呈現 三種

模式的差異在於 identity link 和 logit link 對於精熟認知屬性而答對的機率是一種「加(additive)」的效

果log link 模式是一種「乘(mutiplicative)」的效果假設有一試題需要兩個概念屬性在 G-DINA模式中受試者答對此題的機率模式可以圖 5 表示

(a) identity link

sum sum prodsum gt

minus

==+++=

1

11210 )( j j j

j

j K

kk

K K

k lkKjlklkjkkK

k lkjkjljP αδααδαδδα (1)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jδ 表示第 j 題試題的截距 jkδ

表示對 kα 的主要影響 jkkδ 表示對 kα 與 kα 交互的影響 12 jKjδ 由 kα 到 kα 的交互影響

(b) logit link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )]([logit j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjljP αλααλαλλα L (2)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jλ 表示第 j 題試題的截距 jkλ

表示對 kα 的主要影響 jkkλ 表示對 kα 與 kα 交互的影響 12 jKjλ 由 kα 到 kα 的交互影響

(c) log link

sum sum prodsum gt

minus

= ==+++=

1

1 11210 )(log j j j

j

j K

kk

K

k

K

k lkKjkkjkkK

k lkjkjijP ανααναννα L (3)

其中 ijα 是簡化的認知屬性組型第 j 題所需要的認知屬性試題 0jν 表示第 j 題試題的截距 jkν

表示對 kα 的主要影響 jkkν 表示對 kα 與 kα 交互的影響 12 jKjν 由 kα 到 kα 的交互影響

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 33: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

23

01

04

06

09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 5 G-DINA 模式之圖示

(二)DINA 模式 DINA 模式適用於二元計分題目的測驗進行認知診斷是屬於非補償性(non-compensatory)模式

即學生不具備某一認知屬性時無法藉由精熟其他認知屬性補償DINA 模式假設具備解該題目所需

之認知屬性時即能答對該題但是試題答對的機率會受到粗心(slip)及猜測(guess)兩個參數

的影響DINA 的模式表示如下

ijijjjij gsXP ηηα minusminus== 1)1()|1( (4)

其中 prodprod==

==K

k

qik

qkikij

jk

jk 11

ααη 01或=ijη 代表受試者是否完全具備解決試題所需具備的認知屬性

ikα 代表受試者 i 是否具備認知屬性 k jkq 表示認知屬性 k 與試題 j 是否有相關而粗心參數 s 和猜

測參數 g 的定義如下

)1|0( === ijijj XPs η

)0|1( === ijijj XPg η (5)

js 是受試者 i 完全具備解決試題 j 所需要的認知屬性( 1=ijη )卻受到粗心影響而答錯試題 j 的

機率 jg 是受試者 i 不完全具備解決試題 j 所需要的認知屬性( 0=ijη )卻猜對試題 j 的機率DINA

模式將學生分為兩類一種為掌握了作答所需具備的全部認知屬性另一類受試者為不完全具備全部

必需的認知屬性也就是說只要少了一個解題所需的認知屬性答對的機率將大大的降低如果受試

者答對該試題則歸屬於猜測答對的情形發生

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 34: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

24

DINA 模式可被重新表徵為式子(6)其中 lowastjK

1 是長度為 lowastjK 且元素均為 1 的向量當 G-DINA 中

0jδ 與 12 jKjδ 不為 0而其他 jkδ 與 jkkδ 均為 0 時 G-DINA 模式就可轉換成 DINA 模式從 G-DINA

的參數觀點 0jjg δ= 而 1201jKjjjs δδ +=minus 假設有一試題需要兩個概念屬性在 DINA 模式中受試者

答對此題的機率模式可以圖 6 表示

⎪⎩

⎪⎨⎧

=lowast

其他s-1

假如

j

lj

jKjlj

gP

1)(

pαα (6)

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 6 DINA 模式之圖示

(三)DINO 模式

Templin amp Henson (2006)提出的 DINO 模式與 DINA 模式很相似兩種模式皆假設試題答對的機

率會受到粗心(slip)及猜測(guess)兩個參數的影響不同的是對 ijη 的定義在 DINO 模式中所

使用的是 ijϖ 其定義如下

prod=

minusminus=K

k

qikij

jk

1

)1(1 αϖ (7)

1=ijϖ 代表受試者 i至少具備一個以上試題 j 所需的認知屬性反之 0=ijϖ 代表受試者 i不

具備任何一個試題 j 所需的認知屬性DINO 模式的答對機率函數表示如下

)()1()|1( 1sdot

minus equivminus== ijjjij PgsgsXP ijij αα ϖϖ (8)

DINO 模式一樣將學生分為兩類一種為掌握了至少一個作答所需具備的認知屬性另一類受試

者則是完全沒有掌握任何一個作答所需的認知屬性只有在完全不具備任何一個解題所需的認知屬性

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 35: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

25

時正答的機率才歸納於猜測的情形

DINO 模式可被重新表徵為式子(9)其中 lowastjK

0 是長度為 lowastjK 且元素均為 0的向量當

121

)1(j

jKj

Kkjkjk L

L δδδ +minus==minus= 其中 kk111 jjj KKkKk LLL gtminus== 且 G-DINA 模式就可轉換成

DINO 模式從 G-DINA 的參數觀點 0

jjg δ= 而 jkjjs δδ +=minus 01 假設有一試題需要兩個概念屬性

在 DINO 模式中受試者答對此題的機率模式可以圖 3 表示

⎪⎩

⎪⎨⎧ =

=lowast

其他s-1

假如

j

lj

jKj

lj

gP

0)(

α

α (9)

01

09 09 09

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 7 DINO 模式之圖示

(四)NIDARUM 與 RRUM Junker amp Sijstma (2001)提出 NIDA 與 DINA 模式DINA 模式將受試者分為完全掌握認知屬性與

非完全掌握但在現實測驗情境中受試者僅缺少一個認知屬性應該比缺少多個認知屬性的具有更

高的答對率這也是 NIDA 模式的設計理念其公式表示如下

prod prod= =

minusminus====K

k

K

k

Qkkjkikijkij

jkikik gsQPgsXP1 1

1 ])1[()|1()|1( αααηα (10)

其中 1=ijkη 代表受試者能將認知屬性 k 正確的應用於解決試題反之則為 0NIDA 模式也定義了

粗心與猜測的參數但與 DINA 不同之處在於這兩個參數是定義在認知屬性上其定義如下

)11|0( ==== jkikijkk QPs αη (11)

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 36: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

26

)10|1( ==== jkikijkk QPg αη

ks 表示試題 j 需要掌握認知屬性 k而受試者具備認知屬性 k 卻粗心答錯試題的機率

)10|1( ==== jkikijkk QPg αη 表示試題 j 需要掌握認知屬性 k而受試者不具備認知屬性 k 卻猜對試題的

機率

Maris (1999)延伸 NIDA 模式將 s 與 g 參數的定義橫跨了試題其公式表示如下

prod=

minusminus==K

k

Qjkjkij

jkikik gsgsXP1

1 ])1[()|1( ααα (12)

DiBelloStout amp Roussos (1995)提出的統一模式(unified model)可視為是 NIDA 模式的另一種

延伸其使用一個連續的潛在變量 iθ 結合條件機率模式來解決 Q 矩陣中不小心遺漏的認知屬性

但此模式會有無法辨識(unidentifiable)的問題因此Hartz (2002)提出一個簡化參數的統一模式

(reparameterized unified modelRUM)其公式表示如下

prod=

minus==K

kic

Qjkjiiij j

jkik PrXP1

)1( )()()|1( θπθα α (13)

其中 sum=

minus=K

k

Qjkj

jks1

)1(π 為掌握試題 j 所需的認知屬性且答對的機率jk

jkjk s

gr

minus=

1 為懲罰參數當

未掌握試題 j 所需的認知屬性 k 時減少答對試題 j 機率的比例 )( ic jP θ 是 Rasch 模式和難度參數 jc

iθ 為測量受試者 i 未在 Q 矩陣內定義的知識 Hartz (2002)將此模式代入高階層貝氏模式中並使用 MCMC 方法來估計稱為 Fusion 模式 然而應用在認知診斷模式時有些學者會使用 Reduced RUM(RRUM)來代替 RUM也就是

將 RUM 中的連續潛在能力參數省略假設 Q 矩陣的設定是完整的並未遺漏任何一個認知屬性

(Templin Henson Templin amp Roussos 2004 Henson Roussos Douglas amp He 2008)其公式表示如下

prod=

minus==K

k

qjkjiiij

jkikrXP1

)1( )()|1( απθα (14)

NIDA 模式可以被直接擴張為一般化的 NIDA 模式(generalized NIDAG-NIDA)公式如下

prod prodprod= ==

minus minustimes=minus=

1 11

)1( )1

()1()(j j

lk

j

lklk

K

k

K

k jk

jkjk

K

kjkjklj g

sgsgP αααα (15)

將式子取 log且設定 sum=

=

10

jK

kjkj gν 和 ])1log[( jkjkjk gsminus=ν G-NIDA 模式就可以 log link 的 G-DINA 模

式重新表徵只是沒有交互作用的參數(式子 16)假設有一試題需要兩個概念屬性在 G-NIDA 模式

中受試者答對此題的機率模式可以圖 4表示

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 37: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

27

sum sumsum= ==

+=minus

+=

1 10

1

)1

log()](log[j Jj K

k

K

klkjkj

jk

jklk

K

kjklj g

sgP ανναα (16)

006

016

027

072

0

025

05

075

1

00 10 01 11

受試者反應組型

答對

機率

圖 8 G-NIDA 模式之圖示

目的二 以模擬研究探討不同認知診斷模型之成效

(一)無結構性 Q 矩陣設計 1 研究目的不同認知診斷模型於不同的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二

3 研究結果 (1)認知屬性估計成效

由圖 9 結果得知單一認知屬性題數較多的 Q 矩陣如實驗 T1T2 的 Q 矩陣在 DINA 模型

HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估

計都有較高的精準度在實驗 T3~T6隨著 Q 矩陣中測量較多認知屬性的試題如題型二三四

五的題數越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對認知屬性正確分類率與組型正確

分類率的估計精準度越低實驗 T7T8 的 Q 矩陣沒有包含單一認知屬性試題其對認知屬性正確分

類率與組型正確分類率的估計精準度明顯降低(陳俊華吳慧珉郭伯臣2012)

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 38: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

28

000

010

020

030

040

050

060

070

080

090

100

T1 T2 T3 T4 T5 T6 T7 T8

attr_DINA

attr_HO-DINA

attr_G-DINA

patt_DINA

patt_HO-DINA

patt_G-DINA

圖 9 DINAHO-DINAG-DINA 模型的正確分類率估計

(2)試題參數估計成效 表 23 為實驗 T1~T8 的試題參數估計結果由估計結果得知DINA 模型的猜測度估計誤差範圍

大約在 0002~0003HO-DINA 模型的猜測度估計誤差範圍大約在 0002~00035G-DINA 模型的猜

測度估計誤差範圍大約在 0003~0015實驗 T7T8 在 G-DINA 模型下猜測度估計誤差值分別為

00054 與 00143明顯比 DINAHO-DINA 模型的猜測度估計誤差值來得大試題參數粗心度在 DINA模型HO-DINA 模型G-DINA 模型下的估計誤差範圍大約在 0002~0006不同模型的粗心度估計

結果均一致(陳俊華吳慧珉郭伯臣2012) 表 23 實驗 T1~T8 的試題參數估計

T1 T2 T3 T4 T5 T6 T7 T8 MAB(g) DINA 00020 00029 00017 00018 00022 00026 00020 00026

HODINA 00022 00023 00019 00021 00025 00025 00020 00035 GDINA 00024 00027 00016 00021 00015 00017 00054 00143

MAB(s) DINA 00019 00021 00031 00032 00041 00047 00047 00057 HODINA 00019 00021 00032 00036 00041 00052 00048 00061 GDINA 00019 00021 00031 00033 00044 00053 00047 00063

(3)結論

實驗結果顯示隨著 Q 矩陣包含單一認知屬性試題的題數越多不同模型下的猜測度與粗心度

估計誤差均越小Q 矩陣沒有包含單一認知屬性試題對 DINA 模型HO-DINA 模型的猜測度估計影

響不大但是對 G-DINA 模型的猜測度估計有明顯的影響Q 矩陣中測量認知屬性數越少的試題題數

越多在 DINA 模型HO-DINA 模型與 G-DINA 模型下對正確分類率的估計精準度越高對試題

參數的估計誤差越小其中以單一認知屬性試題對模型的估計影響最大實驗 T1T2 的實驗結果顯

示Q 矩陣包含單一認知屬性試題的題數達 20 題以上對認知屬性正確分類率與組型正確分類率的

估計結果相似本研究建議 Q 矩陣設計時單一認知屬性試題題數越多越好未來研究可以探討較

多認知屬性數如 10 個摡念不同試題參數設定不同受試者能力分布如常態偏態雙峰本研究

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 39: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

29

設計的 Q 矩陣設計每種題型均涵蓋所有組型未來可以探討在某些認知屬性組型不存在的測驗情

境下Q 矩陣設計對不同認知診斷模式的估計影響(陳俊華吳慧珉郭伯臣2012)

(二)結構性 Q 矩陣設計 1 研究目的不同結構的 Q 矩陣設計之估計成效探討 2 實驗設計請參閱研究方法之目的二 3 研究結果

(1)認知屬性估計和試題參數估計成效 表 24 到表 32 分別為線型 Q 矩陣收斂型 Q 矩陣和發散型 Q 矩陣的實驗設計以及認知屬性估計

試題參數估計結果由表 25 到表 26 可知在線型結構下試題參數 sg~uniform(00504) 時15 題

以 T4 的組合有較高的認知屬性正確分類率(attr-ccr)以 T5 的組合有較高的組型正確分類率

(patt-ccr)而 30 題則是以 T10 的組合有較高的認知屬性正確分類率(attr-ccr)和組型正確分類率

(patt-ccr)sg~uniform(005025)15 題以 T4 的組合30 題以 T10 的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度從表 28 到表 29 可知在收斂型結構下不論

試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T2 的組合30 題以 T7 的組合認

知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度再從表 31 到表 32可知不論試題參數 sg~uniform(00504)或是 sg~uniform(005025)15 題以 T3 的組合30 題以 T8的組合認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)的估計有較高的精準度 在試題參數估計結果部份從表 25 到表 26 可知在線型結構下15 題的猜測度估計均以 T7 最

小 T4 最大sg~uniform(00504)時範圍介於 00016~00063sg~uniform(005025) 時範圍介於

00020~0005230 題的猜測度估計差距較小範圍介於 00023~00036粗心參數部分15 題均以

T1 最小T2T3 最大sg~uniform(00504)時範圍介於 00020~00132sg~uniform(005025) 時範

圍介於 00010~0008230 題的粗心度估計差距較小均以 T10 最小範圍介於 00032~00065 而由表 28 和表 29 可知在收歛型結構下15 題的猜測度估計均以 T1 最小 T5 最大

sg~uniform(00504)時範圍介於 00103~00964sg~uniform(005025) 時範圍介於 00053~0058630 題的猜測度估計均以 T6T7 最小T10 最大範圍介於 00021~00487粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00055~00327sg~uniform(005025) 時範圍

介於 00021~0019430 題的粗心度估計差距較小以 T6 最小T9T10 最大範圍介於 00045~00092 從表 31 和表 32 可知在發散型結構下15 題的猜測度估計均以 T1 最小 T4 最大

sg~uniform(00504)時範圍介於 00069~00514sg~uniform(005025) 時範圍介於 00035~00411 30 題的粗心度估計差距較小以 T8 最小T6 最大範圍介於 00030~00070粗心參數部分15 題均

以 T1 最小T2 最大sg~uniform(00504)時範圍介於 00019~00988sg~uniform(005025) 時範圍

介於 00020~0062230 題的粗心度估計差距較小以 T6 最小T7 最大sg~uniform(00504)時範圍

介於 00029~00228sg~uniform(005025) 時範圍介於 00024~00081

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 40: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

30

表 24 線型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1) 15 6 2 1 1 1 0 1 2 3 2 個概念(A2) 0 1 2 1 1 1 0 1 2 3 3 個概念(A3) 0 1 2 1 1 1 0 1 2 3 4 個概念(A4) 0 1 2 1 1 1 0 1 2 3 5 個概念(A5) 0 1 2 1 1 1 0 1 2 3 6 個概念(A6) 0 1 1 1 2 1 0 1 2 3 7 個概念(A7) 0 1 1 1 2 1 0 1 2 3 8 個概念(A8) 0 1 1 2 2 1 0 1 2 3 9 個概念(A9) 0 1 1 3 2 1 0 1 2 3

10 個概念(A10) 0 1 1 3 2 6 15 21 12 3 表 25 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504)

題數 attr-ccr patt-ccr g-mab s-mab T1 05494 01330 00063 00020

T2 07807 02395 00052 00132

T3 08066 02553 00053 00126

T4 08189 03195 00054 00055

T5 08230 02988 00052 00063

T6 07987 02894 00053 00058

T7

15

05860 01763 00016 00071

T8 08102 03200 00036 00065

T9 08762 04021 00031 00046

T10 30

09100 04789 00035 00037

表 26 線型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05498 01360 00046 00010

T2 08668 03978 00033 00082

T3 08760 04054 00034 00078

T4 09053 05120 00052 00049

T5 08962 04383 00049 00055

T6 08826 04457 00050 00047

T7

15

05904 01839 00020 00062

T8 08877 04622 00036 00056

T9 09255 05349 00029 00039

T10 30

09497 06621 00023 00032

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 41: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

31

表 27 收斂型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 T9 T101 個概念(A1-A6) 15 11 9 6 6 24 18 18 12 6 3 個概念(A7-A9) 0 3 3 6 3 3 9 6 6 6 10 個概念(A10) 0 1 3 3 6 3 3 6 12 18

表 28 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 07233 01989 00103 00055

T2 07992 01502 00346 00327

T3 07249 00616 00596 00145

T4 07339 00615 00950 00121

T5

15

07149 00627 00964 00082

T6 07898 00709 00032 00057

T7 08332 01018 00052 00055

T8 08098 00816 00051 00063

T9 07919 00920 00098 00086

T10

30

07414 00713 00487 00092

表 29 收斂型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 07581 02755 00053 00021

T2 08797 03085 00162 00194

T3 08000 00893 00325 00072

T4 08083 01006 00580 00059

T5

15

07796 00620 00586 00091

T6 08574 01757 00021 00045

T7 08913 02358 00029 00050

T8 08705 01869 00029 00051

T9 08620 02021 00049 00083

T10

30

08354 01878 00300 00074

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 42: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

32

表 30 發散型 Q 矩陣實驗設計 15 30 題數

試題的概念數 T1 T2 T3 T4 T5 T6 T7 T8 1 個概念(A1) 15 6 3 1 0 30 10 3

2 個概念(A2-A4) 0 3 6 3 0 0 10 9 3 個概念(A5-A10) 0 6 6 11 15 0 10 18

表 31 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(00504) 題數 attr-ccr patt-ccr g-mab s-mab

T1 05554 00725 00069 00019

T2 08321 02037 00248 00988

T3 08755 03095 00216 00961

T4 08422 02350 00514 00452

T5

15

07362 01272 00443 00777

T6 06670 01841 00070 00029

T7 09138 04458 00060 00228

T8 30

09315 05397 00053 00108

表 32 發散型 Q 矩陣實驗設計認知屬性估計和試題參數估計 sg~uniform(005025)

題數 attr-ccr patt-ccr g-mab s-mab T1 05619 00749 00035 00020

T2 08804 03294 00163 00622

T3 09170 04805 00095 00435

T4 09086 04366 00411 00216

T5

15

08012 02687 00154 00620

T6 06665 02203 00031 00024

T7 09531 06496 00031 00081

T8 30

09694 07598 00030 00072

(2)結論 由前面結果顯示在無結構的 Q 矩陣下單一認知屬性試題能有效提高估計精準度但根據以

上實驗結果顯示在結構性的 Q 矩陣下根據不同的結構會有不同的結果線型結構時因為最

上層的屬性 A10 包含了以下 A1-A9 的屬性因此在題數不足的情況下每一個屬性都各測 1 次後

再來以 A10 最上層的試題優先選擇以此往下在題數較充足的情況下則是每個屬性各測 3 次

在收斂型結構時雖然 A10 也包含了 A1-A9 的屬性但是因為最下層的單一認知屬性有 6 個能提

供的訊息比 A10 多因此在題數不足的情況下每個屬性都各測一次以後再來以單一認知屬性的

試題為優先選擇以此類推在題數較充足的情況下則是每個屬性各測 3 次最後在發散型結構時

因為最上層的屬性並未包含所有屬性所以仍是以單一認知屬性試題為優先選擇在題數較充足的情

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 43: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

33

況下每個屬性仍是各測 3 次 另外由研究結果可以發現以同樣 30 題且 sg~uniform(005025)的情況下比較三種結構線型的

認知屬性正確分類率(attr-ccr)與組型正確分類率(patt-ccr)分別為09497和06621收斂型的則是08913和 02358發散型的為 09694 和 07598以發散型的估計精準度較高收斂型的則是偏低建議收

斂型結構的試題必須大於 30 題才能達到 09 以上 本研究建議結構型 Q 矩陣設計試題時根據不同結構設計不同的試題線型以最上層屬性優

先選擇收斂和發散型則是以單一認知屬性為優先選擇未來研究可探討當收歛和發散的結構大於三

層以上時當題數大於 30 題或概念屬性大於 10 個不同認知診斷模式或不同參數設定最後結構

若是混合型時對估計的影響

目的三 探討結合知識結構及 Q 矩陣認知診斷測驗編製方法 本計畫選定國小五年級因數與倍數單元依據能力指標分析出 13 個認知屬性編製診斷測驗試

題共有 20 題選擇題3 題建構反應題共計 23 題單元的認知屬性和相對應的題目整理如表 33 表 33 因數與倍數認知屬性內容

認知屬性敘述 對應題號 A1 從除法的結果中認識「因數」 159101522 A2 以幾的幾倍認識「倍數」 23781019 A3 以除法或乘法找出所有的因數 5614152223 A4 以乘法或除法判別兩數的倍數關係 3471620 A5 認識 2 5 及 10 的倍數判別方法 89 A6 能利用因數解決生活情境中的問題 1422 A7 列出兩數所有的因數兩數共同的因數稱為「公因

數」 611131823

A8 能利用倍數解決生活情境中的問題 1620 A9 列出兩數的倍數數列認識「公倍數」利用數列找

出兩數的公倍數 4812171921

A10 利用甲的因數做為除數找出甲乙兩數的公因數 1113 A11 能利用公因數解決生活情境中的問題 1823 A12 能利用公倍數解決生活情境中的問題 121721 A13 認識因數和倍數的關係 1019

目的四 結合選擇題與建構反應題之認知診斷模型成效分析

本計畫首先使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣進行 DINA 模式

分析估計成效如表 34 表 34 不同閾值設定的學生知識結構 Q 矩陣估計成效表()

閾值設定 005 004 003 002 001 0001

平均 7248 8364 8273 8359 8359 8278

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 44: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

34

由表 34 結果顯示使用不同閾值設定的 OT 演算法得到結合學生知識結構的 Q 矩陣在 DINA模式分析時認知屬性的辨識率並沒有隨著閾值設定越嚴格而越高因此本計畫僅以平均辨識率的高

低作為選擇的標準使用閾值設定 004 所得結合學生知識結構與 Q 矩陣結合成為結合學生知識結

構的 Q 矩陣如表 35 根據表 35 可建立學生知識結構圖(圖 10)從圖 10 的學生知識結構圖中可發現與因數相關的認

知屬性(A1A3A6)成為倍數(A2A4A9)的上位認知屬性表示學生普遍認為因數比倍數困難

與先前的計畫結果符合同時發現學生知識結構圖中出現與專家知識結構的順序不同之處學生知識

結構圖中公倍數(A12)成為倍數(A8)的下位認知屬性公因數(A7A10)也成為因數(A1A3A6)的下位認知屬性(吳慧珉張育蓁林宏昇列印中)如圖 10 所示 表 35 結合學生知識結構的 Q 矩陣(閾值設定 004)

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 合計

Item1 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item2 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item3 0 1 0 1 0 0 0 0 0 0 0 0 0 2Item4 0 1 0 1 0 0 0 0 1 0 0 0 0 3Item5 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item6 0 1 1 1 1 0 1 0 1 1 0 0 0 7Item7 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item8 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item9 1 1 0 1 1 0 1 0 1 1 0 0 0 7Item10 1 1 0 1 1 0 1 0 1 1 0 0 1 8Item11 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item12 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item13 0 1 0 1 1 0 1 0 1 1 0 0 0 6Item14 0 1 1 1 1 1 1 0 1 1 0 0 0 8Item15 1 1 1 1 1 0 1 0 1 1 0 0 0 8Item16 0 1 0 1 1 0 1 1 1 1 0 0 0 7Item17 0 1 0 1 1 0 1 0 1 1 0 1 0 7Item18 0 1 0 1 1 0 1 1 1 1 1 1 0 9Item19 0 1 0 1 1 0 1 0 1 1 0 1 1 8Item20 0 1 0 1 1 0 1 1 1 1 0 1 0 8Item21 1 1 0 1 1 0 1 1 1 1 0 1 0 9Item22 1 1 1 1 1 1 1 1 1 1 0 1 0 11Item23 0 1 1 1 1 0 1 0 1 1 1 1 0 9合計 7 23 6 23 21 2 21 5 22 21 2 8 2

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 45: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

35

圖10 學生知識結構圖

A5 認識 2 5 及 10

的倍數判別方法

A2 以幾的幾倍

認識「倍數」

A4 以乘法或除法判

別兩數的倍數關係

A9 列出兩數的倍數數列認識「公倍

數」利用數列找出兩數的公倍數

A10利用甲的因數做

為除數找出甲乙兩

數的公因數

A12 能利用公倍數解

決生活情境中的問題

A1 從除法的結果中認

識「因數」

A3 以除法或乘法找出

所有的因數

A6 能利用因數解決生

活情境中的問題

A8 能利用倍數解決生

活情境中的問題

A11 能利用公因數解

決生活情境中的問題

A13 認識因數和倍

數的關係

A7 列出兩數所有的

因數兩數共同的因

數稱為「公因數」

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 46: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

36

目的五 以實徵資料驗證目的三和目的四 之認知診斷模型成效分析

在 DINA 模式下三種不同的 Q 矩陣設計即試題對應認知屬性的 Q 矩陣結合專家知識結構

的 Q 矩陣與結合學生知識結構的 Q 矩陣認知屬性辨識率比較結果如表 36

表 36 三種不同 Q 矩陣設計辨識率比較()

Q 矩陣 結合專家知識結構

Q 矩陣 結合學生知識結構

Q 矩陣 A1 84 88 81 A2 83 84 82 A3 86 88 84 A4 80 83 82 A5 91 95 87 A6 80 82 76 A7 80 80 82 A8 79 82 92 A9 81 82 80 A10 91 93 96 A11 82 85 85 A12 74 77 73 A13 86 94 88 平均 83 86 84

註陰影表示最高之診斷辨識率

由上表可得Q 矩陣的辨識率介於 74~91全部認知屬性的平均辨識率為 83結合專家知

識結構的 Q 矩陣辨識率介於 77~95全部認知屬性的平均辨識率為 86結合學生知識結構的

Q 矩陣辨識率介於 73~96全部認知屬性的平均辨識率為 84 比較 Q 矩陣與結合專家知識結構的 Q 矩陣辨識率發現結合專家知識結構的 Q 矩陣在全部 13

個認知屬性的辨識率都高於 Q 矩陣可能原因為結合專家知識結構的 Q 矩陣能提供較多的判讀資

訊經過 DINA 模式的分析後與專家判定的結果較有一致性因此認知屬性的辨識率較高 比較 Q 矩陣與結合學生知識結構的 Q 矩陣辨識率發現結合學生知識結構的 Q 矩陣有 6 個認知

屬性的辨識率高於 Q 矩陣尤其學生知識結構中較上位的認知屬性(A7A8A10A11)差異較

明顯而且以平均辨識率比較結合學生知識結構的 Q 矩陣平均辨識率較高可能原因為結合學

生知識結構的 Q 矩陣中由於加入認知屬性的難易程度因此提供判讀的資訊較多而且上位的認

知屬性對學生而言較為困難經過 DINA 分析後的結果會與專家判定較有一致性因此辨識率較高 比較結合不同知識結構的 Q 矩陣辨識率發現全部 13 個認知屬性中結合專家知識結構的 Q 矩陣有

9 個認知屬性的辨識率較高而結合學生知識結構的 Q 矩陣有 4 個認知屬性的辨識率較高可能原因

為在 Q 矩陣設計中加入專家依照教學順序編制的階層性經過 DINA 分析後與專家判定的結果較

具一致性所以多數的認知屬性辨識率較高在 Q 矩陣中加入學生知識結構中認知屬性的難易程度

後發現違反專家知識結構順序性的認知屬性(A7A8A10A11)成為較上位的認知屬性意即

學生認為這些認知屬性較困難所以表現較差因此經過 DINA 分析後反而會與專家判定的結果較一

致(吳慧珉張育蓁林宏昇列印中)

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 47: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

37

參考文獻

中文部分 王文卿(2010)DINA 模式與 G-DINA 模式參數估計比較國立臺中教育大學教育測驗統計研究所

碩士論文 白曉珊(2008)以知識結構及貝氏網路為基礎之數學教材及電腦適性測驗國立臺中教育大學教育

測驗統計研究所碩士論文

李文欽(2008)美國 NCLB 法案之課責系統在我國可行性之研究未出版碩士高雄師範大學教育學

系高雄市

汪端正(2008)適性診斷測驗與數位個別指導教材之研發-以國小六年級質數與合數單元為例國立

臺中教育大學教育測驗統計研究所碩士論文 何秀芳(2009)國小五年級「線對稱圖形」單元教材與電腦化適性診斷測驗國立臺中教育大學教

學碩士學位暑期在職進修專班碩士論文 吳慧珉張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成效探究測

驗統計年刊台中市國立台中教育大學 林婉星(2008)以知識結構為基礎之電腦化適性數學測驗線上更新結構機制之研發國立臺中教育

大學教育測驗統計研究所碩士論文 林立敏(2007)連結不同知識結構之電腦適性學習系統研發國立臺中教育大學教育測驗統計研究

所碩士論文 卓淑瑜(2011)不同認知診斷適性測驗演算法結合知識結構之成效比較國立臺中教育大學教育測

驗統計研究所碩士論文 教育部(2003)國民中小學九年一貫課程綱要台北教育部 許曜瀚(2008)基於學生概念結構之適性測驗演算法國立臺中教育大學教育測驗統計研究所碩士

論文 康軒文教事業(2011)第九冊數學科教學指引康軒文教事業出版 陳俊華吳慧珉郭伯臣(2012)結合知識結構之 Q 矩陣設計於 DINA 模型之估計成效探究2012

心理與教育測驗學術研討會地點國立台灣師範大學20121027 國家教育研究院(2011)第九冊數學科教學指引國家教育研究院 莊惠萍(2007)不同知識結構連結之適性測驗演算法成效國立臺中教育大學教育測驗統計研究所

碩士論文 莊銘豪(2008)以知識結構為基礎的試題順序結構分析軟體之研發國立臺中教育大學教育測驗統

計研究所碩士論文 曾彥鈞(2006)以知識結構為基礎的適性診斷測驗系統及降低猜測機制之研發國立臺中教育大學

教育測驗統計研究所碩士論文 劉育隆(2007)題組式適性診斷測驗系統之建置國立臺中教育大學教育測驗統計研究所碩士論文 劉育隆(2012)智慧型雲端診斷測驗與適性學習路徑模式之研究-以微分算則為例亞洲大學資訊工

程學系博士論文 盧雪梅(2009)評量工具箱網址httpwebccntnuedutw~smlutoolboxdoc 翰林文教事業(2011)第九冊數學科教學指引翰林文教事業出版 英文部分 Allen Nancy L Jenkins Frank amp Schoeps Terry L (2004)The NAEP 1997 Arts Technical Analysis

Report (ETS-NAEP 04-T01) Princeton NJ Educational Testing Service

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 48: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

38

Airasian P W amp Bart W M (1973) Ordering theory A new and useful measurement model Educational Technology 5 5660

DeCarlo LT (2011) On the Analysis of fraction subtraction data the DINA model classification latent class sizes and the Q-matrix Applied Psychological Measurement 35(1) 8-26

de la Torre J (2008) An empirically-based method of Q-matrix validation for the DINA model Development and applications Journal of Educational Measurement45 343-362

de la Torre J amp Douglas J (2008) Model evaluation and multiple strategies in cognitive diagnosis An analysis of fraction subtraction data Psychometrika 73(4) 595-624

de la Torre J (2009a) DINA model and parameter estimation A didactic Journal of Educational and Behavioral Statistics 34 115-130

de la Torre J (2009b) A cognitive diagnosis model for cognitively-based multiple-choice options Applied Psychological Measurement 33 163-183

de la Torre J amp Lee Y-S (2010) A note on the invariance of the DINA model parameters Journal of Educational Measurement 47(1) 115-127

de la Torre J (2011) The generalized DINA model framework Psychometrika 76179-199 de la Torre J amp Douglas J (2004) Higher-order latent trait models for cognitive diagnosis Psychometrika

69 333-353 de la Torre J Hong Y amp Deng W (2010) Factors affecting the item parameter estimation and

classification accuracy of the DINA model Journal of Educational Measurement 47 227-249 DiBello L V Stout W F amp Roussos L A (1995) Unified cognitivepsychometric diagnostic assessment

liklihood-based classification techniques In P D Nichols D F Chipman amp R L Brennan (Eds) Cognitively diagnostic assessment 361-389 Hillsdale NJ Lawrence Erlbaum

Gagne RM (1977) The Conditions of Learning Holt Rinehartamp Winston New York 3rd edn Gierl M J Leighton J P amp Hunka S M (2007)Using the attribute hierarchy method to make diagnostic

inferences about examineesrsquocognitive skills In J P Leighton (eds) Cognitive diagnostic assessment for education Theory and practices

Hartz S (2002) A Bayesian framework for the unified model for assessing cognitive abilities Blending theory with practicality Unpublished doctoral dissertation University of Illinois Urbana-Champaign

Hartz S Roussos L amp Stout W (2002) Skill diagnosis Theory and practice [Computer software user manual for Arpeggio software] Princeton ETS

Henson R A amp Douglas J (2005) Test construction for cognitive diagnosis Applied Psychological Measurement 29(4) 262-277

Henson R A Templin JL amp Willse JT (2009) Defining a family of cognitive diagnosis models using log-linear models with latent variables Psychometrika 4(2) 191-210 MODELS WITH LATENT VARIABLES7 Henson R Roussos L Douglas J amp He X (2008) Cognitive diagnostic attribute level discrimination

indices Applied Psychological Measurement 32 (4) 275-288 Huebner A (2010) An Overview of Recent Developments in Cognitive Diagnostic Computer Adaptive

Assessments Practical Assessment Research amp Evaluation 15(3) January 2010 Ina VS Mullis Michael O Martin Graham J Ruddock Christine Y O`Sullivan Alka Arora Ebru Erberber

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 49: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

39

(2007) TIMSS 2007 Assessment Frameworks Chestnut Hill MA Boston College Junker BW amp Sijtsma K (2001) Cognitive assessment models with few assumptions and connections

with nonparametric item response theory Applied Psychological Measurement 12 55-73 Lee J Grigg W amp Dion G (2007) The Nationrsquos Report Card Mathematics 2007 National Center for

Education Statistics Institute of Education Sciences US Department of Education Washington DC Lee Y S Park Yoon Sooamp Taylan Didem (2011)A cognitive diagnostic modeling of attribute mastery in

Massachusetts Minnesota and the US National Sample Using the TIMSS 2007International Journal of Testing11(2)144-147

Leighton J P Gierl M J amp Hunka S M (2004) The attribute hierarchy method for cognitive assessment a variation on Tatsuokarsquos rule space approach Journal of Educational Measurement 41(3) 205-237

Linn R L amp Gronlund N E (2000) Measurement and assessment in teaching(8th ed) Upper Saddle River NJPrentice-Hall

Maris E (1999) Estimating multiple classification latent class models Psychometrika 64 187-212 OECD (2005) PISA 2003 Technical Report OCED Paris Rupp Aamp Templin J (2008) The effects of q-matrix misspecification on parameterEstimates and

classification accuracy in the DINA model Educational and Psychological Measurement 68(1) 78-96

Tatsuoka K K (1985) A Probabilistic Model for Diagnosing Misconceptions in the Pattern Classification Approach Journal of Educational Statistics10 55-73

Templin J L amp Henson R A (2006) Measurement of psychological disorders using cognitive diagnosis models Psychological Methods 11 287-305

Templin J L Henson R A Templin S E amp Roussos L (2004) Robustness of Unidimensional Hierarchical Modeling of Discrete Attribute Association in Cognitive Diagnosis Models Unpublished ETS Project Report Princeton NJ

Wu H-M Kuo B-C amp Yang J-M (2012) Evaluating Knowledge Structure based Adaptive Testing Algorithms and System Development Educational Technology amp Society 15(2) 73-88

Zimowski M F Muraki E Mislevy R J amp Bock RD (1996) BILOG-MG Multiple-group IRT analysis and test maintenance for binary items [Computer program] Chicago IL Scientific Software

佐藤隆博 (1979)ISM 法による学習要素の階層的構造の決定日本教育工学会雑誌4(1) 9-16

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 50: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

1

國科會補助專題研究計畫出席國際學術會議心得報告

日期101年11 月29 日

一 參加會議經過

2012 心理計量協會國際研討會(The International Meeting of the Psychometric

Society 2012簡稱 IMPS 2012)是由心理計量協會今年是在美國 University of

NebraskandashLincoln 舉辦會議時間是 7 月 9日至 7 月 12 日研究者很榮幸獲得大會邀

請發表論文將目前正在執行之國科會計畫部分成果透過此國際會議與世界各國之專

家學者討論學習IMPS 每年舉辦一次會議期間除了會議論文之發表外更會邀請著名

之專家學者在會議舉行前舉辦工作坊介紹目前最熱門之測驗領域相關研究議題為增

長自己的學術專業知識今年研究者亦報名參加 7 月 9 日由 ETS 學者 Matthias Von

Davier 主講「使用認知診斷模式分析大型測驗之資料」工作坊藉由實作課程學習使

用不同的認知診斷模式分析測驗資料而獲邀發表的兩篇論文時間被安排在 7 月 10

計畫編號 NSC100-2410-H-656-007-

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

出國人員

姓名 吳慧珉

服務機構

及職稱 國家教育研究院助理研究員

會議時間 101 年 7 月 8 日至

101 年 7 月 13 日 會議地點 美國 University of

NebraskandashLincoln

會議名稱 (中文)2012 心理計量協會國際研討會

(英文) The International Meeting of the Psychometric Society 2012

發表題目

(中文) 在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究

DINA 模式 Q 矩陣設之有效性探究一種實證之觀點

(英文) Using DINA model and Automated Scoring of Complex Tasks

in Computer-Based Testing The Validity of Q-matrix Design for DINA model A practical perspective

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 51: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

2

日早上除了論文發表之外並積極參與聆聽專題演講與各國學者進行討論研究相關

領域之論文發表與資料收集以下將詳細說說明會議過程

7 月 9 日「使用認知診斷模式分析大型測驗之資料」工作坊

本工作坊是一日課程上午是理論的介紹隨著測驗結構日趨複雜近幾年新興之

心理計量模式呈現多樣化發展包括 multilevel IRT model the general diagnostic

model the hierarchical general diagnostic model 等模式已被提出但這些模

式大都屬於理論探討之層次實證資料之分析應用較少見下午的場次是屬於實作的課

程講師介紹由 ETS 開發的軟體藉由參數之控制可估計以 IRT 模式為基礎之量尺分數

或以診斷測驗為基礎之認知屬性

7 月 10 日 論文發表

發表論文「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」和「DINA

模式 Q矩陣設之有效性探究一種實證之觀點」論文之摘要請參閱附件一和附件二

「在電腦化測驗中使用 DINA 模式和自動計分之複雜測驗探究」一文主要是開發複

雜測驗題型之自動分析演算法則如建構反應題型記錄學生完整的作答歷程並降低

學生猜測作答的機率並將分析結果結合 DINA 模式以提升認知診斷模式之診斷辨識

率另外探討各種不同的組卷模式(不同比例之建構反應題題數和選擇題之題數)之分

析成效結果顯示選擇題型原本在 DINA 模式下的概念診斷的分類正確率由 7366提昇

至 8703同時也能大幅的縮短線上施測時學生的作答時間

「DINA 模式 Q 矩陣設之有效性探究一種實證之觀點」主要是探究 Q 矩陣的設計

認知診斷模式中常需使用 Q矩陣然並無相關研究闡述如何設計比較有效的 Q 矩陣本

文以實證資料為例說明當有複合概念和單一概念同時存在時要如何設計 Q 矩陣研

究結果顯示將複合概念合成單一概念在 Q 矩陣的設計中會有較佳的辨識率

7 月 11 日 聆聽演講與報告

聆聽著名的測驗學者 Michael Kane 演講效度的理論與實務Michael Kane 是

Educational Measurement 一書中「效度」章節的作者 Michael Kane 以論證為基礎的

取向(argument-based approach)重新詮釋效度架構主要包含兩個步驟第一步驟是

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 52: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

3

對於測驗分數的使用和結果解釋的詳細說明界定即找尋相關證據第二步驟是對於所

收集的證據資料之評估這一種取向能讓測驗分數的使用和解釋範圍更廣泛也更嚴謹

透過作者的親自說明讓我更理解效度之內容

7 月 12 日 聆聽演講與報告 回國

大會主席 Mark Wilson 發表演講Mark Wilson 從自身參與的幾個心理計量計畫闡

述心理計量學者之任務以最簡單的例子如量測身高說明心理計量學者如何在統計數

據與科學觀點中取得平衡方能取得計畫任務之要求

照片 1Lincoln 小機場

IMPS2012 今年是由美國 University of NebraskandashLincoln 舉辦經過 20 幾個鐘

頭的飛行航程由大型飛機換中型飛機再換小型飛機後研究者終於抵達 Lincoln 市的

小機場隨即展開工作坊的研習

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 53: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

4

照片 27 月 10 日發表論文(一)

照片 37 月 10 日發表論文(二)

IMPS2012 的會議地點是在 cornhusker 飯店舉辦會議設施完善研究者進行會議

論文之發表

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 54: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

5

照片 4專題演講發表會場

照片 5會場手冊

IMPS2012 主要研討的方向為促進有效的測驗與評量政策以及教育與心理測量工具

的正確使用評估與發展所接受的論文皆會接受嚴格的審查因此每屆會議皆吸引大

量的學者專家從世界各地前往參與研究者發表的場次亦吸引許多學者到場聆聽並提

出許多問題與研究者交流令研究者獲益匪淺

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 55: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

6

每年 IMPS 主辦單位都會邀請多位國際知名測驗學者進行專題演講為研討會增

色不少專題演講的場次都是在飯店的會議大廳舉行除了可容納眾多人數之外亦可

一邊享用點心一邊聆聽演講讓整個演講的氣氛較輕鬆自在此場次是義大利學者透過

簡單的概念說明測量誤差的重要性

IMPS2012 會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文

標題除此之外網路上也公告相關的訊息供有興趣的學者下載參考

二 與會心得

IMPS 2012 主要集結心理計量教育統計測驗分析等相關議題之研討會也是測

驗學術與應用領域相當知名且重要的國際會議之一其主要研討的方向為促進有效的測

驗與評量政策以及教育與心理測量工具的正確使用評估與發展所接受的論文皆會

接受嚴格的審查因此每屆會議皆吸引大量的學者專家從世界各地前往參與今年針對

認知診斷測驗及較複雜之 IRT 模式有相當多篇的口頭論文發表顯示測驗領域之主要

發展趨勢IMPS 2012 全程皆以英文進行今年雖然是在比較偏僻的 NebraskandashLincoln

市舉辦但參加的學者仍非常踴躍特別是台灣的學者出席率也非常高可見台灣學者

積極參與國際會議提升國際視野之企圖心另外主辦單位邀請了多位國際知名測驗學

者進行專題演講為研討會增色不少也激勵研究者去思考許多新的研究想法深感

獲益良多

IMPS20121 會議期間下午 5 點半之後是海報論文之發表雖然排的時間有點晚

但許多海報論文探究的主題符合心理計量之潮流故吸引許多人駐足瀏覽與提問研究

者的論文是發表於第一天的議程研究主題是結合建構反應題型之 DINA 模式與從實務

的觀點探究 Q 矩陣設計之有效性此一場次是由國內的測驗學者郭伯臣教授主持籌劃

主題是探討認知診斷測驗之相關議題吸引許多學者到場聆聽會議中許多學者提供

可再精進的研究方向獲益良多此外在其他場次聆聽學者發表不僅能夠快速了解

目前世界各國在測驗領域的研究趨勢也收集到許多相關研究資料與創新方向作為未

來研究方向之參考實在是滿載而歸在此要特別感謝國科會以及國家教育研究院予以

補助參與此次會議使研究者有機會與國外學者專家藉此學術場合得以進行深入交流

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 56: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

7

期許自己未來更能在國內測驗評量領域貢獻一己之力

三 建議

參與國際會議是增進專業領域之良好方式不僅可以了解世界各國測驗發展與分析

技術方面的研究方向及研究深度之外並且能拓展國際視野然國內之學術機構對於學

者參與國際會議之審查補助採用較嚴格之標準期望相關單位能在法律範圍內放寬補

助標準提高補助經費特別是對於年輕之學者之補助讓新進之年輕學者之相關研究

成果能宣揚於國際也帶動國際交流提高台灣之國際知名度

四 攜回資料名稱及內容

The 77th Annual and the 18

th International Meeting of the Psychometric Society

會議手冊內容包含所有專題演講者的簡介演講摘要以及所有發表論文標題另外

也獲得許多後續將舉辦的相關研討會之宣傳資訊

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 57: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

8

附件一

Using DINA model and Automated Scoring of Complex Tasks in

Computer-Based Testing

Huey-Min Wu 1 Bor-Chen Kuo 2 Chih-Wei Yang 2

Research Center for Testing and Assessment National Academy for Educational Research 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 2

Abstract A new estimation algorithm incorporating information of complex tasks based on DINA model was

developed The study developed a cognitive diagnosis computerized test with both complex tasks and

multiple-choice items based on DINA model Complex tasks which require students to utilize higher

order-thinking skills to solve problems are open ended and short answer questions that measure the

application level of cognitive skill and content knowledge Although complex tasks can provide a lot of

information to teachers about what students know and do not know high cost required in manually grading

the complex tasks could become an obstacle In this study studentrsquos problem solving process of complex

tasks can be recorded and then transferred to response codes The response codes were incorporated into the

estimation algorithm based on DINA model Simulated and actual data are conducted to evaluate the

performance of the proposed algorithms Results show that the proposed algorithm provides better attribute

pattern estimates

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 58: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

9

附件二

The Validity of Q-matrix Design for DINA Model A practical Prospective

Bor-Chen Kuo 1 Huey-Min Wu 2 Shu-Chuan Shih 1

Graduate Institute of Educational Measurement and Statistics National Taichung University 1

Research Center for Testing and Assessment National Academy for Educational Research 2

Cognitive diagnosis models (CDMs) are developed primarily for assessing student mastery and nonmastery

on a set of finer-grained attributes Typically CDMs require information about how each test item is related to

each of the attributes A Q-matrix which is a JK matrix of zeros and ones where J is the number of items

and K the number of attributes can provide such information The Q-matrix plays an important role in test

development in that it embodies the attribute blueprint or cognitive specifications for test construction

Several studies indicated that the misspecification of Q-matrix may affect the quality of item parameter

estimates and correct classification accuracy of attributes for CDMs Some Q-matrix validation methods have

been conducted to re-evaluating a Q-matrix However these studies used statistical information to validate

Q-matrix without considering substantive knowledge and domain expertise

In this paper taking mathematics unit utilized in elementary schools of Taiwan as an example the different

types of Q-matrix are constructed by practicing teachers and domain experts With analyzing teaching

materials and objectives the advanced (or complex) attributes are designed into different type of Q-matrix to

exam the validity of a Q-matrix The performance of different type of Q-matrix is evaluated by comparing the

results DINA model estimated to the human scoring results

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 59: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

國科會補助計畫衍生研發成果推廣資料表日期20121224

國科會補助計畫

計畫名稱 認知診斷模式之測驗編製及適性測驗選題策略之探討

計畫主持人 吳慧珉

計畫編號 100-2410-H-656-007- 學門領域 心理計量與統計學

無研發成果推廣資料

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 60: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

100年度專題研究計畫研究成果彙整表

計畫主持人吳慧 計畫編號100-2410-H-656-007-

計畫名稱認知診斷模式之測驗編製及適性測驗選題策略之探討

量化

成果項目 實際已達成

數(被接受

或已發表)

預期總達成數(含實際已達成數)

本計畫實

際貢獻百分比

單位

備 註 ( 質 化 說

明如數個計畫共同成果成果列 為 該 期 刊 之封 面 故 事 等)

期刊論文 1 1 100

研究報告技術報告 1 1 100

研討會論文 2 2 100

論文著作

專書 0 0 100

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 2 2 100

博士生 4 4 100

博士後研究員 0 0 100

國內

參與計畫人力

(本國籍)

專任助理 0 0 100

人次

期刊論文 0 0 100

研究報告技術報告 0 0 100

研討會論文 5 5 100

論文著作

專書 0 0 100 章本

申請中件數 0 0 100 專利

已獲得件數 0 0 100 件

件數 0 0 100 件 技術移轉

權利金 0 0 100 千元

碩士生 0 0 100

博士生 1 1 100

博士後研究員 0 0 100

國外

參與計畫人力

(外國籍)

專任助理 0 0 100

人次

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 61: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

其他成果

(無法以量化表達之成

果如辦理學術活動獲得獎項重要國際合作研究成果國際影響力及其他協助產業技術發展之具體效益事項等請以文字敘述填列)

陳俊華吳慧施淑娟郭伯臣(2012 年 9 月)多重解題策略 Q 矩陣設計

之探究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學20120922-23此篇論文榮獲大會壹等獎

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動競賽 0

研討會工作坊 0

電子報網站 0

科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 62: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度達成預期目標情況研究成果之學術或應用價

值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)是否適

合在學術期刊發表或申請專利主要發現或其他有關價值等作一綜合評估

1 請就研究內容與原計畫相符程度達成預期目標情況作一綜合評估

達成目標

未達成目標(請說明以 100字為限)

實驗失敗

因故實驗中斷

其他原因

說明

2 研究成果在學術期刊發表或申請專利等情形

論文已發表 未發表之文稿 撰寫中 無

專利已獲得 申請中 無

技轉已技轉 洽談中 無

其他(以 100字為限) 3 請依學術成就技術創新社會影響等方面評估研究成果之學術或應用價值(簡要敘述成果所代表之意義價值影響或進一步發展之可能性)(以

500字為限)

研究成果之學術價值

本計畫主要探討認知診斷模式與認知診斷測驗編製在認知診斷模型的發展中對於技能

或認知屬性等是如何地影響測驗的結果有許多不同的假設而延伸出了許多種測量模式

如 DINA 模型及 G-DINA 模型國外已有許多學者投注於此方面的研究如 Henson ampDouglas

(2005)de la Torre Hong amp Deng (2010)DeCarlo (2011)Lee Park amp Taylan (2011)

等但國內目前仍較少見這一方面之研究是屬於一新興之議題本計畫之研究成果已發

表於期刊或國內外重要學術會議提供相關領域學者在研究此議題之參考文獻發表之文

章臚列如下

[1]吳慧張育蓁林宏昇(列印中)結合知識結構之 Q 矩陣設計於 DINA 模式之估計成

效探究測驗統計年刊台中市國立台中教育大學(國科會教育學門期刊評比第二級)

[2]陳俊華吳慧施淑娟郭伯臣(2012年 9 月)多重解題策略 Q 矩陣設計之探究

會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

大會壹等獎論文

[3]陳俊華郭伯臣吳慧白曉珊(2012年 9 月)認知診斷測驗選題策略之比較與探

究會議名稱第十屆海峽兩岸心理與教育測驗學術研討會地點江西師範大學

20120922-23

[4]Huey-Min Wu Bor-Chen Kuo Chih-Wei Yang (2012)Using DINA model and Automated

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才

Page 63: 行政院國家科學委員會專題研究計畫 期末報告 - naer.edu.t · 2013-08-29 · 行政院國家科學委員會專題研究計畫 期末報告 認知診斷模式之測驗編製及適性測驗選題策略之探討

Scoring of Complex Tasks in Computer-Based Testing The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[5]Bor-Chen Kuo Huey-Min Wu Shu-Chuan Shih (2012)The Validity of Q-matrix

Design for DINA model A practical perspective The 2012 International Meeting

of the Psychometric Society 9-12 July United States of American

[6]Huey-Min Wu Chun-Hua Chen Shu-Chuan Shih (2012) The Research of Q-Matrix

Design for CDMsGloable Chinese Conference on Computers in Education 2012

28-May-1 June Taiwan

[7]李曉嵐呂淳郁吳慧許天維(2011)電腦化認知診斷測驗之編製 -以國小五

年級數學小數估算單元為例會議名稱2011 電腦與網路科技在教育上的應用研討會地

點國立新竹教育大學20111222sim23

[8]呂淳郁李曉嵐吳慧許天維(2011)不同的 Q矩陣設計對於認知診斷模式估計

之影響

-以國小容積與體積單元為例會議名稱中國測驗學會 2011 年會暨心理與教育測驗學

術研討會地點國立台灣師範大學20111022

兩篇碩士論文

[1]張育蓁(2012)不同 Q矩陣設計在 DINA 模式估計成效探討mdash以國小五年級因數與倍數

單元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班

碩士論文

[2]歐陽惠萍(2012)Q 矩陣校正於 DINA 模式與 G-DINA 模式估計成效之探討mdash以線對稱單

元為例國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩

士論文

應用價值

目前在認知診斷模式之研究主要著重於模式之開發與模擬研究之探討鮮少將認知診斷模

式應用於教育情境本計畫透過嚴謹程序編製認知診斷測驗收集實證資料探究認知

診斷模式應用於教育現場之成效可提供教學現場教師一良好應用範例深具應用價值

在技術創新方面

本研究將知識結構之概念融入於 Q矩陣設計中讓某些學科概念具有階層性(如數學)的

本質反應於 Q矩陣設計中且得到良好之估計成效可提供測驗編製者之參考依據

在社會影響方面

本研究執行期間聘任多位碩博士生擔任兼任研究助理深入探討各種認知診斷模型如測

驗架構設計分析及模式比較培養編製認知診斷測驗與實務分析的能力並指導他們將

研究成果投稿至國內外研討會及相關期刊為國內培養評量領域專業人才