傳統試題和 IRT 試題分析的方法國家教育研究院籌備處測評組 [email protected] 曾建銘

傳統試題和 IRT 試題分析的方法

國家教育研究院籌備處測評組[email protected] 曾建銘

傳統試題和 IRT 試題分析的方法

• 傳統試題分析的方法• IRT 試題分析的方法• 試題分析的解釋

試題分析（ item analysis ）

一、前言

二、試題分析功能

三、測驗試題分析

一、前言• 信度與效度是測驗二項的重要特徵，二項特徵均須視試題品質優劣而定，而試題品質則可藉由試題分析而提高。

前言

試題分析包括：（ 1 ）依試題內容與形式做品質分析（ 2 ）依試題統計特性做量化分析。

品質分析 • 可由試題的內容審查、有效命題原則、

教學目標進行邏輯的分析，即可達到目的。

量化分析 • 量化的目的主要在分析每題試題所具

備三大統計特徵：難度、鑑別度、誘答力。於考試完後做試題的分析，以便將內容效度適切的、鑑別力高的與難度適中的題目保留下來以建立題庫。

二、試題分析功能（一）提供回饋給學生，作為學生改進學習方法的參考。（二）提供回饋給教師，作為實施補救教學的依據。（三）提供改進課程建議的依據。（四）增強教師編製測驗的技巧。（五）增進測驗題庫運用的效能。（六）可縮短測驗長度，節省測驗時間，提高信度與效度。

三、測驗試題分析

常模參照測驗試題分析分為三種分析：（ 1 ）難度（ 2 ）鑑別力（ 3 ）誘答力。

三、測驗試題分析• 試題量的分析步驟• 難度分析• 鑑別力分析• 難度與鑑別力的關係 • 選擇題選項誘答力分析 • 效標參照測驗試題分析

試題量的分析步驟• 根據原始分數的高低依序排列。• 從最高分往下取總人數的 25%~33% 為高分

組再從最低分往上取總人數的 25%~33% 為低分組。 ( 註一 )

• 分別計算高分組與低分組在每一道題答對人數與百分比。

• 計算每題的難度指數。 • 計算每題的鑑別指數。• 檢查每一題所列選項回答人數以確定誘答力。

註一：

Kelley(1939)─ 當測驗分數是常態分配時，以 27% 分組試題的鑑別力最可靠。

◎當百分比低於 27% 時可靠性較低，而百分比太大時，會影響題目的鑑別作用。

◎對教師而言，合理的分組百分比可在 25% 到 33% 之間。

難度分析

• 通過百分比分析• 等距量尺分析• 試題難度與測驗分數的分配

通過百分比分析計算全體受試者答對每題的人數百分比，這百分比稱為難度指數。如下：

【公式 1 】 P = R / NP ：難度指數R ：答對的人數N ：總人數優點：簡單易行。缺點：無法顯示試題區別功能，到底是高分組答對較多或低分組。

通過百分比分析【公式 2 】 P = P H ＋ P L / 2 P ：難度指數P H：高分組答對的人數P L：低分組答對的人數優點：（ 1 ）答對百分比表示難度，其數值愈大，題目愈簡單。（ 2 ）使用次序量尺，可以指出題目的等級順序或相對難度。缺點：（ 1 ）無法指出各難度間差異大小。（ 2 ）單位不相等，即 P1－ P2≠P2－ P3

難度分析• 採用等距量尺分析 △=13+4z △ ：難度 z： σ值

難度公式的比較通過百分比分析等距量尺分析

公式 △=13+4z

代表意義數字愈大，代表題目愈容易

數字愈大，代表題目愈困難

難度的比較順序量尺，難度間的差異並不相等，不能直接比較

等距量尺，難度可直接做比較

2

PPP iLiH

i

試題難度與測驗分數的分配難度 P 值→ 0 ≤ P ≤1

（ 1 ） P ＝ 0.5 （難度適中），分配型態為常態分配。（ 2 ） 0.3 ≤P ≤0.7 （難度適當）（ 3 ） P ＞ 0.7 （試題較易），分配型態為負偏分配。（ 4 ） P ＜ 0.3 （試題較難），分配型態為正偏分配。

鑑別力分析

• 內部一致性分析 • 外在效度分析

鑑別力分析的目的在於確定題目是否具有區分高下的作用。依分析時所依據的標準可有兩種方式

內部一致性分析內部一致性分析旨在瞭解各個試題的功能是否和整個測驗的功能相符合一致。公式如下：D＝ P H － P L

D ：鑑別力指數P H：高分組答對的百分比P L：低分組答對的百分比

內部一致性分析（ 1 ） -1≤ D ≤1 D ＝ 0 ，無鑑別度。試題太簡單，高分組與低分組學生全部答對（ P H － P L＝ 0 ）。試題太困難，高分組與低分組學生全部答錯（ P H － P L＝ 0 ）。（ 2 ） D ＝ + 1 ，高分組學生全部答對，低分組學生全部答錯。（ P H ＝ 1 ， P L＝ 0 ）。（ 3 ） D ＝－ 1 ，低分組學生全部答對，高分組學生全部答錯。（ P H ＝ 0 ， P L＝ 1 ）。

內部一致性分析美國學者伊博（ 1979 ）的評鑑標準鑑別指數試題評鑑 0.40 以上非常優良 0.30~0.29 優良，但可能需修改 0.20~0.29 尚可，但通常需修改 0.19 以下劣，須淘汰或修改

外在效度分析 • 外在效度分析旨在檢驗題目是否具有預定的某種鑑別作用（簡茂發，民 67 ）。

• 分析學生在試題上的反應與在效標上表現之間的關係，目的在試題反應與測驗的外在效度變得最大，用來增強效標關聯效度。

• 根據學生在某題試題的反應答對或答錯與測驗總分相關係數，此一相關係數即用來表示試題鑑別度指標。其常用的方法有：點二系列相關、二系列相關。

難度與鑑別力的關係 • 題目難度適中， P=0.5 時，鑑別指數最大 D＝ 1； P=1 或 0 時，鑑別指數最大D＝ 0 ，當試題平均鑑別力愈高時，測驗的信度愈高。

• 選擇題目時，除了顧及難度與鑑別度外，亦應考量選出試題之分配比例是否和雙向細目表符合一致。

運用試題分析的數據資料1 2 3 4 漏做難度 (p) 鑑別指數

(D)點二系列相關

21 24 4 52 16+ 4 .16 .00 -.06

22 4 40 56+ 0 0 .56 .67 .48

23 0 76+ 12 12 0 .76 .50 .45

24 4 28+ 28 32 8 .28 -.17 -.12

25 16 12 0 72+ 0 .72 -.17 -.29

26 0 4 52 44+ 0 .44 .00 -.11

27 92+ 0 8 0 0 .92 .33 .45

28 8 68+ 0 20 4 .68 .83 .61

29 24 12 56+ 8 0 .56 .50 .46

30 88+ 0 0 8 4 .88 .17 .31

31 68+ 12 4 16 0 .68 .17 .15

32 20 20 8 52+ 0 .52 1.00 .73

33 8 16 60+ 16 0 .60 .00 .06

34 20 20 8 52+ 0 .52 .83 .59

35 80+ 0 0 4 16 .80 .50 .43

選擇題選項誘答力分析 • 分析選擇題是否具誘答性，只要分析高低組學生在每個學生在每個試題選答的次數分配，加以判斷即可。

• 國內郭生玉教授提出判斷原則：（ 1 ）每一錯誤選項至少有一低分組學生選擇。（ 2 ）選擇錯誤選項的低分組學生應比高分組學生還高。

選目的有效性分析 - 試題的選目分析

組別選項

D PA B * C D 未答

高分組 2 16 1 1 0

0.40 0.60低分組 5 8 4 3 0

此題的選目均屬於合理有效。


組別選項

D PA* B C D 未答

高分組 14 0 0 6 0

0.10 0.65低分組 12 0 8 0 0

選目 B沒有誘答力→修改選目 D 可能意義不清、有 2個正確答案或受試者作答不小心→修改


組別選項

D PA B C * D 未答

高分組 9 0 10 1 0

0.20 0.40低分組 5 4 6 5 0

選目 A 和 C 在正確性不夠清楚→修改使之只有一個正確答案或最佳答案。每個選項的選答都非常接近，對低分組都有誘答力，可能是低分組缺乏知識所致。


組別選項

D PA B * C D 未答

高分組 5 6 4 5 0

0.05 0.28低分組 4 5 5 6 0

高分組選答各個選項的次數都很接近，顯受試者可能盲目的猜測→檢討或修改。


組別選項

D PA B C D * 未答

高分組 3 6 3 8 0

-0.20 0.50低分組 3 1 4 12 0

高分組選答正確答案的次數反而比低分組少，顯示此題為反向題→檢討原因加以修正或淘汰不用。


組別選項

D PA B * C D 未答

高分組 0 10 10 0 0

0.10 0.45低分組 2 8 8 2 0

題目的選項分析顯示不合理而須要修改，但是在修改前應仔細研究是否是題目本身的缺陷或學生反應上的錯誤所致。

試題選擇的標準• 先做試題分析• 評鑑試題優劣 ( 考慮難度、鑑別力 )• 考慮選出試題的比例是否與雙向細目表一致• 試題編排增加受試者做測驗動機 → 少數較易題目放前面

→ 使能力高者感到具有挑戰性選幾題較難的◎全測驗的試題宜力求 0.50的平均難度

效標參照測驗的試題分析• 效標參照測驗所使用的試題通常會比常模參照測驗所使用者容易些，因為教師多半期望大多數的學生在測驗上都有良好的表現，獲得好成績，教師若仍沿用常模參照測驗的試題分析方法，則高分組與低分組學生在試題上的答對百分比值都會接近 1 ，而鑑別度指標值趨近於0 。由此可見效標參照的試題分析方法異於常模參照使用的試題分析分法，方能避免試題分析產生無法解釋的效果。

試題難度• 一般來說，效標參照測驗難度指標分析是沒有必要

進行的，因為它的測驗目的不同於常模參照所致。• 常模參照測驗中，測驗的目的是在區分學生成就的

高低，因此教師所期望的最佳難度指標是 .50左右最好。

• 效標參照測驗試題的難度指標，應和教學前預設定的通過標準 (精熟標準一致 ) 。例如，假設以 80%的試題答對率或通過分數為精熟標準時，則理想的難度指標應訂為 .80左右，教師可不必參考常模參照測驗的試題選擇標準，而是依據教材內容和實際教學情況，做為判斷精熟標準或難度指標。

教學敏感度指標• Cox 和 Vargas(1996) 提出了一種同一組受測者在

教學前進行前測和教學後進行後測的方法D=P 後 -P 前

• -1.00 D 1.00≦ ≦• 正常教學前後指標值大約是介於 .10 到 .60 之間D 接近 0 ，代表該試題的鑑別度指標越低，不能反

映出預期的教學效果D 接近 1 ，代表該試題的鑑別度指標越高，對教學

效果的敏感度越大，代表該試題的品質越佳反映出命題很成功D 是負值，代表該試題是個反向作用題，反映出教

學效果是有問題的，代表該試題品質極不良應予淘汰

標準參照測驗試題的鑑別力分析

• 精熟組與非精熟組的差異：• D＝ PP－ Pf D ：鑑別力指數 PP：精熟組的答對比率 Pf：非精熟組的答對比率※題目難度會影響鑑別力，且標準參照測驗是預期多數學生能精熟內容，故鑑別力將比常模參照的低。

標準參照測驗試題的難度分析• 前面的難度分析方法可用於標準參照測驗。不過，解釋上和常模參照測驗不同：

1.希望學生在教學後能精熟教材，故教學有效時，多數題目的難度指數（通過百分比）均很大。（難度指數反映的教學品質多於題目的品質）。

2. 標準參照測驗的難度應和事先設定的相同，例如：以 85％為精熟標準時，理想的難度指數應訂在 0.85左右。

教學敏感度分析試題

P前 P後教學敏感度指標

說明

1 1.00 0.00 1.00 教學前學生均錯，教學後學生均對，試題與教學都是有效的。

2 0.80 0.80 0.00 這個試題過於簡單，學生的表現受教學影響不大，無法測量出教學效果。

3 0.15 0.15 0.00 這個試題過於困難，學生的表現受教學影響不大，無法測量出教學效果。

4 0.00 1.00 -1.00 試題相ˇ當不好，顯示教學本身有問題

5 0.60 0.10 0.50 正常教學下有效的常態試題，教學與試題均屬有效。

現代測驗理論• 現代測驗理論的特點：就是以概率表示受試能力與項目的關係。其中 P （ θ ）表示能力 θ 的受試答對某試題的機率 P 。

IRT 試題分析參數

• 試題特徵曲線• 難度參數• 鑑別力參數• 猜測參數• 試題訊息函數

試題特徵曲線（ item characteristic curve ， ICC ）

• P （ θ ）就是試題反應函數，將試題反應函數用平面座標圖表示出來即稱為試題特徵曲線。

試題特徵曲線說明• 座標的縱軸是答對機率， P （ θ ），也就是具某能力 θ 的受試答對某題的機率。

• 機率介於 0.00至 1.00 之間。• 橫軸代表能力或潛在特質。• 潛在特質為一連續體，由左而右表最低

的無限小－∞至最高的無限大＋∞。

如圖一

常態肩形 ICC

• 最理想的試題特徵曲線就是常態肩形，多一點能力就增加一些答對機率。如 S形常態分配累積次數曲線，左下方與右上方都無法真正達到 0.00 或 1.00 。如圖一

難度參數 • 難度參數就是能力量尺 θ 上的落點，又稱落點參數。 ICC 的起點靠近左側表示題目較容易，反之靠近右側題目較困難。

難度參數的意義 • 難度參數又稱 b 參數，以決定一個題目在潛在特質連續體的位置。題目愈難，所需的能力愈高， ICC越偏右，一般能力的受試者答對機率較低，反之，題目越容易，所需能力越低， ICC越偏左，一般能力的受試者答對該題的機率也會較高。

難度參數、能力與機率的關係要分析難度參數、能力與機率的關係，最容易的比較方法就是能力減難度 θ－ b ，因 b 參數與能力量尺 θ 性質一樣，故可相減。

當 θ－ b＝ 0 或 θ＝ b 時，答對機率 P （ θ ）＝ 0.5 ，也就是

能力與難度相等時，答對機率為一半。當 θ＞ b 時，答對機率超過一半。當 θ＜ b 時，答對機率低於一半。圖四表示能力、難度與機率三者的關係。

回上頁

回上頁

鑑別力參數• 鑑別力參數又稱 a 參數，是能力 θ變化時，答對機率變化的程度。

• 試題特徵曲線中， a 參數表示曲線陡峭的程度。• a 參數愈高， ICC曲線愈陡，試題愈具有良好的分辨能力； a 參數愈低， ICC曲線愈平坦，試題愈無法明顯有效的分辨出受試者的能力水準。

• 理論上， a 參數介於－∞與＋∞之間；一般以0至 2 之間為多，但以 0.8 與 1.25 之間最為有效。

猜測參數• 猜測參數又稱 c 參數，是指試題特徵曲線的左下漸進線，為能力極低時仍有的答對機率。

• c 參數只出現在三參數或四參數對數模式中，單參數和雙參數模式將其假定為 0 或近於 0 。

• c 值愈小題目愈有效，一般均以 0.3 為選題重點，c 值超過 0.3 的項目不是理想的項目。

猜測的原因 • 使用利於猜測的命題方式。• 測驗計分方式有利猜測。• 測驗指導語鼓勵猜測。• 題目太難或受試能力偏低。• 題目本身為另一題提供線索，違反局部獨立假定。

• 選項或誘答選項配置不當。

試題訊息函數

公式：

QP

PIii

ii' 2

a,b,c 參數在試題訊息函數中扮演的角色 • 當 b 值愈接近 θ 時，訊息量較大；反之，

b 值愈遠離 θ 時，訊息量則較小。• 當 a 參數較高時，訊息量也會較大。• 當 c 參數接近 0 時，訊息量則增加。

試題訊息函數的特點 • 訊息量愈大，能力估計的標準誤愈小。• 能力估計標準誤愈小，信賴區間愈小，能力的估計愈精準。

• 試題難度符合受試能力，能獲得較大的訊息量。

試題分析的解釋• 鑑別力指數並不等於題目效度。 1. 若使用測驗總分作為高、低分組的依據，則試題分析只提供測驗的內部一致性。

2. 若測驗的效度已被肯定時，試題分析的資料就可解釋為題目的效度。

試題分析的解釋• 鑑別指數低未必表示試題有缺點。 1.題目愈難或愈簡單，鑑別力愈低，為了激發學生測驗動機，也須保留。

2.題目的同質性愈高，鑑別力愈高。若 50題中有 5題是測量原則的應用， 45題是測量知識的記憶，則這 5題的鑑別力低僅是代表它們所測量的學習結果不同與另外 45題而已。

試題分析的解釋• 試題分析資料是假設性的。 1. 試題分析的結果往往因為樣本不同而異（學生人數、能力水準、教學型態）。

2.判斷試題的優劣應以是否能測量重要教學目標，或學習結果為主要依據，而非以統計資料（難度、鑑別力）為唯一的根據。

試題分析的解釋• 避免只根據統計的特性選擇題目。 1. 一般班級中，試題分析人數不多，結果不可靠。 2. 分析結果易受學生猜測、題目位置、正確答案位置所影響。

3.僅根據統計特性選題目，導致測驗內容缺乏代表性。◎選擇題目最好的方法是兼顧試題分析的資料和邏輯分析的結果。

謝謝聆聽

Documents

傳統試題和 IRT 試題 分析的方法 國家教育研究院籌備處測評組 [email protected] 曾建銘

傳統試題和 IRT 試題分析的方法國家教育研究院籌備處測評組 [email protected] 曾建銘