Chapter Four 信度. 信度 (reliability) ㄧ詞意指同一位受試者在不同場合、採用內容相當的不同題目或者在不同測試條件之下，重複接受測驗所獲得

Chapter Four

信度

• 信度 (reliability)ㄧ詞意指同一位受試者在不同場合、採用內容相當的不同題目或者在不同測試條件之下，重複接受測驗所獲得之分數的ㄧ致性。

• 信度的概念強調個別分數之測量誤差的計算，我們可以藉此預測：單一個人的分數由於不相關或未知機率因素而波動的範圍。

• 廣義而言，測驗信度意指：測驗分數之個別差異可以歸因於所測量之特徵的「真實」差異以及隨機誤差的程度。

• 用統計術語來說，測驗信度的指標可以用來估計誤差變異在測驗分數總變異之中所佔的比例。

• 就本質來看，任何與測驗目的無關的條件都代表誤差變異。因此，當主試者嘗試控制施測環境、指導語、時間限制、投契關係，還有其他類似因素，以便維持一致的測驗條件時，他們正是在降低誤差變異，使得測驗更加可靠。

相關係數• 相關係數的意義• 相關係數表示兩組分數之間的對應或關連程度。

• 圖 4-1及圖 4-2

• 相關係數的計算方式會因為數據的性質而有所不同。其中最常見的是皮爾森積差相關系數 (Pearson Product-Moment Correlation Coefficient)

相關係數• 統計顯著性• 我們想知道某個相關系數是否顯著地大於 0？換言之，如果母群的相關係數是 0，則我們從樣本所得到的相關是否只是由抽樣誤差所造成？

• 當我們說：相關「達到 1%的顯著水準」時，真正的意思是指：母群之相關等於 0的機率小於百分之ㄧ。因此，我們的結論是：這兩個變項確實有關連。顯著水準意指我們由數據中下結論時願意承擔錯誤的風險程度。

相關係數• 信度係數• 相關係數經常用於心理計量資料的分析。測驗信度指標代表這種係數的其中一種用途。

• 圖 4-3

信度的種類• 再測信度 (test-retest reliability)• 再測信度就是同一個人兩次施測所得分數的相關。誤差變異相當於兩次測驗表現的隨機波動。這些變異部分來自於未能控制的測驗條件，包括施測環境 (天氣極端變化、噪音 )及受測者本身條件的變化 (疾病、疲倦等 )

• 再測信度會隨著間隔時間拉長而逐漸降低，因此最好不要超過六個月。

信度的種類• 再測間隔期間太短，受測者便能夠回想起大多數先前的答案，因此，兩次施測的成績並非互相獨立，因此相關比實際上更高。

• 測驗本身的性質也會因為重複施測而有所改變，尤其是關於推理或者有特殊訣竅的問題。

• 通常較不受重複施測影響的測驗才會採用再測信度，例如感覺區辨和動作測驗。

信度的種類• 複本信度 (alternate-form reliability)• 兩次施測中，第二次使用複本，進而計算兩次測驗分數的相關程度，這種信度係數同時測量時間的穩定性以及不同題目樣本 (或測驗版本 )的反應一致性。

• 計算複本信度時的誤差變異來源是「題目抽樣」或「內容抽樣」。這種誤差變異說明：測驗分數決定於選題之特殊因素的程度有多少？如果另一位獨立作業的研究者根據相同的內容說明另外編製一套測驗，則同一個人再這兩項測驗上的得分差異有多大？

信度的種類• 測驗的複本應該包含相等的題數、題目形式以及

涵蓋的內容範圍也應該相同。題目的範圍和難度水準應該相等，指導語、時間限制、範例、格式，以及測驗的其他層面也應當確認是否等同。

• 當複本信度受到練習效果的影響很大時，由於每個人進步的幅度可能不盡相同，因此信度會下降。

• 另外，因為重複施測而改變測驗性質的程度也會影響信度。

信度的種類• 折半信度 (split-half reliability)

• 測驗只施測ㄧ次，但將測驗分成相等的兩半，得到兩個分數，然後計算相關 (或其它作法 )。顯然，折半信度提供了有關內容抽樣一致性的指標。

• 因為只施測ㄧ次，這種測驗不包含時間上的穩定性，有時候也被稱內部一致性 (internal consistency)係數。

信度的種類• 折半後的相關係數會因題數的減少而下降，因此須用斯皮爾曼 - 布朗公式來校正

tt

ttnn rn

nrr

)1(1

信度的種類

• 另一種計算折半信度的方法 (Rulon, 1939)

• 表兩個折半測驗之得分差異的變異數；• 表總分的變異數

2

2

1x

dtt SD

SDr

2dSD

2xSD

信度的種類• 庫德 -理查遜信度和 alpha係數• 也是僅需進行ㄧ次施測，而且是以所有測驗題目的反應一致性為基礎。這種項目間一致性會受到兩種誤差變異的影響：

• 1.內容抽樣 (例如複本信度和折半信度 )

• 2.所抽樣之行為領域的異質性，同質性越高，項目間一致性也越高。

信度的種類• 庫德 -理查遜 20 號公式 (KR-20)

• 適用於是非題或非有即無的記分方式 ( 二元計分 )

)1)(1

()1

(22

2

tt

ttt SD

pq

n

n

SD

pqSD

n

nr

信度的種類• alpha係數

• 適用於多元計分

))(

1)(1

()(

)1

(2

2

2

22

t

i

t

ittt SD

SD

n

n

SD

SDSD

n

nr

信度的種類• 計分者信度 (scorer reliability)

• 計分者信度的建立是將同一份測驗樣本交給兩位檢驗者獨立計分，然後將每位受測者所獲得的兩個分數依照一般方式求取相關。

信度的種類• 總結• 表 4-2 根據所需要的測驗複本和施測數目來

區分各種信度• 表 4-3 各種信度係數的誤差來源• 表 4-4及圖 4-4：範例計算• 信度指標：測驗分數與真實分數的相關，

亦即信度係數的平方根。• 信度係數：真實分數變異占測驗分數變異的比例。

速度測驗的信度• 單一施測所得到的信度係數並不適合使用於速度測驗。例如單雙數的折半技術或庫德 -理查遜公式。

• 適合計算速度測驗的信度方法有再測信度、複本信度、根據時間而非題目折半的折半信度。

測驗樣本對信度係數的影響• 變異性• 團體的個別差異過於同質會降低信度係數，

亦即團體的變異性太低會降低信度係數。• 比較 300位大學生同質團體與 300位從心

智遲緩到大學畢業生都有的異質團體之信度係數。

測驗樣本對信度係數的影響• 能力水準• 各團體的平均能力水準不同可能會影響信度係數

• 難度最高和最低的題目可能太少，不足以適當地區辨個人表現 (天花板或地板效應 )。

• 有些測驗使用於較年輕及能力差之團體時，信度可能相當低，因為他們的分數很容易受到猜測因素的影響。

測量標準誤• 個別分數的解釋• 測驗信度可以藉由測量標準誤 (standard error of

measurement, SEM)來表達，這個指標尤其適用於個別分數的解釋。

• 假定甲生在某份測驗上重複施測 100次，由於隨機誤差的緣故，這 100個分數會形成一個常態分配，該分配的平均數就是甲生的真實分數，該分配的標準差就是 SEM

ttt rSDSEM 1

測量標準誤• 分數差異的解釋• 在同一份測驗上不同受測者分數的比較，或是同一個人在測驗組上不同能力分數的比較，可用如下的差異標準誤公式來判定差異分數受隨機誤差影響的程度。

22112

22

1. 2)()( rrSDSEMSEMSEM diff

信度在精熟測驗和臨界分數上的應用

• 前述的信度計算方式較不適合精熟測驗或使用臨界分數的測驗。

• 精熟測驗的主要統計涵意在於降低個別分數之間的變異性。理論上，如果所有人都持續接受訓練，直到完全精通該技能為止，則其表現的變異性會降至 0。

• 精熟測驗屬於領域參照測驗的ㄧ種，而領域參照測驗較適用於分類一致性的技術來表達信度。

Documents

Chapter Four 信度. 信度 (reliability) ㄧ詞意指同一位受試者在不 同場合、採用內容相當的不同題目或者在 不同測試條件之下，重複接受測驗所獲得

Chapter Four 信度. 信度 (reliability) ㄧ詞意指同一位受試者在不同場合、採用內容相當的不同題目或者在不同測試條件之下，重複接受測驗所獲得