Upload
lacota-bailey
View
109
Download
7
Embed Size (px)
DESCRIPTION
第六章 累进效度及辩论 ( 三). 湖南师范大学外国语学院 邓 杰 教授. 教学目标. 了解实施环节的基本概念、焦点问题及证据来源 了解项目反应理论的基本原理 了解 WinSteps 软件的功能和使用方法 了解 WinFacets 软件的功能和使用方法. 基本概念:测试真实性;答题行为分析方法;项目反应理论 焦点问题:考生反应的相关性、真实性、交互性 证据来源:考生答卷、调查问卷;监考须知、监考步骤、监考记录;答题过程的调查、访谈等. 实施效度. 基本概念. 测试真实性( Authenticity ):答题过程体现实际语言使用的程度 - PowerPoint PPT Presentation
Citation preview
第六章 累进效度及辩论(三)
湖南师范大学外国语学院邓 杰 教授
教学目标
了解实施环节的基本概念、焦点问题及证据来源
了解项目反应理论的基本原理 了解 WinSteps 软件的功能和使用方法 了解 WinFacets 软件的功能和使用方法
实施效度
基本概念:测试真实性;答题行为分析方法;项目反应理论焦点问题:考生反应的相关性、真实性、交互性证据来源:考生答卷、调查问卷;监考须知、监考步骤、监考记录;答题过程的调查、访谈等
基本概念1. 测试真实性( Authenticity ):答题过程体现实际语言使用的程度
真实生活任务( Real-life tasks ):日常生活中有可能碰到的活动,通常不受课程教学内容的约束
语言教学任务( Language instructional tasks ):课程教学活动,亦可与日常生活相关
2. 答题行为分析方法( Response Analysis Methods ) 观察法( Observation )、问卷调查法( Questionnaire )、访谈法
( Interview ) 内省法( Introspection )、反省法( Retrospection )、有声思维
( Think-Aloud ) 眼动跟踪( Eye-tracking )
项目反应理论( Item Response Theory ,IRT ) 理论模型
单参数: 1PL-One-Parameter Logistic Model ,难度( b ) 双参数: 2PL-Two-Parameter Logistic Model ,难度( b )和区分度
( a ) 三参数: 3PL-Three-Parameter Logistic Model ,难度( b )、区分度
( a )和猜测概率( c ) 多维度 : Many-Facets Rash Model ,影响成绩的多个方面,如评分员、
评分方法、话题类别等 数值类型
二项值( Dichotomous ): 0 和 1 ,分别表示答错和答对 多项值( Polytomous ):非 0 - 1 值,用于等级量表( Rating Scale )
和部分得分( Partial Credit )模型。每个值项表示一个类别,代表量表中的等级(始于 1 ),或满分中的任一部分分数(始于 0 )
考生能力与项目难度
Items Persons c i a l b h k d f j e g Ability p q Ln(p/q)N 1 1 1 1 1 1 1 1 1 1 1 1 12 1.00 0.00 J 1 1 1 0 1 1 1 1 1 0 0 1 8 0.73 0.27 0.98 C 1 1 1 1 1 1 1 0 0 1 1 0 8 0.73 0.27 0.98 E 1 1 0 1 1 1 1 0 1 1 0 0 7 0.64 0.36 0.56 L 1 1 0 1 1 1 1 0 1 1 1 0 8 0.73 0.27 0.98 I 1 1 1 1 1 1 0 1 0 0 0 0 6 0.55 0.45 0.18 F 1 1 1 1 1 1 0 1 0 0 1 0 7 0.64 0.36 0.56 K 1 1 1 1 0 0 1 0 1 0 0 0 5 0.45 0.55 -0.18 A 1 1 1 1 1 1 0 0 0 0 0 0 5 0.45 0.55 -0.18 G 1 1 1 1 0 0 1 0 1 0 0 0 5 0.45 0.55 -0.18 D 1 1 1 1 0 0 0 1 0 0 0 0 4 0.36 0.64 -0.56 B 1 1 1 0 0 0 0 1 0 0 0 0 3 0.27 0.73 -0.98 H 1 0 1 1 0 0 0 0 0 0 0 0 2 0.18 0.82 -1.50 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0.00 1.00 Facility 13 11 10 10 7 7 6 5 5 3 3 1 p 1.00 0.92 0.83 0.83 0.58 0.58 0.50 0.42 0.42 0.25 0.25 0.08 q 0.00 0.08 0.17 0.17 0.42 0.42 0.50 0.58 0.58 0.75 0.75 0.92 Ln(q/p) -2.40 -1.61 -1.61 -0.34 -0.34 0.00 0.34 0.34 1.10 1.10 2.40
Log odds (比余对数)比率与其余数之比的自然对数
Extreme cases
百分比到比余对数
集中趋势( central tendency )
地板效应(floor effect)
天花板效应( ceiling effect )
Ln(95/5)
Ln(5/95)
5%
95%
50% Ln(50/50)
比余对数
10%
Ln(10/90)
将考生能力和项目难度都映射到同一量表(比余对数),使之可比。
单参数模型( 1PL )
1. 难度与能力相等时,信息量最大(对于考生,中等难度的项目最好;对于项目,适应中等水平时最佳)
2. 项目的最大信息量为 0.25 (答对与答错的概率均为 50 %时)
项目特征和项目信息量
),(1),( iiii bPbQ
为考生能力; b 为项目难度; P 为答对的概率
(1) (2) (3)
项目特征曲线( Item Characteristic Curve )
How closely the difficulty of the item matches the ability of the person
1PL 测试信息量及标准误 (SEM)测试信息量等于项目信息量之和
5
个项目的测
试
最大测试信息量为1.25
能力方差为测试信息量的倒数,测试标准误为能力方差的平方根
项目的最大标准误为
1 信息量越大,误差越小
.25
双参数模型( 2PL )
a 为项目区分度
1. ICC 越陡峭,区分度越好,信息量越大2. 单参数模型中, ICC 斜率相同,不同难
度的 ICC 互不交叉,但双参数模型中,不同难度的 ICC 由于区分度不同则有可能交叉
2PL 的测试信息量及标准误
1. 信息量越大,误差越小2. 图中测试,由于项目数量少(仅
3 个),测试信息量基本取决于单个项目(区分度好的项目)
蓝线-测试信息量红线-测试标准误黑线-项目信息量
三参数模型( 3PL )
c
a
b
1. c 为猜测概率2. b 不再等于 0.53. 猜测概率导致信息量下降,
误差增加
i
ijj c
cP
P
QaI
22
1
)(
)(
)()(
iijj c
cPPQ
aISEM2
2
1)(
)()(
1)(1)(
WinSteps 软件的结果图表解读单参数模型应用示例
项目难度估计及拟合分析The most difficult item is the highest vertically. This is item 21.The easiest item is the lowest vertically. This is item 6.The most predictable item is the left-most item. It is item 17. The least predictable item is the right-most item, again item 21.Items along the vertical 0 line exhibit the degree of predictability that accords with the Rasch model
泡泡图( Bubble Chart )
t 值以正负 2 之间为宜:1.越接近 0 ,越与模型预测一致;2.>2 时,有可能拟合不够( under fit )3.<-2 时,有可能拟合过度( over fit )4.是否拟合不够或过度,应结合标准化残差均方根( MNSQ )进行分析
考生能力估计及拟合分析同理
标准化界内拟合 t 值
项目难度及拟合情况
项目 21 和 30 的界内拟合指数 ZSTD 均大于 2 ,但 MNSQ 均在可接受范围,因此还不足以否定项目的有效性
标准化残差均方根(MNSQ)的期望值为 1,超出一定比例为拟合不够(误差太大),低于一定比例为拟合过度(太过完美)。合适的波动比例依样本量而定。
样本量 适宜比例 拟合不够 拟合过度
<500 30% > 1.3 < 0.7
500~1000 20% > 1.2 < 0.8
>1000 10% > 1.1 < 0.9
考生能力及拟合情况
考生 4 的能力最强( 3.95 ),但界外拟合最差( 4.48 的MNSQ 越大于期望值 1 ),说明该生能力最难预测,肯定有很容易的项目答错了。
考生-项目分布图
测试的难度不够:1.绝大多数考生的能力处于 0 ~ 4 之间,均值为 22.能力在 2.5 以上的考生众多,但却没有相应难度的项目3.绝大多数项目的难度在 -1 ~ 1 之间,均值为 04.难度在 0 以下的项目众多,但考生只有4 人;难度最小的 6 个项目甚至没有考生
项目特征曲线 (Item Characteristic Curve , ICC )红线-模型预测曲线蓝线-观测数据曲线灰线-置信度(通常为 95%)的上线和下线
1. 能力在 2 以上的考生全部答对(项目难以区分高端考生)
2. 能力为- 1 处有考生答对了(猜测)
3. 所有点都落在置信范围之内(整体功能仍然不错)
项目难度问题
能力低于难度 4 个洛基单位( -4 )处,有人答对了,且能力与难度差值在 -4 ~ 1 之间的答对概率为 0.25 ,相当于 4选项选择题的随机概率,说明该项目的猜测现象很严重。
原因是该项目的难度大(所有项目中难度最大)
项目区分度问题
蓝线低端和顶端区分度差,但中间部分的区分度问题更严重。能力与项目差值在 -2 至 1 之间的答对概率都在 50 %左右。
WinSteps 软件的结果图表解读多项值分析示例
原始数据
R 意为逆向 (reversed)。同时使用正向和逆向项目,可探测出反应是否未经思考,以避免成见效应( Halo Effect -因为成见而不加思索地为所有项目选择同一个值)逆向项目的值
应转换为正向值。
能力、难度和区分度估计
PTMEA Corr. -Point-Measure Correlation项目与测试的相关系数,即项目区分度。期望值为正相关,正值越大,正相关越强,区分度越好。
25R 本为“逆向”项,转换后相关系数为正值
项目难度估计
项目拟合度估计
界内和界外拟合都大于 2 ,拟合不足( Underfit )
界内和界外拟合都小于 -2 ,拟合过度( Overfit )
结构分析 去掉拟合过度 (17,18,22,6) 和拟合不足 (25,9,20 )的项目iDelete=17,18,22,6,25,9,20
最难项目( 13 )的两个最高级别的交汇处
最易项目( 15 )的两个最低级别的交汇处
类别的次序颠倒,意味着量表结构存在问题
M 为均值,人数为 33
各类别的难度应该单调递增,而不应颠倒
量表结构调整示例
量表质量诊断 (五级)
Category Label
Observed Count
Average Measure
Infit Mean Square
Outfit Mean Square
Threshold Calibration
1 190 -2.08 0.77 0.83 None
2 207 -0.86 0.93 1.01 -1.51
3 179 0.15 1.13 1.88 -0.36
4 7 1.71 0.33 0.90 3.57
5 113 1.18 1.45 1.47 -1.70
频数极小且难度级别的顺序颠倒
基本无法在图中体现
45 合并 (12344) 与 43 合并(12334)结果
Category Label
Observed Count
Average Measure
Infit Mean Square
Outfit Mean Square
Threshold Calibration
45 合 43 合 45 合 43 合 45 合 43 合 45 合 43 合 45 合 43 合
1 190 190 -2.5 -2.49 0.72 0.72 0.79 0.79 None None
2 207 207 -0.83 -0.84 0.97 0.94 0.92 0.90 -1.74 -1.74
3 179 186 0.79 0.83 0.88 0.87 1.35 1.27 -0.12 -0.15
4 120 113 1.96 1.91 1.39 1.43 1.31 1.34 1.86 1.88
合并后,各级别均有一定观测数量;难度单调递增;界内和界外拟合均在 -2 和 2 之间;门槛值亦单调递增
三个量表对比分析
Category Label
Average Measure
FitStep
CalibrationsPerson
SeparationItem
Separation
12345 Disordered < 2.0 Disordered 1.36 None
12344 ( 45合)
Ordered < 2.0 Ordered 2.06 8.23
12334 ( 43合)
Ordered < 2.0 Ordered 1.90 8.16
45 合并的考生和项目分隔值均大于 43 合并的两个对应值,说明45 合并较 43 合并区分更好
WinSteps软件结果图表解读部分得分( Partial Credit )模型
控制文件设计
评分等级
部分得分:各项目的评分等级可以各不相同
项目标签
考生-项目得分图
考生均值
项目均值
各部分分值的得分项目及难度
WinFacets软件结果图表解读多维分析
所有维度的纵向“尺度”
维度 2 -评判对象维度 1 -评分员 维度 3 -评判内容
值跨度
“+” -正向观测值越大,估计值越大
“-” -逆向观测值越大,估计值越小
Brahe 估计值最大,观测值最小,评分最严厉
Betty估计值最大,观测值最大,得分最高,能力最强
结果报告
负向:给分越少越,越严厉
负向:得分越少,难度最大
正向:得分越多,能力最强
偏差 /交互分析
与其他评分员不一致
非期望评判结果
意外评分员
可简化为 3 类