Upload
koyo-yamamori
View
415
Download
0
Embed Size (px)
Citation preview
教育評価論(第 2回)
学習評価の技法
文部科学省国立教育政策研究所
文部科学省
国立教育政策研究所
総括研究官やま山もり森
こう光よう陽
(教育心理学)[email protected]
平成 27年 10月 7日
この内容は個人的見解であり国立教育政策研究所の公式見解ではありません
出席の登録
本日の出席とスライド
本日の出席
https:
//questant.jp/q/151007
本日のスライド
http://www.slideshare.net/
koyoyamamori/eduass151007
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 2 / 43
出席の登録
今回の内容
1. 学力テストの原理
2. 数値化による方法(筆記試験)
3. テスト項目と妥当性・信頼性
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 3 / 43
学力テストの原理
学力テストの原理
学習評価の対象としての構成概念学習評価の対象である学力・能力
▶ 身長のように実物を直に観察することが不可能▶ お金のように直接計数することが不可能
直接観察できない特性として学力・能力構成概念 (construct) 実態はないが観察可能な行動によって説明
できる概念潜在特性 (latent trait) 行動の背後にある直接観察できない特性
学力・能力 実態はないが個人の中にそのような「かたまり」があると想定
把握の方法 「かたまり」の発揮にともなう行動によってその程度を推定
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 5 / 43
学力テストの原理
能力の程度を推定する
能力直接観察できない能力の発揮をともなう行動や表現をさせる
観察された行動や表現から能力の程度を推定する
Figure 1: 学習評価の手続き
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 6 / 43
学力テストの原理
正誤の把握にとどめない
能力●●なテスト項目に正答できる。
■■できるような能力が身についている。
●●なテスト項目に正答できることで推測される■■できるような能力が発揮されたため,
Figure 2: 能力推定の考え方
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 7 / 43
学力テストの原理
妥当性と信頼性
教育心理学の測定・評価で妥当性と信頼性が問題となる理由▶ 身長計やお金の妥当性を問題することはない▶ 実態がなく直接観察できない特性を測定・評価しようとする
妥当性▶ 測定・評価結果の解釈と利用の適切さの程度 [1]
信頼性▶ 評価結果の一貫性の程度 [1]
▶ テスト冊子の中身が一貫している。▶ 当程度の能力であれば実施時期の違いによるズレがない。▶ 評定者によるズレがない。
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 8 / 43
学力テストの原理
妥当性
妥当性には「物差しの性質」と「物差しの使われ方」の 2側面がある。
概念的妥当性:評価情報としての妥当性▶ 評価対象である構成概念が正確に捉えられている程度 [2]▶ 教育測定・評価における妥当性の中核
実用的妥当性:評価結果としての妥当性 [3, 4]▶ 被評価者に対する処遇を決定するなど別の文脈において利用できる程度
▶ 達成目標と実現状況の差を知ることができる程度▶ 後続の学習に役立つ情報が得られる程度
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 9 / 43
数値化による方法(筆記試験)
数値化による方法(筆記試験)
テスト冊子とテスト項目テスト
▶ 学習評価のために用いられる代表的な道具の一つ▶ テスト項目の集合がテスト冊子
項目と冊子項目 1
項目 2
項目 3・・・
項目 n
テスト冊子
Figure 3: テストの構成
▶ 教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 11 / 43
数値化による方法(筆記試験)
テスト項目が持つべき性質
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Item response function
Ability
Pro
babi
lity
of a
cor
rect
res
pons
e
Figure 4: 項目特性曲線
一定以上の能力の受験者が正答する確率が高く一定以下の能力の受験者が誤答する確率が高い
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 12 / 43
数値化による方法(筆記試験)
テスト冊子が持つべき性質
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Item response function
Ability
Pro
babi
lity
of a
cor
rect
res
pons
e
Figure 5: 複数項目の項目特性曲線
項目を複数用意することで評価範囲に幅を持たせる(物差しとしての幅が広がる)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 13 / 43
数値化による方法(筆記試験)
テスト冊子が持つべき性質
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Item response function
Ability
Pro
babi
lity
of a
cor
rect
res
pons
e
Figure 6: 複数項目の項目特性曲線
項目を多めに用意することで段階を増やす(数値化の手前)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 14 / 43
数値化による方法(筆記試験)
テスト冊子が持つべき性質
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Item response function
Ability
Pro
babi
lity
of a
cor
rect
res
pons
e
Figure 7: 複数項目の項目特性曲線
項目を多数用意することで数値化に近づく(物差しとしての目盛りが細かくなる)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 15 / 43
数値化による方法(筆記試験)
不適切な項目による得点のゆがみ
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Item response function
Ability
Pro
babi
lity
of a
cor
rect
res
pons
e
Figure 8: 識別力低・当て推量確率高
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Item response function
Ability
Pro
babi
lity
of a
cor
rect
res
pons
e
Figure 9: 困難度が逆
不適切な項目が含まれたテスト冊子では能力が高いほど得点が高いという関係が成立しない
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 16 / 43
数値化による方法(筆記試験)
テスト項目の種類
Table 1: テスト項目の種類と特徴項目の種類 長所 短所
多肢選択項目 4つの中から正しい ものを1つ選びなさい
� 短時間で多くの項目を出題できる。 � 高レベル・低レベル両方を査定できる。 � 採点に要する時間が短く客観的。 � 当て推量の影響を低められる。
� 項目づくりに時間がかかる。 � 適切な選択肢(攪乱肢)づくりが難し
い。 � 受験者の読解能力が影響する。
正誤項目 正しいものに○, 間違っているものに×をつけなさい
� 短時間で多くの項目を出題できる。 � 採点に要する時間が短く客観的。
� 当て推量による正答が起こりやすい。 � 完璧に正しい,または誤りである記述
作るのが難しい。 � 記憶の再生が強調されがち。
対応項目 それぞれに対応する ものを選びなさい
� 項目づくりが簡単。 � 採点に要する時間が短く客観的。
� 低レベルの学習成果に焦点が当りやすい。
短答項目 単語を書きなさい
� 自分で回答を記入する必要があるため当て推量の影響を低められる。
� 項目づくりが簡単。 � 幅広い知識の査定が可能。
� 採点に長時間を要する。 � 複雑,広範囲な学習成果の査定には不
向き。
作文項目 ~について述べなさい
� 高次の能力を直接査定できる。 � 他の項目様式より短時間で項目づくり
ができる。 � 統合的な学習成果の査定が可能。
� 採点が難しく長時間を要する。 � 査定されうる受験者の能力は深いがそ
の範囲が狭い。 � はったりがきく。 � 文章の質が影響する。
問題場面項目 次の資料を読んで以下 の問いに答えなさい
� 高次の能力を直接査定できる。 � 統合的な学習成果の査定が可能。 � 採点に要する時間が短く客観的。
� 受験者の読解能力が大きく影響する。 � 項目づくりが難しい。
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 17 / 43
数値化による方法(筆記試験)
短答項目の設定
Figure 10: 正誤が一義的に定まる出題の工夫教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 18 / 43
数値化による方法(筆記試験)
多肢選択項目の設定
Number of items
Gue
ssin
g ra
te
1 2 3 4 5 6 7 8 9 10
010
2030
4050
6070
8090
100
Figure 11: 選択肢数と当て推量確率
▶ 3つの攪乱肢が機能するように注意。
▶ 当該項目に正答できる能力を持つ受検者が正答の選択肢を選択し,それ以外の受検者が攪乱肢を選択するように。
▶ 1つの選択肢に 1行。▶ 選択肢の文の長さを同程度。▶ よくある間違いを攪乱肢に。
▶ 「ではない」「すべて」などは太字などで強調。
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 19 / 43
数値化による方法(筆記試験)
攪乱肢が機能しない例bababababababababababababababab
▶ 小型船舶の船長の遵守事項として適切でないものは,次のうちどれか。
1. 発航前に燃料及び潤滑油の量を点検すること。2. 酒に酔った状態であっても,有資格者である船長が操縦を行うこと。
3. 航行中も錨泊中もいつでも適切な見張りを行うこと。4. 操縦する小型船舶に差し迫った危険があるときは,人命の救助に必要な手段を尽くすこと。
Figure 12: 機能しない攪乱肢
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 20 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 13: 攪乱肢が機能する多肢選択項目の例 (1)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 21 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 14: 攪乱肢が機能する多肢選択項目の例 (2)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 22 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 15: 攪乱肢が機能する多肢選択項目の例 (3)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 23 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速 2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 16: 攪乱肢が機能する多肢選択項目の例 (4)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 24 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 17: 攪乱肢が機能する多肢選択項目の例 (5)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 25 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 18: 攪乱肢が機能する多肢選択項目の例 (6)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 26 / 43
数値化による方法(筆記試験)
攪乱肢が機能する例
▶ J号は大東市南西方の黒埼灯台を磁針方位 352°,距離2海里に見る地点から,大島北側の白崎灯台に向けて速力 10ノットで航行を開始した。この海域には流向 080°(真方位),流速2.3ノットの海流がある。J号の実航磁針路は,次のうちどれか。
1. 126° 11.5ノット2. 132° 11.5ノット3. 148° 8.9ノット4. 154° 9.0ノット
Figure 19: 攪乱肢が機能する多肢選択項目の例 (7)
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 27 / 43
数値化による方法(筆記試験)
問題場面項目
日本の南側の太平洋上で台風が発生し,非常に強い勢力でさらに勢力を強めながら,図の矢印のように北上する見込みであることが報道されました。あなたにはA地点に住んでいて稲作を営んでいる親戚と,B地点の海の近くに住んでいて漁業を営んでいる親戚がいます。それぞれのあなたの親戚に対して,この台風に関してどのような注意をすればよいのかについてのアドバイスとして最も適切なものを,授業で習った台風の性質や,報道されている台風の進路,日本列島の地形,親戚の住んでいる場所を踏まえながら,選択肢の中から一つ選びなさい。
① A地点では強い南風が高山が連なる山脈を越えることで温かく乾燥した強い風が吹く可能性があるため,稲作に与える被害に注意する。Bの家の近くでは強い南風が吹き,海水が陸に向かって吹き寄せられる可能性があるため,家の浸水に注意する。
② A地点では高山が連なる山脈に台風がさえぎられるため,大きな被害はない。Bの家の近くでは強い南風が吹き,海水が陸に向かって吹き寄せられる可能性があるため,家の浸水に注意する。
③ A地点では強い南風が高山が連なる山脈を越えることで温かく乾燥した強い風が吹く可能性があるため,稲作に与える被害に注意する。B地点は台風の東側にあることから北からの風が吹くため,漁船が沖に向かって流されないように注意する。
④ A地点では高山が連なる山脈に台風が遮られるため,大きな被害はない。B地点は台風の東側にあることから北からの風が吹くため,漁船が沖に向かって流されないように注意する。
A
B
台
実社会との関連のある場面の設定をすることで,課題に対する価値を高め,児童生徒にとって解決しがいのある課題となるようにすることで,問題解決的思考を十分に発揮させるようにする。
条件を設定することで評価対象となる能力を特定する。
設問文に記述された問題場面にあわせて,身につけた知識・技能に加えて提示された資料などを援用しながら解決させるようにする。
課題文より選択肢の文のほうが短くなるように記述する。
正答の選択肢と誤答の選択肢(錯乱肢)の文の長さは同じくらいにすることと,よく起こりうる間違いを錯乱肢とすることで,当て推量によって正答を選択する確率を低める。
図3 「思考・判断・表現」の観点の評価に用いる項目応答評価の例Figure 20: 問題場面項目の例教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 28 / 43
テスト項目と妥当性・信頼性
テスト項目と妥当性・信頼性
いわゆる「おもしろ答案」から考える
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 30 / 43
テスト項目と妥当性・信頼性
制約のない出題
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 31 / 43
テスト項目と妥当性・信頼性
制約のない出題
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 32 / 43
テスト項目と妥当性・信頼性
教示の不足
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 33 / 43
テスト項目と妥当性・信頼性
教示の不足
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 34 / 43
テスト項目と妥当性・信頼性
文字をを抜きすぎ
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 35 / 43
テスト項目と妥当性・信頼性
文字をを抜きすぎ
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 36 / 43
テスト項目と妥当性・信頼性
不完全な場面設定
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 37 / 43
テスト項目と妥当性・信頼性
不完全な場面設定
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 38 / 43
テスト項目と妥当性・信頼性
「何」で問うこと
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 39 / 43
テスト項目と妥当性・信頼性
「何」で問うこと
引用 [5]
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 40 / 43
引用文献
引用文献 I
[1] M. D. Miller, R. L. Linn, and N. E. Gronlund.Measurement and assessment in teaching. 10th ed.Merrill/Pearson, Upper Saddle River, NJ, 2009.
[2] L. J. Cronbach and P. E. Meehl.Construct validity in psychological tests.Psychological Bulletin, Vol. 52, pp. 281–302, 1955.
[3] S. M. Brookhart.Developing measurement theory for classroom assessmentpurposes and uses.Educational Measurement: Issues and Practice, Vol. 22(4),pp. 5–12, 2003.
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 41 / 43
引用文献
引用文献 II
[4] S. Messick.Validity of psychological assessment: Validation ofinferences from persons’ responses and performances asscientific inquiry into score meaning.American Psychologist, Vol. 50, pp. 741–749, 1995.
[5] バク天! 総合研究所(編).発表! 輝くバカテスト大賞:爆笑問題のバク天!小学館, 2004.
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 42 / 43
出席の登録
本日の出席とスライド
本日の出席
https:
//questant.jp/q/151007
本日のスライド
http://www.slideshare.net/
koyoyamamori/eduass151007
教育評価論(第 2 回) 学習評価の基礎 平成 27 年 10 月 7 日 43 / 43