言語テストにおける段階評価の実際：入試とプレイスメントテストのデータ処理

言語テストにおける段階評価の実際：入試とプレイスメントテストのデータ処理

日本言語テスト学会第 13 回全国研究大会２００９年９月７日

新潟青陵大学　木村哲夫

発表の概要2

段階評価とは？

入試における段階評価

プレイスメントテストにおける段階評価

なぜ段階評価なのか？

段階評価とは？

古典的テスト理論（ CTT) 間隔尺度連続的

項目応答理論（ IRT) 間隔尺度連続的

ニューラルテスト理論（ NTT) 順序尺度段階的

能力を順序尺度上（潜在ランク）で評価する評価

3

(Shojima, 2008)

ニューラルテスト理論 (neural test theory:NTT) ：自己組織化マップ (self-organizing map, SOM) や生成トポグラフィックマッピング (generative topographic mapping, GTM) のメカニズムを利用したノンパラメトリック・テスト理論

なぜ段階評価か？： NTT の利点

① 測定方法論的側面　（解像度の問題）

テストはそもそも連続的に学力を評価できるほど信頼性が高い測定道具ではなく、 5 ～ 10 段階くらいにランク付けることがせいぜいである。

荘島 (2008)

4

体重と体重計•現象（連続） •測定（高解像度）

Weight

1 23 4

5

荘島 (2008) より引用

能力とテスト•現象（連続？）•測定（低信頼性・低解像度）

Ability

6

1234

荘島 (2008) より引用


② 教育社会学的側面　

連続尺度の負の側面•生徒たちは、日々、一点でも高い得点をとるよう動機付けられている。•不安定な連続尺度の乱高下に一喜一憂させるべきではない。

順序尺度の正の側面•段階評価は、連続尺度上での評価よりも頑健•継続して努力しないと上位ランクに進めない。

荘島 (2008)

7


③ 教育現場の評価体制の側面

指導要録、通知票、調査書、作品・レポート・実技テスト、学力の文章表現など、教育現場で行われている評価体制は、順序尺度に帰着する。松宮・荘島 (2008)

8


④ 品質管理・アカウンタビリティの側面

段階評価を導入すれことにより、段階評価により区別される各能力段階（潜在ランク）の特徴を、Can-Do Chart との関連で示すことが、連続尺度のもとで検討するよりも容易に行える。テストから作成された Can-Do Chart はテストの説明資料・学力達成への道標になる。松宮・荘島 (2009)

Shoujima(2009)

9

10

Graded evaluation

↓Accountability

↓Qualification

test

For Qualifying TestsFor Qualifying Tests

Ordinal academic ability evaluation scale based on Neural Test Theory

Ordinal academic ability evaluation scale based on Neural Test Theory

Continuous academic ability evaluation scale based on IRT or CTT

Continuous academic ability evaluation scale based on IRT or CTT

It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously

It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously

Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability.

Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability.

Shoujima(2009) より引用

11

項目分析手法とソフトウエア項目分析手法ソフトウエアCTT古典的テスト理論

TDAP (大友・中村・秋山 )

IRT1PLM(Rasch Model)

EasyEstimation， Easy EstTheta (熊谷 )

NTTニューラルテスト理論

neutet(橋本 )exametrica(荘島 )

GNT段階ニューラルテスト理論

exametrica(荘島 )

※ 段階ニューラルテスト (graded neural test, GNT) モデル：多値の　　順序データに対応するための NTT の拡張モデル

入試データを段階評価にしたら設問の種類解答方法項目数配点小計会話応答多肢選択 5 2 10

文法語彙多肢選択 12 2 24

語句並び替え作文多肢選択 4 4 16

長文内語句穴埋多肢選択 10 2 20

長文読解多肢選択 8 2 16

長文読解正誤判断 14 1 14

合計 53 100•会話応答はリスニングではなくテキストを読む形式。•多肢選択は作文を除き 4択、作文は選択肢の語句を並び替え、 2番目と 5番目を回答（片方正解は 0 点）。•長文内語句穴埋と長文読解は、それぞれ 2種類の文章からなる。

12

入試データを段階評価にしたら基本統計量平均 48.5 標準誤差 0.68 中央値 49 最頻値 42 標準偏差 10.69 尖度 -0.075 歪度 0.014 最小 19 最大 79 標本数 249

010

20

30

40

50

60

70

80

90

1000

102030405060

ヒストグラム

データ区間 ( 得点）

頻度(人）

13

入試データを段階評価にしたら

通常の評価方法

素点をもとに、平均値と標準偏差を調整、または中央値補正により、他の試験科目とのバランスを取り処理。

段階評価にした場合

① すべての項目を 2値データNTT により処理。② 下位テスト (設問のタイプ )ごとに 2値データ NTT により処理し、その潜在ランクを段階NTT(GNT) により、順序尺度として処理。　　→今回は①により処理

14


潜在ランク数 (Q) をいくつに分析すべきか？

多い方が合否ボーダーを切りやすいが、項目数と受験者数から、分析の限界 (弱順序配列を満たすこと）がある。

素点合計と潜在ランクの相関（スピアマンの順位相関係数）Q=10 Q=11 Q=12 Q=13 Q=14 Q=15 Q=16 Q=17 Q=18 Q=19

0.82 0.82 0.83 0.82 0.83 0.82 0.83 0.82 0.83 0.82

テスト適合度はランク数を増やしても大きく変わらないが、 RMP に基づくテスト適合度はランク数を増やすにつれて下がる。今回はQ=10 とした場合の段階評価について、素点合計との差を見ることにする。

15


順位相関 0.82 ということは？

約 67％の順位は一致しているが、 33％は順位が異なり、合否の判定が変わる。

通常の評価方法換算点順位 37 位まで 44人合格

段階評価にした場合潜在ランク 10 ～８まで 47人合格

ある学科で 40人程度を入学させようとする場合

16

入試データを段階評価にしたら通常 NTT 　通常 NTT 　通常 NTT 　通常 NTT 　通常 NTT

1 10 　 29 10 　 88 8 　 62 6 　 112 5

2 10 　 32 10 　 93 8 　 62 6 　 117 5

2 10 　 32 10 　 96 8 　 73 6 　 118 5

2 10 　 37 10 　 22 7 　 73 6 　 135 5

5 10 　 37 10 　 51 7 　 88 6 　 55 4

6 10 　 45 10 　 51 7 　 101 6 　 55 4

7 10 　 45 10 　 55 7 　 101 6 　 55 4

7 10 　 55 10 　 62 7 　 101 6 　 62 4

10 10 　 17 9 　 67 7 　 101 6 　 73 4

10 10 　 37 9 　 67 7 　 7 5 　 93 4

12 10 　 45 9 　 73 7 　 32 5 　 101 4

12 10 　 14 8 　 73 7 　 45 5 　 112 4

14 10 　 17 8 　 73 7 　 62 5 　 118 4

14 10 　 28 8 　 73 7 　 67 5 　 118 4

17 10 　 32 8 　 73 7 　 67 5 　 124 4

17 10 　 37 8 　 82 7 　 73 5 　 130 4

22 10 　 37 8 　 88 7 　 82 5 　 136 4

22 10 　 37 8 　 93 7 　 82 5 　 17 3

22 10 　 37 8 　 112 7 　 82 5 　 37 3

22 10 　 45 8 　 29 6 　 88 5 　 51 3

22 10 　 51 8 　 32 6 　 101 5 　 67 3

29 10 　 55 8 　 55 6 　 112 5 　 82 3

17

入試データを段階評価にしたら通常 NTT 　通常 NTT 　通常 NTT

45 10 　 55 8 　 32 6

45 10 　 88 8 　 7 5

55 10 　 93 8 　 32 5

45 9 　 96 8 　 17 3

45 8 　 22 7 　 37 3

51 8 　 29 6

18


通常の評価方法

各項目の配点は恣意的に決められる。

識別力が高低にかかわらず、あらかじめ決められた配点によって重みづけられてしまう。

段階評価 (NTT) の場合

各項目が IRP によって重みづけられる。

識別力が高い項目に正答すればするほど潜在ランクが高く、誤答すればするほど潜在ランクが低く推定される。識別力が小さい項目に、いくら正答しようとも誤答しようとも、潜在ランクの推定に影響を与えない。

19

入試データを段階評価にしたら原因①： IRP が平坦な (識別力が低い ) 項目がいくつかあるため

能力の低い受験生がたまたま正解しても、能力の高い受験生がうっかり不正解しても潜在ランクの推定には影響を与えない。

1 2 3 4 5 6 7 8 9 100.00.20.40.60.81.0

文法語彙第 10問のIRP

潜在ランク

確率

20

入試データを段階評価にしたら (10) Compared to Christmas in Western counties, in Japan it is very much ( 　 15 　 ) oriented.

(A) commerce (B) commercial(C) commercially (D) commercialized

Bottom(19-41)

Middle(42-54)

Top(55-79)

0% 20%

40%

60%

80%

100%

38%

39%

26%

44%

44%

62%通常の処理（正解数）

A B

C( 正解 ) D

Bottom(1-3)

Middle(4-6)

Top (8-10)

0% 20% 40% 60% 80%100%

32%

43%

30%

47%

43%

57%段階評価の処理（NTT）

A B

C( 正解 ) D

21


1 2 3 4 5 6 7 8 9 100.00.20.40.60.81.0

長文穴埋め第７問のIRP

潜在ランク

確率

原因②： IRP が単調増加しない (識別力に問題がる ) 項目がいくつかあるため

中程度の能力の受験者には魅力的に見える選択肢だが、低い能力の受験者は文脈に関係なく自分の知っている語句の選択肢を選んで、偶然正解したのではないか？

22

入試データを段階評価にしたら　 What Vermont lacks in size, it makes up for in beauty. It is known as the Green Mountain State. The name comes from the Green Mountains, ( 　 which 　 ) divide the state up and down the center. ( 　32 　 ), the name Vermont comes from the French "verd mont," meaning green mountain.

　 32 　 (A) As a result 　　 (B) Finally 　　 (C) However 　　 (D) In fact

Bottom(1-3)

Middle(4-6)

Top (8-10)

0% 20% 40% 60% 80% 100%

15%

36%

24%

66%

43%

63%

段階評価の処理（NTT）

A BC D( 正解 )

Bottom(19-41)

Middle(42-54)

Top(55-79)

0% 20%

40%

60%

80%

100%

25%

25%

26%

49%

57%

63%

通常の処理（正解数）

A BC D( 正解 )

23


より優秀な学生を獲得できる可能性が高いのでは？

合否ボーダーラインを検討しやすいのではないか？

IRP や TRP を出題者にフィードバックすることで、次年度問題作成において質の向上につながるのでは？

テスト得点のみに頼った入試からの脱却につながるのではないか？

恣意的な配点による素点に基づく通常の処理よりも、項目の IRP による重みづけによる段階評価による入試は

①

②

④

③

24

英語プレイスメントテスト作成の流れ

項目選択のための予備テスト

IRT ： 1PLM による項目分析 (ZL

値 )NTT ：項目参照プロファイル (IRP)

項目分析

misfit の除去

CTT ：点双列相関係数 (P.BIS)

プレイスメントテスト完成

Misfit除去の基準Misfit Person ： ZL ＜－1.96Misfit Item ： P.BIS＜0.25

25

26

予備テストの項目数と受験者数受験者数項目数準 1

級2級準 2

級3級

文法語彙問題(vg)

222 80 25 20 20 15

会話問題 (dlg) 157 47 12 15 10 10

説明文問題 (mlg) 119 35 --- 15 10 10

受験者数項目数準 1級

2級準 2級

3級

文法語彙問題(vg)

193 32 2 10 13 7

会話問題 (dlg) 142 13 0 7 2 4

説明文問題 (mlg) 112 19 --- 7 5 7

misfit の除去

2 段階モデルによる英語プレイスメントテストの分析

27

① 2008 疑似クラス分け (N=75)

② 2009 N短大のクラス分け(N=125)

• NTT 分析は予備テストで得られた IRP を固定し、①は neutet 、②はexametrika を使　 LRT-SOM モデルにより、潜在ランクの目標分布を指定せずに行った。• GNT の分析は exametrika を使い LRT-SOM モデルにより、潜在ランクの目標分布を　一様分布として行った。

NTT(Q=10) により下位テストの潜在ランク(Rvg, Rdlg, Rmlg) を求め

潜在ランク (Rvg, Rdlg, Rmlg) の単純和 (SUM) をもとに５クラス分け潜在ランク (Rvg, Rdlg, Rmlg) を項目としてGNT(Q=5) により５クラス分け

SUM

GTN

SUM によるクラス分けとGNT によるクラス分けの相関

受験者数　第 1 段NTTﾗﾝｸ数

第 2 段GNTﾗﾝｸ数

順位相関係数

① 2008 75 10 5 0.93

② 2009 12510 5 0.95

10 10 0.92

28

•① の GNT を Q=10 とした場合は、弱順序配列を満たさなかった•順位相関係数はスピアマンの順位相関係数

1 2 3 4 5 6 7 8 9 1002468

1012

潜在ランク

得点

1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

30

潜在ランク

得点

1 2 3 4 5 6 7 8 9 100

5

10

15

潜在ランク得点

1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

30

潜在ランク

得点

1 2 3 4 5 6 7 8 9 100

2

4

6

8

10

12

潜在ランク得点

1 2 3 4 5 6 7 8 9 100

5

10

15

潜在ランク

得点

29

下位テストのテスト参照プロファイル (TRP)

① 2008 (N=75)

② 2009(N=125)

Vg MlgDlg

Vg MlgDlg

GNT のテスト参照プロファイル(TRP)

30

1 2 3 4 50

2

4

6

8

10

12

14

潜在ランク

得点

1 2 3 4 50

2

4

6

8

10

12

14

潜在ランク

得点

① 2008 (N=75) ② 2008(N=125)

1 2 3 4 5 6 7 8 9 100.0

0.1

0.2

0.3

0.4

0.5相対 LRD

相対 RMD

潜在ランク

相対

度数

1 2 3 4 5 6 7 8 9 100.0

0.1

0.2

0.3

0.4

0.5相対 LRD

相対 RMD

潜在ランク

相対

度数

1 2 3 4 5 6 7 8 9 100.0

0.1

0.2

0.3

0.4

0.5相対 LRD

相対 RMD

潜在ランク相

対度

数

1 2 3 4 5 6 7 8 9 100.0

0.1

0.2

0.3

0.4

0.5相対 LRD

相対 RMD

潜在ランク

相対

度数

1 2 3 4 5 6 7 8 9 100.0

0.1

0.2

0.3

0.4

0.5相対 LRD

相対 RMD

潜在ランク

相対

度数

1 2 3 4 5 6 7 8 9 100.0

0.1

0.2

0.3

0.4

0.5相対 LRD

相対 RMD

潜在ランク

相対

度数

31

下位テストの相対潜在ランク分布 (LRD) と相対ランク・メンバーシップ分布 (RMD)

Vg MlgDlg

① 2008 (N=75)

② 2009(N=125)

Vg MlgDlg

GNT の相対潜在ランク分布 (LRD) と相対ランク・メンバーシップ分布 (RMD)

32

① 2008 (N=75) ② 2009(N=125)

1 2 3 4 50.00

0.06

0.12

0.18

0.24

0.30

相対 LRD

相対 RMD

潜在ランク

相対度数

1 2 3 4 50.00

0.06

0.12

0.18

0.24

0.30

相対 LRD

相対 RMD

潜在ランク相対度数

33

GNT の項目参照プロファイル (IRP)

① 2008 (N=75) ② 2009(N=125)

1 2 3 4 50.0

1.0

2.0

3.0

4.0

5.0

RVgRDlgRMlg

LATENT RANK

1 2 3 4 50.0

1.0

2.0

3.0

4.0

5.0

RVgRDlgRMlg

LATENT RANK

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

34

RVg

RMlg

RDlg

RVg

RMlg

RDlg

GNT の境界カテゴリ参照プロファイル(BCRP) ① 2008 (N=75)

② 2008(N=125)

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

35

RVg

RMlg

RDlg

RVg

RMlg

RDlg

GNT の項目カテゴリ参照プロファイル(ICRP)

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

1 2 3 4 50.0

0.2

0.4

0.6

0.8

1.0

12345

① 2008 (N=75)

① 2008 (N=125)

2 段階モデルによる英語プレイスメントテストの分析（まとめ）

36

予備テストで識別力の高い項目を用意した場合SUM でも GNT でもほぼ同様のクラス分けができる。

NTT と GNT の 2 段階で分析することで、クラス( 能力）の境界を解釈・設定しやすくなる。

GNT で一様分布を指定することで、より均等なクラス分けが実現する。

SUM と GNT によるクラス分けで異なる結果が出るのは、 GNT は下位テストの識別力の差を考慮するためであろう。

2 段階モデルによる英語プレイスメントテストの分析（今後に向けて）

37

下位テストに読解問題を加える (GNT による分析）

各下位テストに項目数を増やし (等化）アイテムバンクを構築・公開：学校 ( 教員 ) 間での共有

各下位テストを Moodle-based CAT にする

潜在ランクを何らかの Can-D0-Chart へ対応づける

英語基礎力の構成概念の妥当性の検討

ご静聴ありがとうございました。

本英語プレイスメントテスト実施ご希望の方、本研究についてご質問のある方は、

[email protected]

あてにご連絡ください。

38

Documents

言語テストにおける段階評価の実際： 入試とプレイスメントテストのデータ処理

言語テストにおける段階評価の実際：入試とプレイスメントテストのデータ処理