21
科学技術コーパスの分析に基づくアイテム・バンクの構築と 潜在ランク理論によるコンピュータ・アダプティブ・テストの試行 小山 由紀江 名古屋工業大学 466-8555 名古屋市昭和区御器所町 E-mail: [email protected] 概要 本研究は,科学技術英語のコーパス分析によって抽出された語彙と語句を使用してアイテ ム・バンクを構築する手法について論じ,さらにこのアイテム・バンクを使ったコンピュータ・ アダプティブ・テスト (computerized adaptive test, CAT ) の試行とその結果について述べる. この CAT は,潜在ランク理論( latent rank theory, LRT ) によって段階的に推定されたアイテ ムの難易度に基づいて出題し,受検者の能力を段階的に推定するものである.さらにこの CAT の実施結果を分析し, LRT に基づく CAT の妥当性と有用性を検証して今後の課題を明らかにす る. キーワード 潜在ランク理論,CAT, 科学技術英語,コーパス, Construction of an Item-bank Based on Science & Technology Corpora and Trial of a Computerized Adaptive Test Using Latent Rank Theory KOYAMA, Yukie Nagoya Institute of Technology Gokiso-cho, Showa-ku, Nagoya, 466-8555 Japan Abstract This paper explains how an item-bank based on the analysis of science & technology corpora was developed. This item-bank is used for a computerized adaptive test (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal scale, it analyses a test-taker’s ability into one rank out of several ranks. The CAT with the item-bank was conducted as a trial, and the results are discussed to examine its validity. Keyword Latent Rank Theory, Computerized Adaptive Test, English for Science and Technology, corpus

Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

科学技術コーパスの分析に基づくアイテム・バンクの構築と

潜在ランク理論によるコンピュータ・アダプティブ・テストの試行

小山 由紀江

名古屋工業大学

〒466-8555 名古屋市昭和区御器所町 E-mail: [email protected]

概要 本研究は,科学技術英語のコーパス分析によって抽出された語彙と語句を使用してアイテ

ム・バンクを構築する手法について論じ,さらにこのアイテム・バンクを使ったコンピュータ・

アダプティブ・テスト (computerized adaptive test, CAT ) の試行とその結果について述べる.

この CAT は,潜在ランク理論( latent rank theory, LRT ) によって段階的に推定されたアイテ

ムの難易度に基づいて出題し,受検者の能力を段階的に推定するものである.さらにこの CATの実施結果を分析し,LRT に基づく CAT の妥当性と有用性を検証して今後の課題を明らかにす

る. キーワード 潜在ランク理論,CAT, 科学技術英語,コーパス,

Construction of an Item-bank Based on Science & Technology Corpora and Trial of a Computerized Adaptive Test Using Latent Rank Theory

KOYAMA, Yukie

Nagoya Institute of Technology Gokiso-cho, Showa-ku, Nagoya, 466-8555 Japan

Abstract This paper explains how an item-bank based on the analysis of science & technology corpora was developed. This item-bank is used for a computerized adaptive test (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal scale, it analyses a test-taker’s ability into one rank out of several ranks. The CAT with the item-bank was conducted as a trial, and the results are discussed to examine its validity.

Keyword Latent Rank Theory, Computerized Adaptive Test, English for Science and Technology, corpus

Page 2: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

1.始めに

本研究は,筆者を中心に構築してきた科学技術英語コーパスの分析結果(語彙・

語句)を用いてアイテム・バンクを構築し,潜在ランク理論 (latent rank theory, LRT) (Shojima, 2007)[1] に基づいたcomputerized adaptive test (CAT)を実施した結果について

論じ,科学技術英語の語彙・語句に関する能力を測定するためのテストとしてこのCATが妥当性を有するかどうかを検証するものである.

コンピュータの普及によりコンピュータを使ったテスト (computer based testing, CBT) が1990年代に広く実施されるようになり,アメリカでは,GRE(the Graduate Record Examination) やMedical College Admission Testを始め多くのCBTが開発されてきた.しかし,その後さらにコンピュータの計算の高速化が実現されることに

よって,コンピュータ適応型テスト(Computerized Adaptive Testing, CAT) の実施が可能

となった.このコンピュータ適応型のテストにおいては,個々の解答者の解答行動に応じ

て,解答者の能力測定に適切な問題が次の問題として選択され,設定に応じて解答者の能

力が確定できた時点でテストが終了する.この意味でCATは受検者の能力を効率よく正確

に測定できるという,大きなメリットを有す.(Brown, 1997, Wise & Kingsbury, 2000)[2][3] また,これまでCATの構築には通常項目応答理論 (item response theory, IRT) が用いられて

きた.IRTによって個々の項目に推定難易度のパラメータが与えられ,その難易度に基づい

て次の問題が選択される仕組みである.しかし,昨今ではSequential Probability Ratio Test

(SPRT) model (Tao, Wu, & Chang, 2008)[4] やLRTなど新しいテスト理論に基づいた方法が提

案されている.本研究では教育評価により適切と言われている潜在ランク理論 (Latent Rank Theory, LRT) を用いたCATを開発し,その実施結果を分析してCATの妥当性につい

て検証を行う.

2. LRT について

2.1 順序尺度に基づいた理論 LRT LRTはShojima (2007)[1] によって提案された新しいテスト理論で,元々はNeural

Test Theory (NTT)と呼ばれているものである.学習者の能力評価で従来使われてきた古典

的テスト理論(classical test theory, CTT)や IRT は,受検者の能力を点数あるいはθと

いう連続変数で表し,連続尺度によって評価してきた.しかしそもそも学力を測定するテ

ストの解像度は,CTT において「標準誤差」の概念が定着しているようにそれほど高いも

のではなく,むしろ 5-10 程度のランクに段階評価する方が適切と考えられる.このよう

な考え方に基づいて提案されたのが,順序尺度を仮定した統計モデルの LRT である.直接

測定されるテストの得点ではなく潜在的な能力値を仮定する点では IRT と同様であり,そ

の意味で潜在変数モデルである.LRT においては学習者の能力は,何点という得点ではな

Page 3: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

く,ある潜在ランクに属する確率によって示される.(荘島,2010, p84-85)[5] なおこの

ランクの数は分析時に必要に応じて適切な数に変えることができる.また,受検者をラン

クに分けることに適した理論であるため,プレースメント・テスト実施時の分析に使用し

た研究も報告されている.(木村,2009)[6] さらに,LRT には多値データを扱う段階的ニュ

ーラルテスト(graded neural test, GNT)モデルも用意されているため,小山・木村(2011)[7]

では Can-do Statements の分析に適切であることが指摘されている. 以上述べたように,LRTは学習者の潜在能力をランクの形で段階的に評価するテ

スト理論であるが,以下,LRTの分析に関わる特徴的な概念のうち主要なものについて説

明する.なお,本研究のテスト分析はすべてLRT分析のソフトExametrika 5.3 (Shojima, 2008)[8] を使用して行っている. 2.2 項目参照プロファイル(IRP)

まずIRTのθに相当する項目の難易度はLRTにおいてはどのように示されるのだ

ろう.LRTの場合,項目参照プロファイル(item reference profile, IRP) がそれぞれの項目

の特性を表わしている.これは,各潜在ランクに属する受検者が各項目に正解できる確率

を示すもので,項目ごとに出力される.以下のIRPの図1は今回の予備テストBの結果を分

析したものの一部であるが,各潜在ランクに属す受検者がこの項目を解答した時に正解す

る確率を示したものである.図1-1を見ると,潜在ランク1に属す受検者が正解する確率は

0.3程度であるが,ランク6 に属す受検者の正答率は0.9程度あり,ランクが上がるにつれて

正解率も単純増加的に上がっている.図1-2は潜在ランク1の受検者も同じくランク6の受検

者も0.8以上の正解率があり,ランクがあがるにつれて上昇しているものの上昇はごく僅か

である.このような項目は誰がやっても正解できる易しい項目と解釈できる. 図1-1 IRPの例1 図1-2 IRPの例2

他方,図1-3では,潜在ランク1の受検者も6の受検者も正解確率は0.2程度で,難度

0.0 0.2 0.4 0.6 0.8 1.0

1 2 3 4 5 6

確率

潜在ランク

QUIZ2_40

0.0 0.2 0.4 0.6 0.8 1.0

1 2 3 4 5 6

確率

潜在ランク

QUIZ2_1

Page 4: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

が高い項目であると言えよう.これら図1-2と図1-3については図1-1に比べてフラットなグ

ラフであることから,難易度の差はあっても受検者の能力を識別する力は低いことがわか

る.中には図3-4 のようにランク4で正解率が下がっているような場合もある.この項目は

何らかの理由でランク4の受検者が誤答しやすい問題であることが解るが,この理由は選

択肢の語彙選択や,問題文の難度など個々の問題によって異なり一律に示されるものでは

ない.しかし,一般に単調増加の傾きの大きいグラフを持つ項目が高い識別力を持つと言

える.

図1-3 IRPの例3 図1-4 IRPの例4

2.3 テスト参照プロファイル(TRP)

TRP (test reference profile) は各IRPの重みづけ和で,各潜在ランクに属する受検

者がそのテストで取ることが予測される期待得点を示している.図2は同じく予備テストBの分析結果である.これは96問のテストであるが潜在ランク6に属す受検者は概ね65問位に

正解できることを示している.その逆に潜在ランク1の受検者は40問弱しか正解できないが,

ランク1の学生でもある程度は正解できるという意味で,全体的な難度はそれほど高くない

ことが解る.このTRPのグラフが単調増加であることによりLRTの順序尺度性が担保され

る.

0.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6

確率

潜在ランク

QUIZ2_32

0.0

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5 6

確率

潜在ランク

QUIZ2_38

Page 5: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

図2 テスト参照プロファイル

2.4 ランクメンバーシッププロファイル(RMP)

RMP (rank membership profile)は各受検者がある潜在ランクに属する確率を示

し,受検者ごとに計算される.この推定される潜在ランクはIRPによって重みづけが変わり,

識別力の低い項目の解答行動には大きく左右されず,識別力の高い項目に正解するとより

高くなり,逆にその項目に正解しないとより低く示されるようになっている.例えば予備

テストBの分析では正答率で0.510の受検者がランク4に推定されているのに対し,正答率が

より高い0.542の受検者がランク3に推定され,同様に正答率0.385の受検者がランク2,そ

れより高い0.396の受検者がランク1に推定されている.即ち,前述のように潜在ランクの

推定はIRPによる重み付けによって変わり,正答率の高低はランクの高低に必ずしも一致し

ていない.以下,予備テストBの受検者のRMPから幾つかの例を取ってRMPの示すものを

見て行こう. 図3-1はランク6と推定される受検者のグラフであるが,図3-2のRMPがランク1を示すのと同様,かなり明確に受検者の属すランクが示されている.それに比べ,図3-3 と図

3-4は他の潜在ランクにも属す可能性が示されている.図3-4ではランク2になる確率はラン

ク3より多少小さいだけであり,学習を怠ればランク2になってしまう可能性が高い.この

ような意味で,RMPは現在の能力の状況を単なる数値としてだけでなく,今後の学習に対

するフィードバックとして個々の受検者に与えてくれる.この点は,IRTやCTTと異なる

LRTの教育的な意義を示すものと言えよう. 木村 (2012)[9] は,RMPの利点の一つとして同じ受検者が異なる時期に受けたテス

トのRMPを比較することにより,推定能力の変化を示すことができることを挙げている.

また,さらにLRTの有用性について,(1)教育方法論的側面,(2)教育心理的側面,(3)教育現場の評価体制の側面と三つの側面から考察しているが,このRMPを評価のフィード

バックとして多義的に示すことで,学習の動機づけが高まる可能性についても指摘してい

る.

0

20

40

60

80

1 2 3 4 5 6

得点

潜在ランク

テスト参照プロファイル(TRP)

TRP

Page 6: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

図3-1 潜在ランク6のRMP 図3-2 潜在ランク1のRMP

図3-3 潜在ランク4のRMP 図3-4 潜在ランク3のRMP

2.5 その他の指標

Exametrika の分析を行うと得られるその他の指標には,ランクの適合度指標,

潜在ランク分布,ランク・メンバーシップ分布,観測率プロファイルがある.また 2.1 で言

及した Can-do Statement のような質問紙の解答を分析するための GNT モデルや,その他

多値データを分析する多値モデル,多肢選択の誤答選択肢を詳細に分析する名儀ニューラ

ルテストモデルによる出力も可能である.潜在ランク分布 (LRD)は,受検者の推定された

潜在ランクの分布を示すものであり,ランク・メンバーシップ (RMD) はある受検者があ

る潜在ランク属す確率の周辺分布であり,受検者の母集団の特徴を表す.表 1 はランクの

適合度指標の出力内容である.例えば AIC,CAIC,BIC,など情報量基準は,ランク数が小

さいほどモデルにフィットしており,RMSEA も小さいほど適合していると考えられる.実際に

は幾つかのランクで分析した結果,これらの指標を比較して最適なランクを選択することになる

が,適切なランク数は最終的にはテストの目的によって決めることが適切であろう.

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000

0.000

0.200

0.400

0.600

0.800

1.000

1.200

Rank 1

Rank 2

Rank 3

Rank 4

Rank 5

Rank 6

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800

0.000

0.100

0.200

0.300

0.400

0.500

0.600

Rank 1

Rank 2

Rank 3

Rank 4

Rank 5

Rank 6

Page 7: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

表 1

テスト適合度 RMPに基づくテスト適合度

カイ2乗値 126.172 112.367自由度(degrees of freedom) 1824 1824P値 1.000 1.000NFI 0.751 0.762RFI 0.751 0.762IFI 1.000 1.000TLI 1.000 1.000CFI 1.000 1.000RMSEA 0.000 0.000AIC -3521.828 -3535.633CAIC -9548.442 -9562.247BIC -7724.442 -7738.247

3.目的

以上述べたように,LRT はアイテムも受検者もランクを基に評価するというこれ

までのテスト理論にはない特質を持つが,本研究ではこの LRT のテスト理論に基づいた

CAT を作成し,その結果を考察する.また,科学技術英語のコーパス分析に基づいて抽出

した語彙と語句を使用してアイテム・バンクを作成する.さらにこのアイテム・バンクを

使用して,LRT の理論に基づいた CAT を実施し,工学部の学生の英語語彙・語句能力を測

定するテストとしての妥当性を検証することが本研究の目的である.

4.アイテムの作成

4.1. 語彙アイテムの作成 ここで言う「アイテム」とは「項目」と訳されるが,テストの個々の問題のこと

である.今回のCAT開発には,科学技術英語から語彙(単語)のアイテム 150 問と語句の

アイテム 80 問を作成した.単語のアイテムは機械工学,電機工学,応用物理,生物工学,

構造の 5 分野の学術論文コーパス(計約 260 万語)すべてに重複して出現する語を抽出し,

そこから基本語彙を除いた「EGST語彙リスト 1304」(石川・小山, 2007)[10] の上位 500 語

を基に作成した.形式は単語―単語の日英あるいは英日の訳,英語の定義,文中の空所補

充の 4 種類,解答様式は全て多肢選択であるが,それぞれ正答以外の選択肢(distractor)

も「EGST語彙リスト」の同程度の頻度レベルから選んだものである.文章問題の問題文は

全てオリジナルに作成した.以下,4 種類それぞれの例題を示す.1

1 この科学技術コーパスの分析に基づく語彙問題は,2011 年 11 月に開催された「名工大英単語

コンテスト」に使用するために,名古屋工業大学の英語教員によって作成された.元の問題はリ

スニングのセクションも含み全 200 問で構成される.

Page 8: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

1)日本語の英訳選択問題 転換 (1) conversion (2) fourier (3) recumbent (4) implementation

電極 (1) electrode (2) electrocautery (3) electrocardiogram (4) electrolysis

2) 英語の和訳選択問題 exponent (1) 露出 (2) 指数 (3) 構成素 (4) 輸出

spectral (1) 立体の (2) 分光の (3) 結果の (4) 重要な

3) 英―英(定義)問題 a line of energy, radiation, or particles sent in a particular direction

(1) characterization (2) beam (3) decimal (4) adherence

an approximate calculation of a quantity

(1) contamination (2) fabrication (3) medication (4) estimation

4) 英文中空所補充問題 The virus would be ( ) to another person very fast.

(1) digested (2) performed (3) transmitted (4) swallowed

The ( ) window cast slanting shadows across the floor.

(1) empirical (2) excess (3) dynamic (4) diagonal

4.2 語句アイテムの作成

本研究では,CAT のアイテムに単語だけではなく語句も対象とした.語句は自然

な英語使用を可能にする重要な要素であり(Hyland, 2008)[11] その知識を測定する意義は大

きいと思われるからである.このアイテムに用いる語句であるが,今回は不連続の語句は

対象とせず,連続した語から成る語句(単語連鎖)のみを対象とした.この単語連鎖は,

Hyland (2008)[11] によって適切な長さとされている 4-gram と,より複雑な語句も対象と

することを視野に入れて 5-gram との両方を抽出することにし,応用物理(AP),生物工

学(B),電気工学(E),機械工学(M)の 4 分野のコーパス約 200 万語から,AntConc3.2.4 (Anthony, 2011)[12] を用いて抽出した.手順としては,それぞれの分野で 4gram と 5gramを分析し,さらに 4 分野に共通して出現した単語連鎖を抽出したが,その結果,4gram は

658 ,5gram は 168 が抽出された.4-gram,5-gram の例として,頻度順で上位のものか

ら 10 位までの結果を以下の表 2-1 と表 2-2 に示す.表 2-1 を見ると上位には on the other hand のような定型的な表現もあるが,単語連鎖は英文を n 個の語列で機械的に切ったもの

であるため,4-gram の “a function of the”, “as well as the” 等が含まれ、 表 2-2 では

5-gram にも “on the other hand the” ,“as shown in fig a” のような、意味的なまとまり

のない形が含まれている.

Page 9: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

表2-1 科学技術英語コーパスから抽出した単語連鎖 4-gram

4-Grams AP Freq B Freq E Freq M Freq Total Freq

as shown in fig 173 233 124 147 677

as a function of 227 158 97 126 608in the case of 135 176 103 115 529is shown in fig 106 119 126 132 483on the other hand 125 208 63 75 471are shown in fig 80 121 69 75 345a function of the 95 59 49 67 270in the presence of 45 166 26 18 255as well as the 64 73 44 72 253results show that the 90 49 53 59 251

表2-2 科学技術英語コーパスから抽出した単語連鎖 5-gram

5-Grams AP Freq B Freq E Freq M Freq Total Freq

as a function of the 82 47 31 49 209

it can be seen that 31 57 56 31 175on the other hand the 40 73 17 25 155it should be noted that 29 28 30 43 130at the end of the 10 59 13 12 94in the case of the 24 25 25 18 92can be seen that the 20 27 24 16 87as shown in fig a 19 23 12 20 74should be noted that the 20 18 14 22 74it was found that the 19 36 9 9 73

上記のように単語連鎖の特質上,ひとまとまりとは考えられない単語列もあるた

め,冠詞,定冠詞で終わるものを手作業により除外した結果,頻度順で150位までの中から

残ったのは4-gramは 71, 5-gramは80であった.これらの4-gramと5-gram をアルファベ

ット順に並べたもののうち最初の20位までを表3に示す.これらのうち due to the fact とdue to the fact thatのようにthat が付いているか否かだけであとの部分が同じものや, it should be noted that とit must be noted that のように助動詞のみが異なるものなどは,

重複とみなし一つの単語連鎖として取り扱うことにした.このため,結局最後にアイテム

として使うことのできる単語連鎖はこれらの数より少なく,5-gram と4-gramの問題数を

同数に合わせることから各40問となった.問題はすべて文中の空所補充で解答は多肢選択

形式である.選択肢のうち誤答選択肢 についても今回作成した4-gram, 5-gramのリストに

あるものをできるだけ採用したが,同じものが頻繁に使用されないよう考慮の上,問題文

を含め英語の母語話者である大学英語教員が作成した.また,別の一名が全体の文章や選

択肢の語彙が適切であるか点検を行った.それぞれの問題文の例は以下の通りである.

4-gramを正解とする問題例 The researcher studied plant cellular activity ____________ ultraviolet light.

Page 10: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

A. in the presence of B. for the purpose of C. for the case of D. higher than that of 5-gram を正解とする問題例 The results of the experiment ____________ our expectations. A. agree very well with B. can be seen from C. are explained by the fact of D. can be seen in

表 3 科学技術コーパスから抽出した単語連鎖リスト(精選後)

4-gram 5-gram

a large amount of agree very well with the

a large number of agreement with the experimental dataa wide range of and at the same timeare plotted in fig are in good agreement withare shown in fig. as can be seen fromas a function of as can be seen inas a result of as in the case ofas the ratio of as it can be seenat a rate of be explained by the factat the beginning of be expressed in terms ofat the center of can be expressed as followsat the end of can be expressed as whereat the same time can be seen in figbe considered to be can be written as wherebe taken into account defined as the ratio ofby the fact that due to the absence ofcan be applied to due to the fact thatcan be attributed to due to the lack ofcan be considered as due to the presence ofcan be described by explained by the fact that

5.予備テスト

5.1 予備テスト実施状況 以上のような手順で作成されたアイテムを使って,2 回の予備テストを行った.第

一回目の予備テスト(以下,予備テスト A)は 2011 年 11 月に 150 問の語彙問題を内容と

して行われた.受検者は工業系大学 1 年生から大学院生まで 134 人,paper based test で解答はマークシート形式であった.第二回目の予備テスト(以下,予備テスト B)は 2012

Page 11: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

年 11 月に learning management system (LMS) の moodle1.9 の小テスト機能を使って実

施された.予備テスト B のアイテムはすべて単語連鎖(語句)を対象とするものだが,予

備テスト A と合わせてアイテム・バンクを作るためには等価を行う必要があった。しかし,

予備テスト A と重なる受検者はいなかったため,アンカーアイテムを使って等価を行うこ

とにした。アンカーアイテムは予備テスト A から、推定ランクの低いアイテムから高いア

イテムまで 16 問を選び、予備テスト B に加えられた.最終的にはこの 16 問も加えたもの

を予備テスト B と呼ぶ.ところで予備テスト B はアンカーアイテム以外は予備テスト A と

は異なり文中空所補充の形式のみで,中には比較的長いセンテンスもあるため受検者の負

担が大きくなることが考えられた.そのため予備テスト B は,二回に分けて実施した.各

回 48 問ずつ,計 96 問である.実施時期は 2012 年 11 月で 1 週間の間隔をあけて行われた.

予備テスト B の受検者は全て工業系大学の 1 年生である.これらの予備テスト A と B の基

本統計量は以下の表 4 の通りである. 表 4 予備テストの基本統計

基本統計量 予備テストA (単語) 予備テストB(単語連鎖)

受検者数(N) 134 74項目数(n) 150 96最小値(Min) 41 28最大値(Max) 138 84中央値(Median) 76 50.5平均値(Mean) 77.604 51.649分散(Var.) 357.369 160.724標準偏差(SD) 18.904 12.678

5.2 予備テスト A の分析結果 予備テスト A の TRP(図 4)を見ると,潜在ランク 1 と推定される受検者は 150

点中 60 点程度を取ることができ,ランク 6 の受検者は 90 点程度を取ることができるテス

トである.グラフの傾きが小さいことからテストとしての識別度はあまり高くないことが

解る. 図 4 予備テスト A の TRP

0

50

100

150

1 2 3 4 5 6

得点

潜在ランク

テスト参照プロファイル(TRP)

Page 12: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

図5は予備テストAのLRDとRMDの結果であるが両者がほとんど重なっている.

これを見ると受検者の潜在ランクの分布も,ある潜在ランクに属す確率の分布もランク 1とランク 6 が高く,ランク 2 から 5 は低いということが解る.能力の高い受検者と低い受

検者が両極に存在し,中間的な能力の受検者が少ないと言えるだろう.表 4 は TRP,LRD,

RMD の各分析結果の数値そのものの表である. 図 5 予備テスト A の LRD と RMD

表 4

Rank 1 Rank 2 Rank 3 Rank 4 Rank 5 Rank 6

TRP 58.737 64.349 72.238 80.276 89.261 95.496

LRD 30 12 21 21 17 33RMD 27.401 13.885 21.850 22.021 17.981 30.862相対TRP 0.392 0.429 0.482 0.535 0.595 0.637相対LRD 0.224 0.090 0.157 0.157 0.127 0.246相対RMD 0.204 0.104 0.163 0.164 0.134 0.230 5.3 予備テスト B の分析結果

予備テスト B は 80 問の単語連鎖をターゲットとする問題に,予備テスト A から取っ

た語彙のアンカーアイテム 16 問を加えた 96 問のテストであった.テスト参照プロファイル(2.3

の図 2 参照)を見ると前述のようにランク 1 の受検者でも 40 問近くに正解できる比較的易しい

テストであるが,ランク 6 の受検者でも 65 問程度の正解という意味ではそれ程易しいわけでも

なく,ランク上位の受検者も下位の受検者もある程度は正解できるため両者に大きな差が出ない

テストと言えよう.

予備テスト B の LRD と RMD(図 6)であるが予備テスト A と似た傾向を示している.

0.00

0.06

0.12

0.18

0.24

0.30

1 2 3 4 5 6

相対度数

潜在ランク

潜在ランク分布(LRD)

相対LRD 相対RMD

Page 13: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

やはりランク 6 に属す確率が高い傾向があり,ランク 2 と 5 が下がっていて両端が高い.しか

し予備テスト B ではランク 4 の分布が高く,ランク 6 と同程度あることが解る.これは受検者

が上位と下位のみならず,中位にも属しているということであり,全体として余り偏りのない分

布になっていると言えよう.表 5 には TRP,LRD,RMD の分析結果の数値そのままの表であ

る.

図 6 予備テスト B の LRD と RMD

表 5

Rank 1 Rank 2 Rank 3 Rank 4 Rank 5 Rank 6TRP 38.660 42.627 48.114 53.781 60.165 65.048LRD 13 10 13 14 10 14RMD 12.291 11.157 13.020 13.302 11.426 12.804相対TRP 0.403 0.444 0.501 0.560 0.627 0.678相対LRD 0.176 0.135 0.176 0.189 0.135 0.189相対RMD 0.166 0.151 0.176 0.180 0.154 0.173

6.EGST-CAT の実施と結果 6.1 EGST-CAT 実施クラス

本研究の CAT は科学技術英語の語彙・語句力を測定するものであり,科学技術英

語を指す English for General Science & Technology から EGST-CAT と呼ぶことにする.

EGST-CAT は名古屋工業大学のLMS である moodle 2.3.3 に実装されたLRT-CAT モデュ

ール(秋山・木村・荘島,2011)[13] を使って 2013 年 1 月に実施された.受検したのは工業

系大学 1 年生 80 名であるが,これは授業中に実施されたもので最初のクラス(クラス 56)の受検者数が 37 名,次の時限に行ったクラス(クラス 78)が 43 名であった.

0.00

0.04

0.08

0.12

0.16

0.20

1 2 3 4 5 6

相対度数

潜在ランク

潜在ランク分布(LRD)

相対LRD 相対RMD

Page 14: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

6.2 EGST-CAT の実施条件 CAT を実施する場合重要なのは,1) 最初のアイテムの設定,2) 次に出すアイテ

ムの選択方法,3) 終了条件の決定の 3 点である.今回実施した EGST-CAT は上述のよう

に moodle 用の LRT-CAT モデュールを使用しているが,このモデュールは木村(2012)[9] の

アルゴリズムに基づいて開発されたため,基本的にその方法を踏襲している.ただし

EGST-CAT ではテストレット方式を用いず,全て個々のアイテムを単位として出題した.

初期設定は初期の受験者能力を RMP0=(1/Q,1/Q,1/Q,1/Q,1/Q,1/Q)(Q はランク数なので

この場合 6 に設定されている) としてある.さらにアイテム選択のアルゴリズムであるが,

木村(2012)[9] の提案した「暫定 RMP と IRP の差分ベクトルの積和平均による項目選択ル

ール」(p76)を用いたが,これはテストの始めはその値が小さいもの(即ち識別度が低い

もの)から,終わりになるに従って値の大きい識別度の高いものを選択するようなアルゴ

リズムを採用している.次に終了条件である.終了条件は,受検するアイテム数に限界を

設ける場合と,IRT を使った CAT で標準誤差が用いられるように設定した一定の数値より

前問との差が小さくなった場合に推定が収束したものとして終了とする場合がある.LRTに基づいた CAT では暫定 RMP の変化が小さくなって収束したところで終了する.木村

(2012)[9] はこの変化の値が 0.05 でシミュレーションを行っているが,様々な値で試行する

必要がある. 6.3 EGST-CAT の実施結果と考察 6.3.1 推定された潜在ランク 今回の EGST-CAT は二つのクラスで異なる終了条件設定をして実施した.クラス

56 は終了条件として RMP は 0.01 未満,最大受検アイテム数は 100 問,クラス 78 の終了

条件はそれぞれ 0.03 未満と 50 問である.このように異なる終了条件を設定したため,

EGST-CAT の結果はクラス別に考察することにする.まず各受検者の潜在ランクであるが,

以下の図 7 にあるように,クラス 56 とクラス 78 はその結果に大きな違いが生じた.両ク

ラスに共通しているのは推定された潜在ランクはランク 6 が一番多いという点であり,ク

ラス 78 に至っては 43 名中 19 名がランク 6 に属すと推定された.しかし,クラス 78 はほ

ぼ段階的にランク 1 までの受検者数が減少しているのに対し,クラス 56 はランク 5 が 1 名

のみでランク 6(11 名)の次に多いのはランク 3 に属する 9 名である.この違いが受検者

の能力の違いから生じたのか,終了条件の違いから生じたのかは明らかではないが,少な

くともクラス 78 の受検者にとっては全体的にテストの内容が易しかったことが解る.なお

6.3.4 で後述する科学技術英語(リーディング)の期末試験(100 点満点),TOEIC(リー

ディングセクション)の平均点を外部指標として,EGST-CAT の潜在ランクの平均値と共

に表 6 に示す.これを見ると、3 つのテスト全てにおいてクラス 78 が高い値を示している

ことが解る.なお本論文末尾に参照のため EGST-CAT の moodle 画面を付す.

Page 15: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

図 7 受検者の潜在ランク

表 6 推定されたランク・科学技術英語期末試験・TOEIC の平均値

平均点 CAT TOEICR 期末R

クラス56 3.6 211.7 72

クラス78 4.6 228.4 79.3

6.3.2 受検アイテム数と時間

推定ランクが確定するまでの受検アイテム数(解答数)と所要時間は CAT の成否

を決める重要なファクターである.以下,クラスごとにデータを詳細に考察することにす

る. 受検時間で最長だったのはクラス 56 で 32 分,受検アイテム数は 100 問(max),

推定されたランクは 2 であった.同様に 2 番目に長かった受検者は 31 分で 100 問に解答し

ランクは 3 と推定された.受検時間が最短だったのは 9 分で,解答数は 19,潜在ランクは

6 である.最大の 100 問を受けた受検者数は 37 人中 22 人に上り,推定されたランクは 1から 6 まで様々であった.しかし全体としてランク 6 に推定された受検者の解答数は平均

49.7 で,クラス 56 全体の平均 81.3 に比べ,30 問以上少ない受検アイテム数となっている. クラス 78 では受検時間が最長だったのは 31 分,50 問(max),推定されたランクは 6,次に長かったのは 24 分,50 問(max),ランクは 5 であった.最大の 50 問を受けた受検

者は 43 人中 22 人,これらの受検者のランクは 2 から 6 まで散らばっているが,ランク 6の受検者の平均解答数は 26.5 とやはりクラス 78 の全体の平均 38.7 よりは 12 問以上少な

い結果となった.これに対し,ランク 5 以下の受検者全体の平均は 49.2 問であり,ランク

6 以外の殆ど全員が最大数の問題を解答したことが解る.

0

2

4

6

8

10

12

14

16

18

20

rank-1 rank-2 rank-3 rank-4 rank-5 rank-6

Class 56 Class 78

Page 16: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

図 8-1 と 8-2 は各クラスの解答数(受検項目数)によるヒストグラムである.クラ

ス 56 では大きく max の 100 に偏っているが他の部分では中央辺りに山がある.クラス 78では max 50 問近くに多くの受検者がいるが 20 問までにも 10 人程度比較的多くの受検者

がいる.クラス 56 とは逆に中央辺りは少ない.表 7 にクラスごとの平均解答数,表 8 に各

クラス解答数の少ない順に 5人の受検者を選びEGST-CATの所要時間と潜在ランクをまと

めてある.クラス 56 とクラス 78 は終了条件の 1 つ RMP がそれぞれ 0.01 と 0.03 と異な

る設定だったため,解答数の少ない方から 5 人を見ただけでもクラスによって大きな違い

が出た.クラス 56 は全般に多くのアイテムに解答をし,長い時間テストを受ける結果にな

っている.受検するアイテムが最大の受検者が多く,また受検時間も長くなる傾向があり,

これを改善するためには終了条件を変えるなどの措置が必要であろう. 図 8-1 図 8-2

表 7 平均解答数

平均解答数

クラス56 81.3

クラス78 38.7 表 8 解答数の少ない順

解答数 所要時間/分 ランク 解答数 所要時間/分 ランク

19 9 6 11 3 625 11 6 13 8 630 13 6 15 7 631 18 6 15 6 639 27 6 15 10 6

クラス56 クラス78

0

5

10

15

20

25

10

20

30

40

50

60

70

80

90

100

人 受検項目数

クラス56

0 5

10 15 20 25 30

10 20 30 40 50

受検項目数

クラス78

Page 17: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

6.3.3 受検者の解答推移 受検者がどういうアイテムを受けて最終的にある潜在ランクに属すると推定され

たのか,その解答推移の典型的な例を図 9-1 と 9-2 に示す.図 9-1 は暫定ランク 1 から始ま

り 2 問目からは全て正解することで,暫定ランクが 4-5-6 と上がっていることが解る.

このように,順調にランクの推定が推移し最終的に 21 問でランク 6 に推定されている.こ

れに対して図 9-2 は 2 問目に正解したもののその後不正解や正解がランダムに続き,暫定

ランクも 1-4-2-1-2-3-2 と上下に変化し,最終的にはこの図に入っていない下方の

100 問目でランクが 3 に推定された.このように何人かの受検者の解答推移を調べることに

よって,CAT の能力測定プロセスの特徴が明確となる. 図 9-1 図 9-2 item mark Q rank ΔRMPItem239 0 6 1 0.1 *Item238 1 6 4 0.1 *Item097 1 6 5 0.1 *Item208 1 6 6 0.0 *Item209 1 6 6 0.1 *Item081 1 6 6 0.0 *Item216 1 6 6 0.0 *Item184 1 6 6 0.0 *Item236 1 6 6 0.0 *Item045 1 6 6 0.0 *Item130 1 6 6 0.0 *Item143 1 6 6 0.0 *Item165 1 6 6 0.0 *Item217 1 6 6 0.0 *Item126 1 6 6 0.0 *Item015 1 6 6 0.0 *Item243 1 6 6 0.0 *Item122 1 6 6 0.0 *Item164 1 6 6 0.0 *Item145 1 6 6 0.0 *Item026 1 6 6 0.0 *

item mark Q rank ΔRMPItem239 0 6 1 0.1 *Item238 1 6 4 0.1 *Item097 0 6 2 0.1 *Item245 1 6 3 0.1 *Item062 1 6 4 0.0 *Item208 0 6 3 0.1 *Item028 0 6 3 0.0 *Item042 0 6 2 0.0 *Item064 1 6 3 0.0 *Item043 1 6 3 0.0 *Item094 1 6 3 0.0 *Item111 0 6 3 0.0 *Item089 1 6 3 0.0 *Item175 0 6 3 0.0 *Item009 0 6 3 0.0 *Item068 1 6 3 0.0 *Item222 1 6 3 0.0 *Item087 0 6 3 0.0 *Item084 1 6 3 0.0 *Item169 1 6 3 0.0 *Item025 0 6 3 0.0 *

6.3.4 EGST-CAT の精度 CAT の能力測定の精度を確かめるには,アイテム・バンクの元の問題に対する解

答行動によって得られた受検者の能力値(真値)と CAT を受検することによって得られた

能力値を比較する必要がある.しかし,今回の EGST-CAT の受検者は予備テスト A(語彙

テスト)によって構築されたアイテムは解答しておらず,予備テスト B(単語連鎖テスト)

のみしか受検していないため,解答全体に基づいた推定ランクを比較することができない.

従って,今回の EGST-CAT に関しては,同じ受検者が同時期に受けた科学技術英語(リー

ディング)の期末試験と,TOEIC(リーディングセクション)の得点と EGST-CAT によ

って推定されたランクとのスピアマン相関を求めた.クラス 56 とクラス 78 では実施条件

が異なるため,各クラス別々に相関係数を求めた.これら 3 つのテストをすべて受検した

受検者はクラス 56 が 30 名、クラス 78 は 41 名であったため、これらの受検者の受検結果

の相関を求めたところ,以下の表 9 が示す結果となった.今回実施した EGST-CAT と科学

Page 18: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

技術英語の期末試験は両クラスとも 0.6 以上の比較的高い相関係数を得たが,TOEIC とは

クラス 78 において 0.48 というやや低い相関係数となった.科学技術英語の期末試験は学

習内容が科学技術に関するものであることから,今回の EGST-CAT が測定する能力とは類

似度が高い.一方,TOEIC は内容,受検時期ともに EGST-CAT との差異が大きく,相関

も低い結果が出たと考えられる.このように,内容的に類似度の高い科学技術英語の期末

試験との相関が 0.63-0.65 あったことを考えると,今回の EGST-CAT の結果は,受検者

の科学技術英語(語彙・語句)に関する能力を一定程度精確に測定しており,その意味で

内容的妥当性の高いテストと言えるだろう. 表 9 EGST-CAT と他の外部指標テストとの相関

TOEICR 期末R

クラス56 0.630748 0.634739

クラス78 0.481363 0.655065

7.まとめ

本研究では,科学技術英語の語彙と語句(単語連鎖)を内容とする CAT (EGST-CAT)を LRT のテスト理論に基づいて作成するために,科学技術英語コーパスを分

析した結果を用いてアイテム・バンクを作成する方法について述べた.さらに,2 つの予備

テストの実施を経て LRT によるアイテム分析を行い EGST-CAT を moodle で実施した.

この結果,直近に行った科学技術英語(リーディング)の期末試験との相関は 0.63-0.66程度ありある程度の相関が見られたが,真値との比較を行うことができなかったため

EGST-CAT の精度に関して明確な判断はできない.しかし受検時間の点では,最長でも 30分程度で潜在ランクが推定されたことを考えると,元の問題を全てやった場合の受検時間 1時間半に比べれば格段に短い時間でランクの推定ができた.その意味で受検者への負担は

軽減され,CAT の意義が確認されたということができる. 今回の EGST-CAT の実施は試行ではあるが,CAT の適切な実施に必要なプロセ

スが 2 点欠けている.即ち,アイテムの精選とシミュレーションの十分な実施である.ア

イテムの作成と予備試験の実施上時間的な制約から,作成したアイテムを精査し精選する

ことができなかった.そのため,予備試験 A も予備試験 B もテスト参照プロファイル(TRP)の傾きが緩やかな,識別度の高くないテストとなり,結果的に EGST-CAT の精度も上がら

なかった可能性が高い.LRT においてはアイテムの識別力を IRP のグラフの傾きで判断す

るが,今回は予備テストの結果から右下がり,あるいはフラットなグラフも散見された.

今後,不適切なアイテムを除去する必要があるが,その基準の明確化も課題の一つである.

また,本研究の EGST-CAT については終了条件の設定が適切ではなかったため,多くの受

検者が max とされた問題数を受検する結果になった.これはシミュレーションを十分に行

い,適切な RMP の設定を行うことによって避けられるはずである.

Page 19: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

以上のように,今回の EGST-CAT 試行により,この CAT を改善するための多く

の課題が明らかとなった.しかしまた同時に,LRT に基づく CAT の持つ意義も確認され

た.Wise & Kingsbury (2000)[3] が指摘しているように,妥当性の高い CAT の構築には,1) 適

切なアイテム・バンクの構築,2) CAT 実施の手順,3) テスト・セキュリティーの確保,4)

受検者の環境整備への対応が重要な要素である.これら全てを満たすことは決して容易な

道のりではないが、テストとしての内容的妥当性を高めるために本研究で試みた科学技術

英語コーパスの分析に基づくアイテム構築をさらに進めることがまず必要である.そして

さらに,CAT 実施のプロセス一つ一つを吟味しながら,改良版の EGST-CAT を作成するこ

とが次のステップである。LRT に基づく CAT の改良を継続することで、科学技術英語の効

率的なかつ正確な評価を実現する可能性が見えてくるに違いない.

謝辞

本研究の一部は,科学研究費補助金基盤研究(C)(課題番号:22520561「科学技術英語コー

パスの分析に基づくコンピュータ適応型アカデミック表現テストの開発」)と名古屋工業

大学学長裁量経費「グローバル人材育成のための工学英語教育システムの構築」の支援に

より行われた.データ分析に関しては(株)eラーニングサービスの秋山實氏に様々なサポ

ートをいただいた.またケリー・クイン先生には多くのアイテムを作成しアイテム・バン

クの構築にご協力いただいた.ここに感謝申し上げます.

文 献 [1] Shojima, K. (2007). Neural test theory. The International Meeting of the Psychometric Society 2007, Tokyo, 160. [2] Brown, J.D. (1997). Computers in language testing: present research and some future directions. Language Learning & Technology, 1(1), 44-59. [3] Wise, S. L., & Kingsbury, G. G. (2000). Practical issues in developing and maintaining a computerized adaptive testing program. Psicológica, 21, 135-155. [4] Tao, Y.H., Wu, Y.L., & Chang, H.Y. (2008). A Practical Computer Adaptive Testing Model for Small-Scale Scenarios. Educational Technology & Society, 11(3), 259–274

Page 20: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

[5] 荘島宏二郎 (2010). ニューラルテスト理論―学力を段階評価するための潜在ランク理

論―.植野真臣・荘島宏二郎, 学習評価の新潮流.朝倉書店,東京, 83-111 [6] 木村哲夫 (2009). ニューラルテスト理論による英語プレイスメントテストの作成と評

価.関東甲信越英語教育学会研究紀要. 第23号, 23-34. [7] 小山由紀江・木村哲夫 (2011). Neural Test Theory を使ったCan-do Statements の分析.統計数理研究所共同研究リポート254「科学技術コーパスの特徴語句抽出とその応用」, 59-77. [8] Shojima,K. (2008) Exametrika. http://www.rd.dnc.ac.jp/~shojima/exmk/ (Retrieved 2012.11.7)

[9] 木村哲夫・永岡慶三 (2012) 潜在ランク理論に基づくコンピュータアダプティブテスト

―アルゴリズムの提案と検証―. 日本テスト学会誌, 8, 69-84.

[10] 石川有香・小山由紀江 (2007). 学術論文読解を目的とした指導語彙の選定. 中部地区

英語教育学会紀要 2006, 309-316 [11] Hyland, K. (2008). As can be seen: Lexical bundles and disciplinary variation. English for Specific Purposes, 27, 4–21. [12] Anthony, L. (2011). AntConc3.2.4. http://www.antlab.sci.waseda.ac.jp/software.html (Retrieved 2012.10.11) [13] 秋山實・木村哲夫・荘島宏二郎 (2011). LRTモデルに基づくCATの開発とシミュレー

ションによる特性解析. 日本テスト学会第9 回大会発表論文抄録集,146-147.

Page 21: Construction of an Item-bank Based on Science ...presentation.web.nitech.ac.jp › publication › 47.pdftest (CAT) based on latent rank theory (LRT). Since LRT premises the ordinal

参考資料:moodle の EGST-CAT 入口画面