外国語教育研究における尺度の構成と妥当性検証

川口勇作名古屋大学大学院

[email protected]

外国語教育メディア学会第56回全国大会公募シンポジウム

外国語教育研究における多変量解析の諸問題：

よりよい質問紙研究を目指して

外国語教育研究における尺度の構成と妥当性検証

背景

• 質問紙調査に必要な質問紙（尺度）をどのように準備するか

1. 先行研究で使われているものをそのまま使う

2. 先行研究で作られたものをそのまま使う

3. 先行研究で使われた/作られたものに手を加えて使う

4. 一から自作

背景

• 本日の発表に関係する方

–これから質問紙を自作する方

–海外で開発された外国語の質問紙を日本語に翻訳する方

–使用する/作成した質問紙が妥当性を満たしているかどうか検証する方

内容

尺度の構成

尺度の翻訳

妥当性の検証

尺度の構成

尺度の構成

• 背景–尺度を構成する場合、自分で書き下ろしたもの/修正したものをそのまま使うことは、基本的に望ましくないとされる

–因子構造が明確ではないため

• 対策–因子分析を用いる

–基本的な流れは、探索的因子分析 → 検証的因子分析

尺度構成に関するガイドライン

• 前田・大和（2000）

– SILLを用いた研究における分析方法と結果の提示方法について

–因子分析を行う際の6項目の留意点を提示

• 前田（2000）

–外国語教育研究における因子分析について

–前田・大和（2000）の留意点に3項目追加

1. 観測変数の分布を示す、またそれについての言及を行うこと

2. 相関行列を明示すること

3. 因子抽出は最尤法、最小二乗法、もしくは一般化最小二乗法で行うこと

4. 因子軸回転は斜交回転で行うこと

5. 回転後のパターン行列、または因子行列などを明示すること

6. 検証的因子分析を行う、または斜交回転の適合度検定の結果や適合度指標を明示すること

7. 因子数決定に関する言及をすること

8. 因子あたりの指標数を考慮すること

9. サンプル数と標本集団の性質に注意すること（前田・大和, 2000; 前田, 2000）


• COSMINチェックリスト（Mokkink et al., 2012）

–COnsensus-based Standards for the selection of health Measurement INstruments

–尺度特性を、信頼性、反応性、妥当性の3つの領域に分類•それぞれの尺度特性の基準を示す

尺度特性

信頼性

反応性

妥当性

解釈可能性

内的一貫性

信頼性

測定誤差

反応性

構成概念妥当性

構造的妥当性

異文化間妥当性

仮説検証

内容的妥当性

表面的妥当性

基準関連妥当性

COSMINチェックリスト

• すべての尺度特性に共通の項目

–欠損値の割合が報告されているか

–欠損値の処理方法が報告されているか

–標本サイズは十分か

–研究デザイン、方法についての重大な欠陥はないか


• 「行動療法研究」における研究報告に関するガイドライン

–『行動療法研究』の特集号

–尺度研究の必須事項（土屋, 2015）

• COSMINチェックリストの概要を紹介

尺度研究の必須事項（土屋, 2015）

• 例数設計

–COSMINでは、すべての尺度特性において、標本サイズが十分かどうか確認することが求められている

–COSMINの得点化システム（Terwee et al.,

2012）では、項目数×7かつ100以上が推奨されている

標本サイズの目安（構造的妥当性の場合）

目安

Excellent 項目数×7以上かつ 100以上

Good 項目数×5以上かつ 100以上

Fair 項目数×5以上かつ 100未満

Poor 項目数×5未満

尺度研究の必須事項（土屋, 2015）

• 仮説の設定–確定基準（gold standard）でない測定指標との相関や平均値差についての仮説を設定し、検討する（仮説検証）• cf. 基準関連妥当性の検討

–確定基準である測定指標を用いる

–事前に設定した仮説、仮説指示の評価を提示すること• 2つの尺度間の相関係数は.60以上

• 2つの被調査者群の平均値差は10

尺度の構成まとめ

• ガイドラインに従って、

–探索的因子分析のみでなく検証的因子分析を実施

–十分な標本サイズを確保

–欠損値の割合、処理方法を明示

–仮説検証の際は、仮説と基準を明示

尺度の翻訳

尺度の翻訳

• 海外で開発された外国語の尺度を翻訳して使用する場合にも、正しい手順を踏む必要がある

• 「行動療法研究」における研究報告に関するガイドライン

–尺度翻訳に関する基本指針（稲田, 2015）

尺度翻訳に関する基本指針（稲田, 2015）

• 事前準備– 原案者に翻訳の許可を求める– 尺度に対する理解を深める

• 順翻訳– 2名以上で元の言語から日本語への翻訳を行う

• 調整– 2名以上による順翻訳版を結合する

• 逆翻訳– 順翻訳版を元の言語に翻訳する

• 逆翻訳のレビュー– 原版と比較し、双方が等価であることを確認する

尺度翻訳に関する基本指針（稲田, 2015）

• 調和– 原版の著者が、原版と逆翻訳版とを比較し、等価であることを確認する

• 認知デブリーフィング– 使用が想定される被調査者に尺度に回答してもらい、わかりにくい項目などがないか確認する

• 認知デブリーフィング結果のレビューと翻訳終了– これまでの結果を踏まえ、翻訳を完了する

• 校正• 最終報告

– 尺度翻訳のプロセスを報告書にまとめる

尺度の翻訳まとめ

• 正しいガイドラインに従って翻訳を行う–原版の著作者に許可を得て、助言を仰ぐ

–一人ではなく、複数人で行う

• 翻訳終了後に、通常の尺度構成と同様に、妥当性の検証などの手続きを

妥当性の検証

尺度特性

信頼性

反応性

妥当性

解釈可能性

内的一貫性

信頼性

測定誤差

反応性

構成概念妥当性

構造的妥当性

異文化間妥当性

仮説検証

内容的妥当性

表面的妥当性

基準関連妥当性

妥当性の検証

• 表面的妥当性・内容的妥当性の検証

• 基準関連妥当性の検証

• 構造的妥当性の検証

表面的・内容的妥当性の検証

• 表面的妥当性（face validity）

–尺度項目が、測ろうとしている構成概念を十分に反映しているように見える度合い

• 内容的妥当性（content validity）

–尺度項目が、測ろうとしている構成概念を十分に反映している度合い

表面的・内容的妥当性の検証

• 条件–すべての項目が測定しようとしている構成概念の側面を表しているか

–すべての項目が母集団と関連しているか

–すべての項目が指標の目的と関連しているか

–すべての項目が包括的に、測定しようとしている構成概念を反映しているか

• 専門家に判断してもらう方法（e.g., Kusanagi et

al., 2015）

妥当性の検証




基準関連妥当性の検証

• 基準関連妥当性（criterion validity）

–尺度の得点が確定基準（gold standard）を十分に反映している度合い

• 条件

–基準が確定基準として適切か

–項目間相関、ROC面積が算出されているか


• 研究事例–Tamura & Kusanagi（2015）

•確定基準：タスクで収集したパフォーマンスデータ

–川口（2016）•確定基準：すでに確立した関連尺度

•これらの確定基準と尺度との相関を算出


• 基準関連妥当性に対しての激しい批判（e.g., Borsboom et al., 2004）

– “criterion validity was truly one of the most serious mistakes ever made in the theory of psychological measurement” (p. 1065)

– “not just criterion validity but any correlational conception of validity is hopeless” (p. 1067)

妥当性の検証




構造的妥当性の検証

• 構造的妥当性（structural validity）

–尺度の得点が測定しようとしている構成概念の次元を十分に反映している度合い

• 条件–反映的モデル（reflective model）に基いていること

–探索的/検証的因子分析がおこなわれていること

ある反映的モデル

潜在変数A

潜在変数B

i1 i2 i3 i4 i5 i6

構造的妥当性の検証

• 検証的因子分析

–得られたデータが、想定するモデルに当てはまるかを確認するための因子分析

•探索的因子分析のみで分析を終了せず、検証的因子分析でデータのモデルへの当てはまりを必ず確認する

課題

• 結果が異なる集団で再現されるとは限らない

• 例–教師を対象とした尺度を学習者に使用した場合

–母語話者を対象とした尺度を学習者に使用した場合

潜在変数A

潜在変数B

i1 i2 i3 i4 i5 i6

潜在変数A

潜在変数B

i1 i4 i6 i2 i3 i6

因子構造が再現されない場合

二重負荷（double-loading）

理論的に影響すべき変数と異なる変数に影響

因子負荷が異なる場合

潜在変数A

潜在変数B

i1 i2 i3 i4 i5 i6

本来のモデルよりも強い負荷

本来のモデルよりも弱い負荷

方策

• 構造方程式モデリング（SEM）を用いた多母集団の同時分析

–異なる集団間で、因子構造、因子負荷、切片などの母数を等値に固定したモデルを複数設定

–モデル間で当てはまりを比較

SEMを用いた多母集団の同時分析

集団A 集団B

A B

i1 i2 i3 i4 i5 i6

A B

i1 i2 i3 i4 i5 i6

異なる集団間で、因子構造が同じというモデル


集団A 集団B

A B

i1 i2 i3 i4 i5 i6

A B

i1 i2 i3 i4 i5 i6

異なる集団間で、因子負荷が同じというモデル


• 5つのモデル（豊田, 2014）を仮定–因子構造が同じ配置不変モデル

–上に加え因子負荷が同じ弱測定不変モデル

–上に加え切片が同じ強測定不変モデル

–上に加え観測変数の誤差分散が同じ厳密な測定不変モデル

–すべての母数が等しいモデルこれらのモデルを満たす場合、因子平均の比較が可能に


• 研究事例–山森（2002）

• 外国語教育研究で多母集団の同時分析を用いた初期の研究

• 英語学習目的尺度の因子構造が、中学1年生と3年生で変化しないかを確認

–前田・田頭・三浦（2003）• 語彙学習方略の使用傾向を、学習成果の上位群/中位群/下位で比較


• 研究事例

–Kusanagi et al.（2015）

–川口・草薙（2015）

•尺度構成に関する研究

•異なる学校種間で、多母集団の同時分析を使用

•尺度の因子構造・因子負荷などが、異なる校種において再現されるかを確認


• 研究事例

–前田（2003）

–草薙（2016）

–川口（2015）

•ジェンダー間で多母集団の同時分析を使用

•尺度の因子構造・因子負荷などが異なるジェンダーにおいて再現されるかを確認


• 因子ごとに合計得点を出してから t検定・分散分析、という手法のオルタナティブ

–集団間で因子構造が再現されない可能性• 項目が、異なるものを測定しているかもしれない

–構造は再現されるが、因子負荷や切片、誤差分散が異なる可能性• 項目ごとの持つ意味が異なるかもしれない

–リッカート尺度のデータは順序尺度なので、そもそも t検定を使ってはいけない、という主張（前田・大和, 2000）


• 実装されているソフトウェアの一例

– Amos

• 高い

– SAS

• 高い

• University Editionは無料

–Mplus

• やや高い

– R（lavaanパッケージ）

• 無料

妥当性の検証まとめ

• 種々の妥当性を検証する必要–表面的・内容的妥当性–基準関連妥当性–構造的妥当性

• ガイドラインに従い、目的にあった手法を選ぶこと

• 検証の結果を論文・発表中で報告することが望ましい

批判• 妥当性の証拠集めを指して「切手集め」と批判（Landy, 1986）

• 重要なのは形式的な証拠集めではなく、「測定したいものが正しく測れているか」ということ– 証拠集めに拘泥しない、当初の目的を忘れない– ただし、外国語教育研究においては、妥当性の切手集めすらまだ十分になされていない、というのも現状

• 何をもって妥当性とするかは慎重に検討する必要がある（e.g., Borsboom et al., 2004）

全体のまとめ

• 尺度を使用する/作成する際は–種々のガイドラインを参照する

–多母集団の同時分析などの手法で、妥当性の証拠を集める•質問紙研究は決してお手軽ではない

• 適切な手法で得た結果にもとづく適切な解釈を！

参考文献

参考文献Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity.

Psychological Review, 111, 1061–1071.

稲田尚子 (2015).「尺度翻訳に関する基本指針」『行動療法研究』41, 117–125.

川口勇作 (2015).「性差がコンピュータ支援語学学習態度に与える影響―中学・高校・大学生を対象として―」EVERGREEN, 9, 9–16.

川口勇作・草薙邦広 (2015).「日本人英語学習者を対象とした新しいコンピュータ支援語学学習態度尺度の作成」Language Education & Technology, 52, 257–277.

川口勇作 (2016).「コンピュータ支援語学学習態度尺度の妥当化―コンピュータへの不安・アクセスの良さに着目して―」『外国語教育メディア学会中部支部外国語教育基礎研究部会2015年度報告論集』 13–28.

Kusanagi, K., Fukuta, J., Kawaguchi, Y., Tamura, Y., Goto, A., Kurita, A., & Murota, D. (2015).

Foreign language grammatical carefulness scale: Scale development and its initial

validation. Annual Review of English Language Education in Japan, 26, 77–92.

草薙邦広 (2016).「外国語における文法的慎重性とジェンダー：多母集団の検証的因子分析による測定および構造不変性の検討」外国語教育メディア学会中部支部第87回春季研究大会.

参考文献Landy, F. J. (1986). Stamp collecting versus science: Validation as hypothesis testing.

American Psychologist, 41, 1183–1192.

前田啓朗 (2000).「構成概念の妥当性の検証―日本の英語教育学研究における傾向と展望」『外国語教育評価学会研究紀要』3, 119–126.

前田啓朗 (2003). 「日本の英語学習者における学習方略と学習成果：性差を考慮した適性処遇交互作用の観点から」『広島外国語教育研究』6, 81–90.

前田啓朗・大和知史 (2000). 「構造方程式モデリングによる高校生の言語学習方略使用と言語学習達成の分析：SILL で得られたデータのより適切な分析と結果の提示方法の提案」Language Laboratory, 37, 143–162.

前田啓朗・田頭憲二・三浦宏昭 (2003).「高校生英語学習者の語彙学習方略使用と学習成果」『教育心理学研究』51, 273–280.

Mokkink, L. B., Terwee, C. B., Knol, D. L., Stratford, P. W., Alonso, J., Patrick, D. L., Bouter, L.

M., & de Vet, H. CW. (2010). The COSMIN checklist for evaluating the methodological

quality of studies on measurement properties: A clarification of its content. BMC

Medical Research Methodology, 10, 1–8.

参考文献Mokkink, L. B., Terwee, C. B., Patrick, D. L., Alonso, J., Stratford, P. W., Knol, D. L., Bouter, L. M.,

& de Vet, H. CW. (2012). COSMIN checklist manual.

http://www.cosmin.nl/images/upload/files/COSMIN%20checklist%20manual%20v9.pdf

Tamura, Y., ＆ Kusanagi, K. (2015). Validation of the grammatical carefulness scale using a

discourse completion task and a reading and underlining task. LET Journal of Central

Japan, 26, 75–84.

Terwee, C. B., Mokkink, L. B., Knol, D. L., Ostelo, R. W., Bouter, L. M., & de Vet, H. C. (2012).

Rating the methodological quality in systematic reviews of studies on measurement

properties: a scoring system for the COSMIN checklist. Quality of Life Research, 21, 651–

657.

豊田秀樹 (2014). 『共分散構造分析［R編］』東京図書.

土屋政雄 (2015).「尺度研究の必須事項」『行動療法研究』41, 107–116.

山森光陽 (2002).「中学生用英語学習目的尺度の開発：縦断研究を可能とするために」『早稲田大学大学院教育学研究科紀要別冊』10, 111–118