16
68 Japanese Psychological Review 2016, Vol. 59, No. 1, 68–83 1.問  題 質問紙調査法は,人間を対象とするあるいは人 間が評価主体となるテストにおける方法の一種で ある。これまでに心理学の歴史の中では様々なテ ストが開発されてきており,それらはいくつかの 観点から分類することが可能である(Hogan, 2007;繁桝・椎名・石垣(訳),2010)。たとえば テストは,最大のパフォーマンスを測定するもの と,典型的なパフォーマンスを測定するものに分 けることができる(Allen, 2001)。最大のパフォー マンスを測定するテストには能力テストと達成テ ストが,典型的なパフォーマンスを測定するテス トの中にはパーソナリティや態度,価値観を測定 するテストが含まれる。この分類によれば,質問 紙調査法は典型的なパフォーマンスを測定するた めによく採用される手法だと言える。 質問紙調査で用いる道具は,尺度と呼ばれるこ ともある。もともと尺度 scaleとは得点化を行 う際のルールのことであり,測定(measurementとは一定のルールにもとづいて個人の特徴や特性 に数字を割り当てることである Brown, 2001 ;南 風原,2002)。そして質問紙調査(アンケート; questionnaireとは,個人についての様々な種類 の情報を研究者が収集するために使用する項目の 集合をさす。このような項目の集合のことを,得 点化のもととなるルールを提供するものとみなし て尺度と呼ぶのである。 心理尺度構成における再検査信頼性係数の評価 ―「心理学研究」に掲載された文献のメタ分析から― 小 塩 真 司 早稲田大学 Evaluation of test-retest reliability in the development of psychological scales: A meta-analysis of correlation coefficients described in the Japanese Journal of PsychologyAtsushi OSHIO Waseda University Reporting of reliability coefficients is an important procedure in articles describing the development of new psychological scales. However, it appears that Japanese psychology researchers have not yet arrived at a consensus regarding what constitutes a desirable magnitude for a reliability coefficient. In this study, I conducted a meta-analysis summarizing 65 test-retest correlations from 58 studies published in the Japanese Journal of Psychology, which is a highly-ranked peer-reviewed psychological journal in Japan. The results of a meta-analysis, which involved the use of a random effect model, showed that the desirable mean test-retest correlation was ρ = .76 (95% CI = .70–.81). There was no significant relationship between the test-retest correlations and coefficients alpha. The number of items of the scale correlated positively with the test-retest correlation coefficients. Researchers tended to mention problems regarding test-retest coefficients only when they were less than r = .50. The desirable usage of reliability coefficients was also discussed. Key words: test-retest reliability, scale development, meta-analysis, correlation coefficients, reliability, validity キーワード:再検査信頼性係数,尺度構成,メタ分析,相関係数,信頼性,妥当性

心理尺度構成における再検査信頼性係数の評価 - …team1mile.com/sjpr59-1/wp-content/uploads/2016/07/oshio.pdf:心理尺度構成の再検査信頼性係数 —

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

— 68 —

Japanese Psychological Review2016, Vol. 59, No. 1, 68–83

1.問  題

質問紙調査法は,人間を対象とするあるいは人間が評価主体となるテストにおける方法の一種である。これまでに心理学の歴史の中では様々なテストが開発されてきており,それらはいくつかの観点から分類することが可能である(Hogan, 2007;繁桝・椎名・石垣(訳),2010)。たとえばテストは,最大のパフォーマンスを測定するものと,典型的なパフォーマンスを測定するものに分けることができる(Allen, 2001)。最大のパフォーマンスを測定するテストには能力テストと達成テストが,典型的なパフォーマンスを測定するテストの中にはパーソナリティや態度,価値観を測定するテストが含まれる。この分類によれば,質問

紙調査法は典型的なパフォーマンスを測定するためによく採用される手法だと言える。

質問紙調査で用いる道具は,尺度と呼ばれることもある。もともと尺度 (scale) とは得点化を行う際のルールのことであり,測定(measurement)とは一定のルールにもとづいて個人の特徴や特性に数字を割り当てることである (Brown, 2001;南風原,2002)。そして質問紙調査(アンケート;questionnaire) とは,個人についての様々な種類の情報を研究者が収集するために使用する項目の集合をさす。このような項目の集合のことを,得点化のもととなるルールを提供するものとみなして尺度と呼ぶのである。

心理尺度構成における再検査信頼性係数の評価―「心理学研究」に掲載された文献のメタ分析から―

小 塩 真 司早稲田大学

Evaluation of test-retest reliability in the development of psychological scales: A meta-analysis of correlation coefficients described

in the “Japanese Journal of Psychology”

Atsushi OSHIOWaseda University

Reporting of reliability coefficients is an important procedure in articles describing the development of new psychological scales. However, it appears that Japanese psychology researchers have not yet arrived at a consensus regarding what constitutes a desirable magnitude for a reliability coefficient. In this study, I conducted a meta-analysis summarizing 65 test-retest correlations from 58 studies published in the Japanese Journal of Psychology, which is a highly-ranked peer-reviewed psychological journal in Japan. The results of a meta-analysis, which involved the use of a random effect model, showed that the desirable mean test-retest correlation was ρ= .76 (95% CI= .70–.81). There was no significant relationship between the test-retest correlations and coefficients alpha. The number of items of the scale correlated positively with the test-retest correlation coefficients. Researchers tended to mention problems regarding test-retest coefficients only when they were less than r= .50. The desirable usage of reliability coefficients was also discussed.

Key words: test-retest reliability, scale development, meta-analysis, correlation coefficients, reliability, validity

キーワード:再検査信頼性係数,尺度構成,メタ分析,相関係数,信頼性,妥当性

小塩:心理尺度構成の再検査信頼性係数

— 69 —

1.1 質問紙調査利用の広がり近年,質問紙調査の応用範囲はますます広く多

様になっている。たとえば双生児を用いて遺伝率を推定する行動遺伝学の研究においては,パーソナリティや価値観,態度など多くの質問紙調査にもとづいた研究知見が報告されている (Olson et al., 2001;Yamagata et al., 2006 など)。またパーソナリティと脳神経科学的な指標との関連 (DeYoung et al., 2010;Sampaio et al., 2013) や性ホルモン分泌との関連(Määttänen et al., 2013) を検討した研究,パーソナリティ特性で将来の生存率を予測する 長 期 縦 断 研 究(Martin, Friedman, & Scwartz, 2007) においても,やはり個人のパーソナリティ傾向は質問紙調査によって測定されている。近年では,Web サイトを通じたオンライン調査も盛んに行われるようになっており,その利点や問題点についても議論が重ねられている (Gosling et al, 2004;三浦・小林,2015ab)。

様々な場面で質問紙調査が行われるのに応じて,より簡便な使用に耐えうる,非常に少ない質問項目で心理学的構成概念の測定を試みる超短縮版尺度の開発も盛んとなっている(小塩,2015)。そして各種の超短縮版尺度の開発によって,さらに多くの研究が活性化するような循環が生まれている。ただし簡便に使用できる尺度の開発は,他の変数との関連を探索的に検討し,もしも関連が観察されれば結果を報告するという尺度の使用方法にもつながっている。このような尺度の使用方法は,問題のある研究実践(questionable research practices:QRPs;池田・平石, 2016;平石・池田, 2015;John, Loewenstein, & Prelec, 2012) につながる危険性をはらむものである。しかしこのような尺度の使用方法は,現実の研究プロセスにおいてしばしば見られるものでもある。

現在では,心理学およびその周辺領域で毎年非常に多くの質問紙調査法を用いた研究成果が生み出されている。このような中では,信頼性と妥当性を十分に検討した尺度を開発することが重要である。なぜなら,目的とする構成概念をその尺度が適切に測定することができるかどうかが,多くの研究知見を左右するという現実があるからである。

1.2 尺度構成の目的質問紙調査は性格などの構成概念を測定するた

め(山崎・内田,2005)に用いる道具として有用であり,比較的短時間で多人数の心理現象を把握することができ,結果の一般化がしやすい(横内,2007)という長所がある。特に実施の容易さは,質問紙調査の大きな特徴である。これはたとえば,本来であれば病理の把握のために医師の診断を必要とするが,より簡便に実施可能な質問紙調査法の尺度を用いることにより,大きな労力をかけずに多くのデータを収集することができるといった,実際的な利点につながるということである。

さてここで,質問紙調査を用いないと把握できない情報というものが,いったい存在するのかという疑問が生じる。たとえば,同じ情報を知るために面接調査と質問紙調査を実施した場合,どちらの方法のほうがより確実な情報を手に入れることできるのだろうか。もしも面接調査の方がより確実な情報を得る手法であり,質問紙調査がその簡便な把握方法にすぎないのであれば,質問紙調査を用いる利点は,本来行うべき研究手法に対する労力の軽減に力点が置かれるであろう。この例のように,もしも質問紙調査が本来の情報把握に対する簡便な手法なのであれば,本来とるべき手法と質問紙調査を比較した際に,質問紙調査においてどこまで情報の減衰が生じているのかという点が疑問となってくる。これは,労力の低減に応じて得られる情報の正確さが失われていくのか,あるいは労力の低減にもかかわらず一定の情報の正確さが維持されるのかという問題である。

また,もしも質問紙調査でしか把握できない情報が存在するのであれば,その手法で把握された内容の正しさをどのように確認すればよいのかという疑問が浮かぶ。いずれにせよこれらの疑問は,作成された尺度の信頼性と妥当性の問題へとつながっていく。

1.3 尺度構成のプロセス質問紙調査法による尺度構成のプロセスについ

ては,いくつかの文献において手順がまとめられている(宮本・宇井,2014;日本テスト学会,2007;小塩・西口,2007;山崎・内田,2005;横内,2007)。それらではおおよそ,第 1 に概念設

心理学評論 Vol. 59, No. 1

— 70 —

2015;山崎・内田,2005)。また妥当性は多様な概念であるが,測定したい概念を適切に測定できているかを問題にすることを指す(Borsboom, Mellenbergh, & van Heerded, 2004;Messick, 1995;村山,2012)。妥当性の検討方法には,測定指標が構成概念を十分に代表しているか,内的構造が理論に合致しているか,外的変数との間に理論通りの関連が認められるかなど多くの方法を挙げることができる。妥当性は一定の検証過程を経ることであるかないかを判定するような性質のものではなく,妥当性の検証が程度問題であることを認識しておく必要がある(村山,2012)。

1.4 質問紙法における再現性質問紙法のみならず心理測定においては,再現

性を前提とした手続きや解釈が数多く存在する。そしてそこには,再現性が暗黙の前提となっている問題と,明示的に再現性を問題とするものがあると考えられる。

たとえば標準化された心理検査を作成する場合,多数のサンプルに検査を行うことで標準化のための情報を得ておく。現場で検査を実施し,検査結果を評価する際には,事前に標準化サンプルから得られた結果から設定された基準やパーセンタイル値が援用される。このような心理検査の利用過程では,標準化サンプルに対して行われた検査と,現場で行われた検査との間で検査結果が再現されることが前提となる。なおこの前提は,近年の妥当性概念の議論の中で妥当性の一つの証拠として考えられている(村山,2012),一般化可能性に相当すると考えることができる。

またパーソナリティを測定するための質問紙尺度を構成する場合には,概念そのものが再現性にかかわる場合もある。パーソナリティの定義にはさまざまなものがあるが,渡邊(2010) は,人がそれぞれ独自で,かつ時間的・状況的にある程度一貫した行動パターンを示すという現象,およびそこで示されている行動パターンを指し示し,表現するために用いられる概念の総称であると述べている。パーソナリティには個人差があり,その個人差には時間的・状況的にある程度一貫した傾向があると仮定される。そのような仮定のもとでは,そのパーソナリティを反映した測定を行った際に,時間を置いて測定された得点間にも同様

定,第 2 に質問項目の作成,第 3 に信頼性と妥当性の検討,という手順で作成が進められることが記述されている。1.3.1 概念設定 ある質問紙尺度を作成する際に,その尺度が何を測定しようと試みているかを明確にすることは重要である。心理学のみならず広く人々のパーソナリティ,価値観,態度といった何らかの心理仮定を反映した構成概念を測定する場合,その概念を直接的に測定することはほぼ不可能に近い。このような背景をもつため,心理学の測定においては妥当性という概念が重要となる(村山,2012)。もしも取り扱う概念の設定が曖昧であれば,どのような証拠が得られればその尺度が妥当とみなされうるのかが曖昧なものとなる。1.3.2 質問項目の作成 質問項目の作成にはいくつかの方法が存在する。たとえば,新たに質問項目を作成するケース,既存の尺度を改良するケース,海外の尺度を日本語に翻訳するケースなどが考えられる。新たに質問項目を作成するのであれば,文献や自由記述調査などから,測定に役立ちそうな文を収集することになる。既存の尺度を改良したり短縮化するのであれば,既存の尺度項目群から目的にかなった項目を選択したり,改良したりすることになる。海外の尺度を日本語に翻訳するのであれば,翻訳の意味範囲の中で測定に成功する表現を模索していくことになる。質問項目の収集後,適切な測定形式を設計し,項目の表現や回答形式の工夫を試みる。そして,予備調査をおこなうことなどを通して各項目の特徴を把握し,項目の取捨選択を行う。項目の設計段階で考慮すべきことは,質問項目の表面的な「もっともらしさ」と,測定の成否が必ずしも一致するわけではないという点にある。ここでも,構成概念に照らし合わせた時に各項目が妥当な測定結果をもたらしうるかどうかを評価・検討することが重要となる。1.3.3 信頼性と妥当性の検討 古典的テスト理論において,テストによって観測された値は,真の値とその真の値とは独立した測定誤差との和として表現される。信頼性の検討手法には,並行テスト法,再検査法,折半法,α 係数などいくつかのものがあるが,尺度構成の論文内でよく報告され る 手 法 は 再 検 査 法 と α 係 数 で あ る(岡 田,

小塩:心理尺度構成の再検査信頼性係数

— 71 —

Trajković et al. (2011) は,ハミルトンうつ病評価尺度の信頼性について報告した 409 文献について検討し,再検査信頼性係数が .65 から .98 の範囲にあり,調査間隔が長くなるにつれて係数の大きさが低下していくことを示している。

髙本・服部(2015)は,日本国内の心理尺度構成論文における信頼性係数の報告を体系的にレビューしている。その報告によると,2001 年度から 2013 年度までに国内の 6 査読誌に掲載された 189 本の論文のうち,α 係数の報告が 168 本,再検査信頼性が 79 本,IRT(項目反応理論) が 5本,ω 係数が 3 本,折半法が 2 本,一般化可能性理論が 1 本であり,α 係数と再検査信頼性が多くの心理尺度構成論文で報告されていることがわかる。また,尺度に含まれる項目数が多くなるほど項目間の相関係数が小さくなる傾向にあること,再検査信頼性係数の報告値は検査-再検査の間隔によって多少異なるものの,おおむね .70 以上の値を示していることなどが報告されている。

毎年,数多くの心理測定尺度の構成が報告されている。そして髙本・服部(2015)が報告するように,それぞれの研究において,各研究者が再検査信頼性を報告している。では,研究者たちはどの程度の再検査信頼性係数に対して「十分である」「十分ではない」と判断しているのだろうか。本研究では,日本で報告された再検査信頼性係数の統合とともに,研究者の評価にも注目したい。

1.6 本研究の目的本研究では第 1 に,心理学を専門とする日本語

の研究誌である心理学研究に掲載された論文の中から再検査信頼性係数を表す相関係数を収集し,メタ分析による統合を試みる。心理学研究は日本の心理学界を代表する査読誌であり,尺度構成を目的とした複数の論文がほぼ毎号掲載されている。また,その尺度の内容は一般的なパーソナリティの測定を目的としたものに限らず,態度や感情,価値観など多岐にわたるものが含まれている。心理学研究に掲載された論文に注目することにより,分野による偏りが比較的少ない状態で,再検査信頼性係数を収集することができると考えられる。

本研究では第 2 に,再検査信頼性係数に影響を及ぼす要因について検討する。再検査信頼性係数

に,ある程度一貫した関連が認められることが想定される。そして,もしも実際にそのような一貫性が観察されるのであれば,それは理論的に仮定された一貫性が観察されたことを意味する。このような検査-再検査で得られた得点間の相関係数は再検査信頼性係数として,心理尺度構成を意図した論文において報告される。この再検査信頼性は,明示的な再現性の問題のひとつだと言うことができるだろう。

再検査信頼性係数は,真値も誤差の分散も等しい並行検査間の相関係数を求める並行検査法の代わりに,時間をあけて同一の検査を 2 度実施し,相関係数を求めることで信頼性を推定する手法である(岡田,2015)。そしてどの程度の係数の大きさの再検査信頼性係数が望ましいかについては,どのような概念を設定するかに依存する。たとえば一時的な感情状態を測定することが仮定されていれば,数週間間隔で得られた相関係数は低いほうが望ましいということもありえる。この点で,再検査信頼性係数は単に高い数値であれば良いというものではなく,その値がどのような概念を反映しているかを考慮する必要があることから,妥当性検討の枠組みから検討することも必要となる(髙本・服部,2015)。

1.5 再検査信頼性の報告これまでに,個別の尺度についてはその再検査

信頼性を統合する試みがいくつか行われている。たとえば Viswesvaran and Ones (2003) は, Big Fiveパーソナリティの 5 特性について 848 の再検査信頼性係数を収集したところ, 平均 .69 (協調性) から .76 (外向性) の範囲であったことを報告している。また Gnambs (2014) も Big Five パーソナリティについて 2 ヶ月までの間隔で調査された再検査信頼性係数を報告した 74 研究(N=14,923) を収集し,メタ分析を行うことにより,ρ = .82 という再検査信頼性係数の母相関係数を得ている。Yin and Fan(2003)は,ベック抑うつ尺度(BDI)の信頼性係数の統合を試みており,再検査信頼性係数については 23 研究から .69 という平均値を得ている。また De Ayala, Vonderharr-Carlson, and Kim (2005) は,ベック不安尺度(BAI) について信頼性係数を報告した 172 研究から,再検査信頼性係数の平均値として .66 という値を得ている。

心理学評論 Vol. 59, No. 1

— 72 —

ら, 2014) を用いた研究を除外した。第 4 に,検査-再検査の間隔が 1 週間に満たない研究を除外した(たとえば織田ら, 2015)。以上に加え,たとえば曽我(1983) における A-Stateなど, 明らかに一時的な状態の測定を試みている尺度の相関係数についても分析から除外した。

以上の基準に従うことで,心理学研究から58 文献を収集し,そこから 231 相関係数を得た

(Appendix 参照)。ひとつの文献あたり 1 から 12,平均 3.98 の相関係数が抽出されたことになる。得られた相関係数の総サンプルサイズは 33,425であった。ただしこの中には,同一の対象者がひとつの尺度内の複数の下位尺度に回答したケースも含まれている。各相関係数に検査-再検査間隔,項目数,調査対象者数を対応づけたものをデータセット A とする。このデータセットは,記述された相関係数を基準とするものであり,尺度の特徴と調査対象者の特徴が混在したものとなっている。

本研究では,尺度の内容による再検査信頼性の差異ではなく,論文内で報告される再検査信頼性の程度そのものを問題としている。そこで,同一のサンプルから得られた複数の相関係数の平均値を算出し,当該サンプルにおける再検査信頼性係数としてコーディングした。なお,同一文献内で複数のサンプル(男女など)の相関係数が報告されている場合には,各サンプルにおいて平均値を算出した。同様に,同一サンプル内で使用された複数の尺度の項目数についても平均値を算出して項目数をコーディングした。以上の処理を行ったものをデータセット B とする。データセット Bでは 58 文献から 65 相関係数,総サンプルサイズは 9,635 を得た。加えて,各文献において執筆者が再検査信頼性係数をどのように評価しているかを検討するために,文献内において再検査信頼性係数について言及している語句を収集した

(Appendix 参照)。

2.3 効果量の算出相関係数の統合方法の代表的なものに,固定効

果モデル (fixed effect model) と変量効果モデル(random effect model)がある。複数の研究が同一の母集団から選ばれた異なる標本を対象とし,同一の手続きで行われたと仮定すれば固定効果モデ

の報告値は検査-再検査の間隔によって異なる可能性が指摘されている(Trajković et al., 2011;髙本・服部,2015)が,日本における再検査信頼性係数をメタ分析によって統合する試みはこれまでに行なわれていない。加えて,本研究では尺度に含まれる項目数および調査対象者数によって再検査信頼性係数が影響を受けるかどうかについても検討する。

本研究では第 3 に,再検査信頼性係数を報告した心理学者がどの程度の値をどのように評価しているかについても検討する。各論文において著者は,再検査信頼性係数の報告とともにその係数の評価を記述している。報告された再検査信頼性係数と記述されたその係数の評価語を照らし合わせることで,どの程度の値を研究者が適切と考えるかが明らかになると考えられる。

2.方  法

2.1 文献の選定国立研究開発法人科学技術振興機構(JST)

による科学技術情報発信・流通総合システム(J-STAGE;https://www.jstage.jst.go.jp/) において,心理学研究 (https://www.jstage.jst.go.jp/browse/jjpsy/) の全文検索を行った。検索対象は,2015 年末までに掲載された全ての論文であり,早期公開の論文は含めなかった。キーワードは第 1 に「再検査」,第 2 に「再テスト」,第 3 に「安定性」であり,最初の検索結果と 2 番目,3 番目の検索で得られた結果を照合し,新たな文献を加える形で文献を収集した。

2.2 適格性基準とデータセットの構成本研究では,以下のことを考慮して分析の対象

を設定した。第 1 に,筆記用具による質問冊子への回答もしくはオンラインでの自己評定によってパーソナリティや態度,感情などの測定を目的とした研究に注目した。投影法や作業検査法,また他者評定法(たとえば親や教育者が幼児を評定するなど)の尺度は分析の対象に含めなかった。第2 に,態度等の潜在的な測定を試みた研究(藤井・澤海・相川,2015;下田ら,2014) については分析の対象に含めなかった。第 3 に,再検査信頼性に相関係数以外(たとえば級内相関;福川

小塩:心理尺度構成の再検査信頼性係数

— 73 —

3.2 内的整合性と再検査信頼性の関連内的整合性と再検査信頼性という 2 つの信頼性

指標の間に関連は認められるのだろうか。そこでデータセット A を利用し, 両者の散布図を描いたものを Figure 1 に示す。両係数間の関連を検討するために相関係数を算出したところ, Pearson の積率相関係数で r=.12 (95% CI=–.01–.25, p=.08),Spearman の順位相関係数で r= .09 (95% CI=–.05–.21, p=.20) と, ほとんど関連は認められなかった。

3.3 再検査信頼性の母相関係数の推定データセット B を用いて推定された,全研究

における再検査信頼性の母相関係数を Table 1 に示す。変量効果モデルによる母相関係数は ρ= .76

(95% CI= .70–.81)であり,2 回の同一指標の調査を繰り返した際に,およそ 57.8% の分散の重なりが観察されたことになる。なお,固定効果モデルによる母相関係数を求めたところ,ρ= .74(95% CI= .73–.75)であった。固定効果モデルにおける等質性指標 (Qr) は有意であり (Q=481.94, df=64, p= .000),研究によって再検査信頼性係数の大きさにばらつきが認められた。また Table 1 に示すように,変量効果モデルにおける等質性指標(Qr)は有意ではなかった(Q=69.44, df=64, n.s.)。この両等質性指標の差異は研究間の異質性を示唆するため,これ以降では変量効果モデルによる群間の差異を検討した。

ル,研究ごとに母集団が異なりデータ収集の手続きにも研究間でばらつきが想定されるのであれば変量効果モデルを採用するのが自然だとされる

(南風原,2014)。本研究では多様な指標や集団に対する研究を分析対象とすることから,南風原

(2014)および山田・井上(2012) を参考に,変量効果モデルによる相関係数の統合を試みることとした。

3.結  果

3.1 文献内の一致度データセット A では再検査信頼性係数として

231 相関係数を得ているが,このデータを個々の相関係数のレベルと,同一文献内で報告されるデータというマルチレベルデータとして捉えることも可能である。では,それぞれの文献内において,信頼性係数は一致する傾向が見られるのだろうか。このことを検討するために,データセットA を用いて,各文献に記載されている 2 つの信頼性係数(再検査信頼性係数である相関係数と内的整合性として報告された指標[多くは α 係数,一部 ω 係数など]) の級内相関を HAD(清水・村山・大坊,2006)で求めた。その結果,級内相関係数は再検査信頼性係数で .55(95% CI= .42–.67, p= .000), 内 的 整 合 性 で .63(95% CI= .51–.74, p= .000)と有意であった。従って,各文献内で信頼性係数は一致する傾向にあると言える。

Figure 1 内的整合性と再検査信頼性との関連

心理学評論 Vol. 59, No. 1

— 74 —

推定された母相関係数は,5 項目未満で ρ= .70(95% CI= .59–.81),5 か ら 9 項 目 で ρ= .72(95% CI= .67–.78),10 項目以上で ρ= .83(95% CI= .69–.97) であった(Table 1)。等質性指標 (Q*B) が有意であったことから (Q=12.45, df=2, p<.01),項目数によって母相関係数が異なる可能性が示された。この関連についてより詳しく検討するために,データセット A を用いて項目数と再検査信頼性係数の散布図を描いたところ,正の関連が認められた(Figure 3)。なお項目数と再検査信頼性係数との間の順位相関係数を求めたところ,r=.39 (p=.000) と中程度の正の関連が認められた。

3.6 調査対象者数による群ごとの母相関係数の推定

再検査信頼性係数の検討時の調査対象者数と再検査信頼性係数との関連を検討するために,各研究の調査対象者数によって,研究を 100 人未満,100 人以上 200 人未満,200 人以上の 3 群に分類した。推定された母相関係数は,100 人未満でρ= .77(95% CI= .69–.86),100 人以上 200 人未満で ρ= .76(95% CI= .64–89),200 人 以 上 で ρ= .72

(95% CI= .62–.81)であった(Table 1)。等質性指標 (Q*B) は Q=5.97 (df=2, p= .051) であり,調査対象者数が増加するほど再検査信頼性係数が低下傾向にあることを示唆する。この点を明確にするために,データセット A を用いて調査対象者数

3.4 検査-再検査間隔による群ごとの母相関係数の推定

検査-再検査の期間の相違と再検査信頼性係数との関連を検討するために,研究を期間によって4 週まで,5 週から 11 週,12 週以上の 3 群に分類し,各群の母相関係数を推定した(Table 1)。その結果, 4 週までの群で ρ = .77 (95% CI= .69–.86),5 週から 11 週で ρ= .75(95% CI= .66–.84),12 週以上で ρ= .70(95% CI= .62–.78) という値が得られた。母相関係数の推定値には違いが見られるものの群間の相関係数のばらつきを表す等質性指標

(Q*B) は有意ではなく(Q=3.34, df=2, n.s.), 検査-再検査の間隔によって再検査信頼性係数に明確な違いは認められなかったといえる。この点についてより詳しく検討するために,データセットAを用いて検査-再検査間隔と再検査信頼性係数の散布図を描いたところ,ゆるやかな負の関連が認められた(Figure 2)。検査-再検査間隔と再検査信頼性係数の Spearman の順位相関係数を求めたところ,r=–.23 (p= .001) と低い負の関連が認められた。

3.5 項目数による群ごとの母相関係数の推定尺度に含まれる項目数と再検査信頼性係数と

の関連を検討するために,各研究で検討された尺度の項目数の平均によって研究を 5 項目未満,5 から 9 項目,10 項目以上の 3 群に分類した。

Table 1 再検査信頼性の母相関係数の推定値

k n ρ 95% CI Qr/Qw df p QB df p

全体 65 9635 .76 .70–.81 69.44 64 .299検査-再検査間隔

4 週まで 38 5849 .77 .69–.86 40.87 37 .3045–11 週 17 2589 .75 .66–.84 16.88 16 .393 3.34 2 .18812 週以上 10 1197 .70 .62–.78 8.35 9 .499

項目数5 項目未満 11 1695 .70 .59–.81 12.00 10 .2855–9 項目 34 5268 .72 .67–.78 28.07 33 .711 12.45 2 .00210 項目以上 20 2672 .83 .69–.97 16.92 19 .595

調査対象者数100 未満 30 1921 .77 .69–.86 30.90 29 .370100–199 21 2845 .76 .64–.89 19.64 20 .481 5.97 2 .051200 以上 14 4869 .72 .62–.81 12.93 13 .453

Note. k =関係数の個数,n =サンプルサイズ,ρ =母相関係数の推定値,95% CI = 95% 信頼区間,Qr =全体の等質性指標,Qw =各カテゴリ内の等質性指標,QB =カテゴリ間の等質性指標,df =自由度,p =有意確率

小塩:心理尺度構成の再検査信頼性係数

— 75 —

係数に対して記載されている記述を検討した(Appendix 参照)。再検査信頼性の検討が主要な目的ではない 1 文献を除いた 57 文献中,再検査信頼性の結果に対して何らかの疑義や留保が述べられていたものは 5 文献(8.8%)にとどまっていた。またそのうち 3 文献では,検査-再検査間の相 関 係 数 が r= .50 を 下 回 っ て い た。 た だ し,r= .50 程度の相関係数が得られている論文においても, “一定の再現性” や “比較的高い安定性”,“ かなり安定性がある ” など,研究者間の評価は

と再検査信頼性係数との散布図を描いたところ,ゆるやかな負の関連が認められた(Figure 4)。なお,調査対象者数と再検査信頼性係数の順位相関係数を求めたところ,r=–.12(p= .06) と低い負の関連が認められるにとどまっていた。

3.7 再検査信頼性係数に対する研究者の評価収集された 58 文献それぞれにおいて,研究者

が再検査信頼性係数をどのように評価しているかを検討するために,論文内において再検査信頼性

Figure 2 検査-再検査間隔と再検査信頼性係数との関係Note. 破線は線形近似直線

Figure 3 項目数と再検査信頼性係数との関係Note. 破線は線形近似直線

心理学評論 Vol. 59, No. 1

— 76 —

α 係数は,真の信頼性を 1 回の測定だけから得られる量を用いて下側から推定する,信頼性の下界

(lower bound)であるとされる(岡田,2015)。それに対して再検査信頼性は,2 つの時点の測定間において真値に変化がないことを前提とする(髙本・服部,2015)。また,α 係数が内容サンプリングと内容の異質性を誤差分散として持つのに対し,再検査法はタイムサンプリングを誤差分散として持つ(Anastasi & Urbina, 1997;岡田,2015)。このように,同じ信頼性の指標であっても両者の意味は異なることがこの結果に反映していると考えられる。また,再検査信頼性の測定間でどの程度真値が変動するかは,その尺度が測定しようとする構成概念の内容に依存する問題である。本研究で観察されたこの両指標の無関連性は,どのような概念を設定した上で両指標を解釈するかという手続きをとることの重要性も示唆していると考えられる。

本研究では,検査-再検査間隔によって再検査信頼性係数が大きく異なるという明確な関連は認められなかった。髙本・服部(2015)は,検査-再検査間隔を本研究よりも細かく 1 週間から半年以上まで 7 段階にわけて再検査信頼性係数との関連を検討しているが,やはり期間が長くなるほど係数が低下するという明確な関連は見出されていない。ただし,同一の尺度について異なる間隔で再検査信頼性係数を検討した研究(安藤ら,

明確に定まっていない様子がうかがえた。

4.考  察

本研究の第 1 の目的は,心理学研究で報告された再検査信頼性係数の母相関係数をメタ分析によって統合することであった。結果から,変量効果モデルによる母相関係数の推定値は ρ= .76

(95% CI= .70–.81) であった。信頼性係数がいくつであれば望ましいかについては,たとえば .90程度で十分高く, .80 程度で許容される程度, .70 であれば低く,.60 で不十分(Murphy & Davidshofer, 2001)であるとか,重要な決定に使用される場合には .95 以上,学術研究であれば .70 から .80 程度で十分(Kaplan & Saccuzzo, 2005),また経験的な目安としてパーソナリティ尺度で .70 以上,国語や社会のテストで .80 以上,数学や理科,英語のテストで .90 以上(石井,2014)など,様々な意見がある。日本で報告された再検査信頼性の値を収集した先行研究(髙本・服部,2015)では,再検査信頼性係数がおおむね .70 を超えることが報告されている。本研究で推定された母相関係数は,この先行研究の報告値とおおよそ合致するものと考えられる。

また本研究では,再検査信頼性係数が内的整合性の大きさとほぼ無関連であるという結果が得られた。内的整合性の指標として頻繁に用いられる

Figure 4 調査対象者数と再検査信頼性係数との関係Note. 破線は線形近似直線

小塩:心理尺度構成の再検査信頼性係数

— 77 —

が低下する可能性については,どのように考えることができるだろうか。ひとつの可能性は,出版バイアスである。再検査信頼性係数は高い値であるほど望ましいとされる。従って,研究者の予想に反して低い値が得られた場合には研究が公表されないという引き出し問題(file-drawer problem)へとつながる可能性も考えられる。なお, Figure 4で示した調査対象者数と再検査信頼性係数の散布図は,サンプルサイズと効果量の散布図である漏斗プロット (funnel plot) として見ることも可能である。結果で示したように,ここで低い負の相関が見られるということは,相関係数の低い報告が少ない傾向にあることを示唆する。しかしながら,得られた相関係数は r=–.12 と低いものであり,もしも出版バイアスが存在したとしても,それほど大きな影響を及ぼしていないであろうと考えられる。

再検査信頼性係数とその評価語を照らしあわせたところ,相関係数が r= .50 を下回ると,研究者は得られた再検査信頼性に対して「不十分」だと評価する可能性が高まることが示唆された。この係数の大きさは,先に示した複数の一般的な信頼性の基準に比べれば低い値であると考えられる。しかしながら,これまで再検査信頼性係数について,明確な基準は示されてこなかったという経緯がある。そのような現状に対し,髙本・服部

(2015)や本研究で得られた知見は,再検査信頼性係数に対してひとつの目安を提供するものと言えるだろう。

ひとつ懸念されることは,再検査信頼性の報告がルーティン・ワーク化されていないだろうかという点である。再検査信頼性係数は,α 係数に次いで多くの尺度構成研究で報告されている。しかし,どれだけの検査-再検査期間を設定することが適切であるのか,得られた係数をどのように評価するのかという点に曖昧な部分が多く,係数を報告することそのものが目的化してはいないだろうか。先にも述べたように,これらの曖昧な点を明確化することは,構成概念に照らし合わせて結果を評価するという点で,妥当性の問題であるといえる。単に数値を報告して終わるのではなく,その数値の積極的な評価と解釈が求められるだろう。

なお本研究で報告された再検査信頼性係数は,

1999) では,検査-再検査間隔が 3 週間および 9週間よりも 17 週間の方が低下する傾向にある。この問題に関しては,どのような尺度の再検査信頼性係数がどの程度の検査-再検査間隔で得られているかを検討する必要があるだろう。

本研究の結果から,尺度に含まれる項目数が増えるほど再検査信頼性係数が上昇する傾向が見出された。基本的に同一のものを測定するものであれば,項目数が増えることは信頼性を高めることにつながる(日本テスト学会,2007)。そして α係数に関しては,尺度に含まれる項目数が増えるほど大きくなるという明確な傾向がある(John & Benet-Martinez, 2000;岡田,2015)。しかし先に示したように,再検査信頼性係数と内的整合性との間には明確な関連が認められなかった。従って,項目数と再検査信頼性係数との正の関連は,α 係数とは異なる要因による可能性が考えられる。

第 1 の可能性は,得点幅による要因である。パーソナリティ特性の安定性の議論では集団に注目した際の安定性を,平均値の安定性と順位の安定 性 と い う 2 つ の 観 点 か ら 見 る こ と が 多 い

(Block, 1971;Roberts & DelVecchio, 2000)。再検査信頼性のような 2 つの時点における測定間の相関を考慮する場合には,1 回目の順位と 2 回目の順位の変動が起きないほど相関係数が高くなることになる。そして測定に際して項目数が多く得点幅が広ければ測定された得点の分散が大きくなる可能性も高まるため,順位の変動もそれに応じて少なくなる可能性が考えられる。

また第 2 の可能性は,尺度構成の際に設定された概念が時間的に安定したものと仮定されているほど,項目数が多くなる傾向にあるという要因である。今回分析の対象となった尺度の中で相対的に項目数の多いものとして,自閉症スペクトラム指数日本語版(50 項目;若林ら,2004),健常者用幻聴様体験尺度(杉森・浅井・丹野,2009),独自性欲求尺度(32 項目;岡本,1985)を挙げることができるが,いずれの概念も比較的安定した特性を仮定していると考えられる。もしかすると,このような比較的安定した概念が反映した尺度構成を行う際に項目数が増加し,結果的に再検査信頼性の高さに結びついているのかもしれない。

調査対象者数が増加するほど再検査信頼性係数

心理学評論 Vol. 59, No. 1

— 78 —

big five. Psychological Science, 21, 820–828.藤井 勉・澤海崇文・相川 充(2015)シャイネス IAT

の再検査信頼性―潜在的シャイネスの変容可能性も含めて― 心理学研究,86, 361–367.

* 藤井義久(1993)テスト影響インベントリー(TII)の作成 心理学研究,64, 135–139.

* 藤井義久(1998)大学生活不安尺度の作成および信頼性・妥当性の検討 心理学研究,68, 441–448.

福川康之・小田 亮・宇佐美尋子・川人潤子(2014)感染脆弱意識(PVD)尺度日本語版の作成 心理学研究,85, 188–195.

Gnambs, T. (2014). A meta-analysis of dependability coeffi-cients (test–retest reliabilities) for measures of the Big Five. Journal of Research in Personality, 52, 20–28.

Gosling, S. D., Vazire, S., Srivastava, S., & John, O. P. (2004). Should we trust web-based studies? A com-parative analysis of six preconceptions about internet questionnaires. American Psychologist, 59, 93–104.

南風原朝和(2002)心理統計学の基礎―統合的理解のために― 有斐閣.

南風原朝和(2014)続・心理統計学の基礎―統合的理解を広げ深める― 有斐閣.

* 萩生田伸子(1995)不安尺度の構成とその妥当性の検証 心理学研究,66, 16–23.

* 秦 一士(1990)敵意的攻撃インベントリーの作成 心理学研究,61, 227–234.

* 畑野 快・杉村和美・中間玲子・溝上慎一・都筑 学(2014)エリクソン心理社会的段階目録(第 5 版)12 項目版の作成 心理学研究,85, 482–487.

* 服部陽介・本間喜子・丹野義彦(2014)思考抑制に関するメタ認知的信念と逆説的効果の関係 心理学研究,85, 354–363.

平石 界・池田功毅(2015)心理学的な心理学研究―Questionable Research Practice ― 心理学ワールド,68, 5–8.

Hogan, T. P. (2007). Psychological testing: A practical intro-duction (2nd ed.). New York, NY: John Wiley & Sons. T. P. ホーガン 繁桝算男・椎名久美子・石垣琢磨

(訳)(2010)心理テスト―理論と実践の架け橋― 培風館.

池田功毅・平石 界(2016)心理学における再現可能危機:問題の構造と解決策 心理学評論,59, 3–14.

* 生月 誠・宮内裕子・山口 創・越川房子(2002)自律訓練法の臨床効果測定用尺度(ATCES)の開発―尺度の信頼性,妥当性の検討― 心理学研究,72, 475–481.

石井秀宗(2014)人間科学のための統計分析―こころに関心があるすべての人のために― 医歯薬出版株式会社.

* 石津憲一郎・下田芳幸(2013)中学生用情動知覚尺度(EAQ)日本語版の作成 心理学研究,84, 229–237.

* 伊藤美奈子(1993)個人志向性・社会志向性尺度の作

あくまでも心理学研究に掲載された研究を統合したものにすぎない。尺度構成におけるプロセスをより詳細に把握するためには,日本の他の雑誌,また海外の雑誌に報告された再検査信頼性係数についても収集し,検討を行っていく必要があるだろう。

文   献

(*=メタ分析に含められた文献)* 安達智子(2010)キャリア探索尺度の再検討 心理学

研究,81, 132–139.* 相川 充(1991)特性シャイネス尺度の作成および信

頼性と妥当性の検討に関する研究 心理学研究,62, 149–155.

* 赤間健一(2015)動機づけ始発方略尺度の作成 心理学研究,86, 445–455.

Allen, M. J. (2001). Testing methods. In W. E. Craighead & C. B. Nemeroff (Eds.) The Corsini encyclopedia of psychology and behavioral science (3rd ed., pp. 1684–1685). New York, NY: John Wiley & Sons.

Anastasi, A., & Urbina, S. (1997). Psychological testing. (7th ed.). Upper Saddle River, NJ: Prentice Hall.

* 安藤明人・曽我祥子・山崎勝之・島井哲志・嶋田洋徳・宇津木成介・大芦 治・坂井明子(1999)日本語版 Buss-Perry 攻撃性質問紙(BAQ)の作成と妥当性,信頼性の検討 心理学研究,70, 384–392.

* 有光興記(2002)日本人青年の罪悪感喚起状況の構造 心理学研究,73, 148–156.

* 有光興記(2014)セルフ・コンパッション尺度日本語版の作成と信頼性,妥当性の検討 心理学研究,85, 50–59.

* 浅井智久・高野慶輔・杉森絵里子・丹野義彦(2009)自己主体感を測定する尺度の開発と因子構造の探索 心理学研究,80, 414–421.

Block, J. (1971). Lives through time. Berkeley, CA: Bancroft Books.

Borsboom, D., Mellenbergh, G. J., & van Heerded, J. (2004). The concept of validity. Psychological Review, 111, 1061–1071.

Brown, F. G. (2001). Measurement. In W. E. Craighead & C. B. Nemeroff (Eds.) The Corsini encyclopedia of psychology and behavioral science (3rd Ed., pp. 930–933). New York, NY: John Wiley & Sons.

De Ayala, R. J., Vonderharr-Carlson, D. J., & Kim, D. (2005). Assessing the reliability of the Beck Anxiety Inventory scores. Educational and Psychological Measurement, 65, 742–756.

DeYoung, C. G., Hirsh, J. B., Shane, M. S., Papademetris, X., Rajeevan, N., & Gray, J. R. (2010). Testing predictions from personality neuroscience: Brain structure and the

小塩:心理尺度構成の再検査信頼性係数

— 79 —

三浦麻子・小林哲郎(2015b)オンライン調査モニタのSatisfice はいかに実証的知見を毀損するか 社会心理学研究,31, 120–127.

宮本聡介・宇井美代子(編)(2014)質問紙調査と心理測定尺度―計画から実施・解析まで― サイエンス社.

村山 航(2012)妥当性―概念の歴史的変遷と心理測定学的観点からの考察 教育心理学年報,51, 118–130.

Murphy, K. R., & Davidshofer, C. O. (2001). Psychological testing: Principles and applications (5th ed.). Upper Saddle River, NJ: Prentice-Hall.

* 中田恵利子・森田泰介(2014)リアリティ・モニタリング・エラー経験質問紙の開発と信頼性・妥当性の検討 心理学研究,85, 168–177.

日本テスト学会(編)(2007)テスト・スタンダード―日本のテストの将来に向けて― 金子書房.

* 西村多久磨・村上達也・櫻井茂男(2015)子ども用孤独感尺度(Five-LSC)の作成 心理学研究,86, 368–373.

* 野崎優樹・子安増生(2015)情動コンピテンスプロフィール日本語短縮版の作成 心理学研究,86, 160–169.

* 落合 勉・小口孝司(2013)日本語版 TALE 尺度の作成および信頼性と妥当性の検討 心理学研究,84, 508–514.

* 小田 亮・大めぐみ・丹羽雄輝・五百部裕・清成透子・武田美亜・平石 界(2013)対象別利他行動尺度の作成と妥当性・信頼性の検討 心理学研究,84, 28–36.

織田弥生・髙野ルリ子・阿部恒之・菊地賢一(2015)感情・覚醒チェックリストの作成と信頼性・妥当性の検討 心理学研究,85, 579–589.

* 小川時洋・門地里絵・菊谷麻美・鈴木直人(2000)一般感情尺度の作成 心理学研究,71, 241–246.

岡田謙介(2015)心理学と心理測定における信頼性について― Cronbach の α 係数とは何なのか,何でないのか― 教育心理学年報,54, 71–83.

* 岡本浩一(1985)独自性欲求の個人差測定に関する基礎的研究 心理学研究,56, 160–166.

* 大久保街亜・鈴木 玄・Nicholls, M. E. R.(2014)日本語版 FLANDERS 利き手テスト―信頼性と妥当性の検討― 心理学研究,85, 474–481.

Olson, J. M., Vernon, P. A., Harris, J. A., & Jang, K. L. (2001). The heritability of attitudes: A study of twins. Journal of Personality and Social Psychology, 80, 845–860.

小塩真司(2015)心理テストは信用できるのか 心理学ワールド,68, 13–16.

小塩真司・西口利文(編著)(2007)心理学基礎演習Vol. 2 質問紙調査の手順 ナカニシヤ出版.

Roberts, B. W., & DelVecchio, W. F. (2000). The rank-order

成及び信頼性・妥当性の検討 心理学研究,64, 115–122.

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring prevalence of questionable research practice with incen-tives for truth telling. Psychological Science, 23, 525–532.

John, O. P., & Benet-Martinez, V. (2000). Measurement: Reliability, constructvalidation, and scale construction. In H. T. Reis and C. M. Judd. Handbook of research methods in social and personality psychology. (pp. 339–369). Cambridge: Cambridge University Press.

Kaplan, R. M., & Saccuzzo, D. P. (2005). Psychological testing: Principles, applications, and issues (6th ed.). Belmont, CA: Wadsworth/Thomson Learning.

* 加藤道代・黒澤 泰・神谷哲司(2014)夫婦ペアレンティング調整尺度作成と子育て時期による変化の横断的検討 心理学研究,84, 566–575.

* 加藤 司・Snyder, C. R.(2005)ホープと精神的健康との関連性―日本版ホープ尺度の信頼性と妥当性の検証― 心理学研究,76, 227–234.

* 小松孝至・酒井恵子・西岡美和・向山泰代(2012)自他の性格評定に使用可能な擬態語性格尺度の構成 心理学研究,83, 82–90.

* 髙坂康雅(2014)小学生版共同体感覚尺度の作成 心理学研究,84, 596–604.

* 工藤 力(1986)思春期の孤独感に関する研究 心理学研究,57, 293–299.

* 桾本知子・山崎勝之(2002)意識的防衛性質問紙(CDQ)の作成と妥当性,信頼性の検討 心理学研究,73, 332–339.

Määttänen, I., Jokela, M., Hintsa, T., Firtser, S., Kähönen, M., Jula, A., Raitakari, O. T., & Keltikangas-Järvinen, L. (2013). Testosterone and temperament traits in men: Longitudinal analysis. Psychoneuroendocrinology, 38, 2243–2248.

* 牧野由美子・田上不二夫(1998)主観的幸福感と自己受容の関係 心理学研究,69, 143–148.

Martin, L. R., Friedman, H. S., & Schwartz, J. E. (2007). Per-sonality and mortality risk across the life span: The importance of conscientiousness as a biopsychosocial attribute. Health Psychology, 26, 428–436.

* 松中久美子(2002)視覚障害者の日常生活ストレスに対する個人的規定要因の検討 心理学研究,73, 340–345.

* 松沼光泰(2009)英語の定期テスト好成績者が実力テストで成績が振るわないのはなぜか? 心理学研究,80, 9–16.

Messick, S. (1995). Validity of psychological assessment. American Psychologist, 50, 741–749.

三浦麻子・小林哲郎(2015a)オンライン調査モニタのSatisfice に関する実験的研究 社会心理学研究,31, 1–12.

心理学評論 Vol. 59, No. 1

— 80 —

研究,65, 463–470.* 丹野義彦・石垣琢磨・杉浦義典(2000)妄想的観念の

主題を測定する尺度の作成 心理学研究,71, 379–386.

* 立脇洋介(2007)異性交際中の感情と相手との関係性 心理学研究,78, 244–251.

* 寺崎正治・塩見邦雄・岸本陽一・平岡清志(1987)日本語版 Sensation-Seeking Scale の作成 心理学研究,58, 42–48.

* 外山美樹(2013)楽観・悲観性尺度の作成ならびに信頼性・妥当性の検討 心理学研究,84, 256–266.

Trajković, G., Starčević, V., Latas, M., Leštarević, M., Ille, T., Bukumirić, Z., & Marinković, J. (2011). Reliability of the Hamilton Rating Scale for Depression: A meta-analysis over a period of 49 years. Psychiatry Research, 189, 1–9.

* 内田由紀子(2008)日本文化における自己価値の随伴性―日本版自己価値の随伴性尺度を用いた検証― 心理学研究,79, 250–256.

* 内海諸香(2013)青年期養育尺度(PAS)の作成 心理学研究,84, 238–246.

Viswesvaran, C., & Ones, D. S. (2003). Measurement error in “Big Five Factors” personality assessment: Reliability generalization across studies and meassures. In B. Thompson (Ed.) Score reliability: Contemporary thinking on reliability issues. (pp. 245–257). Thousand Oaks, CA: Sage Publications, Inc.

* 若林明雄・東條吉邦・Baron-Cohen, S.・Wheelwright, S.(2004)自閉症スペクトラム指数 (AQ) 日本語版の標準化―高機能臨床群と健常成人による検討― 心理学研究,75, 78–84.

渡邊芳之(2010)性格とはなんだったのか―心理学と日常概念― 新曜社.

山田剛史・井上俊哉(編)(2012)メタ分析入門―心理・教育研究の系統的レビューのために― 東京大学出版会.

Yamagata, S., Suzuki, A., Ando, J., Ono, Y., Kijima, N., Yoshimura, K., Ostendorf, F., Angleitner, A., Riemann, R., Spinath, F. M., Livesley, W. J., & Jang, K. L. (2006). Is the genetic structure of human personality universal? A cross-cultural twin study from North America, Europe, and Asia. Journal of Personality and Social Psychology, 90, 987–998.

* 山本哲也・山野美樹・嶋田洋徳・市川 健・仲谷 誠(2014)反復性の大うつ病エピソード経験者が示す認知的反応性の特異性 心理学研究,85, 29–39.

* 山内貴史・須藤杏寿・丹野義彦(2009)日本語版Brief Core Schema Scales の信頼性・妥当性 心理学研究,79, 498–505.

山崎勝之・内田香奈子(2005)調査研究における質問紙の作成過程と適用上の諸問題 鳴門教育大学研究紀要(教育科学編),20, 1–10.

consistency of personality traits from childhood to old age: A quantitative review of longitudinal studies. Psychological Bulletin, 126, 3–25.

* 坂井明子・山崎勝之(2004)小学生用 P-R 攻撃性質問紙の作成と信頼性,妥当性の検討 心理学研究,75, 254–261.

* 榊原雅人・寺本安隆・谷 伊織(2014)リラクセーション評価尺度短縮版の開発 心理学研究,85, 284–293.

* 桜井茂男(1989)児童の絶望感と原因帰属との関係 心理学研究,60, 304–311.

* 桜井茂男・大谷佳子(1997)“ 自己に求める完全主義 ”と抑うつ傾向および絶望感との関係 心理学研究,68, 179–186.

Sampaio, A., Soares, J. M., Coutinho, J., Sousa, N., & Gonçalves, Ó. F. (2013). The Big Five default brain: Functional evidence. Brain Structure and Function, 219, 1913–1922.

* 佐藤淳一(2005)Jung の心理学的タイプ測定尺度(JPTS)の作成 心理学研究,76, 203–210.

清水裕士・村山 綾・大坊郁夫(2006)集団コミュニケーションにおける相互依存性の分析(1)コミュニケーションデータへの階層的データ分析の適用 電子情報通信学会技術研究報告,106, 1–6.

下田俊介・大久保暢俊・小林麻衣・佐藤重隆・北村英哉(2014)日本語版 IPANAT 作成の試み 心理学研究,85, 294–303.

* 下田芳幸・寺坂明子(2012)学校での怒りの多次元尺度日本語版の信頼性・妥当性の検討 心理学研究,83, 347–356.

* 白井利明(1994)時間的展望体験尺度の作成に関する研究 心理学研究,65, 54–60.

* 曽我祥子(1983)日本版 STAIC 標準化の研究 心理学研究,54, 215–221.

* 曽我祥子(1999)小学生用 5 因子性格検査(FFPC)の標準化 心理学研究,70, 346–351.

* 杉森絵里子・浅井智久・丹野義彦(2009)健常者用幻聴様体験尺度(AHES)の作成および信頼性・妥当性の検討 心理学研究,80, 389–396.

* 鈴木淳子(1994)脱男性役割態度スケール(SARLM)の作成 心理学研究,64, 451–459.

* 鈴木公基・桜井茂男(2003)認知的完結欲求尺度の作成と信頼性・妥当性の検討 心理学研究,74, 270–275.

髙本真寛・服部 環(2015)国内の心理尺度作成論文における信頼性係数の利用動向 心理学評論,58, 220–235.

* 丹下智香子(1999)青年期における死に対する態度尺度の構成および妥当性・信頼性の検討 心理学研究,70, 327–332.

* 谷口高士(1995)音楽作品の感情価測定尺度の作成および多面的感情状態尺度との関連の検討 心理学

小塩:心理尺度構成の再検査信頼性係数

— 81 —

across studies. In B. Thompson (Ed.) Score reliability: Contemporary thinking on reliability issues. (pp. 219–243). Thousand Oaks, CA: Sage Publications, Inc.

横内光子(2007)心理測定尺度の基本的理解 日本集中治療医学会雑誌,14, 555–561.

― 2016. 2. 24 受稿,2016. 3. 22 受理 ―

* 柳井晴夫・柏木繁男・国生理枝子(1987)プロマックス回転法による新性格検査の作成について (I) 心理学研究,58, 158–165.

* 安田朝子・佐藤 徳(2002)行動抑制システム・行動接近システム尺度の作成ならびにその信頼性と妥当性の検討 心理学研究,73, 234–242.

Yin, P., & Fan, X. (2003). Assessing the reliability of Beck Depression Inventory Scores: Reliability generalization

心理学評論 Vol. 59, No. 1

— 82 —

App

endi

x 収

集さ

れた

文献

のリ

スト

NO

.文

献尺

度名

対象

者係

数の

数n

項目

数間

(週

)r

内的

合性

評価

記述

1曽

我(

1983

)日

本版

STA

IC(

A-T

rait

のみ

)小

学生

423

7–35

820

1, 6

5.5

0~.7

9―

比較

的高

い安

定性

(p.

221

)2

岡本

(19

85)

独自

性欲

求尺

度大

学生

166

321

.88

.80

高い

安定

性を

備え

てい

る(

p. 1

64)

3工

藤(

1986

)中

学生

用孤

独感

尺度

中学

生1

5720

1.7

4.8

5尺

度の

安定

性は

充分

認め

られ

た(

p. 2

95)

4寺

崎ら

(19

87)

日本

語版

Sens

atio

n-Se

ekin

g Sc

ale

中学

生8

96, 9

88~

1012

.48~

.86

.29~

.67

BS

下位

尺度

の信

頼性

係数

はや

や低

い(

p. 4

7)5

柳井

・柏

木・

国生

(19

87)

新性

格検

査大

学生

1210

5各

101

.84~

.95

.73~

.85

全般

に高

い値

(p.

163

)6

桜井

(19

89)

児童

用絶

望感

尺度

小学

生1

3817

6.8

3.6

3か

なり

高か

った

(p.

307

)7

秦(

1990

)敵

意的

攻撃

イン

ベン

トリ

ー高

校生

1239

, 44

8~10

8.5

4~.8

7.6

8~.8

3か

なり

安定

性が

ある

とい

えよ

う(

p. 2

33)

8相

川(

1991

)特

性シ

ャイ

ネス

尺度

大学

生1

135

1624

.72

.89

高度

の安

定性

を有

して

いる

と言

えよ

う(

p. 1

51)

9藤

井(

1993

)テ

スト

影響

イン

ベン

トリ

ー小

学生

114

825

4.8

7―

十分

活用

でき

る(

p. 1

37)

10伊

藤(

1993

)個

人志

向性

・社

会志

向性

尺度

大学

生2

998,

912

.68,

.74

.69,

.76

かな

り高

い安

定性

が示

され

た(

p. 11

7)11

鈴木

(19

94)

脱男

性役

割態

度ス

ケー

ル大

学生

250

104

.91,

.95

.69,

.73

再テ

スト

係数

も非

常に

高か

った

(p.

455

)12

白井

(19

94)

時間

的展

望体

験尺

度大

学生

465

4~6

2.7

9~.8

4.6

7~.8

3満

足で

きる

値が

得ら

れた

(p.

56)

13谷

口(

1995

)音

楽作

品の

感情

価測

定尺

度大

学生

638

1~8

2.6

5~.8

9.7

8~.9

2十

分な

もの

であ

る(

p. 4

67)

14萩

生田

(19

95)

不安

尺度

大学

生10

127

各10

3.7

6~.9

0.7

1~.8

8比

較的

高い

水準

(p.

22)

15桜

井・

大谷

(19

97)

完全

主義

尺度

大学

生4

43各

510

.71~

.80

.72~

.85

十分

な値

(p.

182

)16

藤井

(19

98)

大学

生活

不安

尺度

大学

生3

175

5~14

4.7

5~.8

7.7

8~.8

5い

ずれ

も満

足の

いく

値を

示し

てい

た(

p. 4

46)

17牧

野・

田上

(19

98)

主観

的幸

福感

評定

尺度

専門

学校

生1

981

2.6

9―

18丹

下(

1999

)死

に対

する

態度

尺度

高校

大学

657

4~11

3.6

8~.9

3.6

0~.8

4一

定の

水準

に達

して

いる

と結

論で

きる

(p.

329

–33

1)19

安藤

ら(

1999

)日

本版

Bus

s-Pe

rry

攻撃

性質

問紙

大学

生12

87, 1

345~

63,

9, 1

7.6

0~.8

0.7

0~.7

8信

頼性

の高

い尺

度で

ある

とい

える

(p.

390

20曽

我(

1999

)小

学生

用5

因子

性格

検査

小学

生5

215

88

.78~

.85

.65~

.72

十分

な安

定性

を備

えた

尺度

であ

ると

いえ

る(

p. 3

50)

21丹

野・

石垣

・杉

浦(

2000

)妄

想観

念チ

ェッ

クリ

スト

大学

生8

204

4~7

2.4

9~.7

1.6

6~.8

7中

程度

の再

検査

信頼

性/

被害

概念

は…

再検

査信

頼性

は低

い(

p. 3

83)

22小

川ら

(20

00)

一般

感情

尺度

大学

生3

159

83

.56~

.65

.86~

.91

人格

特性

的な

一般

的感

情レ

ベル

をも

反映

する

こと

が示

唆(

p. 2

45)

23安

田・

佐藤

(20

02)

BIS

/BA

S尺

度大

学生

611

9各

58

.70~

.83

.71~

.84

.70

以上

の高

い値

を示

し,

尺度

の安

定性

もほ

ぼ満

たさ

れた

(p.

237

24松

中(

2002

)視

覚障

害者

用日

常ス

トレ

スチ

ェッ

リス

ト視

覚障

害者

345

4~10

4.7

9~.8

7.7

5~.8

6尺

度の

信頼

性が

確認

され

た(

p. 3

43)

25生

月ら

(20

02)

自律

訓練

法の

臨床

効果

測定

用尺

度大

学生

121

520

4.8

3.8

6非

常に

高い

数値

が得

られ

た(

p. 4

79)

26有

光(

2002

)罪

悪感

喚起

状況

尺度

大学

生4

566~

1027

.64~

.72

.69~

.77

十分

な再

検査

信頼

性が

認め

られ

た(

p. 1

52)

27桾

本・

山崎

(20

02)

意識

的防

衛性

質問

紙大

学生

122

516

6.5

.71

.87

安定

性は

ほぼ

満た

され

てい

ると

いえ

る(

p. 3

36)

28鈴

木・

桜井

(20

03)

認知

的完

結欲

求尺

度大

学生

364

5~8

12.6

5~.7

2.7

0~.7

4内

的一

貫性

およ

び再

検査

信頼

性で

高い

値が

得ら

れ(

p. 2

73)

29若

林ら

(20

04)

自閉

症ス

ペク

トラ

ム指

数日

本語

版大

学生

154

508

.87

.81

一定

水準

の信

頼性

を示

す(

p. 8

2)30

坂井

・山

崎(

2004

)小

学生

用P-

R攻

撃性

質問

紙小

学生

312

5各

73

.77~

.85

.80~

.83

高い

安定

性が

示さ

れた

(p.

257

)31

加藤

・Sn

yder

(20

05)

日本

版ホ

ープ

尺度

大学

生2

113

各4

4.8

1, .8

4.6

8, .7

6信

頼性

が…

確認

され

た(

p. 2

32)

32佐

藤(

2005

)Ju

ngの

心理

学タ

イプ

測定

尺度

大学

生3

64各

94

.67~

.73

.76~

.80

ほぼ

満足

のい

く安

定性

(p.

206

小塩:心理尺度構成の再検査信頼性係数

— 83 —

33立

脇(

2007

)異

性交

際中

の感

情尺

度大

学生

426

35~

812

.59~

.67

.83~

.91

安定

的な

尺度

(p.

247

34内

田(

2008

)自

己価

値の

随伴

性尺

度大

学生

762

3~5

2.6

0~.8

3.7

0~.8

4概

ね信

頼性

が確

認さ

れた

…倫

理に

つい

ては

やや

信頼

性の

値が

低い

(p.

253

)35

山内

・須

藤・

丹野

(20

09)

日本

語版

Brie

f Cor

e Sc

hem

a Sc

ales

大学

生4

128

各6

2.6

1~.8

2.7

8~.8

6許

容範

囲の

再検

査信

頼性

(p.

501

36杉

森・

浅井

・丹

野(

2009

)健

常者

用幻

聴様

体験

尺度

大学

生1

107

404

.74

.96

非常

に高

いと

は言

いが

たい

が,

十分

に実

用に

耐え

うる

相関

(p.

391

)37

浅井

ら(

2009

)自

己主

体感

尺度

大学

生3

132

4~7

5.6

8~.7

2.6

8~.7

2実

用に

耐え

うる

レベ

ル(

p. 4

16)

38松

沼(

2009

)英

語学

習法

略尺

度高

校生

461

2~5

4.7

8~.9

0.7

7~.8

9十

分な

値(

p. 11

)39

安達

(20

10)

キャ

リア

探索

尺度

大学

生3

463~

63

.57~

.86

.67~

.87

十分

な内

的整

合性

と時

間的

安定

性を

もつ

(p.

134

)40

下田

・寺

坂(

2012

)学

校で

の怒

りの

多次

元尺

度日

本語

版小

・中

・高

校生

850

1, 5

356~

137

.71~

.90

.65~

.89

高い

安定

性を

有し

てい

る(

p. 3

52)

41小

松ら

(20

12)

擬態

語性

格尺

度大

学生

618

4~20

1各

104

.73~

.86

.80~

.91

満足

すべ

き信

頼性

(p.

87)

42外

山(

2013

)楽

観・

悲観

性尺

度大

学生

210

2各

1012

.81,

.85

.90,

.92

時間

的安

定性

が確

認さ

れた

(p.

261

43石

津・

下田

(20

13)

中学

生用

情動

知覚

尺度

日本

語版

中学

生6

473

3~6

3.6

2~.9

4.6

3~.7

8あ

る程

度の

内的

一貫

性と

再検

査信

頼性

を有

する

と判

断さ

れた

(p.

235

)44

内海

(20

13)

青年

期養

育尺

度中

高大

348

3~6

4.7

0~.7

6.8

2~.9

2十

分な

値を

示し

てい

た(

p. 2

43)

45落

合・

小口

(20

13)

日本

語版

TALE

尺度

成人

310

02~

34

.47~

.54

.77~

.89

一定

の再

現性

を備

えて

いる

もの

と考

えら

れた

(p.

513

)46

小田

ら(

2013

)対

象別

利他

行動

尺度

大学

生3

321

各7

4.7

1~.7

8.7

1~.7

8高

いも

のと

なっ

た(

p. 3

4)47

加藤

・黒

澤・

神谷

(20

14)

夫婦

ペア

レン

ティ

ング

調整

尺度

成人

443

2, 4

437,

92.

5.6

8~.7

7.8

6~.9

4高

い安

定性

が示

され

た(

p. 5

72)

48高

坂(

2014

)小

学生

版共

同体

感覚

尺度

小学

生3

437

4~5

3.5

5~.6

7.7

9~.8

2十

分な

値を

示し

た(

p. 5

98)

49榊

原・

寺本

・谷

(20

14)

リラ

クセ

ーシ

ョン

評価

尺度

短縮

版大

学生

312

5各

54

.43~

.60

.85~

.94

中程

度の

再検

査信

頼性

が確

認…

十分

でな

かっ

た(

p. 2

87)

50山

本ら

(20

14)

日本

語版

LEID

S-R

大学

生6

545~

68

.22~

.66

.68~

.81

一定

の再

検査

信頼

性を

有す

る(

p. 3

5)

51中

田・

森田

(20

14)

リア

リテ

ィ・

モニ

タリ

ング

・エ

ラー

験質

問紙

大学

生1

6632

3.7

6.9

5再

検査

信頼

性は

十分

高く

,時

間的

に安

定し

てい

る(

p. 1

74)

52畑

野ら

(20

14)

エリ

クソ

ン心

理社

会的

段階

目録

第5

段階

)大

学生

290

各6

5.7

3, .7

6.6

6, .7

3十

分な

値が

得ら

れた

(p.

485

53有

光(

2014

)セ

ルフ

・コ

ンパ

ッシ

ョン

尺度

日本

語版

大学

生6

101

4~5

8.6

1~.7

7.7

2~.8

2十

分な

再検

査信

頼性

を持

つ(

p. 5

5)54

大久

保・

鈴木

(20

14)

利き

手テ

スト

大学

生3

155

各10

4.8

7~.9

8.8

8~.9

6高

い再

テス

ト信

頼性

を示

した

(p.

477

)55

服部

・本

間・

丹野

(20

14)

思考

抑制

に関

する

メタ

認知

的信

念尺

度大

学生

499

5~9

5.4

9~.7

3.8

3~.9

0妥

当性

を示

唆す

る結

果で

ある

(p.

360

)56

西村

・村

上・

櫻井

(20

15)

子ど

も用

孤独

感尺

度小

学生

119

75

16.6

3.8

6尺

度の

再検

査信

頼性

も確

認さ

れた

(p.

372

)57

赤間

(20

15)

動機

づけ

始発

方略

尺度

大学

生5

166

3~5

4.5

.57~

.72

.72~

.83

許容

でき

る範

囲で

ある

と判

断し

た(

p. 4

52)

58野

崎・

子安

(20

15)

情動

コン

ピテ

ンス

プロ

フィ

ール

日本

短縮

版大

学生

238

各10

6.8

1, .9

1.6

7, .7

5十

分な

再検

査信

頼性

を持

つ(

p. 1

67)

Not

e. 著

者が

4名

以上

の場

合は

第2

著者

以降

を省

略。

係数

の数

:分

析対

象と

した

相関

係数

の数

。n:

検査

-再

検査

の相

関係

数算

出時

のサ

ンプ

ルサ

イズ

。項

目数

:得

点算

出対

象と

なっ

た項

目数

。項

目数

:下

位尺

度も

しく

は尺

度全

体の

項目

数。

間隔

(週

):検

査-

再検

査間

の週

数,

幅を

もっ

て記

載さ

れて

いる

場合

は中

央の

値,

複数

の再

検査

機関

が検

討さ

れて

いる

場合

は各

週数

を記

載。

r:検

査-

再検

査間

の相

関係

数。

内的

整合

性:

α係

数,

柳井

・柏

木・

国生

(19

87)

と萩

生田

(19

95)

では

θ信

頼性

係数

,松

中(

2002

)で

は折

半法

,下

田・

寺坂

(20

12)

では

ω係

数。