21. Outcome measures in Stroke Rehabilitationa.matsuo/pdf/a21.pdf4 21. Outcome Measures in Stroke Rehabilitation 脳卒中リハビリテーションにおける帰結測定 21.1 Introduction

1

21. Outcome measures in Stroke Rehabilitation

脳卒中リハビリテーションのアウトカム評価

Katherine Salter BA, Jeffrey Jutai PhD, Laura Zettler BHSc, Matthew Moses BA, J. Andrew McClure BA, Norine Foley MSc,

Robert Teasell MD

2

Table of Contents

21.1 Introduction ..................................................................................................................3

21.1.1 Domains of Stroke Rehabilitation.........................................................................................3

21.1.2 Evaluation Criteria for Outcome Measures..........................................................................5

21.1.3 Has the Measure Been Used in a Stroke Population? ........................................................8

21.1.4 Has the Measure Been Tested for Use with Proxy Assessment?....................................... 9

21.1.5 What is the Recommended Timeframe for Measurement? ................................................ 9

21.2 Body Structure/Impairment Outcome Measures .....................................................10

21.2.1 Beck Depression Inventory (BDI) ...................................................................................... 10

21.2.2 Behavioral Inattention Test (BIT)......................................................................................... 11

21.2.3 Canadian Neurological Scale (CNS) .................................................................................. 17

21.2.4 Clock Drawing Test (CDT) ................................................................................................. 18

21.2.5 Frenchay Aphasia Screening Test (FAST).......................................................................... 19

21.2.6 Fugl-Meyer Assessment of Motor Recovery after Stroke (FMA) ....................................... 21

21.2.7 General Health Questionnaire – 28 (GHQ-28) .................................................................. 22

21.2.8 Geriatric Depression Scale (GDS)...................................................................................... 25

21.2.9 Hospital Anxiety and Depression Scale (HADS) ................................................................ 26

21.2.10 Line Bisection Test (LBT).................................................................................................. 28

21.2.11 Mini-Mental State Examination (MMSE) ........................................................................... 29

21.2.12 Modified Ashworth Scale (MAS)....................................................................................... 31

21.2.13 Montreal Cognitive Assessment (MoCA) ......................................................................... 33

21.2.14 Motor-free Visual Perception Test (MVPT) ....................................................................... 35

21.2.15 National Institutes of Health Stroke Scale (NIHSS) ......................................................... 36

23.2.16 Orpington Prognostic Scale (OPS) .................................................................................. 38

21.3 Activity/Disability Outcome Measures......................................................................41

21.3.1 Action Research Arm Test (ARAT)...................................................................................... 41

21.3.2 Barthel Index (BI)................................................................................................................ 42

21.3.3 Berg Balance Scale (BBS) ................................................................................................ 44

21.3.4 Box and Block Test (BBT) .................................................................................................. 45

21.3.5 Chedoke-McMaster Stroke Assessment Scale (CMSA) .................................................... 47

21.3.6 Chedoke Arm and Hand Activity Inventory (CAHAI)........................................................... 48

21.3.7 Clinical Outcome Variables (COVS) .................................................................................. 49

21.3.8 Functional Ambulation Categories (FAC) ........................................................................... 51

21.3.9 Functional Independence Measure (FIM) .......................................................................... 52

21.3.9.1 Barthel Index vs. the Functional Independence Measure ............................................... 54

21.3.9.2 CIHI - National Rehabilitation Reporting System............................................................. 54

21.3.10 Frenchay Activities Index (FAI) ........................................................................................ 55

3

21.3.11 Modified Rankin Handicap Scale (MRS) ........................................................................ .56

21.3.12 Motor Assessment Scale (MAS) ...................................................................................... 58

21.3.13 Nine-hole Peg Test (NHPT).............................................................................................. 60

21.3.14 Rivermead Mobility Index (RMI) ....................................................................................... 62

21.3.15 Timed “Up & Go” Test (TUG) ............................................................................................ 63

21.3.16 Wolf Motor Function Test (WMFT).................................................................................... 65

21.4 Participation/Handicap Outcome Measures.............................................................69

21.4.1 Canadian Occupational Performance Measure (COPM) ....................................................69

21.4.2 EuroQol Quality of Life Scale (EQ5D) .................................................................................72

21.4.3 London Handicap Scale (LHS)............................................................................................74

21.4.4 Medical Outcomes Study Short Form 36 (SF-36)................................................................76

21.4.5 Nottingham Health Profile (NHP) ........................................................................................78

21.4.6 Reintegration to Normal Living Index (RNLI) ......................................................................80

21.4.7 Stroke-Adapted Sickness Impact Profile (SA-SIP-30).........................................................82

21.4.8 Stroke Impact Scale (SIS) ...................................................................................................84

21.4.9 Stroke Specific Quality of Life Scale (SSQOL) ...................................................................85

21.5 Conclusions and Recommendations........................................................................87

21.5.1 Evaluation Summaries by ICF Category..............................................................................88

Bibliography........................................................................................................................91

4

21. Outcome Measures in Stroke Rehabilitation

脳卒中リハビリテーションにおける帰結測定

21.1 Introduction 導入

介入の効果を測定することはよい臨床を行う中軸である．Van der Putten(1999)は指摘している．保健医療

において帰結測定は“治療効果の決定の中心的要素であり，それゆえに根拠に基づいた保健医療が供給できる”．

The Stroke Rehabilitation Evidence-Based Review (SREBR)は，効果のある脳卒中リハビリテーションのため

の最良かつ入手可能な科学的根拠の確立を目標にしている．しかし，研究結果を臨床実践やサービスの提供に

移行するのには限界があるのが現状である．そのいくつかは脳卒中リハの帰結測定の現状によって阻まれてい

る．限界は脳卒中患者や医療従事者らが必要とする良好かつバランスの取れた測度の選択に意見の一致が見ら

れていないことである．臨床的重要性を強調する SREBR では，帰結の性質に基づき，どのように帰結測定が

分類・選択されるかの最良の入手可能な情報を提供する．この目的のために，脳卒中リハで一般的に使われて

いる帰結の批評を選び出した．

この章では，どのように ICF の概念構造が脳卒中リハの帰結分類のために使用されているかを記述し，測度

の評価のために適切な測定理論の見解を要約する．

また，一般的に使用さえている測度の特徴，適用，信頼性，妥当性，その他の臨床的性質（clinimetric qualities）

の枠組みを提供する．帰結測定理論のさらに進んだ議論のために，我々は Finch et al の本を参照した．

21.1.1 Domains of Stroke Rehabilitation 脳卒中リハビリテーションの領域

帰結研究は，有意義に帰結を記述し，帰結を分類するための系統的アプローチを必要としている．脳卒中リ

ハの研究および評価は，一つまたはそれ以上の次元に適用可能な数多くの測度の開発を促してきた．脳卒中リ

ハ分野における一般的な測度の使用に関する議論において，これらの道具の分類のための入手可能なガイドラ

インは有用である．WHO の国際的な機能，障害，健康の分類（ICF）は，帰結の分類に適した健康や障害の

多次元的な構造を供給する．最新の ICF 構造（2001,2002）は，人間機能を 3 つの主要なレベルに定義する．

身体（または身体の一部），人全体，社会との関係における人全体である．これらのレベルの全てにおいて帰

結は測定されるであろう．身体機能／構造（機能障害）；活動（ICIDH では能力障害に該当する）；参加（社会

的不利）である．活動と参加は，環境や個人因子に影響される．(この章で扱う帰結は以下の通りである)．

5

帰結評価はまた，身体機能・構造のレベルから参加や生活満足度に焦点をあてた測度に移行する測定の連続

体にそって進展するものとして考慮されるべきである．その他の，治療でない，ヘルスケアへの外的な変数は，

身体構造から生活満足度まで増加する変化を説明するであろう．帰結を作り上げることは定義し，調査するこ

とはさらにもっと困難である (Brenner et al. 1995; Roberts & Counsell, 1998).

もしこの分類が科学的研究に有用であるなら，基礎的段階や概念は測定可能たることが必要であり，これら

の境界線は明確かつ厳密である必要がある．しかしそれは，3 つの ICF の段階が完全にこれらの範疇を満たす

という研究の証拠によって未だ明確にされていない．にもかかわらず，脳卒中リハに帰結評価が適用されると

き，ICF の概念枠組みは，彼等が測定したいものに依拠している 3 つの段階の 1 つにおける帰結測度が使用さ

れるに違いない．しかし，帰結測度はまれにしか単一段階にきちんと適合しない．一つの範疇以上に属する要

素を調査するときにはさらにそうである．この議論の目的のため，測度は活動から参加を通じて身体機能から

最も遠い連続体を含む調査の段階にしたがって分類されている．例えば，参加の分野は全ての分野からの要素

を調査する．これは社会の機能や規則のような生活環境におけるこれらの参加への反応を含んでいる．これら

の測度が健康に関連した生活の質を評価するのに使用される一方で，それはこのような概念や調査自体を定義

することを我々が意図するものではない．

6

21.1.2 Evaluation Criteria for Outcome Measures 帰結評価のための評価基準

帰結測定のレベルを分類するための構造は有用である一方，帰結測定の選択を導く基準を決定することが必

要である．Reliability(信頼性)，Validity(妥当性)，Responsiveness(応答性)は広く使用されており，帰結測定の

評価に必要不可欠であると議論されてきている（Duncan et al. 2002; van der Putten et al.1999;

Roberts&Counsell,1998;Law,2002）．Finch et al (2002)は帰結測定の選択という問題におけるよい手本を示し

ている．

The Health Technology Assessment （ HTA ） programme (Fitzpatrick et al.University of

Southampton,UK,1998 )は，患者に立脚した帰結測定の使用と発展の方法論的観点に焦点をあて，413 の論文

を調査した．その報告では，8 つの評価基準の使用を推奨している．Table21.3 はそれぞれの基準と定義を並

べている．また，どこで適用可能か，どのようにランク付けが解釈されるべきかといったそれぞれの基準の定

量化のための推奨される標準（standard）を定義付けている．この表はこの章のそれぞれの帰結測定の批評に

適用される．

7

Table 21.3 Evaluation Criteria and Standards

基準(Criterion) 定義(Definition）標準(standard)

1. Appropriateness

適切性

研究における目的／疑問への道具の適合．

使用者は，どのような情報が必要とされて

いて，どのような効用が情報の収集により

もたらされるかを決定しなければならな

い．

測度が意図する特異的な目的による．

2. Reliability

信頼性

‐道具（手段）の内部整合性 (internal

consistency)や再現性(reproducibility)に当

てはまる．

‐再現性は偶然誤差(random error)とは無

関係なスコアの程度を扱う．

テスト再テスト＆観察者間信頼性の両者

ともがこの信頼性の見方に焦点をあてて

おり，ICC やピアソン・スピアマンの係数，

κ 係数（重み付けあり，なし）を含む相関

の統計が一般的に使用される．

‐内部整合性はスコア項目の等質性を評

価する．それは一般的に二分再現性

(split-half reliability)またはクーロンバック

の α 統計を使用して調査される．

項目と項目や，項目と尺度の相関が方法と

して受け入れられる．

テスト再テストまたは観察者間信頼性

(ICC；κ統計)

Excellent:≧0.75;

Adequate:0.4-0.74;

Poor:<0.40

Note:Fitzpatrick et al.(1998)

治療の状況における個人の改善の経過

を評価する際に使われるときには，最

低のテスト再テスト信頼性として 0.90

を推奨する．

内的整合性(二分再現性，クーロンバッ

クの α統計)

Excellent:≧0.80;

Adequate:0.70-0.79;

Poor:<0.70

Note:Fitzpatrick et al.(1998)は，「α 値が

0.90 を超えることは重複(redundancy)

を示すかもしれない」と警告する

項目間，項目と尺度の相関係数:

‐Adequate levels—項目間:0.3-0.9

項目と尺度間:0.2-0.9

3. Validity

妥当性

その道具で測定することが，何を測定する

こと意味するか？妥当性の形式は，表面，

内容，構成，基準を含む．併存，収束また

は弁別，予測妥当性は，基準妥当性に含ま

れると考えられる．しかし，併存，収束，

弁別妥当性は，比較の基礎となる “gold

standard”の存在に依存する．gold standard

が存在するなら，それらは，他の測定方法

との関係において，併存的妥当性の形式で

表現される(Finch et al.2002)．

構成（要件）／収束，併存的相関

Excellent≧0.60,

Adequate:0.31-0.59, Poor:≦0.30

ROC 分析‐AUC: Excellent:≧0.90,

Adequate:0.70-0.89, Poor:< 0.70

妥当性の指標として，感度と特異度の

判断による標準の合意は得られていな

い(Riddle&Stratford1999)．

8

4. Responsiveness

応答性

時間の経過による患者の変化への感受性

（これが治療効果を指し示すであろう）．

応答性は一般的に，他の変化したスコアと

の相関や，効果量，標準化された平均応答

（standardized response means），相対的

効果（relative efficacy），変化したスコア

と ROC 分析の感度と特異度によって評価

される．床面効果と天井効果の可能性の評

価は，これ以上の改善または悪化が見られ

るかという検知変化（detectable change）

の範囲の限界を示す．

変化の感度：

Excellent:

標準化された効果量のような方法を使

用した，予想される方向における変化

の根拠

<0.5 = small

0.5-0.8 = moderate

≧0.8 = large

また，標準化平均応答，変化スコアの

ROC 分析（曲線下の範囲‐上記参照）

または相対効率の方法による

Adequate:

中等度の Evidence／予測より少ない変

化；論争中の Evidence

Poor:

弱いEvidenceはP値のみに基づいてい

る（統計学的有意）．

Floor／Ceiling Effect:

Excellent: Floor／Ceiling Effect なし

Adequate: 最小スコアまたは最大スコ

アのいずれかを得た患者（Floor／

Ceiling Effect）が 20％以下

Poor: >20%

5. Precision

精度（正確さ）

測度における段階または区分の数．例：

Yes/No 応答 vs.7 点のリカート応答

精度の前提として測定の目的が必要と

なる（例：分類，評価，予測）．

6. Interpretability

解釈可能性

スコアにどのような意味があるか？そこ

に結果に対する一貫した定義や分類があ

るか？そこに比較可能な基準があるか？

Jutai&Teasell(2003)らは，このような臨

床的問題は，帰結測定の選択を強調す

る値の考慮から切り離すべきではない

と指摘している．つまり実践での評価

はそれぞれの要約した評価とともにあ

る．

7. Acceptability

受容性

負担に代表される患者による完成という

意味でどの程度尺度が受け入れられるか．

もし必要であれば，その評価は別のものに

よって完成され得ないか？

8. Feasibility

実現可能性

評価手段を管理・実行することにより巻き

起こる努力，負担，費用の程度やスタッフ

や臨床治療の混乱

Unless otherwise noted within the table, criteria and definitions: Fitzpatrick et al. (1998); McDowell & Newell (1996).

Sources for evaluation standards: 1Andresen (2000); Hseuh et al. (2001); Wolfe et al. (1991); 2Andresen (2000);3Hobart et

al. (2001); Fitzpatrick et al. (1998); 4,6Andresen (2000); McDowell & Newell (1996); Fitzpatrick et al. (1998); Cohen et al.

9

2000; 5McDowell & Newell (1996); 7Hobart et al. (2001).

それぞれの測度は，各章で信頼性，妥当性，応答性が報告されている．評価の厳しさの基準は

MaDowell&Newell(1996)と Anderson(2000)から適用されている．

Table 21.4 Evaluation Standards - Rigor

完全またはテストの

厳格さ

Excellent‐報告されている最も一般的なテストのフォーム

Adequate‐いくつかの研究／テストの種類で報告されている

Poor‐最小限の情報が報告されている／少ない研究で報告

N/a‐入手できる情報がない

上記の標準に使用されている厳しさ（rigor）の評価は，それぞれの測度の信頼性・妥当性応答性の評価に伴

う評点が与えられている（Table 21.5 を参照）．

＋＋＋（excellent），＋＋（adequate），＋（poor）の評点は，Table 21.3 の標準の列において示している範

囲と証拠に基づいて割り当てられている．例えば，もし妥当性において与えられた評点が＋＋＋または

excellent ならば，それは収束・弁別妥当性を含んだ様々な形式において，標準に基づく優秀な構成概念妥当性

が実施されている証拠が与えられている意味する．

加えて，次の 3 つの問題を検討している．

・脳卒中集団において測度が使用されているか

・その測度が，代理評価(proxy assessment)とともに使用するため試験されてきているか

・評価のための推奨される時間枠はなにか？

21.1.3 Has the Measure Been Used in a Stroke Population?

測度は脳卒中集団において使用されてきたか？

信頼性や妥当性は測定指標の質を確実なものにはしていない．それらは，その評価道具が与えられた集団や

目的において，いかに機能するかを示す相対的な指標とみなされるべきである(Fitzpatrick et al. 1998; Lorentz

et al. 2002)．応答性も同じく状況や目的に特異的である．例えば Van der Putten 等（1999）は，BI や FIMは，

MS患者においてよりも，脳卒中患者においてより大きな効果量しめすことを発見し，これは評価機器の応答

性が疾患や条件に依存する結果だとしている．したがって，使用されようとする集団においての使用が試験さ

れている測定指標であることが重要である．

例えば，高齢者に使用することに焦点を当てた評価指標が，脳卒中集団のもつ特有の問題に当てはまらなか

10

った（Buck et al.2000）．Williamは健康関連 QOL の測定は，脳卒中患者に重要な評価を含んでいないと指摘

する（手・指の機能や言語の評価）．

21.1.4 Has the Measure been Tested for Use with Proxy Assessment?

測度は代理評価を伴う使用によってテストされてきたか？

評価がインタビューや質問などの自己報告の形をとる場合（例: インタビューまたは質問紙－人による，電

話または手紙による），認知や言葉の障害を持つ脳卒中患者に評価されるときには評価から除外されやすい．

このような場合，代理応答(proxy respondent)が重要である．しかし，代理応答を行う際にはそれ相当の注意

が必要となる．

代理評価の研究において，家族や親類にとって患者を評価する際に，彼等が自己報告方法を含む機能障害の

測度において示す困難さ以上に，困難な傾向があることが報告されている．この相違は機能をより障害されて

いる患者間において著明となっている(Segal et al. 1996; Sneeuw et al. 1997; Hachisuka et al. 1997)．

Hachisuka et al. (1997)は，この相違は解釈における違いによって説明されると指摘している．代理応答は，

患者が彼等の理解した能力を評価する一方で，実際の観察可能なパフォーマンスを点数化するだろう．彼等が

実際にすることよりむしろ，することができると考えたことである．

残念ながら，家族や親類の代わりとなる健康の専門家が代理として使用していることは，この問題を解決し

ていない．同様の相違は，代理応答として健康の専門家が使用したときの評点において異なる方向で示された．

彼等は患者自身の評点に比べてより高く評点する傾向にあった(Sneeuw et al. 1997; McGinnis et al. 1986)．こ

の例において，相違は参照の形の違いに依存することが指摘された．患者は脳卒中前の状態と彼等を比較する

だけなのに対し，健康の専門家は，違いを，より障害された群を参照標準として使うであろう(McGinnis et al.

1986)．

21.1.5 What is the Recommended Timeframe for Measurement？

測度の推奨される時間枠は何か？

評価での帰結の変化の程度や割合における脳卒中患者の自然経過（自然回復）の問題は，ICF の分類レベル

の違いにまたがって変化する（Duncan et al.2000）．帰結の連続に従って Body structureから Participation に

移行すればするほど，測度の最終点に近づくのに多くの時間が必要である．それは社会的な概念は，身体構造

の障害よりも安定するのに長い時間がかかるからである（Duncan et al.2000）．

Jorgensen et al.(1995)は，多くの患者において ADL における回復は最初の 13 週の間におこる．もちろん神

経的機能的回復の時間経過は最初の脳卒中の重症度に強く関係しているけれども．機能回復の妥当な診断は最

初の 6 ヶ月に行われるべきであると指摘している．Mayo et al(1999)によると，脳卒中後 6 ヶ月によって身体

的回復は多くの部分で，学習や実践，信用機能として存在する付加的な獲得を完成する．Duncan はこの神経

学的機能障害や能力低下の評価のための時間枠を支持する．しかし，参加の帰結評価は少なくとも 6 ヶ月の機

会が，患者の社会的状態が安定するのに必要としている．彼らはまた，退院の時期の評価を評価の最終点とし

て使用しないよう指摘する．治療介入と滞在時間における変動は，この情報の有用な比較を減少させる．

この章では，我々の評価の主な結果を要約する．表はそれぞれの測定道具の信頼性・妥当性・応答性と他の

11

特性が用意され，出版されている文献からの適切な参照が引用されている．空間を省略するためここには表が

示されていない．Katherine Salter ([email protected])に接触し，情報を得てください．

21.2 Body Structure/Impairment Outcome Measures

このセクションは ICF の分類の最初のレベルまたは段階に相当する．単一の範囲内に与えられた測定道具を

完全に適合させられることはまれであり，このセクションにおいて見られる測度は，第一に身体機能・構造・

システム（精神も含む）における障害の確認または評価に焦点をあてている．

21.2.1 Beck Depression Inventory (BDI)

Beck Depression Inventory はうつの強度の量的表現を提供するため開発された(Beck et al. 1961)．このリス

トにみられる項目は，臨床観察から派生しており，うつとその診断に対する特別な理論的アプローチへの反映

を意図していない．その前書きによると，これはうつの強度の発見と評価のために広く使用される道具となっ

ている．

このリストは，うつの現象または行動を代表する 21 項目からなる．それぞれの項目は 0-3 の重症度段階に

よる 4 つの自己評価状態から構成される，複数の選択的応答として提示されている．応答は，今日を含む過去

一週間の内の最良に適合する状態を選択する(Beck et al. 1988; McDowell & Newell 1996)．段階付けは合計さ

れ，0-63 の範囲で合計点が供給される．一般的に受け入れられているうつの状態の境界は 10 点である(Aben et

al. 2002)．さらに 10-18(mild)， 19-29 (moderate) ，30 – 63 (severe)の分類が一般的に使用されている(Beck

et al. 1988)．原書では訓練されたインタビュアーが実施し，自己完結質問紙として使用されることがもっとも

一般的である．この形式では，完成に 5-10分かかる(Beck et al. 1988; McDowell & Newell 1996)．13 項目の

短縮版が Beck and Beck (1972)に開発されている．尺度の複製や使用許可は The Psychological Corporation,

Texas, USAから得ることができる．

Advantages

BDI は実施が短く，簡単である(McDowell & Newell 1996)．実施に訓練は必要としない．Aben et al. (2002)

は，脳卒中患者に使用したとき，BDI と他の 3 つの異なるうつスクリーニング尺度間に実質的な差がなかった

ことを発見している．その短さと簡単さは，うつの身体的要素に依存していないという事実とともに，脳卒中

にて実施する最も適したうつ尺度として推奨されるであろう(Aben et al. 2002; Turner-Stokes & Hassan,

2002)．

Beck et al. (2000)は，医療患者におけるうつの状態の可能性を確認するスクリーニング尺度として，短縮版

を開発している．この 7 項目版はうつの身体的現象を代表する項目を含んでいない．脳卒中患者における使用

を調査した 1 つの研究がある(Healey et al. 2008)．著者は適度な信頼性と妥当性の証拠を報告しているが，深

刻なまた軽微なうつを確認するための感度と特異度はやや低かった(それぞれ 0.62，0.78)と報告している．

BDI-FSは 2 人の深刻なうつ患者の診断に失敗し，11 の偽陽性をつくった(Healey et al. 2008)．しかしその結

果は脳卒中患者よりむしろ高齢の外来患者の対象者から生成されたカットオフ値を基礎としており，この集団

における BDI-FSの効果的なカットオフ値を決定するため，将来的には脳卒中患者の大きなサンプルによる研

究が必要である．DSM-IVのうつの分野の更新に反映して，Beck et al.は 1996 年に BDI-IIを出版した．BDI-II

は成人のうつの評価において比較的頻繁にを使用されているが，高齢者と脳卒中経験者の評価において習慣的

12

に使用することを推奨する文献的根拠は存在しない．BDI-II の因子構造を調査した 1 つの研究(Siegert et al.

2009)を除いて，関心のある集団のうつ評価に使用するとき，BDI-II の信頼性・妥当性の評価した報告を見つ

けることはできない．

Limitations

うつの存在に関する標準化されたカットオフ値は，脳卒中患者における使用を最適化するように見えるが，

このリストは脳卒中患者において高い確率（おそらく 31%）の誤診を起こしている(Aben et al. 2002)．特に女

性において．この結果は女性患者において特異的でない苦悩を報告する傾向が影響しており，うつ点数の人工

的な膨張が起こっていると Aben et al.(2002)は指摘している．ともかく BDI の感度は，特異度よりも高い傾向

にある．Berg et al. (2009)は，BDI はスクリーニングテストとして実施するには十分敏感だが，うつの確定の

ために使用すべきではないと指摘している．尺度の完成に関する困難さもまた報告されている(House et al.

1991, Aben et al. 2002)．House et al. (1991)は，完成率が減少していることは，選択を強いられた応答の様式

に従うことにおける困難さに関連していると指摘している．

1 つの研究(Berg et al. 2009)は，BDI を完成させるための代理応答の使用を調査している．介護者は，脳卒

中患者自身がつけるのに比べて，患者をおよそ 4 点よりうつ的に評点する傾向にあり，介護者と患者の得点の

関係は，脳卒中後 18 カ月の期間にわたって，0.37 – 0.43 の範囲の低い相関である．代理または介護者による

患者のうつの評点は，患者自身の評点よりもより強く彼ら自身の感じ方に関係しているようである(r=0.60 .

0.61, p<0.001)．

Summary – Beck Depression Inventory

解釈可能性：BDI はよく構成された測度であり，うつの存在と重症度の両方のためのカットオフ値が一般に

受け入れられている．標準値は入手できない．

受容可能性：BDI は 5-10 分でできるが，問題は脳卒中患者における完成度である(Aben et al 2002)．

実現可能性：BDI は短く簡単に実行でき，訓練を必要としない．縦断的研究における評価目的に使用したと

き，その効果についての情報は限られている．

21.2.2 Behavioral Inattention Test (BIT)

BIT は，半側視覚性無視を評価するためにデザインされた総合的なバッテリーであり，その治療に関連する

情報を提供する．半側視覚性無視は，脳損傷の反対側の空間における刺激への反応能力の障害によって特徴づ

けられた状態である．BITはWilson, Cockburn and Halligan (1987)によって，この状態に関連した日常のスキ

ルの生態学的に妥当な評価を提供するために開発された．このように患者能力の詳細な記述を療法士や臨床家

13

に与えるテストであり，リハビリテーション介入の基礎のための有用な枠組みを提供する．

BIT は 2 つの大きなセクションに分かれ，それぞれがサブセットの集まりから構成される．一般的なセクシ

ョン（BITC）は，視覚性無視の 6 つの一般的テストからなる：線引き，文字抹消，星抹消，図と形の模写，

線二等分，描画再生．行動セクション（BITB）は 9 つの行動課題から構成される：事前の模写，電話のダイ

アル，メニューを読む，記事を読む，時間を述べて設定する，コインの並び替え，住所と文章の転写，地図の

案内，カードの並び替え．テストの平行版は再テストの学習効果を最小限にするように作られている．各版は

6 つの一般セットと 9 の行動セットで構成されている．

表 21.7 と 21.8 は，BITC と BITBを構成するセットの簡単な記述である．

14

15

16

BIT の総得点は，BITBと BITC の得点を加えることによって得られる．無視は患者の 2つの見地から診断さ

れる．1)目標刺激に注意を向けること（目標の脱落と不完全な図によって証拠づけられる），2)脱落した目標

の相対的空間位置（傷害側と患者の矢状方向の中間面に関連する）である．Halligan et al. (1991)は，無視を診

断するカットオフ値を設定している．カットオフ値は一般テストと行動テスト，総テストの対照参加者によっ

て得られた最低総得点から設定されている．BITC は 129-146，BITBは 67-81，BITは 196-227 である(reported

in Menon and Korner-Bitensky, 2004)．相対的空間位置の要素（側性の指標）を得点化するため，すべての側

性的パフォーマンスを示す数種のスクリーニングテストが計算される．もしテストの半分が側性的パフォーマ

ンスであるか，そうでないなら，側性的パフォーマンスの指標はすべてのミスがあった側によって決定される．

最終的に，無視得点の重症度は 6 つの BITCテストのパフォーマンスを基に計算される．得点は，無視を示し

た患者から得られた一般テストの数によって決定される．無視の重症度の評点範囲は 1（軽度無視）-6（重度

無視）である．

テストは実施におおよそ 40 分かかり，購入することができる．

Advantages

診断の相対的な多様性や複雑性ゆえに，単一の紙や筆記テストでは片側無視を評価することは困難であると

指摘されていた(Azouvi et al. 2002, Lopes et al. 2007) ．包括的なバッテリーとして BITは，視覚無視の個々

のテストに比べて，さらに詳細に，患者機能の妥当的な生態学的評価として提供された．事実 BIT は，リハビ

リ的な目的の説明を提供するためにデザインされている (Wilson et al. 1987) ．この目的に沿うように，著者

は心理学者や作業療法士の助力を得てテスト項目を選択することにより強い表面妥当性を可能にしている．両

者は患者の視覚的注意の欠如の日常的問題と向き合っているからである．しかし Chedoke Arm and Hand

Activity Inventory などが項目選択過程に目標患者集団を含んでいるのに比べて，目標患者集団そのものが項目

選択過程に含まれていないことに注意することは重要である．

さらに BIT は患者機能の総合的な記述にたどり着くための一般セクションと行動セクションの長所を活用

17

する．一般サブテストはふるいとして使用し，視覚無視の機能的評価を提供するが，行動サブテストは特にリ

ハビリテーションや地域への再統合に関連したスキルを評価する．このように，この道具はセラピストが治療

における特別な注意を与えられるべき課題を標的とすることを助ける点で有益である．BIT の他の利点は，再

テスト用の 2 つの平行テストを準備していることである．これらのテストは学習効果の関与を最小にし，行動

測度は仮想環境に関わりなく評価されるべきパフォーマンスを考慮する．テストは最近の研究においてもカッ

トオフ値が設定されている(e.g., Jehkonen et al. 2000)．

BITB は，予後決定における脳卒中後の神経心理学的調査の手段として，有用な予測ツールであることも報

告されている．Jehkonen et al. (2000)は，テストの BITBセクションは 3，6，12 カ月の追跡における乏しい

機能的帰結単一の最も強い予測因子であったことを発見している．これはそれぞれの時期の the Frenchay

Activities Index (FAI)における全分散（変動）の 73%，64%，61%を占める．このデータは年齢，麻痺側，BITC

を含む代替的予測変数の数との比較において実施されている．

Limitations

BIT は，それを構成している個々の一般テストや行動テストに比べて，コストと物品の両方でより時間を取

り，より効果である．しかしテストの短縮版は，より簡易なベッドサイド評価のため 11 分で作られている．

この短縮版は，完全なテストの感度を失っているであろう．なぜなら 3 つの一般テストと 5 つの行動テストで

構成されるからである．しかし時間が制限される状況では，これは許される犠牲であろう．この BIT の短縮版

は，信頼性，妥当性，臨床変化の応答性のいくぶんかの証拠を備えている(Stone et al. 1991 – reported in Menon

& Korner-Bitensky, 2004)．短縮版 BIT は，多くの無視のバッテリーのないテストに比べ，いまだより長く，効

果である．

Summary – Behavioral Inattention Test (BIT)

解釈可能性：BIT は半側視覚無視のふるいとして使用される包括的バッテリーであり，治療そのものに関連

する情報を提供する．カットオフ値は，テスト創設者のにより出版されており(129-146 for BITC, 67-81 for

BITB, 196-227 for Total test)，より最近の研究にて使用されている(Jehkonen et al. 2000)．

受容可能性：テストの実施は 40 分要し，完成するのにいくつかのスキル（例，読む，書く，視覚記憶，鉛

筆を持つ）を要する．よって BIT は個々の視覚無視のテストよりも，参加者にとって労力を要する．簡便なベ

ッドサイド使用のための 11 分の短縮版が利用できる．

実現可能性：このテストは個々の無視のテストよりも大幅な時間を要する．BIT は購入することができる．

18

21.2.3 Canadian Neurological Scale (CNS)

The Canadian Neurological Scale (CNS)は，意識のあるまたは活気のない脳卒中患者の標準的神経学的評価

である．CNS は脳卒中後の急性期における神経学的状態の評価と監視において使用される簡便なツールとし

て意図されている．(Cote et al. 1986)．テスト項目は，文献論評と尺度の著者の臨床経験に基づき選ばれてい

る (Cote et al. 1986)．

CNSは精神作用（意識，姿勢，言語レベル）と運動機能（顔，腕，脚）がある．運動機能は A1 と A2 のセ

クションにわかれて評価する．A1 は説明を理解し，実行できる場合に実施される．A2 は理解の欠如がある状

態で実施される(Cote et al. 1986, 1989)．各運動項目は困難度によって評点され，それぞれの評点は“特徴的

な神経学的欠陥の相対的重要性に基づいて(Cote et al. 1989).”重みづけられている．各セクションの得点は，

11.5 の中から合計される．より少ない点は重症度が増加することを示す．

CNSを使用した評価は完成におおよそ 5-10 分必要とする．

Advantages

CNSは神経学者によって完成する必要がない．CNSは神経学者だけでなく，訓練されたヘルスケアの専門

家によって完成することができるためにデザインされている．これは患者の変化を監視し，帰結を予測するた

めに適用されるべき短く簡易な評価であろう(Cote et al. 1986, Anamaet 2002)．CNSは入院期間や死や依存状

態などの帰結の妥当な予測ツールであると報告されている．

Limitations

CNS による評価は，他の神経学的機能障害を越えて，上下肢の弱さに焦点を当てている(Cuspineda et al.

2003, Muir et al. 1996)．

Summary – Canadian Neurological Scale (CNS)

解釈可能性：神経学的状態の簡易でわかりやすい評価である．CNS の結果は簡単な公式で使用され，患者

の年齢とともに帰結を予測できる（4 か月後の障害または死の可能性）(Fiorelli et al. 1995)

需要可能性：CNSは短く簡易である．使用に関連する患者の負担は最小であろう．

実現可能性：CNS は神経学者による使用を必要としない．それは前向きにも後ろ向きにも使用されるであ

ろう．これは無料で使用のため入手できる．

21.2.4 Clock Drawing Test (CDT)

The Clock Drawing Test (CDT)はおよそ 1986 年から使用されている(McDowell & Newell 1996)．CDT は，

19

視覚空間的そして応用能力の迅速な評価を提供し，注意と実行機能不全の両方を反映するであろう(Adunsky

et al. 2002; Suhr et al. 1998; McDowell & Newell 1996)．

最も基礎的な形において，CDT は個人に時計の面を書き，数字を配置し，与えられた時間を指し示す手（針）

を書くことを要求する単純課題完成テストである．個人は事前に書かれた円を与えられ，数字と手を配置する

必要があるか，もしくはすべてを自分で書くかであろう．テストは 1-2 分で簡単に完成する(Ruchinskas &

Curyto 2003)．テストの完成において，個人の努力を点数化する様々なシステムがある．実際には彼らは，保

続や転移や間隔のような位置において，エラーと歪みを評価する(McDowell & Newell 1996)．評点システムは

実際は簡単か複雑か，量的か，質的かである．

Advantages

CDT は他の認知評価に補完されるべき極端に短く，非常に単純なツールである(Ruchinskas & Curyto 2003;

McDowell & Newell 1996; Suhr & Grace, 1999)．CDT のパフォーマンスは右半球によって補完される機能とよ

り関係しており(Suhr et al. 1998)，認知機能のより完全な構図を作り出すのを助ける他の評価とともに使用さ

れる．CDT の実施や評点に関連した多くの手続が存在する一方で，すべての多様なシステムの心理測定特性

は全く一貫しており，すべての形は他の認知測定と強い関連性が示されている (Scanlan et al. 2002;

Ruchinskas & Curyto 2003; McDowell & Newell 1996)．

多様性のある採点システムはいくつかの不利を持つ一方，CDT の柔軟性もまた生み出している．例えば，

単純な量的システムは，最初のスクリーンング検査の目的において，認知障害の存在または不存在を判別する

のに十分であろう(Lorentz et al 2002)．一方より複雑な質的システムは付加的情報を生み出すであろう．異な

る採点の方法は，異なる対象者群に適していることを示している(Richardson & Glass 2002; Heinrik et al.

2004)．例えば多発性梗塞患者の認知症患者は，数字の配置よりも，時間の配置におけるエラーを起こしやす

く，認知障害のより重度なレベルは，この特徴に重きを置く尺度によって反映される(Richardson & Glass

2002)．認知障害の高次と高次でない要素を判別するためデザインされている CLOX 版 (Royale et al. 1998)

は，脳卒中の評価において特に使用されるであろう．しかしこれはさらなる評価が必要である．

Limitations

他の多くの神経心理学的スクリーニング測定と同様に，CDT は加齢と教育レベル，うつの存在によって影

響を受ける(Ruchinskas & Curyto 2003; Lorentz et al. 2002, Lourenco et al. 2008)．その程度は使用する採点シ

ステムに依存するわけではあるが(McDowell & Newell 1996)．また時計を書くことは，リハビリテーション環

境における視覚無視や麻痺，運動協調性障害などの他の条件によって影響を受ける(Ruchinskas & Curyto

2003)．右半球機能にその焦点を当てていることから，独立した評価よりも，CDT を使用することは最良であ

ろう(McDowell & Newell 1996)．認知障害（軽度認知症）の確認において，多種の採点方法はしばしば感度が

低いと報告されている(Lourenco et al. 2008, Lee et al. 2008, McDowell and Newell 1996, Ehreke et al. 2009)．

最近の研究において報告されている AUC 値は低いから適度であり，これは評価された採点方法に関わらず一

貫している(Lee et al. 2008, Lourenco et al. 2008, Nokelby et al. 2008)．CDT は視空間機能や無視における特

異的な欠点の存在を明らかにするのに使われているけれども，そのように使うには注意が必要である．7 分の

スクリーニング検査の最近の Manos と Sunderland の採点方法の報告では，視空間機能の障害を識別する感

度は，55-68%であり，採点方法とカットオフ値の使用によると 44-74%の感度である(Nokleby et al. 2008)．

20

注意と無視を識別する感度と特異度は，それぞれ 55%と 42-49%であった．この結果を超える単一の採点方法

は見つかっていない．これらの最近の結果の不存在は脳卒中群から得られていることに注目すべきであろう．

入手可能な採点システムの数は，年齢や教育レベルで層をなす標準的データベースを作りだすことを困難に

している(Ruchinskas & Curyto 2003)．加えて，評点方法の多様性は，研究や患者群間での結果の比較の促進

を減少させている．

Summary – Clock Drawing Test:

解釈可能性：標準値は入手できない．評点方法の多様性は，群間や研究間の比較を困難にしている．標準

としての単一のシステムは一致が見られていない．

受容性：テストは非常に短く簡単．これは口頭課題ではなく，小学校タイプの質問シリーズよりも患者に

とって脅迫的でない．

実現可能性： CDT は高価でなく，とても携帯的である．これはより長いテストが実施できない，利便性

に欠ける場合において実施されるべきである．もっとも複雑な実施や採点方法であっても，おおよそ 2 分しか

必要としない．これは認知評価において経験のない個人によって使用することができる．

21.2.5 Frenchay Aphasia Screening Test (FAST)

1987 年に最初に発表された(Enderby et al. 1987a, Enderby et al. 1987b)．FAST は早く簡単に言語障害を識

別・程度を測る方法を，失語症を持つであろ患者を対象に働いている保健の専門家に提供するために作られた．

FAST は，言語聴覚士によってさらに詳細に評価されるべきコミュニケーションの困難さを持つ患者を識別す

る，スクリーニングの道具として使用されることを意図している(Enderby et al. 1987a, Enderby et al. 1987b,

Enderby & Crow 1996)．

FAST は 4 つの大きな範囲を評価する．理解力，言語表現，読み，書きである．テストは，一方に川沿いの

風景が描かれており，他方には幾何学的な模様そして５つの文が書かれている，単一と両側の刺激カードに焦

点をあてている．応答者へ与えられたすべての説明は長さと困難さで段階つけられている．得点は応答の正し

さと完全性を基礎に与えられる．それぞれのテスト範囲から得られる点数は 30 点の中から合計点を提供する

ため合算される．理解力と言語表現それそれから 10 点が与えられる．読み，書きそれぞれから 5 点が与えら

れる．最初の 2 セクション（理解力と言語表現）だけを評価することによって実施時間を減少することができ，

総合点は 20 点となる．この FAST の短縮版の感度は完全な評価と同じであると報告されている(Enderby et al.

1987a)．年齢で層化された標準は総合点と，表現のサブセクションにおいて得られる．報告されている実施時

間は 3 から 10 分の範囲である(Enderby and Crow 1996; Spreen and Risser 2003)．

21

Advantages

最も知られたもっとも完全に評価するスクリーニング測度であり，FAST は実施において早く簡単である．

理解力と表現のサブテストの実施は，短縮された簡易検査のオプションとして提供される．これは長時間テス

ト過程に耐えられない患者に最も有用である．FAST は急性期と急性期後に使用したとき信頼できると報告さ

れている(Al-Khawaja et al. 1996, Enderby et al. 1987a)．機能障害と機能の両方評価に対して評価したとき，

良好な同時妥当性を示している．言語障害の存在を識別することに加えて，FAST 得点は経時的変化の素早い

スナップショットを提供する方法としても使用されてきた(Enderby et al. 1987a)．FASTの反復した実施が期

待した方向における有意な変化を示している一方，FASTの変化への応答性は詳細において評価されていない．

Limitations

FAST の使用は良好な弁別の感度が報告されている一方で，FAST の特異度は，視覚の障害や視覚無視，注

意障害，非識字，難聴，注意不足や混乱による影響により，不利がみられている(Al-Khawaja et al. 1996, Enderby

et al. 1987a, Gibson et al. 1991)．臨床検査よりも FAST の低い特異度を報告している O’Neill et al. (1990)は，

簡易検査の実施は経験のある臨床家の慎重な評価を超えての真の利点を提供しないと指摘している．年齢と

FAST 間の有意な逆の関係は指摘されてきている(O’Neill et al. 1990)．FAST の層別カットオフ値や標準値は完

全版や短縮版両方に 3 つの年齢群≤ 60 歳，61 – 70 歳，≥71 歳で得られるが，21－81＋歳の少数対象者(n=123)

の評価を基礎としている(Enderby et al. 1987a, Spreen and Risser 2003)．標準データの超高齢者の代表が限ら

れているため，テスト結果の解釈に注意を要し，この群における言語の困難性の存在をしめすカットオフ値は，

超高齢者を分類する不正確さを避けるため，より低いくすることが推奨される(O’Neill et al. 1990)．

Summary – Frenchay Aphasia Screening Test (FAST)

解釈可能性： 20-81+歳の 123 人による年齢別での標準値が入手可能である．高齢者の結果の解釈におい

て，この対象者のわずか 10 人が 81 歳を超えており，21 人が 71－80 歳であることに留意する必要がある．

受容性： FAST は短く簡単で実施にかかるのは 10 分以下である．長く複雑なテストに耐えられない対象

者に使用することに適しているであろう．

実現可能性： FAST は，ベッドサイド評価に実施するのに簡単である．テスト材料は簡単で携帯的である．

21.2.6 Fugl-Meyer Assessment of Motor Recovery after Stroke (FMA)

Fugl-Meyer Assessment は，脳卒中後片麻痺患者の運動機能，バランス，感覚の質，関節機能を評価するた

めに作られた，疾患に特異的な機能障害の指標である（Fugl-Meyer1975, Gladstone et al 2002）．

22

スケールは 5 つの分野を構成している；運動機能（上下肢），感覚機能，バランス（立位，座位），関節可動域，

関節の痛みである．運動分野の項目は，1951 年の Twichell’s 等の脳卒中後の運動機能の自然回復の報告に由

来し，Brunnstrom’ｓ stage の運動回復を組み入れている（Gladstone et al 2002）．項目は，運動機構を背景

にした回復を評価することを意図している．機能的課題は評価の中に組み入れられていない（Chae et al 2003）．

スケールの項目は 3 ポイントの順序尺度を使用してその項目を達成する能力を基礎として点数化されている．

0=実行できない，1=部分的に実行できる，2=完全に実行できる．全体のスコアは 226 点である．点数は以下

の分野ごとに割り当てられている：運動機能が 100 点（上肢 66 点，下肢 34 点），感覚が 24 点（軽いタッチ，

位置覚），バランスが 14 点（座位 6 点，立位 8 点），関節可動範囲が 44 点，同じく関節痛が 44 点．機能障害

の重症度の分類は FMAスコアを基礎に提供された（Fugl-Meyer,1980;Duncan et al.1994）．

FMAは区分ごとに施行されることが一般的である．しかしながら全ての FMAを施行するのに約 30-45 分必

要とする．評価は一対一を基礎とした直接的な観察により完成されており，訓練された PT によって行われる

べきである（Gladstone et al.2002）．

Advantages

Fugl-Meyer Assessment は広く世界的に受け入れられ，使用されている．運動評価はよく定義されており，

運動回復の段階が観察可能である（Gladstone et al.2002）．FMAは他の尺度の妥当性評価のゴールドスタンダ

ードな対象として使われている．

すべての評価は，全体的にまたは部分的に施行されるかもしれない．運動セクションはそのほとんどが十分

に研究されており，最もよく使われている．関節痛や感覚は性質上より主観的であり，より使われている頻度

が低い（Gladstone et al.2002）．目的に基づいて区分ごとに独自で使用できることは，この尺度の自由度や実

現可能性を増加する．

この評価をすべて実行するのはとても長い．臨床的有用性のため，Hsieh et al.(2007)は FMAの上肢と下肢

のサブスケールを基本とした，12 項目の短縮版を開発した．項目は Burunnstrom stage を代表したものと，

ラッシュ分析から評価された項目難度を基に再取得された．同じく Crow et al.(2008)は FMAの上肢・下肢の

点を評価する短縮した方法を提案した．著者は，ガットマン分析を用い，2 つのセクションの尺度項目が統計

学的に妥当な階層性を満たすよう決定された．したがってテストは患者の回復レベルの観察に適すると考えら

れるステージから始めることができる．もし患者があるステージで満点を獲得すれば，それ以前のステージの

項目も満点を取るであろう．反対に，受けたステージの項目すべてにおいて獲得できなかった点がある場合，

患者はテストを行っていないより進歩した項目について 0 点に割り当てられる．この評価方法はテスト実施に

必要な時間の短縮を表す．階層テスト手続の完全なガイドラインは，Crow et al.(2008)により提供されている．

Limitations

この評価を完全に全て施行することはとても時間がかかる（Gladstone et al.2002）．訓練された PT でもテ

ストを施行するのに 30-45 分かかり，それは長すぎるであろう．運動，感覚，バランスの報告されている所要

時間の範囲は，34 分から 110 分で，平均時間は 58 分である（SD=16.6；Mlouin et al.1994）．この尺度の相対

的な複雑さと長さが，臨床の実践においての使用しづらくしている(Poole & Whitney，2001)．そしてこれは

特に疲労や持久力の困難さを経験した対象者において，患者負担と関連するであろう．

運動機構の背景に伴う回復の評価では，FMA は機能回復から運動回復を分離するかもしれず，よって慢性

23

期の集団においては機能的な改善を表さないかもしれない(van der Lee et al.2001)．これらの場合には，FMA

は最適な評価指標ではないかもしれない．しかし，FMA-UE 得点と，ARAT や WMFT のような上肢の機能的

制限を評価する尺度間の有意な中等度の関連性は，亜急性期，慢性期の脳卒中患者群において報告されている

(Hsieh etal. 2009, Lin et al. 2009, Lin etal. 2010)．

FMA のバランスセクション（特に座位バランス）の信頼性と妥当性は，疑問であると報告されている．バ

ランススケールの中のパラシュート項目のスコアを改正すると，信頼性が向上するという結果を示した(Hseuh

et al.2001 in Mao et al.2002)．感覚の副項目を使用した固有感覚の機能障害評価は，天井効果によって裏付け

られる低い応答性と弱い中等度の効果量に加えて，表面的妥当性がなく，構成要件・予測妥当性が低い(Lin et

al.2004)．

主成分分析やラッシュ分析の結果，反射を測定する 3 つの項目が上肢の評価に有意な貢献を示していないと

指摘されている(Woodbury et al. 2007)．加えて，ラッシュ分析により明らかになった 30の評価項目（反射を

除く）の項目難度階層は，脳卒中患者の上肢における回復の進展を理解するのにより適していることを示して

いる(Woodbury et al. 2007)．さらなる分析は，これらの 30 項目の項目難度階層性は時間をまたいで安定して

いることから，上肢機能の縦断的に妥当な評価を提供すると報告している(Woodbury et al. 2008)．

Summary - Fugl-Meyer Assessment of Motor Recovery after Stroke

解釈可能性：FMA はスケールの強い基礎と運動回復の段階をよく定義していることが強調されている．そ

して国際的にも受け入れられている．FMA スコアによる運動機能障害の重症度分類は様々な情報源によって

提案されている(Fugl-Meyer et al.1975; Fugl-Meyer，1980;Duncan et al.1994)．

受容性：全てのテストを行うのは時間がかかりすぎる．運動項目はおおよそ 20 分で行える．評価は直接観

察によって行われるべきである．

実現可能性：FMAは訓練された PT または OT により行われるべきである．特別な機器も必要なく，いろん

な場面で使用でき，縦断的評価においても使用できる．

21.2.7 General Health Questionnaire – 28 (GHQ-28)

The General Health Questionnaire (GHQ)は精神障害の症例を発見するスクリーニングツールとして開発され

(McDowell and Newell 1996)，精神的罹患率の検査のための最も広く使われる質問紙の一つといわれている

(Andersen et al. 2002)．自己評価質問紙は診断を意図するよりも，さらなる精神的評価が必要な者かを特定を

可能にする(McDowell and Newell 1996)．これは問題の 2 つの主要な分類を発見すること目的にしている：正

常な健康機能を実行する能力がないことと，新しい悩みの現象の兆候である(Goldberg and Hillier 1979)．GHQ

24

は悩みの 4 つの視点に関連している：うつ，不安，社会的障害，心気症である(McDowell and Newell 1996)．

この道具は，個人の通常の状態と比較して，兆候の存在や大きさを探索することによって，通常の状態からの

偏差の発見に向けられている(McDowell and Newell 1996)．したがって GHQ は，個人にとって通常になって

いるような，長く存在する現象（慢性疾患）を発見するためにデザインされていない(Richard 2004)．

GHQ-28 は，多様なオリジナルの 60 項目の質問のうちの一つである．GHQ-60 を完成した 523 人の因子分

析を基礎として，4 つの 7 項目サブスケールが作られた；身体症状(A)，不安と不眠症(B)，社会的機能障害(C)，

うつ(D) (Goldberg and Hillier 1979)．それぞれのサブスケールは，4 つのサブスケールの得点の側面を提供す

るため別々に採点される．このバージョンは，単一の重症度得点とは逆に，それぞれの兆候範囲の得点が分か

れるような場面に使用される(Goldberg and Hillier 1979)．GHQ-28 は，外傷後の臨床や研究場面における罹患

率を発見するのに推奨されてきた(Raphael, Lundin & Weisaeth, 1989 as cited in Andersen et al. 2002)．

自己報告質問紙は，それぞれが特徴的な兆候を示す 28 の質問から構成されている．選択肢を使用したそれ

ぞれの質問の応答者割合は提供されている（「通常より良い」，「通常と同じ」，「通常より悪い」，「通常より相

当悪い」）．3 つの異なった採点方法は，GHQ 導出に使用される．これは表 21.13 に述べられている．それぞ

れのサブスケールの項目点数は合計される．サブスケールスコア点数は，28 のスコアからの点数を提供する

ため合計される(GHQ，CGHQ 得点システム)．Goldberg and Hillier (1979)は，伝統的な得点方法はリカートス

ケールよりも良い結果を得られない場合にはよい，したがってスクリーニングの目的で GHQ を使用するとき

には簡単なこの方法を推奨すると主張している．GHQと CGHQ 得点方法に関して，結果はより最適化するた

め混合されるが，Richard et al. (2004)は採点方法の選択が心理的苦悩の存在を示す個人を異なって導くことを

発見している．彼らは，両方の方法を同時に使用すること，それぞれのシステムに基づいて良好な得点をすべ

ての個人に認識することがもっとも有利であると結論付けている．GHQ のこの版は，完成に 3 から 4 分要し，

比較的早く評価できる(McDowell and Newell 1996)．

Advantages

GHQ-28 は実施，点数化するのに簡単な質問紙であ

り，原版より患者の負担が少ない．それは身体または

精神疾患集団においては特に重要なことである．低い

拒否率はこの質問紙が多くの個人にとって完成するの

に困難ではないことを示唆している．

GHQ-28 は有用なサブスコアを提供する（他の版に

はない）ことから，より正確な精神病の可能性を示唆

する(Kilic et al. 1997)，または一定の気分の障害を特定

する(Aylard et al. 1987) や Lobo et al. (1988)．

Rabins と Brooks (1981)は，GHQ 得点は重症度の測

定として使用されうると指摘している．しかしながら

ある人は，テストをスクリーニングとする意図として

解釈するとき，診断的意味合いを持たないことに注意

を促している．

Lobo et al. (1988)と Rabins and Brooks (1981)は，HQ の全得点は重症度の測度として使用できると指摘し

25

ている．最後に Goldberg et al. (1997)は，性別，年齢，言語，教育，における妥当性の分類において有意な差

はないことを発見しており，これは GHQ-28 は多くの集団に適していることを示唆している．Lincoln et al.

(2003)は，GHQ-28 はうつよりも精神的悩みの指標として提供されたため，脳卒中患者により直面している問

題により敏感であろうと意見を述べている．

Limitations

GHQ-28 の多くの精神測定的評価は，感度と特異度の計算や構成概念妥当性の決定に限界を示している．測

度の信頼性に関する情報はほぼ得られない．GHQ はイタリア語，カンボジア語，メキシコ系スペイン語，日

本語，中国語を含む多くの言語に翻訳されている(McDowell & Newell 1996)．しかし Kilic et al. (1997)による

と，信頼性の図は英語圏でより高く発見されており，翻訳や意味論に関する問題は道具の信頼性に影響するこ

とを指摘している．

GHQ が多くの集団においてテストされてきた一方，その使用頻度において，脳卒中患者に妥当していない．

これは完全に脳卒中患者に妥当するという GHQ の一般的な批判は，慢性疾患の影響(O’Rourke et al. 1998)を

見落としていたり，精神障害を伴う身体疾患(Lykouras et al. 1996)を混同していたりする傾向にある．慢性疾

患に苦しむ対象者は，彼らの状態は一定期間同じであり続けることや現象がないことはないということが理由

で，「通常と同じ」や「通常以上ではない」の選択肢を選ぶだろう．したがって彼らはその時にはこれらの項

目において消極的な点数を受ける(Benjamin et al. 1982)．さらに身体のサブスケール項目より，身体的疾患を

持つ対象者は GHQ において高い点をとるであろう．これは精神障害を持つ可能性としてこれらの個人を間違

った分類にする結果となる(Lykouras et al. 1996)．Goodchild と Duncan-Jones (1985)により提案された

Corrected GHQ 採点方法は，慢性疾患を発見する GHQ の能力を改善することに挑戦している．

GHQの測定する構成概念を取り巻くいくつかの混乱がある．それは精神疾患罹患率(Andersen et al. 2002)，

感情の罹患率(Lobo et al. 1988)，心理的悩み(Lincoln et al. 2003)，心理的でない精神病(Burvill and Knuiman

1983)，精神的混乱(Koeter 1992)において述べられている．これらはすべて精密には定義することが困難な構

成概念である．また GHQ-28 の利点はサブスコアを提供できることである一方，尺度間の関連は深刻となりう

ることを認識することは重要であり，これらがはっきり異なった尺度であると推測することは適当ではない

(Werneke et al. 2000)．

GHQ は，精神的障害を持つであろう者から，精神的障害を持たないであろう者を分けることを試みた道具

である．得点は特別な診断を示唆するものではないが，精神的症例の存在の閾値を表現する(McDowell and

Newell 1996)．最大限の閾値得点は研究によって変化する．それは妥当性や集団における罹患率や集団の人口

統計データなどのために使用するゴールドスタンダードに影響される(Furukawa et al. 2001)．多くの研究が

「事例性」の範疇として 4，5 または 6 の肯定的応答を使用することを発見している（伝統的得点手法を用い

て）．これは適切な妥当性の分類に終わっている．この推定値を導く GHQ の中央値をWillmott et al. (2004)が

信じているにもかかわらず，Goldberg et al. (1998)は GHQ の平均得点は，最善の閾値の荒い推定を提供して

いると主張している．しかし Furukawa et al. (2001)は，層に特化した尤度比（SSLRs）を使用して，最良の

閾値のアプローチの代わりの得点と解釈することを示唆している；ノノグラム-ポストテストの可能性の計算

における手段-はこれらの研究において，http://www.epbcenter.com.のオンラインにて提供される．

http://www.epbcenter.com/

26

Summary – General Health Questionnaire – 28 (GHQ-28)

解釈可能性：GHQ 得点の解釈において練習することが注意点である．評価の意図は精神障害のスクリーニ

ングであり診断ではない．かと大淵の 5/6 は一般的に使用される一方，脳卒中集団では最も適切なものとして

妥当していない．脳卒中後のうつに対する GHQ-28 の使用を評価した一つの研究はこの目的のため 11/12 の使

用を推薦している．

受容性：多くの研究は低い拒否率を報告しており，患者に当てはまる道具であることを示唆している．28

項目版は，原版を完成するための時間の半分を要し，身体的に病んでいる集団にとって適切であるとしている．

代理による評価はこの道具にとって適切でないであろう．

実現可能性：GHQ は，2 分得点法を使用した際に特に，簡単に実施，得点化できる効果でない道具である．

それは患者が待機室にいる間に質問を書き込むのが一般的な実践であり，患者と臨床家にとって効率的なプロ

セスとなる．

21.2.8 Geriatric Depression Scale (GDS)

高齢者うつ尺度は 1982 年 Brink and Yesavage によって開発された．それは最初高齢者においてうつを発見

するスクリーニングとしてデザインされ，短く簡単で一次医療環境で簡易に使用できることが意図された

(McDowell & Newell 1996)．GDSは自己点数化尺度であり，高齢者と一般集団からのうつを区別する妥当性の

ため 100 項目から研究者と臨床家に選ばれた 30 の項目からなる(McDowell & Newell 1996)．質問は簡単なは

い／いいえ応答であり，面倒でなく年齢相応である両方を意図している(Stiles & McGarrahan 1998)．

応答は一週間前を参照してそれぞれの質問に応答が提供される．“はい”で一点が与えられ，得点の数は合

計され一つの点とされる．0-10 は正常とされ，11 以上はうつを指し示す．うつは軽度（11-20），中等度から

重度うつ（21-30）に分類される(McDowell & Newell 1996)．テストは自己実施形式で完成に 8－10 分要する

(McDowell & Newell 1996)．しかし検査者による口頭実施は，個人の能力の広い幅をより含むであろう(Stiles &

McGarrahan 1998; van Marwijk et al. 1995)．

与えられた質問の数はと実施の時間の長さは，GDS が一次医療環境において実践的でないスクリーニング

ツールであることを指摘している(van Marwijk et al. 1995)．GDSの多くの短縮版が，この困難な可能性に取

り組むため開発された．Sheikh and Yesavage (1986)につくられた 15 項目版は最も一般的に使われている短

縮版である．応答と得点化形式は原版から得られる．0-4 は正常と考えられ，5-9 は軽度のうつがある，10-15

は中等度から重度のうつを示す(McDowell & Newell 1996)．それは実施に 5-7 分を要する．GDSの 1, 3，4，

5，10 項目版はうつの存在のスクリーニングテストとして評価されている(van Marwijk et al. 1995; Almeida &

Almeida, 1999; MacNeill & Lichtenberg 2000; Rinaldi et al. 2003)．

27

Advantages

GDS は身体的要素よりもうつの影響的側面に焦点をあてており，高齢者のうつの指標としては使用に適し

ていない．スクリーニングで使用した場合，それはインタビュー評価と同じくらい長すぎる．しかし実施の練

習にて時間を短縮できる．

Limitations

一般的に，GDS は地域在住者のより高い機能を持つ者にて高い特異度と感度がみつかっている(Stiles and

McGarrahan, 1998)．認知障害者にて使用した場合のうつのスクリーニング能力の報告は，GDS自己報告方式

によって短期記憶と個人の見識を強調することから，多様である．一例では，GDS は認知障害高齢者におい

てうつのスクリーニングにおいて，偶然（chance）よりも良い結果を示していない(Burke et al. 1989)．GDS

は，中等度以上の認知障害患者で使用すべきでないと指摘されている(McDowell & Newell 1996; Kafonck et al.

1989; McGivney et al. 1994; Stiles & McGarrahan 1998)．

口頭実施は広い幅の能力の対象者を盛り込むであろうけども，口頭方法の実施は，記述方法の実施と比較し

て，より少ない項目の認証に終わるであろう(Cannon et al. 2002)．声に出す応答の必要性は，わずらわしいと

思っている人の応答者の応答を思いとどまらせるであろう(Williams et al. 2005)．性別は，対象者を正確に分

類する GDSの能力に影響を与える．GDSは，男性よりも，より正確にうつの女性を分類する報告されている．

男性の応答者の場合，偽陰性が増える傾向にある(Stiles & McGarrahan 1998)．

GDS の多くの短縮版が原版と高い関係があると報告されている一方，短縮版はより高い陰性的中率を持つ

傾向があり，短縮版はスクリーニングか，可能なケースを排除するのに最適であると指摘されている(van

Marwijk et al. 1995; Almeida & Almeida 1999)．

Summary – Geriatric Depression Scale

解釈可能性：最近，実施の標準形式は存在せず，異なる項目からなる多くの異なる短縮版が，異なる研究や

集団で作られている．

受容性：項目は高齢者から特に開発されている．はい／いいえ応答形式は親しみやすく理解が容易である．

短縮版は注意や疲労の問題の可能性を配慮する．GDSは代理応答の使用のため評価されている．

実現可能性：GDS あ実施するのに簡単で，追加の訓練を必要としない．認知障害をもつ患者への使用に適

していない．30 項目版は，一次医療環境にて実施するのにはあまりに長いであろう．

21.2.9 Hospital Anxiety and Depression Scale (HADS)

病院不安うつ尺度(HADS)は 2 つの次元の尺度であり，精神病患者間におけるうつと不安障害を特定するの

に特別に開発された(Zigmond and Snaith 1983; Herrmann 1997; Bjelland et al. 2002; Flint and Rifat 2002)．精

28

神状態よりも身体の病態に貢献しうる，疲労や体重減少，頭痛のような身体項目は含まれていない．

すべての HADSは，7 つの項目の 2 つのサブスケールに分類される 14 項目から構成される：不安サブスケ

ール（HADS-A）とうつサブスケール（HADS-D）．不安項目は不安が発生された状態に影響する．一方，うつ

サブスケールの多く（7つ中 5）は無快感症の概念に焦点をあてている(Roberts et al. 2001, Flint and Rifat 2002)．

それぞれの項目の応答率は 4 点，0（なし）から 3（とてもある）である．14 項目中 5 つは逆に暗号化されて

いる．得点は 2 つのサブスコア合計とすべての合計に分かれている．総合点は 42 点で，サブスケールはそれ

ぞれ 21 点である．より高い点は不安またはうつのレベルが高いことを示す．HADS の総合点は精神心理的悩

みの全体的測定とみなされる(Roberts et al. 2001; Johnston et al. 2000)．テストは 2－6 分で完成でき，1 分で

点数化できる(Visser et al. 1995, Hermann 1997)．テストの実施に練習はいらない．テストは無料で手に入れ

られるが，商業的使用は許可とテストの購入が必要である(www.nfer-nelson.co.uk)．

Advantages

HADSは簡単に実施でき，使用に特別な精神的訓練を必要としない．さまざまな言語に翻訳されている(Pais

et al. 2007; http://shop.nfer-nelson.co.uk/icat/hospitalanxietyanddepress)．HADSの実施は，まったく無知な医

学的患者によってよく許容される(Herrmann 1997, Johnston et al. 2000)．加えて，電話実施評価は，脳卒中対

象者群においての面接実施と比較して，電話インタビューを経由して得られた結果との有意な差を指摘してい

ない(Hoffmann et al. 2010)．

全尺度点数は，うつなどよりも心理学的悩みを指し示すだろう(Roberts et al. 2001, Johnston et al. 2000)．

しかしながら，全尺度点数は，うつの存在の可能性に対するスクリーニングにおいて，うつのサブスケールと

同様の感度と特異度を報告している(Aben et al. 2002)．これはこの 2 つの尺度間の中等度の強い相関の反映で

ある．2 つの因子構造からつくられているにもかかわらず(Bjelland et al. 2002, Roberts et al. 2001, Johnston et

al. 2000, Marinus et al. 2002, Flint and Rifat 2002)．

Limitations

「私は私がゆっくりしていると感じる」という項目は問題であると認識されている(Flint and Rifat 2002,

Johnston et al. 2000)．これはどちらのサブスケールにも定義できず，身体症状と解釈されるかも知らない．

特に高齢者はこの項目を身体的減速の代表として“ゆっくりする”を承認する(Flint and Rifat 2002)．

身体項目の除外は身体的疾病の点数の影響を防ぐには効果的である一方，この尺度の表面妥当性を減少する

かもしれない(Marinus et al. 2002)．Marinus et al. (2002)によると，うつの 9 つの範囲の内 5 つは，DSM-IV

における身体的症侯学の影響を含んでいる．HADS においては表していない．うつの HADS 評価は，気分と

無快感症の主たる兆候に焦点をあてている．その構成により，BDI は DSM-III のうつ範疇の９つ中６つを含ん

でいる(Beck et al. 1988)．

Summary – Hospital Anxiety and Depression Scale (HADS)

解釈可能性：英語での標準は入手できない．ドイツ語版では百分率と t 値が入手できる．年齢，性別による

標準化は実施されておらず，カットオフ値もない．

受容性：尺度は早く簡単に実施できる．全く無知の患者によってよく受け入れられると報告されている．

実現可能性：HADSは使用と得点化が簡単である．尺度の実施に特別な訓練はない．

29

21.2.10 Line Bisection Test (LBT)

線二等分テスト(LBT)は，半側無視(ULN)のスクリーニングツールである．右半球損傷への反応としてしばし

ば生じるこの状態は，損傷と対側の個人的空間を超えた場所の刺激への反応の失敗として描かれる(Ferber &

Karnath, 2001)．LBTは 70 年以上使用されている．しかしながら，Schenkenberg, Bradford, and Ajax (1980)

が正式に測度として有効にしたのは最近である．

LBT の間，患者は鉛筆にて神のシートの上の水平線の集まりに，中心点を引くよう要求される．LBT は線の

真の中心点からの平均偏差の測定によって点数化される（cmまたは mm）．ほとんどの検査者は，偏差を線の

半分の長さで乗じる公式を用いる．したがってこの割合を 100 からのパーセントによって広げる．ULN は，

真の中心点から平均においてあらかじめ決められたカットオフ値を外れたとき診断される．文献の中のこの値

に対し標準がないことに注意するのは重要である．典型的に，今までの研究においてどんな対照の最低点も定

義されていない．このテストは 5 分程度で実施でき，検査者としての特別な訓練は必要としない．

Advantages

LBT は行動的不注意のテストの一部として使用されることができ，感度を改善するためや，さらに便利に使

うため，ベッドサイドで半側空間無視を検査することのできる，多目的なテストである．後者で使用する場合，

テストは時間とコストの両方で経済的であり，完成に５分しか要さず，物質として紙とペンしか必要としない．

また，テストのバーチャルリアリティー版を入手できるが，しかしながら伝統的な LBT と中等度の一致しか

報告されていない(Fordell et al. 2011)．

Limitations

LBT は半側無視と半盲のような視覚範囲の欠損を区別することができない．この問題は，LBT が一連の認知

プロセスを測定する事実からおこる（例えば単一刺激のサイズを正確に受容すること）．この認知プロセスは

また視覚範囲の欠損における障害でもある．無視を伴わない半盲患者は一貫して二分するラインの病巣側と反

対のエラーを起こすという発見は，よく実証されている(Ferber and Karnath, 2001)．したがって LBT の正の

スコアは，これらの関連した障害の交絡した役割を除外すれば，ULN のある指標としてのみ得ることができ

る．

LBT への批判の他の源は，認知スキルは空間無視と関連するテストによって評価されるが，それと根本的に

関連するわけではないと主張する Ferber and Karnath (2001)らによる．研究において Ferber and Karnath は，

LBT の空間無視と判断された 35 人の対象者においていくつかの抹消テストに対する感度を比較した．彼らは，

文字抹消およびベルテストが 6％しか落としていないのに対し，LBT が症例の 40％を落としていたことを発

30

見した．二重剥離が見つかっているいくつかの研究に加えて，機能障害は LBT を除く抹消テストで見つかっ

ていたり，また反対の場合もある(Ferro & Kertesz, 1984; Halligan & Marshall, 1992; Marshall & Halligan, 1995)．

著者は彼らの発見を，LBT のパフォーマンスは空間無視に根本的に関係しているわけではない証拠と解釈して

いる．この見地からは，LBT の結果は臨床現場で注意して扱うべきであり，空間無視を発見するのに抹消テス

トは手助けとなるツールであると指摘している．この議論に対するさらなる証拠は LBT のパフォーマンスと

抹消テストの比較の研究において特にもたらされる．これらの研究は，これらのテスト間に低い相関または無

相関を発見している(Binder et al. 1992; Ferber & Karnath, 2001)．最終的に，無視のテストのバッテリーを扱

う因子分析は，ラインを 2 分することそれ自身を因子と発見した．それは文字抹消や記号抹消の因子に含まれ

なかった(McGlinchey-Berroth et al. 1996)．

Summary – Line Bisection Test

解釈可能性：LBT は簡単かつ半側無視の量的スクリーニングツールである．テストの実施は標準化において

問題がある．それはテストの方法と得点化の両方において，文献に一貫性がないことである．特にラインの長

さ，ラインの数やカットオフ値の決定の仕方に違いがある．

受容性：テストは短く，患者にとって少しも負担がない．

実現可能性：LBT は簡単に実施でき，特別な訓練を要しない．要する物質は鉛筆と紙だけである．

21.2.11 Mini-Mental State Examination (MMSE)

MMSE は認知機能障害を定量的に評価し、時間に伴った認知機能の変化を記録するための簡潔なスクリー

ニング方法として発展した(Folstein et al. 1975)。

ツールのオリジナルアプリケーションが精神医学のうち認知症の検出であったことと同時に、その使用は広く

普及した。

MMSEは 11 個の簡単な質問または課題から成り立つ。主として、これらは時間に対する見当識、場所に対

する見当識、3 つの単語の記銘、注意力および計算、3 つの単語の想起、自発書字および図形模写の 7 つの認

知分野にグループ分けされる。訓練された検査者による施行には約10分要する。検査の総得点は30点であり、

検査は，検査項目達成の直接観測結果に基づいた，対象者の現在の認知パフォーマンスの構図を提供する。23

もしくは 24 点が通常認知機能障害の存在を示すカットオフ値である(Dick et al. 1984)。障害のレベルは同様に

24～30 点は正常、18～24 点は軽度、0～17点は重度に分類される(Tombaugh & McIntyre 1992)。MMSEの修

正されたバージョンである modified mini-mental state examination (3MS)は、評価に含められている項目の内

容や数や困難さ、内容の増加し，Teng & Chui (1987)によって開発された。3MSのスコアは、認知機能障害の

存在に対して 79 もしくは 80 点のカットオフ値を基準とした 0～100 点の範囲から成る。この修正された評価

31

は、元の MMSEの施行よりも約 5 分多く所要する。

Advantages

MMSE は、短く、安価で簡単に施行できる。その広範な使用と適応されたカットオフ値は、その解釈可能

性を増大させる。

Limitations

MMSE が 1 つの簡易検査のうち機能の評価が多すぎることは提唱されている。個々の項目上または 1 つの

領域内の成績は、1 つのスコアの解釈より有用であるかもしれない(Wade 1992;Tombaugh & McIntyre 1992)。

しかし、視覚または言語記憶障害、もしくは見当識または注意障害をスクリーニングする時に、容認できるカ

ットオフ値を確認することは不可能である(Blake et al. 2002)。

おそらく、MMSEの最大の欠点は、軽度の認知機能障害を持ち(Tombaugh & McIntyre, 1992; de Koning et al.

1998)、一般の神経疾患患者(Dick et al. 1984)や脳卒中患者(Suhr & Grace 1999; Blake et al., 2002, Nys et al.

2005)のうち右側に病変を持つ個人間において感度についての報告レベルが低いことである。Tang らによる研

究(2005)では、認知症のためのスクリーニング方法として、ラクナ梗塞と 18 ないし 19 点の適応されたカット

オフ値である患者間で、感度と特異度の水準を満たす可能性があることを示唆した。MMSE の使用と関連し

た感度の低さは、言語の項目と空間認知の項目の不足から得られていると推奨されている(Grace et al. 1995;

de Koning et al. 1998; Suhr & Grace, 1999; de Koning et al. 2000)。特定年齢層に特異的な標準の使用(Bleecker

et al. 1988)とテストへの時計描画課題の追加(Suhr & Grace, 1999)を含むMMSEの感度の低さの問題にいくつ

かの解決策が提案されている。時計描画テストは，患者に受け入れられ、容易に採点され，その他の認知障害

の短い測度に比べて，知識，年齢，その他の非認知的変数に影響されにくい(Lorentz et al. 2002)．そしてテス

トの容易さや近づきやすさにほとんど影響をもたらさないだろう。MMSE の点数は、年齢、教育歴、および

社会文化的な背景に影響されると証明されている(Tombaugh & McIntyre, 1992; Bleeker et al. 1988; Lorentz et

al. 2002)。これらの変数は、個人の誤判別につながるバイアスを導くかもしれない。改良された分類の感度と

特異度は、点数がこれらの承認された交格因子によって調整されている時に証明されている。Godefroy ら

(2011)は，脳卒中患者のグループにおいて，≤24 点のカットオフを使って調節された点に基づいた 70％の感度

と 97％の特異度を報告した。

すべての研究が年齢または知識と関連したバイアスが証明されたわけではなく(Agrell and Dehlin, 2002)、これ

らのバイアスのために調整が行われる必要性が MMSE の一般的な有用性を制限するかもしれないという懸念

が表わされていることは注目されるべきである(Lorentz et al. 2002)。Bour ら(2010)は、年齢や教育歴での調節

のない認知機能障害や脳血管性認知症のための良好な感度／特異度分類を報告した。さらに、MMSE の点数

はフォローアップでの認知機能障害と認知症について前兆となった(Bour et al. 2010)。

Summary – Mini Mental State Examination

解釈可能性： MMSEは幅広く使われ、一般に認知機能障害の存在を示しているカットオフ値を適応した。

記述された年齢と知識の効果は、層にされた基準の発展をもたらした(Ruchinskas & Curyto 2003)。

受容性：完成に約 10 分所要し、テストは簡潔である。それは、年齢や教育歴および社会的な背景のよう

な患者変数によって影響されるかもしれない。これは直接観察による課題の完成によって施行されるため、代

32

理の応答者による使用には適していない。

実用可能性：テストは、安価で携帯可能として作られ、専門的な機材や長い時間は必要としない。Lorentz

らによって実施された調査(2002)は、参加した医師が MMSE があまりにも長く、多くの実用的な情報を寄与

することができないと発見したことを証明した。

21.2.12 Modified Ashworth Scale (MAS)

Ashworth scale は多発性硬化症に苦しむ患者において，抗痙性薬の効率を評価するため開発された

(Ashworth,1964)．この尺度は，動きの完全な範囲を通じて肢を動かしたときの検査者が受けた抵抗または緊

張の量の主観的評点による割り当てが使用される．

原版の Ashworth scale は 0-4 の 5 段階から構成される．1987 年に Bohannon & Smith が 1つの段階（1+）

を追加し，より精度が高い尺度をつくる試みにおいて尺度の表現が修正された (Bohannon & Smith 1987;

Pandyan et al. 1999; Gregson et al. 2000).．併合された表現の変化は，どの程度の抵抗を受けたか，そしてど

の時点で動きの抵抗を感じたかである(Damiano et al. 2002)．

痙性の段階評点は，0-4 でつくられ，上記のガイドラインを使用し，その最大の関節可動域にわたって関節

を一秒間，受動的に動かした際の抵抗を受けたかを記述する(Pandyan et al. 1999; Pandyan et al. 2001)．

Advantages

modified Ashworth scale は臨床的需要を広く獲得している．痙性の評価として常に使われている．事実，最

近の臨床的標準である(van Wijck et al. 2001)．

33

Limitations

Ashworth scal は妥当な痙性の測度であるかどうかについて，いくつかの疑問が残っている．この尺度はど

ちらの型も，受動運動抵抗(RTPM)の記述的評価である．このように，包括的な測定よりもむしろ，痙性の一

側面を反映している(Pandyan et al. 1999; Pandyan et al. 2000)．Damiano et al. (2002)が Ashworth の点数は，

抵抗の幅よりも固さの測定に密接に関連していることをみつけた．Patrick and Ada (2006)は，Ashworth Scale

は痙性と拘縮間の区別がなく，実際，拘縮によって混乱されていると指摘している．Pandyan et al. (2003) は

受動運動時の抵抗の測定としての Ashworth scale は段階の 1，1+，2 において感度を欠き，変化の判別ができ

ないを指摘している．著者はこの 3 つの段階を 1 つに合併することを推奨している．

脳卒中後患者の研究において，もっとも一般的敵に報告されている評点は，0，1，1+である(Blackburn et al.

2002, Pandyan et al. 1999, Pandyan et al. 2001)．そして最も高いレベルの観察者間と観察者内一致度は，

0 点を伴う患者においてであると言及している．1999 年のレビューにおいて，Pandyan et al.は，MAS

における信頼性の減少は，1と 1+の評点付近の不一致が主であると言及している．Bohannon and Smith

(1987)により紹介されたより高い弁別の程度は，尺度の信頼性の減少に伴ってであろう(Damiano et al.

2002; Haas et al. 1996)．加えて，Naghdi et al. (2008)は，1と 1+の評点に関係する順序は，the Hslp/Mslp ratio

（神経生理学的測度）と比較したとき，失われると報告している．Ansari et al. (2006)は，MASの修正版を提

唱している．それは問題のある 1+を除いたものである．MMAS の評価は，少ないサンプルにおいて，MMAS

を手首および肘の屈筋，膝の伸筋に使用した場合，適度から優秀な観察者間信頼性 (κ=0.63 – 0.89) を指摘し

ている(Naghdi et al. 2007, Ansari et al. 2008, Ansari et al. 2009, Ghotbi et al. 2011, Kaya et al. 2011)．大規模

な対象者によるさらなる最近の MMAS の修正は，1+を削除する評点が結果として得点間の順序関係を改善す

るかどうかの決定を必要としている．

標準化されたテストの手続きや尺度使用のガイドラインは存在しない．尺度に伴う不明確な言葉が使用され，

本質的に主観的評点である．Ashworth scaleを使用した痙性の評価の標準的手続きの開発は，信頼性のレベル

を改善するのに貢献するであろう (Gregson et al. 1999; Gregson et al. 2000)．しかしながら，標準的ガイド

ラインは適切な解決ではないであろう．Blackburn et al. (2002)は，書面のガイドラインを使用したにっも関わ

らず，検査者間信頼性の低いレベルを報告している．この研究において，尺度使用について特に訓練されてい

なかった尺度を使った評価者は，信頼性の改善を達成するためにテスト実施者の訓練を行う必要があると指摘

している(Blackburn et al. 2002)．

MASの信頼性は評価されている筋に依存する．一般的に，MASは肘，手首，膝の屈筋の評価に最も適して

いる (Pandyan et al. 1999; Gregson et al. 2000)．足関節の底屈筋の評価は，しばしば低いレベルの信頼性が

示されている (Pandyan et al. 1999, Gregson et al. 2000, Haas et al. 1996)．信頼性における多様な報告があ

ることから，個々の筋の評価から与えられた患者の全体的痙性の評点を提供するために，得点を合併すること

が望ましい (Pandyan et al. 1999)．加えて，Ansari et al. (2006)は，ストレッチの繰り返しは多様性を生み出

し，信頼できる痙性の段階付けをもっと難しくする．彼ら自身の研究の目的ではあるが，著者はそれぞれの評

点に 3 つの受動的ストレッチを使用し，臨床家はこれを 1 つに使用すべきであると指摘している (Ansari et al.

2006)．

Summary – Modified Ashworth Scale

解釈可能性：原版の Ashworth と Modified Ashworth scale は緊張の最初の臨床的測度である，低い信頼性

34

にも関わらず，彼らは広く使用され，受け入れられている．不明確な言葉使いや標準手続がないことは，信頼

性と同様に他の研究との比較によると，尺度の有用性を限定付ける．

受容性：テストは比較的短いが，患側肢や関節の操作は患者にとって快適ではないであろう．

実現可能性：特別な装備が必要でないが，しかしながらテスト実施の訓練やテストの標準的手続きは MAS

の信頼性に欠かせない．

21.2.13 Montreal Cognitive Assessment (MoCA)

The Montreal Cognitive Assessment (MoCA)は、他の認知機能に関するスクリーニング方法では捉えること

ができなかった軽度の認知機能障害を見つけることを目的とした簡潔なスクリーニング方法である。MoCAの

施行は、記憶、空間認知能力、遂行機能、注意力、集中力、言語および見当識の 6 つの分野を評価するために

使用されたいくつかの単独課題の完成に関係する(see Table 21.20)。MoCAは総得点 30 点のうち、26 点以下

の点数が認知機能障害の存在を示している。

35

Advantages

MoCA は他の評価尺度で正常域の点数である患者の軽度の認知機能障害を見つけるために使用することが

できる(Nasreddine et al. 2005)。例えば、Pendlebury ら(2010)は MoCAと MMSEの両方を 413 人の脳卒中ま

たは TIA 後の患者に施行し、MMSE で正常域の点数(≥27)であった 58％の患者が MoCA で認知機能障害を示

す点数であったことを報告した。MoCA は簡潔で、無料で入手でき、30 を超える言語に訳されていて、施行

するためにわずかなトレーニングしか必要としない。

Limitations

MoCA の妥当性は完全に吟味されておらず、特に脳卒中後の集団への使用に関して情報が制限されている。

いくつかの懸念はスケール作成者によって推奨されたカットオフ値に関していわれている。特に、推奨された

36

カットオフ値を使用して、MoCAの特異度はオリジナルの妥当性研究での報告はより少ないことを見いだして

いる(Luis et al. 2008, Smith et al. 2007)．したがって、Luis ら(2008)は 23 点以下のカットオフ値が使用され

る時に MoCA の感度と特異度が最適化されることを示唆した。しかし、脳卒中患者の集団における最近の研

究で、Godefroy ら(2011)は，最適なカットオフ値は 24 点以下であり，70％の感度と 97％の特異度に関連し

ていたと報告している(年齢と知識によって調節された点数に基づく)。Dong(2010)らの脳卒中患者のグループ

においても、90.3％と 76.8％の感度と特異度と 21 点以下のより低い最適なカットオフ値を確認した。Dong

ら(2010)が MoCAのシンガポール版を使用していたことは注目されるべきである。Godefroy ら(2011)と Dong

ら(2010)の両方は、MMSEの最適なカットオフ値を 24 点以下と識別した。両方のケースでは、識別された最

適なカットオフ値と調査されたスコアを使用する時に、MMSE はやや低い感度であったが MoCA より大きな

特異度を示した。

Summary – Montreal Cognitive Assessment (MoCA)

解釈可能性：推奨されたカットオフ値は、軽度の認知機能障害を識別するために使用できる。

受容性： MoCA は簡潔で、所要時間はわずか 10 分である。評価は代理の応答者によって完了することは

できない。

実現可能性： MoCA は移動可能で、専門的な道具を全く必要とせず、www.mocatest.org にて無料で利用

可能である。

21.2.14 Motor-free Visual Perception Test (MVPT)

原版は子どもに使用するために開発された(Colarusso & Hammill 1972)．Motor-free Visual Perception test

(MVPT)は，5 つの領域における視覚的知覚能力を測定する；空間的関係 spatial relations，視覚的弁別 visual

discrimination，図と地面の弁別 figure–ground discrimination，視覚閉鎖と視覚記憶 visual closure and visual

memory である．テストは，別々のカードまたはプレートで提示された 2 つの次元構造を含む 36 項目か

ら構成されている．それぞれのプレートは，例と 4 つの選択肢の多選択応答のセット(A,B,C,D)から構成

される．例と対応した項目を選ぶ．対象者は，望んだ応答の選択肢に合致した文字を指さす，または文字を言

う(Su et al. 2000; Mercier et al. 2001)．標準的ガイドラインは，成人集団においてのテストを実施するまたは

解釈するために開発された．原版のテストのプレートとマニュアルは実施のために必要である(Bouska &

Kwatny 1982)．テストは実施におおよそ 10-15 分要する．

1 点はそれぞれの正しい応答に与えられる．得点の範囲は 0 から 36 点である．得点の要点に加えて，それ

ぞれの項目を完成する時間は知らされており，項目の平均時間は計算されている．テストは得点化におおよそ

5 分を要する(Brown et al. 2003)．標準データ(U.S.)は 18-80 歳の成人で得られる(Bouska & Kwatney 1982)．

そして高齢者に特別な標準データ（50 歳以上）は提供されている (Mercier et al. 2001)．

http://www.mocatest.org/

37

Advantages

Motor-free Visual Perception Test は広く使われており，視覚的知覚の標準化テストである(Mazer et al.

1998)．簡単かつ対象者によってよく容認されている(Su et al. 2000)．原版は小児集団おいて使用するため開

発されたが，年齢に特異的な標準は，蓮令による調整に適応するため，成人において入手することができる

(Mazer et al. 1998)．水平と垂直の提示は使用のため得ることができる．垂直版は，信頼性の高いレベルを維

持している(Mercier et al. 1995)一方で，テストパフォーマンスにおける変数として，半側視覚無視を取り除い

ている(Mercier et al. 1995)．しかしながらこの変数の除去は，運転能力のテストにおける場合のように，常に

望ましい訳ではない(Mazer et al. 1988)．

Limitations

MVPT は全体得点を供給する，したがって範囲特異的得点を提供する尺度よりも，特異的な視覚機能障害に

関するより少ない情報を提供する(Su et al. 2000)．

Summary – Motor-free Visual Perception Test

解釈可能性：MVPT は多くの集団において広まっている．年齢特異的標準は成人と高齢者において得られる．

受容性：テストは短く(15 minutes)，簡単であり，対象者によってよく受容されている(Su et al. 2000)．テ

ストは課題の達成の直接的観察を通じて実施され，代理使用に適していない．

実現可能性：実施は成人集団における実施ための標準的説明，テストプレート，マニュアルを必要とする．

21.2.15 National Institutes of Health Stroke Scale (NIHSS)

NIHSSは脳梗塞に関連した兆候の重症度を測定し，脳卒中後の神経学的欠損の量的測度として使用される．

これは広く使われており，急性期の入院の直後に迅速に実施できる(Anamaet 2002, Schlegel et al. 2004)．

NIHSSは，Toronto Stroke Scake や Oxbury Initial Severity Scale，Cincinnati Stroke Scale，Edinburgh-2 Coma

Scale にみられる項目から選び出された合成した尺度である(Brott et al. 1989)．追加項目は，NINDS脳卒中治

療研究からの調査者である臨床専門家に基づいて選択されている(Brott et al. 1989)．すべてにおいて，NIHSS

は，LOC における機能障害の重症度評価に使用された 15 項目から構成されており，質問に応答する，そして

簡単な命令に答える，乳頭の反応，注視の偏差，半盲，顔面麻痺，弱い側の肢の重力への抵抗，足関節底屈，

肢の失調，感覚障害，視覚無視，構音障害と失語重症度の能力である(Brott et al. 1989, Heinemann et al. 1997,

Anamaet 2002, Schlegel 2004)．項目は，3 または 4 点の順序尺度である，0 は機能障害がないことを示す(Brott

et al. 1989, Heinemann et al. 1997)．全得点は 0-42 点の範囲である．より高い得点はより重傷を反映する．脳

卒中重症度は，NIHSS得点に基づき，以下のように層化されている：>25 = very sever, 15 – 24 = severe, 5 – 14

38

= mild to moderately severe and 1 – 5 = mild impairment (Brott et al. 1989, Anamaet 2002)．

Brott et al. (1989)は，NIHSSを使用した 48 調査にわたる 6.6 分という平均実施時間を報告している(Brott et

al. 1989)．

Advantages

NIHSS の実施は，早く簡単である．CNS のように NIHSS の使用は神経学者に限定されていない．NIHSS

の信頼できる使用は，神経学者でない医師と経験のある看護スタッフが使用したとき，報告されている(Brott et

al. 1989, Goldstein et al. 1997, Dewey et al. 1999, Josephson et al. 2006)．短縮版(Lydon et al. 2001)や英語の

適用(Dancer et al. 2009)を含む NIHSSの修正版は，優秀な信頼性と原版との強い同時妥当性を示している．

NIHSS の使用における認証は，多くの臨床研究において参加に必要とされており，信頼できる評価の実践

を維持することが推奨されている．訓練と認証 DVD は 2006 年に作成され，the American Academy of

Neurology や，the American Heart Association，the National Stroke Association を含むいくつかの専門的機関

において入手できる (Lyden et al. 2009)．最近の研究は，北アメリカの使用者によると，DVD は個人やグルー

プ，ウェブ使用者への訓練と認証のための妥当かつ信頼できるツールであると報告している (Lyden et al.

2009)．

Limitations

良好な信頼性は訓練された検査者の使用と評点尺度の標準的適用に依存している(Schmulling et al. 1998)．

ビデオテープを使用した訓練は中等度から優秀な信頼性の達成において効果的であると示している(Lyden et

al. 2009)．しかしながら，一旦訓練，認証すると，反復した使用や再認証は信頼性を改善する結果に必要

ないだろう(Josephson et al. 2006)．”limb ataxia”の項目の低い一致は，繰り返し報告されている(Goldstein et

al. 1989; Schmulling et al. 1998; Dewey et al. 1999, Millis et al. 2007)．Lyden et al. (1999)は，因子分析を通じ

て，この項目はどんな確認された尺度の要因とも相関しておらず，削除が検討される(Dewey et al. 1999, Millis

et al. 2007)．彼らの因子分析を基礎に，Lyden et al. (2001)は，確立された因子における低い項目負荷を示す

他のいくつかとともに，この項目を削除した尺度の修正を提案している．

いくつかの尺度項目は重度の脳卒中を経験した患者においてテスト可能でない(Muir et al. 1996)． Brott et

al.の基となるテスト能力の要点やそれぞれの項目の機能障害の発生率に基づき，Heinemann et al. (1997)

は，制限された有用性がいくつか見られることを指摘した．いくつかは最初のテストの正常として評価された

患者の高い割合を持った．他は，テストできないものとして並べられた患者の高い比率を持つ(e.g. limb ataxia)．

NIHSS は左半球脳卒中の評価に適している；無視の機能が 2点である一方，7／42点の可能な点数は

言語機能に関係がある(Meyer et al. 2002; Woo et al. 1999)．Lyden et al. (2001)によって提案された修正版に

おいて，構音障害の項目は削除された．Meyer et al. (2002)は，これは評価の側性バイアスを減らすことに寄

与すると指摘した．しかし最近の分析は，左と右の半球障害を伴う患者墓標化に使用したとき，14／15 尺度

項目の機能は異なると報告している(Millis et al. 2007)．この研究では，ラッシュ分析は，傷害場所の部位（右

対左）をまたがって，項目順序階層と同じく，変化する受験者および項目分離信頼性統計値を明らかにしてい

る．著者は，NIHSS の実施から集められた情報の解釈は，もし全得点が傷害側に一致したラッシュ変換値に

よって供給されるならば，改良されるだろうと指摘している(Millis et al. 2007)．後ろ向き評価のため使用され

たとき，点数化は難しくなる．低い信頼性と項目完成度は，CNS よりも報告されている(Anamaet 2002,

39

Bushnell et al. 2001)．この目的で使用されるとき，神経学者からの評価報告を基礎に評点化される(Bushnell et

al. 2001)．

Summary – NIHSS

NIHSS は広く使用される評点ツールであり，脳卒中後の神経学的欠損をの量的測度を供給する．NIHSS を

使用すると，脳卒中重症度は，very severe，severe，mild to moderately severe，mild に分類される．

受容性：この評価はおおよそ 6 分間，完成にかかり，患者に負担がないことを示している．

実現可能性：評価は神経学者によって完成される．訓練や標準手続は尺度の信頼性を維持するため推薦さ

れている．この尺度は使用のため自由に入手できる．後ろ向き評価のため NIHSSの使用は，CNSよりも信頼

できない．そして神経学者から実施・報告された評価に基づくべきである．

23.2.16 Orpington Prognostic Scale (OPS)

Orpington Prognostic Scale (OPS; Kalra and Crome 1993)は簡単で，客観的なベッドサイド評価である．

OPS は臨床的に生成された脳卒中重症度のベースライン評価を提供する．その重症度は高齢脳卒中患者の帰

結の予測因子として使用できる(Kalra et al. 1994)．この評価は運動障害 (arm)，固有受容感覚，バランスと

認知の測定を含む．より早期の予測ツールである Edinburgh Prognostic Scoreを基礎にし(Prescott et al.

1982)，認知障害の評価を加えている(Kalra & Crome 1993)．OPSは表 21.24 に紹介している．

40

OPS得点は 1.6から 6.8であり，より高い得点はより大きな障害を示す(Kalra & Crome 1993; Kalra et al. 1994;

Lai et al. 1998)．障害は以下のように分類されている．mild to moderate (scores <3.2), moderate to

moderately severe (scores 3.2 – 5.2) and severe or major (scores >5.2) (Kalra and Crome 1993; Lai et al.

1998)．最初の研究では，Kalra and Crome (1993)は，3.2 点以下の患者は入院 3 週間以内に自宅退院し，5.2

を超える患者は重症な障害を持ち，長期のケアを必要とすると報告している．

OPSの実施は 5分より少ない時間を要すると推知されている(Lai et al. 1998; Studenski et al. 2001).．そ

れは使用するのに簡単で，実施に多くの訓練を要しない(Kalra et al. 1994)．

Advantages

OPS 得点は，リハビリテーションから利益を得るであろう患者の特定によって，脳卒中ユニット財団の適

切な配分において援助しているであろう(Kalra and Crome 1993)．OPSは，地域での移動や個人ケアの自立，

投薬の実施，食事の用意，脳卒中後 6 カ月後の上肢の回復のような，機能的・患者中心的帰結の多くを予測

するために使用される(Lai et al. 1998, Meldrum et al. 2004)．OPS得点の予測能力は，特別な脳卒中リハビリ

テーションからの退院に拡大する．彼らは，脳卒中患者の長期要求の予測を基礎として，地域の資源に基づき，

もっと効果的なリハビリテーションを目標にすることを助けるであろう．

41

OPS得点の使用は，中等度の障害を伴う患者の中間層の特定を可能にする(Kalra et al. 1994, Pittock et al.

2008)．これらの患者の予後診断は，軽度や重度障害の患者においてよりも，リハビリテーションの質や入手

可能性，集中度合を含む，外部の因子によって決定されるであろう(Kalra et al. 1994)．

Limitations

OPS 得点は，リハビリテーションと適切な目的の治療源に関して使用することを意図され，急性期の予後

予測に使用されるべきではなかった(Kalra et al. 1994)．尺度は，意識レベルや神経学的状態が安定するまで実

施されるべきではなかった．Kalra et al. (1994)は，脳卒中発症後 2 週間評価は，予測能力としては最適である

と報告している．しかしながら，いくつかの研究は，ある研究が脳卒中後 3 日よりも早い患者の評価を，神経

学的状態が安定していないことから，除外した(Studenski et al. 2001)にも関わらず，発症 14 日以内の OPS得

点の有意な予測能力を紹介している(Lai et al. 1998; Studenski et al. 2001, Shoemaker et al. 2006)．もっと最

近，Pittock et al. (2008)は，脳卒中後 48 時間以内に得られた OPS得点は，病院滞在期間と 6 か月後の居住地

の場所を強く予測したと報告している，脳卒中後 48 時間と 2 週間の OPS得点は，6 カ月と 2 年における機能

的能力や介助量を予測する．2 週間の OPS 得点は 6 カ月の帰結との強い相関があるにもかかわらず，差異は

最小限である．著者は，この関連性における改善から起こる利益は，患者の早期における層化の利益よりもよ

り重要であると指摘している．Kalra et al. (1994) は，介助と退院の方向性の予測値は，患者の中間層の患

者（OPS3-5点，脳卒中後 2週間）において，軽度または重度の障害のある患者に関してと同じように，

強くなくと報告している．著者は，これはより強い脳卒中障害の外部因子の影響（集中度，リハビリの

質，介助者の存在，家族の支持，個性，患者の意気込み，地域支援システムの入手可能性）によるもの

と指摘している(Kalra et al. 1994)．しかしながら，Wright et al. (2004)は，NIHSSだけでなく OPSも脳卒中

重症患者の退院決着の予測においてとても良好でなかったと報告している．この理由は Kalra et al. (1994)らが

主張したものと同じである．

OPS の予測妥当性がいくつかの研究で報告されている一方，その他の測定特性に関する情報はほとんど得

られない．

Summary – Orpington Prognostic Scale

解釈可能性：脳卒中に関連した障害の重症度の認められたカテゴリー化は，退院先とさまざまな機能帰結に

関して有意な予測値を持っている．

受容性：実施に 5 分かからない簡単で，ベッドサイドの客観的評価である．代理によるテストの実施はでき

ない．

実現可能性：OPS は大きな訓練や特別な装備は必要ない．それはどんな患者に対しても簡単で，短い携帯

性のある臨床検査である．

42

21.3 Activity/Disability Outcome Measures

21.3.1 Action Research Arm Test (ARAT)

The Action Research Arm Test (ARAT)は上肢機能と巧緻性のパフォーマンスを基礎とした評価で、観察者で

評価（observer-rated）される(Hsueh et al. 2002)。テストは 20 人の脳卒中片麻痺患者，脳卒中による二次的

な皮質損傷および脳外傷のサンプルが使用され，Lyle (1981)によって開発された．そして Upper Extremity

Function test (UEFT)から派生している(Carroll 1965)。UFET は施行に約 1 時間を必要とし、余分な項目を含

み、長く複雑な評価である(Lyle 1981)。UFET が 6 つのカテゴリーに分けられた 33 項目を持っていることに

対して、ARTAは 4 つのサブセットに分けられたわずか 19 項目から成っている。サブセットは、掴む(6 項目)、

握る(4 項目)、はさむ(6 項目)、大まかな動き(3 項目)である。全ての項目は、0(全く動かない)～3(課題の正常

な遂行)の範囲である 4 つの順序尺度で評価される。

各サブセットの中で、最初の項目は最も難しく、2 番目が最も簡単である。項目の残りは，難度が上がるに

したがって順序付けされる。個々の課題または項目の正常完了は、その後のより簡単な課題もうまく完了でき

ることも暗示している。各サブセットに関して、最も難しい課題は最初に試行されて、もし成功(3 点)してい

たら、満点が与えられる。項目が完了していない(3 点より下)なら、次(最も簡単)の項目が試行される。最も簡

単な項目で 0 点であれば、次の項目は試行されない。もし 0 より大きい点であれば、サブセットの中の全ての

項目は評価される。スコアの合計は 0 から 57 の間で総得点を出す。遂行時間は記録されない。19 項目全てが

完了する場合、それは少なくとも 1 つ研究で 8 分以内に完了したが、テストは完了に 20 分かかっている

(deWeerdt & Harrison 1985)。テストテーブル(Lyle 1981)を除いて、テストに必要な項目は簡単に入手でき、

椅子、木質ブロック、クリケットボール、砥石、2 つの異なるサイズの合金管、ワッシャーおよびボルト、2

つのグラス、おはじき、6mmのボールベアリングが含まれる。

Advantages

ARAT は比較的短く簡単な上肢機能の評価手段である。テストは近位のコントロールと巧緻性を含めて上肢

機能のほとんどの面をカバーする。どの正式な訓練も、テストを施行に必要とされていない。ARAT のスコア

が断層的なグットマンスケールに基づくので、テストは完全に速くより高く患者の機能を果たしている。評価

は優秀なテスト再テストと評定者間信頼性を示している。管理のための標準化されたガイドラインは入手可能

である(Platz et al. 2005, Yozbatiran et al. 2008)。

Limitations

より多くの障害された個人で、検査時間は 20 分以上延長することができる。テストの管理は素材のかなり

長いリストを必要としている。重要な床と天井効果が確認されている。重度の障害をもつ患者または正常に近

い機能では、スケールはパフォーマンスの変化を評価することができないかもしれない(Van der Lee et al.

2002)。尺度構成の解析(Mokken analysis)は、ARAT の 19 項目が 1 つの構成物を評価しているため、ARAT が

一次元の評価手段であることを証明した(Nijland et al. 2010, Koh et al. 2006, Van der Lee et al. 2002)。これら

の研究結果を前提とすると、項目のスコアについては 4 つのサブスケールの項目反応を使用するよりも、上肢

機能を示す 1 つの全体スコアを規定するために合計されるべきである(Koh et al. 2006)。加えて、評価手段が

ラッシュモデルの期待値に適合していないとき，Koh ら(2006)は正規の ARAT スコアが間隔データの変化に適

当ではなく、順序データのみとして扱われるべきであると示唆した。

43

Summary – Action Research Arm Test

解釈可能性：グットマンスケールとして、パフォーマンスのレベルは容易に理解し比較される。

受容性：代理使用は適切でない。患者にとって最小負担。

実現可能性：項目の広範囲なコレクションと専門のテーブルが必要とされる。テストは正規の設定で実行

されなければいけない。テストに費用は全くないが、管理のための唯一のガイドラインはオリジナルの出版に

おいて出されており制限された詳細を含んでいる。

21.3.2 Barthel Index (BI)

BI は 1955 年から使用されている．BI は元来，神経筋・筋骨格系の疾患患者を介護するため，彼らの活動能

力の量的把握による独立の指標として意図されている．BI は 10 項目の一般的な ADL 能力から構成されてお

り，その評価は直接観察からなる．スコアは恣意的な重み付けのシステムによって行われている．BI は自己報

告により 2－5 分，直接観察により 20 分で評価可能である（Finch et al. 2002）．評価に特別な訓練は不要で，

技術のない者による評価も同じ信頼性が報告されている（Collin & Wade）．

Advantages

BI の明確な優位性は簡易性である．その信頼性に関する情報は，機能的評価において集められ，縦断的評価

において便利かつ費用効率を強調している．その確立された広い範囲の使用は高い親密性と解釈可能性を提供

している．また，様々な環境において，その信頼性・妥当性を有意に減少させることなく使用できる．

最小の臨床において重要な差（MCID）は，脳卒中集団において使用されたとき，BI において確認されてい

る(Hsieh et al. 2007)．Hsieh et al. (2007)は，測定の標準誤差（SEM）を基礎とした全般的方法を使用した場

合，MCID は 1.45 であり，平均 BI 変化得点の 1.85 は，最小重要変化値（少し良い，いくらか良い）と一致

していると報告している．MCID として 1.85 の使用は，患者の主観駅変化の受け入れを含み，道具の測定誤

差を超える(Hsieh et al. 2007)． Hsieh et al. (2007)の研究における対象者は，日をまたいだ低下を報告してお

らず，MCID の推定は改善のみに当てはめるべきであることに注意すべきである．

Limitations

BI の一般的な批判は相対的感度の低さと，包括性の欠如であり，特に床・天井効果が報告されていることに

反映している．Duncan ら（1997）は，軽度の脳卒中や TIA患者から 100 点の BI が得られ，BI は軽い脳卒中

患者において変化の感度（sensitive to change）がないことを指摘している．しかし，Wade や Collin（1988）

は介助が必要な患者においては使用できるとし，研究よりも実際の臨床においてより意義があるであろうと指

摘している．

44

加えて，BI には応答性の欠如，明確な床・天井効果，BI で使用されている分枝のタイプの点に問題がある

とされている．これはしばしば 2 択の指標（dichotomous index）の使用においてみられ，その精密度に関す

る更なる批判をよぶ．2 択指標は帰結情報を減少し，能力障害における明確なシフトを発見するスコアの能力

を制限する（Duncan et al. 2000）．

Granger（1977）は 60／61 点が，自立／非自立の基準として推奨しているが，これは標準的なカットオフ

値として適応されておらず，BI のスコアによる分類の点でも一致していないように思われる．Quinn et al.

(2011)は，一般的なカットオフ値を“良い帰結”と定義し，＞95 点としている．加えて，尺度の修正の増殖や代

替評点の方法論は，明らかな混乱を招いている．その混乱は自立の定義や“良い帰結”に及んでいる．最近の使

用では項目の削除や追加，項目定義の変更，再順序化された項目，評点の多様性による修正を含む Barthel と

して述べられた 4 つもの尺度がある(Quinn et al. 2011)．修正された Barthel は，Collin and Wade (1988)によ

って開発され，これらは最も一般的であろう．この版は，原尺度と同等である内容を維持している．しかし，

提供された修正は 0-20 の総合得点になっている．20 点版のケースでは，19 点以上は自立を意味するとされて

いる(Kwakkel et al. 2011; Cochrane Stroke Unit Trialists 2007)．

Kwon ら（2004）は最近，Modified Rankin Scale を使用して，BI スコアを能力障害のレベルに翻訳し，BI

のスコアを４つの MRS レベル（MRS(0,1,2)，MRS3，MRS4，MRS5）に分類することを報告した．

Uyttenboogaart et al. (2005)は，BI のカットオフ値を調査し，MRSによって代表される能力障害の分類と一致

した．著者は，カットオフ BI 値は 95 点と報告している．これは MRSの 1 に該当し，感度は 85.6％，特異度

は 91.7％であり，MRS2 や 3 も同じく，カットオフ BI 値は 90（感度 90.7％，特異度 88.1%），75（感度 95.7％，

特異度 88.5%）である．著者は，MRS に一致するこれらの値は，有利・不利の二分帰結を基礎として使用さ

れることを推奨する．つまり，ここには BI の分類に関する目に見えた意見の一致がまだ見られず，機能的依

存や能力低下レベルへの変換への二分法の見地において，メタアナリシス使用にしたり，研究間の帰結の比較

に使用するのに適してはないようである(Roberts & Counsell 1998; Sulter et al. 1999; Duncan et al. 2000)．

Summary – Barthel Index (BI)

解釈可能性： BI の親密性の程度は，その解釈可能性に貢献している．しかしながら，自立／非自立の分岐

点に関する一致の欠如と，群／研究間をまたいだ比較するためのいくつかの困難なスコアリングシステムが存

在する．比較可能な標準は存在しない．

受容性： BI は自己報告でも直接観察に加えた代理応答の使用でも評価できる．自己報告とインタビュー形

式の両方は，原版よりも完成に時間がかからず，患者の負担を減らすであろう．

実現可能性： BI は簡易で訓練を要しない．これはいろいろな方法が開発されており，いろいろな環境で使

用でき，縦断的評価に適している．

45

21.3.3 Berg Balance Scale (BBS)

Berg Balance Scale は，高齢成人におけるバランスの量的評価である(Berg et al. 1989)．この尺度は患者の

臨床状態，または経時的治療介入の効果を監視するのに使用することを意図している(Berg et al. 1995)．この

尺度は，対象者に難易度レベルの変化する姿勢の維持や運動課題の達成を要求する 14 項目からなる．すべて

の項目は一般的な日常生活動作である．尺度の実施は指導者とストップウォッチ，椅子，段または台，360°

回転する部屋と 10－15 分であり，課題達成の直接観察を通じて評価する(Berg et al. 1995; Juneja et al. 1998)．

項目は，テストの要求する特定の時間や距離に合致する能力を基礎に 0－4 の得点を受ける．0 の得点は項目

を実施する能力がないことを示し，4 点は課題を完全に実施する能力を示す．45 点以下の得点はバランス障害

を示すと一般的に受け止められている(Berg et al. 1992a; Zwick et al. 2000)．

Advantages

Berg Balance Scale は，バランスのいくつかの異なる視点を測定する．それは静的，動的であり，そして比

較的道具と空間を必要としないでできる (Whitney et al. 1998; Nakamura, 1998; Zwick et al. 2000)．BBSの実

施に特別な訓練は必要ない(Nakamura et al. 1998)．高いレベルの信頼性が Berg et al. (1995)により報告されて

いる．これは尺度の管理において特別な訓練を行わない対象者によって実施された時のである．絶対的信頼性

の評価を基礎に，95％信頼区間を基礎とした最小検知変化は 6.68 (Liaw et al. 2008)から 6.9(Stevenson et al.

2001)と報告されている．

Wee et al. (1999)は，BBSは急性期の脳卒中リハビリテーションにおいて特によく適しており，大多数の患

者は入院からリハビリテーションにおいて最高得点を得ることはないと指摘している．

BBSは他のバランス尺度よりも幾分か管理に時間を要する(Whitney et al. 1998, Chou et al. 2006)．そして

いくつかの項目に重複があり，特別高い内的整合性が得られている．Chou et al. (2006)は 3 段階の応答形式に

修正した 7 項目版を開発している(Wang et al. 2004)．新しい短縮版によって得られた BBS原版との一致は有

意である(ICC = 0.99; Chou et al. 2006)．加えて，新版は妥当性と明確な床効果（＞40％）の除去，応答性を

示している．Chou et al. (2006)の指摘によると，床効果は，ある部分，尺度の単純な項目（支えなしで座る）

の除去によるものであると指摘している．

Limitations

BBS は行動的な，高齢者の評価には適していないであろう．この群にとって十分挑戦的な項目が含まれて

いないからである(Berg et al. 1989; Nakamura et al. 1998; Zwick et al. 2000)．BBSは，脳卒中後の早い段階に

おける重症患者への減少した感度に悩まされる．これは座位姿勢でのバランスに関する項目が一つしかないか

らである(Mao et al. 2002)．

BBS得点の，移動状態や移動補助具の使用との関係といったものの一般的解釈は存在しない(Wee et al.

2003)．それぞれの項目に関係する評点尺度は，数字的に定義されているが，それぞれの数字と得点にとって

異なる操作上の定義を持っている；たとえば，2 点は異なって定義されており，項目ごとの難易度のレベルが

異なっている(Kornetti et al. 2004)．また項目の完成の成功に関連した一般的得点が存在しない(Kornetti et al.

2004)．すべての得点の使用は，異なる意味を伴う評点どうしを加えることは一般的参考点をもたず，これに

伴って解釈は異なり，とても少ない機能的情報が対象患者に対して提供される(Kornetti et al. 2004)．最近の

BBS のラッシュ分析は，いくつかの項目評点は使用されず，有効でない．その他は対象者の異なる能力

46

を弁別できないことを明らかにした(Kornetti et al. 2004)．評点尺度の崩壊は，まれに承認された段階を除去

し，すべての項目に対する一般的な通過／失敗点を作りあげることは，項目難度の順序を変化させる結果とな

り，天井効果の傾向を減少させた．そして45/56のカットオフ値の機能的定義を改善した(Kornetti et al. 2004)．

より最初の研究は年齢と BBSとの間に関係を見つけられなかったが，Steffen et al. (2002)は男性女性ともに

年齢の増加につれてパフォーマンスの低下に向かう傾向を報告している．著者は，地域在住の自立した高齢集

団における小さなサンプル数でのデータを基礎に，年齢と性に関連したパフォーマンスデータを提供した．そ

して，参照する目的の年齢・性別で層化された標準を作るため，大きなサンプルから集められたさらなるデー

タを推奨している．

Summary – Berg Balance Scale

解釈可能性：尺度の信頼性・妥当性が優秀である一方，BBS 得点の解釈のための一般的標準がない．バラ

ンス機能障害の存在を示すカットオフ値は受け容れられている．

受容性：この直接観察テストは，座位バランスの項目が 1 つしかないため，重度に障害された患者には適さ

ない．活動的な対象者はあまりに簡単すぎる．この尺度は代理による使用に適さない．

実現可能性：BBSは特別な訓練を要せず，比較的装備や空間を要しない．

21.3.4 Box and Block Test (BBT)

Box and Block Test (BBT)は元々，成人の脳性麻痺の評価で使用するために A. Jean Ayres と Patricia Holser

Buehlerによって開発された手全体の巧緻性のパフォーマンスに基づいた評価である(Mathiowetz et al. 1985)．

1957 年に，そのテストは改定され，その最新の書式で著作権が取得された(Cromwell 1976 cited in Mathiowetz

et al. 1985)．

テストの被験者は机に向かって座り，間仕切りによって同じ大きさで四角く，２つに区切られた長方形のボ

ックスに向かい合う． 2.5cmの着色された木製の 150 個の立方体もしくはブロックが１つの区画かもう一方

の区画に置かれている．被験者は 60 秒間でできるだけたくさんのブロックを一方の区間からもう一方へ，１

つずつ移動するように指示される．標準化されているテスト材料のサイズや，テストの実施手順や採点法は，

Mathiowetz et al. (1985)によって規定されている．

テストを実施する際，検査者はテスト中のパフォーマンスを観察するために被験者の反対側に腰掛ける．

BBT は１分間の施行で，一方の区画からもう一方の区画に間仕切りを超えて運んだブロックの数を集計し，得

点とする．得点を得るためには患者の手は順序良く間仕切りを渡らなくてはならない．そして，2 つ目の区画

から床の上へ落ちたり，弾んだりしてブロックはまだ点数の見返りがある．同時に運ばれた多数のブロックは，

47

1 点と数える．テストでの高得点は手全体の巧緻性がより優れていることを意味する．基準はいくつかの集団

で実証されている．それは健常高齢者 (Desrosiers et al. 1994)．健常成人(Mathiowetz et al. 1985)，神経筋疾

患の成人(Cromwell, 1976)そして，健常な 7, 8 ,9 歳の小児 (Smith, 1961 cited in Mathiowetz et al. 1985) を

含む集団である．

施行はおおよそ５分かかる．BBT は施行が簡単であり，高い専門性のある訓練を必要としない．テストは購

入すればすぐにでき，様々なオンライン情報源から調達できる．

Advantages

BBT は，早く簡単に実施できるおおまかな操作巧緻性の一般的な測度である．実施課題の簡単さと座位での

実施姿勢は，テストをより広い範囲の対象者に適合するようにするであろう．標準的な実施と評点方法は入手

できる(Mathiowetz et al. 1985)．その上，実証された，年齢と性に層化された標準値は，様々な集団において

入手できることは，テスト結果の解釈可能性を増加する．BBT 得点は，Medical Outcomes Study 36-Item Short

form Questionnaire (SF-36)の身体的健康の予測であることが発見されている(McEwan, 1995 – reported in

Higgins et al. 2006)．McEwan は，BBT のブロックが 7 つ増加することは，SF-36 の Physical Component

Summary Score における 2 単位の変化に関連し，この変化の量は臨床的妥当であると考えられると紹介して

いる．BBT パフォーマンスにおける臨床的有意な変化の形は，4 から 5 つのブロック(Carey et al. 2002)，8

つのブロック(Kimberley et al. 2004)の改善にて，脳卒中患者において報告されている．しかしながら，前述の

研究は得点における最小検知変化を評価しておらず，異なるデザインが使用されている (Svenson &

Hagger-Ross, 2005)．

Limitations

BBT は実施が騒がしく，忙しいクリニックにおける他の患者の注意をそらしうる(Mathiowetz et al. 1985)．

Summary – Box and Block Test

解釈可能性：年齢で層化された標準は，健康な高齢対象者を含んださまざまな集団において実証されている．

受容性：テストは，説明とテスト前の試行を含んでおおよそ 5 分と短く，患者の負担がほとんどないことを

示している．

実現可能性：BBT は簡単に実施でき，高い特別な訓練を必要としない．少ない装備が必要である．テストを

購入するのに関連した費用がかかる．

48

21.3.5 Chedoke-McMaster Stroke Assessment Scale (CMSA)

Chedoke-McMaster Stroke Assessment Scale (CMSA)は，身体機能障害リストと能力低下リストからなる 2

つの部分に分かれた評価である．機能障害リストは運動回復ステージ患者を分類すること意図している．一方，

能力障害リストは身体機能の変化を評価することを意図している(Gowland et al. 1993)．尺度の機能障害リス

トは 6 つの次元を持っている；肩の痛み，姿勢コントロール，腕の動き，手の動き，下肢の動き，足部の動き

である．それぞれの次元は（ユニークな評点の肩の痛みを除く），ブルンストロームの 7 段階運動回復ステー

ジに一致した 7 点尺度である（1=弛緩性麻痺，7=正常）．身体機能障害の最大総合点は 42 点である．能力低

下リストは粗大運動指標（10 項目），移動指標（5 項目）である．2 分間歩行を除いて，項目は FIMに使用す

る 7 点尺度に従って評点する．1 は完全介助，7 は完全自立を示す．歩行テスト項目は 0または 2 のいずれか

の点を受ける．総じて，能力障害リストは最大 100 点となる：70 点は粗大運動指標，30点は歩行指標．評価

は，直接観察によって完成する．

管理，評点，解釈の説明は CMSAの実施に必要である(Gowland et al. 1995)．マニュアルに加えて，テスト

の管理は，マット，ベッド，椅子が必要である．評価の完成に 1 時間を要する(Cole et al. 1994; Poole & Whitney

2001)．

Advantages

CMSA は FIM と同時に使用されるためデザインされ，能力障害リストでは同じ評点方法を使用している．

これは，小さな身体変化に対するための感度を改善する一方で，一貫した自立の概念を使用することにより，

改善された解釈可能性を提供している(Gowland et al. 1993)．運動機能評価のレビューにおいて，Poole and

Whitney (2001)は，比較によって CMSAは総合的であり，信頼性と妥当性のよい研究が行われてきたと結論付

けられている．

Limitations

1 つは CMSA 実施のためのマニュアルン従わなければならない．比較的複雑で実施の長いことは，CMSA

を，臨床実践の場面でより有用でないものにしている(Poole & Whitney 2001)．

上司の課題は機能的でないテストを含む．移乗や歩行に関するいくつかの項目を除くと，CMSAは初期の運

動機能障害の測定である．運動機能障害の測定は，BI や FIM のような機能的能力低下の測定とともに行うこ

とが推奨されている(Poole & Whitney, 2001)．Valach et al. (2003)による分析は，この推薦を支持しているよ

うにみえる．CMSA能力障害リストのわずか 3 つの項目しか BI の点数の予測に使用できず，説明できない分

散の割合が大きいことが回帰分析から明らかになっている．加えて飲食や排尿排便障害の BI の因子は，CMSA

によって評価されない付加した情報を示している (Valach et al. 2003)．

Summary – Chedoke-McMaster Stroke Assessment Scale

解釈可能性：ブルンストロームステージや FIMの評点の使用は解釈可能性を増加させ，脳卒中群をまたいだ

比較を促進する．しかし評価は運動機能障害の測定として解釈するのが最良であろう(Poole & Whitney. 2001;

Valach et al. 2003)．

受容性：装備をあまり必要としないが，実施に相当な時間と複雑さを伴う．

49

21.3.6 Chedoke Arm and Hand Activity Inventory (CAHAI)

Chedoke Arm and Hand Activity Inventory (CAHAI)は脳卒中患者の機能的上肢回復を評価する比較的新しい

測度である.この測度は麻痺肢の回復を評価する妥当で臨床的に適した手段を提供するため Barreca et al.

(2004)によって開発された．5 つの主たるテストの題目は：1)上肢機能障害の異なる分類間の弁別；2)期待さ

れる麻痺上肢の機能的回復の予測；3)上肢機能における量的変化の程度；4)脳卒中に対するその変化の重要

性；5)治療のガイドの供給である．さらに CAHAI は，Chedoke-McMaster Stroke Assessment (CMSA)の補足

的な測度として開発され，腕と手の傷害を 7段階に分類したよく実証された脳卒中測度である．

検査項目は 13 の現実生活での機能的課題で以下を範囲栄するように意図されている：1)脳卒中患者が受容

と考える領域； 2) 両手での活動；3) 性に特異的でない項目；4) 標準的動きの全範囲；5)さまざまな脳卒中

後の運動機能回復段階．13 項目は 7 点の量的尺度を使用して点数化される．総合得点は各項目得点の合計に

よって得られので，13-91 点となる．高い得点はより良い能力を示す．

テストは実施に 25 分を要し，簡単に得られ，携帯性に優れ，安価な物資である．実施には訓練が推奨され

ている(Barreca et al. 2005)．

Advantages

CAHAI の大きな利点は生態学的な妥当性である．脳卒中患者に密接して機能し，特にテスト項目／技術は

脳卒中集団に意義深く，妥当なものが選ばれている．生態学的に妥当であることは，テストが，治療過程で特

別な注意を払われるべき課題を強調することを可能にするため，またリハビリテーション過程に情報を提供す

るため重要である．

CAHAI は，World Health Organization (WHO)のガイドラインと CMSAとの相性が良くなるようデザインさ

れた，よく構成されたテストである．クライエントに特化したモデルのための WHO の能力障害の範囲は，

能力障害に関連した特別な範疇について述べている．これらは個人のケア，着替え，食事，移動，伝達，娯楽

を含む(Barreca et al. 2004)．CAHAI の項目はこれらの範疇に適合するよう合目的に作られている．CMSAの

観点では，CAHAI の適合性は，研究者や臨床家は CAHAI を，脳卒中後の一般的な運動や機能的回復を目標と

した総合的評価パッケージの一部として活用することができることを意味する点で有利である．

CAHAI は，他の麻痺上肢機能障害の測度によって評価されない，広い範囲の機能を網羅している．これら

は，操作やリーチ，握り，性に特化しない課題，運動回復の程度，両手課題の標準的上肢の運動を含む(Barreca

et al. 2004)．加えて，テストは異なる場面にまたがって適合するようにデザインされており，病院で，自宅で，

外来施設で使われるであろう．

心理測定的に，CAHAI は強い妥当性と信頼性を示している(Barreca et al. 2005, 2006a, 2006b)．加えて，

50

CAHAI は経時的変化の応答性があることを示しており，最小検知変化量が報告されている．CAHAI の 3 つの

短縮版がより効率的なデータの収集のため作られている．CAHAI-9，CAHAI-8，CAHAI-7の評価（それぞれ項

目は 9，8，7 つ）は，実施に必要な時間を減少したにもかかわらず，原尺度に類似した測度特性を示している

(Barreca et al. 2006a, 2006b)．信頼でき妥当なドイツ翻訳は，CAHAI-7-8-9で入手できる(Schuster et al. 2010)．

Limitations

CAHAI は上肢機能の約束された測定であるように思われる一方，尺度の測定特性の第三者的評価が比較的

存在しない．今後の研究が必要である．

Summary – Clinical Outcome Variables (COVS)

解釈可能性：CAHAI は脳卒中患者の上肢機能の回復を測定するようデザインされている．この点において

得点の標準を得ることができない．

受容性：テスト課題は実施に 25 分という中等度の時間を要する．しかしながら試行において脳卒中患者に

おける疲労に関しては不満はなかった(Barreca et al. 2004)．より早い実施のため，3 つのテストの短縮版が作

られている．

実現可能性：テストは簡単に入手でき，携帯でき，安価なものである．実施場所の点では柔軟にデザインさ

れており，異なる場面にまたがって利用されるであろう（例：病院，自宅，外来施設）．実施のための特別な

訓練が推奨されている(Barreca et al. 2005)．

21.3.7 Clinical Outcome Variables (COVS)

Clinical Outcomes Variables scale (COVS)は，理学療法士によって機能的機動性の状態の評価し，治療ゴー

ルや開始した治療プロトコールを確認するためにデザインされたツールとして発表された(Seaby & Torrance

1989; Hajek et al. 1997; Hajek et al. 1997; Eng et al. 2002)．COVSの 13 項目は一般的リハビリテーション集

団を取り扱う一般的理学療法士に関連した帰結の代表として選択された(Seaby & Torrance 1989; Finch et al.

2002)．環境的障害の概念と環境に合わせる能力は，テスト項目に組み込まれており(Seaby & Torrance 1989)，

それはベッドから，床から，車椅子からの移乗能力の評価を含む (Low Choy et al. 2002)．

それぞれの項目や機能的課題は，Patient Evaluation Conference System (PECS) (Harvey & Jellinek, 1981)

を基礎とした 7 つの評点尺度であり，1 は最も悪い帰結，7 は最も良い帰結である（例えば最も高い機能の程

度）．項目は個別に考えられるし，13－91 の範囲の得点に総合されて提供するため合算されもする．項目はま

た，移動（4 項目），ベッドでの機動性（2 項目），移乗（2 項目），上肢の機能（2 項目）の評価を提供するた

め，さまざまな組み合わせで合算される(Seaby & Torrance, 1989)．

COVSは通常訓練された理学療法士によって実施され，一般的な理学療法評価の一部分として完成されるだ

51

ろう．全ての評価の実施は完成に 15-45 分を要する．このテストは Institute for Rehabilitation Research and

Development at (www.rehab.on.ca/irrd/covs)から直接購入できる．訓練ガイドラインの記載，訓練ビデオ，デ

ータベースのソフト，評点の詳細もまた得られる (Finch et al. 2002)．

Advantages

COVS は FIM のような総合的機能評価による評価ではなく，機動性の分野の詳細を提供する

(Barclay-Goddard 2000; Low Choy et al 2002)．これは理学療法士によって再訓練された運動課題を監視し，

介助具の使用と環境障害に合わせる能力の両方を含む．総じてこれは良好な信頼性と強い構成概念妥当性，予

測妥当性が紹介されている．縦断的妥当性調査は，COVSの経時的変化への感度を報告している．COVSは一

般的理学療法士評価の一部分として実施されることをデザインしている(Huijbregts 1996)．これは，その長さ

に関連した患者の負担を増加する可能性を弱めるであろう．

Limitations

COVSに実施は，相当長い装備のリスト（ストップウォッチ，プラスティックマグカップ，硬貨と穴の空い

たカンまたは針刺しとまっすぐなピン，練習マット，1－12 インチ上った傾斜台，6 インチの台）を必要とし，

相当な時間を必要とする．COVSのさらなる妥当性の必要性がある．COVSは比較的広く使用されている．

Summary – Clinical Outcome Variables (COVS)

解釈可能性：項目はすべて機能的機動性課題からつくられている．因子分析が実施されており，尺度は一次

元評価であることから，比較的簡単に評点を解釈することを可能にする(Hajek et al. 1997)．加えて，環境障害

や介助具の使用の概念にあった尺度である．

受容性：テストはそれ自体長いが，通常の理学療法と合致した評価である．これは長い評価過程に関連した

患者の負担を減少するであろう．

実現可能性：テスト購入に関連した追加費用があり，補助的な物質が必要である．信頼性が報告されたレベ

ルに達する評点を実施するために，理学療法士は事前に準備すべきである．装備のリストが長いにもかかわら

ず，項目の多くは簡単に手に入る（屋外の設定を想定する必要があるもの以外は）．

21.3.8 Functional Ambulation Categories (FAC)

Functional Ambulation Categories (FAC)は，Massachusetts General Hospital において，理学療法を受ける

患者の移動能力を評点するために開発された測度である(Holden et al. 1984)．6 点尺度は，個人的な介助具を

52

使用するしないに関わらず，患者が歩くのにどの程度の介助が必要かを決定することにより移動状態を評価す

る (Holden et al. 1984)．FAC は，片麻痺(Holden et al. 1984, 1986, Hesse et al. 1994)や多発性硬化症(Holden

et al. 1984, 1986)，脳卒中(Collen et al. 1990, Stevenson 1999, Simondson et al. 2003, Brock et al. 2002, Lord

et al. 2004, Cunha et al. 2002, da Cunha et al. 2002)，小児麻痺(Schindl et al. 2000)を含む移動能力における不

利益な効果を持つ状況にあるリハビリテーション設定において広く使用された帰結評価である．Wade (1992)

は，FAC の一番よい使用は，現実の能力低下の測定のためではなく，活発なリハビリテーションにおける進歩

の測定としてであると指摘している．

FAC の使用のため，評価者（通常は理学療法士）は対象者にさまざまな質問をし，彼らの歩行能力の短い観

察を行い，0-5 の評点を提供する(Collen et al. 1990)．もし対象者が 0 点ならば彼らは機能的移動者ではない（歩

けない）；1，2，3 点は，他の人からの介助を必要とする介助移動者であり，1 は徒手接触，2 は継続または間

欠的徒手接触，3 は口頭による指示／誘導である；4 または 5 は自立移動者であり，自由に移動できる：4 は

平地のみ，5（最高値）はどんな面でも歩ける(Holden et al. 1984)．

FACは直ちに入手できる(Holden et al. 1984, 1986; Wade 1992)．尺度の実施に必要な者はない．Holden et al.

(1984, 1986) によって提供された記述に詳細について説明された分類がある．

Advantages

FAC は実施するのに簡単な尺度であり，特別な訓練と装備を必要としない(Collen et al. 1990)．この尺度は

高いレベルの機動性のある対象者間において識別力のある測度として紹介されている(Lord et al. 2004)．

Limitations

FAC は応答性がなく，特に低いレベルの機能をもつ群を区別するのに使用された場合はそうである(Collen

et al. 1990, Lord et al. 2004)．そして大きな天井効果が報告されている．しかし，最近の研究(Mehrholz et al.

2008)は，6 カ月の期間を超える移動における変化の評価に使用した場合には，中等度から大きな効果量を報

告している．この研究はベースラインでは歩けない対象者のみを含んでいることから，応答性はやや過剰見積

りであると言える．今後の研究では，評価ツールがより高い機能を持つ対象者において等しく応答性があるか

を決定することが必要であろう．

Summary – Functional Ambulation Categories

解釈可能性：FAC 得点は，低い機能の対象者においては応答性が減少することを注意して解釈されるべきで

ある．また多くがその使用に関係して天井効果を報告している．FAC の評点は，対象者の移動能力の記述とし

て解釈されるべきである(Collen et al. 1990)．

受容性：FAC の実施は簡単で短い質問と観察が必要であり，したがって患者の負担は少ない．

実現可能性：FAC は早く簡単に使用でき，尺度は費用なく簡単に入手できる．また尺度の実施に必要な装備

はなく，事実上自由な評価ツールである．FAC の実施に定式の訓練はなく，使用に際して尺度を知っているだ

けでよい．

53

21.3.9 Functional Independence Measure (FIM)

BIの批判に答える形で 1987年に作成された．FIMは感度と包括性の問題を解決するために意図されている．

また，米国の medical remuneration system における能力障害への使用のための統一測定システムを提供して

いる（McDowell & Newell,1996）．FIMは自立／非自立よりも，介護負担の点で身体的・認知的能力障害を評

価している．つまり FIMは個人の介護負担を表すように意図されている．

FIMは 6 つの範囲（セルフケア，排泄(sphinctor)コントロール，活動性，移動，コミュニケーション，社会

的認知）の機能を評価し，18 項目の測定から構成されている．

これらは身体的（13 項目），認知的（5 項目）の 2 つの基本敵領域に分類される．13 の項目は BI に基づき，

認知項目は社会交流，問題解決，記憶を評価することを意図している．これらは motor- FIM，cognitive-FIM

に分類される．

それぞれの項目は 7 点のリカルト尺度で，その項目を実行するのに必要な介助の量を示していた（1=全介助，

7=全自立）．点数は 18 から 126 点で，満点は完全な自立を示す．サブスケールである身体的・認知的 FIMは，

個人の FIMスコアとして合算するよりも，それぞれがより有用かもしれない(Linacre et al. 1994)．

FIM の処理には訓練と管理が必要である．最も一般的な FIM の実施は直接観察である．FIM はおおよそ 30

分を要する．FIMの開発者は，一定期間の観察後の多職種チームの意見の統一による評価を推奨している．

Advantages

FIMは脳卒中による介護負担を予測する点で，Sickness Impact Profile (SIP)と同様に，長期の測定指標とし

て効果的であることが発見されている．したがって，脳卒中後自宅において必要とされる身体的介護量を決定

するのに有用である．その利点として，FIMは，長い質問を対象者に強いることが必要な SIPよりも，より少

ない時間で，患者への負担が少ない（Granger et al. 1993）．

臨床での評価において，より多くの項目数と，より広い項目ごとの応答の選択が，より少ない項目や応答の

選択枝の評価よりも，個人の基礎となるより詳細な情報をもたらすであろう（Hobart et al. 2001）．臨床にて

重要な最小差（MCID）は，脳卒中集団にて使用されたときに確認されている(Beninato et al. 2006)．脳卒中リ

ハビリテーションから退院を短い期間追跡することによって得られた臨床変化をの評点を基礎に，Beninato et

al. (2006)は，22，17，3 はトータル FIM，motor-FIM，cognitive-FIMそれぞれの変化したスコアであると決定

した．それは，臨床的重要な変化を得られた患者と得られなかった患者を分ける最良の値であることを示した．

Limitations

FIMの信頼性は個人の能力にかかっている．実施の訓練と教育は良好なレベルの検者間再現性のために必要

54

である（Cavanagh et al. 2000）．スコアのコンセンサスが得られるために必要な時間の長さと訓練量は，開発

者が推奨したように，臨床の実践において FIMの実践的な適用に重要な意味合いを持つであろう．

生の値の合計の使用は，連続尺度の外見を与えるように，間違った理解を促すであろう．しかし，項目の困

難さのレベルにおいて，スコア間の段階は同一ではなく，順序尺度以上の情報を供給することは出来ない

（Linacre et al. 1994）．Kidd 等（1995）は，個々の項目は順序のままなのに，スコアの合計をあたかも間隔尺

度かのように使用していると指摘している．

応答性の評価において，FIMと motor-FIMと BIは全て同じ効果量を持つことが発見されている．全 FIMは，

BI の 7％に比べて，天井効果がないと報告されている（van der Putten et al. 1999）．これは，FIMが多くの項

目をもち，それぞれの項目のより詳細な範囲のスコア化をしているにもかかわらず，FIMが変化の応答性の点

において現実的な優位性を持たないことを示しているであろう．

FIMの MCID の確認は FIM 得点と FIMの変化値の解釈可能性を増加する；しかし，これらが開発された外

的範囲は，臨床医が変化を後ろ向きに評点したものであることに注意すべきである．患者や介護者，家族評価

は，重要な変化の変化の評点に含まれていない．加えて，後ろ向きの評点はリコールバイアスが含まれる．著

者は MCID は，より FIM の低い患者が必要とする得点の変化のような，入院の FIM 得点によって影響を受け

ていると指摘している．有意な変化や臨床的銃な変化を持つ患者を確認することは，入院時 FIM得点のような

明らかな増加を確認することより，困難であると指摘している．

Summary – Functional Independence Measure (FIM)

解釈可能性： FIMはその信頼性・妥当性がよく調査されている．FIMは広く使われており，ひとつのスコ

アリングシステムを持っており，比較される機会が増加している．

FIMスコアを解釈する際に忘れてはいけないことは，それが連続尺度レベルではなく，順序尺度であることで

ある．

受容可能性：管理の方法はインタビューを含む．FIMはまた，代理の応答者（家族？）による使用も研究

されている．

実現可能性：訓練と教育は重大なコストであろう．インタビュー形式の使用は，縦断的評価のためのより

好ましい FIMを作るかもしれない．

21.3.9.1 Barthel Index vs. the Functional Independence Measure

FIM は BI と比べて，より制限的でない，より臨床における重大な変化への応答性のために作られている．

したがって二つの直接比較は，機会の数（使用頻度？）として取り上げられている．

両尺度は，信頼性と妥当性において厳密な調査が行われており，それは良好な結果である．また BI と

55

motor-FIMには収束・弁別構成妥当性を備えている．結局，これらは運動能力障害の測定として，指数的には

同じにみえる（Gosman-Hedstrom & Svensson 2000; Hsueh IP et al. 2002）．

Kidd et al（1995）は FIMのコミュニケーションや認知項目の追加は，FIMをより感度のある，包括的なも

のにすると指摘している．しかしながら，認知のサブスケールによる全体への寄与は，motor-FIMや total-FIM

に比べて，より少ない信頼性と応答性により，疑わしい（ottenbacher et al. 1996; van der Putten et al. 1999）．

Gosman-Hedstrom & Svensson（2000）は，FIMは BI よりも包括的であるけれども，臨床での尺度のレベル

評価において，個人の変化をより区別するものではないと指摘している．

応答性や経時的な臨床での重要な変化を検知する評価道具は，帰結評価指標の選択において重要な範疇であ

る．BI はその明らかな天井効果により証明されている変化の検知能力により能力障害の範囲が限定されること

が，しばしば批判されてきた．二つの尺度の応答性の比較において，脳卒中患者群において使用したとき，BI

と motor-FIM と total-FIMは差がほとんどないことが発見された（van der Putten et al1999 など）．MSと脳卒

中患者（重症を除く）の研究において，van der Putten（1999）は，BIに 7％の天井効果を認め，total-FIMに

全く天井効果を認めなかった（motor-FIM は 1%）．Hsueh 等（2002）は重度な能力障害をもつ患者を含めた

同様の診断に用いる集団において，BI の評価において，motor-FIMよりも大きな床効果（18.2% vs. 5.8%）を

報告した．

この二つの評価指標の同一性の説明より，どちらを使うかの選択は，機器を使う目的により決定されるであ

ろう．それは指数（尺度）の特性よりも，適切性や実践性の点に焦点がおかれるであろう．

21.3.9.2 CIHI - National Rehabilitation Reporting System

Canadian Institute for Health Information は，成人入院患者のリハビリテーションサービスの国家指標と帰結

報告を開発するため 1999 年にプロジェクトを始めた．報告システムを創設する目的は，成人リハビリテーシ

ョン施設からのデータの収集と分析であり，管理上の意思決定の多種のレベルの支援を提供するためであり，

地域間比較を促進し，研究や分析を支援するためである．

FIMも 12 の CIHI の項目を含む National Rehabilitation Reporting System data elements は，FIMの認知領

域に貢献するため開発された．CIHI のパイロットプロジェクトは，強い信頼性，妥当性と同時に機能的状態

における変化の感度をもつデータセットを報告した(CIHI 1999)．NRSのデータベースは、参加した成人や入

院患者，カナダを超えたリハビリテーション施設の入院・退院時期のデータを含んだ．最近，MOHLTC は，

指名された成人，入院患者，リハビリテーションベッドをもつすべての施設の参加を委任した．

供給源： Canadian Institute for Health Information. Online at: www.cihi.ca.

21.3.10 Frenchay Activities Index (FAI)

Frenchay Activities Index (FAI)は，脳卒中から回復した患者に使用する手段的日常生活活動の測度である．

この指標は日常生活に関連した活動の広い範囲の評価を提供する．項目は ADL 尺度の視点を超えた FAI move

を含む．これはセルフケアと機動性に関連した問題に焦点を置いている傾向にある(Holbrook & Skilbeck 1983)．

それは，対象者の最近の過去において実施した現実の活動の客観的測定を与えること意図している(Wade et al.

1985)．FAI は 15 項目もしくは 3 つの要因；家庭内の家事，レジャー／仕事，屋外活動に分けられる活動から

なる．過去 3 または 6 カ月にわたる間着手した項目または活動の頻度は 1-4 の得点に割り当てられる．その得

点は 1 が一番低いレベルの活動を示す．尺度は 15-60 点の合計点が提供される．0-3 配点システムはWade et

56

al. (1985)によって紹介され，0-45 点が割り当てられる．インタビュー形式における実施において（患者の家

族ありまたはなし），FAI 完成におよそ 5 分を要する (Segal & Schall 1994)．

Advantages

FAI の短さと簡単さは臨床現場での使用を容易くする(Wade 1992)．FAI は，脳卒中によって認知的に障害

されたを含んでいる代理応答による使用に適しているようにみえる．尺度は振る舞いを基本としている．それ

は，活動の質よりも頻度において強調されているおり，代理評価の信頼性を低下させる主観性の要素を減少さ

せるであろう(Segal & Schall 1994)．

脳卒中患者の結果の評価において，家庭内の生活スタイル，レジャーや社会的活動は含まれるべきであると

指摘されている(Sveen et al. 1999)．Pedersen et al. (1997) は，FAI は，BI で得られるものよりも，ADL の機

能に関する異なる情報を提供し，項目難度の見地において ADL の連続体に沿った次のステップを示すと紹介

している．さらなる総合的な ADL 評価は両方の評価ツールを使用することによって得られるであろう．

Limitations

原版の著者は，性別は FAI 得点にある程度影響すると警告している；彼らは男性女性の得点を分けて考える

よう推奨している(Holbrook & Skilbeck 1983)．Sveen et al. (1999)は，男性は屋外活動において有意により高

い点を持つ一方，女性は家庭内活動のより高い点を持つと報告している．おそらく伝統的な性を基礎とした活

動のパターンが根底にあるだろう．同じように Han et al. (2007)は高齢日本人の研究において，男性による“家

庭内家事”に該当する項目においてより低いパフォーマンスを，仕事やレジャーの項目においてより高いパフ

ォーマンスを紹介している．Wade et al. (1985)は同じ性のバイアスを発見しなかったが，いくつかの項目にお

ける異なるパターンの活動と，男性対女性のパフォーマンスの発生率を記している．これらのパターンは脳卒

中後に変化した．しかしながら，全得点に伴い，バランスにおける性的優位があるだろう(Wade et al. 1985,

Appelros 2007)．また Appelros (2007)は，総 FAI 得点にへの応答には男性と女性間に違いがないことを報告

している．しかしながら，それは性の違い間にて重要であり，以前に注意された事々と同じく，対象者の項目

に注意すべきである．

性別に加えて，FAI 得点は年齢によっても有意な影響を受けるであろう．より若い年齢はより良い点数に関

係しているような(Han et al. 2007, Appelros 2007)．Appelros (2007)は，回帰分析によって，年齢は有意に脳

卒中後一年の FAI の得点と関係しており，それは年齢が増える年分 FAI が 0.57 点減少すると報告している．

Wu et al. (2011)は，FAI においてあらわされている活動は，限られた視点であり，必ずしも応答者にとって重

要なものではないと指摘している．“利益のある仕事”や“電話の使用”のような項目は，高齢者にはより重

要でなく，脳卒中を経験した対象者にとってしばしば付き合いのないものである(Wu et al. 2011)．良好な全般

的な信頼性にもかかわらず，対象者の尺度項目点数の段階における一致の強さの無視できない変動性が，テス

ト再テスト，および観察者間信頼性において報告されている (Wade et al. 1985; Piercy et al. 2000; Green et al.

2001)．これはある部分，項目の得点化の特別な範囲やガイドラインがないこと，裁量への信頼またはテスト

を実施した対象者の解釈によるものであろう(Piercy et al. 2000; Post and de Witte 2003)．

FAI は総じて良好な結果を伴った代理による使用が評価されている一方，代理と患者の項目レベル評価間の

より少ない一致がある(Wyller et al. 1996; Tooth et al. 2003)．加えて，一定の数のバイアスが報告されており，

代理を介して得られた FAI 得点の使用を検討したときに心に留めておくべきである．Tooth et al. (2003)による

57

最近の研究では，患者は代理応答者よりもより多く活動を実行していると採点する傾向にあり，それは特に食

事の用意，重い家事仕事，社会への外出，運転そして家の改修においてである(Tooth et al. 2003)．加えて男性

の代理応答者と友達または関係者の応答者（配偶者よりむしろ）は，高い採点をする傾向にあり，特に屋内活

動の範囲においてである(Tooth et al. 2003)．この応答パターンは，友人における患者の活動に対し公開してい

る量が減っていることや，活動パターンにおける伝統的性差によることから説明されるであろう(Tooth et al.

2003; Wade et al. 1985)．

Summary – Frenchay Activities Index

解釈可能性：実施の標準的ガイドラインはなく，実施対象者の解釈に信頼を置くことは，解釈可能性や研究

間比較を減少している．

受容性：短く，簡単かつ他の者または家族の有意な参加を奨励する．代理応答者による使用に適している．

実現可能性：実施が簡単であり，訓練が必要なく，特別な装備も必要ない．縦断的評価に使用されている．

21.3.11 Modified Rankin Handicap Scale (MRS)

1957 年に原版が開発された，Rankin Scale は脳卒中後の患者のための大まかな帰結評価尺度である(Rankin

1957)．尺度は，特別な課題のパフォーマンスの観察よりもむしろ，脳卒中前の活動を参考にした自立のレベ

ルを基礎とした 1-5 の主観的な段階に割り当てられる．脳卒中前の自立のレベルを参照することによって，以

前の制限の存在は考慮され，最終評点の対象となる．原版の Rankin score の 1 は明らかな能力障害がないこ

とを指し，5 は最も重度なレベルの能力障害があることを指す．Van Swieten et al. (1988)は，評点システムを

0；兆候がないを含んで拡張した．Rankin scale が社会的不利よりむしろ能力障害に焦点をあてている批判は，

尺度は，“生活スタイル”を含む項目の言葉への変更を紹介することや，“能力障害”を“社会的不利”に置き

換えることによって，より修正されるべきとの指摘を導き出す(Bamford et al. 1989)．Rankin Scale の伝統的

実施方法はインタビュー過程を通じてのものである．

58

Advantages

Modified Rankin Scale は極端に簡単で，帰結評価のカテゴリーレベルを使用した信頼性についてよく検討さ

れている，時間効率の良い測度である．このように，多くの施設でまたは多くの研究において使用するのにふ

さわしい(Wade 1992; deHaan et al. 1995)．DeHaan et al. (1995)は，尺度得点は，介入の効果を評価すること

の比較が目的で，二分法（0-3＝軽度中等度の能力低下，4-5 は重度の能力低下）に導くことを指摘している．

方法は，電話インタビューを経由した mRS の実施のための評価されている．Janssen et al. (2010)は，電話

での結果と対面実施との有意な一致を報告している(kw=0.71)．

Limitations

採点の主観的性質と段階の分類における明確な基準がないことは，尺度の信頼性を下落させるであろう．

Rankin の段階を生み出すために BI の得点を使用することは信頼性を改善すると指摘している(Wolfe et al.

1991)．尺度の分類は，広く定義が乏しく，検査者個人の解釈にゆだねられると批判されてきた(Wilson et al.

2002)．加えて“介助なしで”の表現の使用は問題がある．これは介助具による介助かまたは環境調整かまた

は脳卒中患者に日常生活活動のパフォーマンスを改善させることを可能にする他の代償的手段なのかについ

ての示唆がない (New & Buchbinder 2006)．mRSの検査者間信頼性の報告は，しばしば幾分低く，特により

大きなサンプルサイズの研究においてそうである(Quinn et al. 2009)．Modified Rankin Scale 実施のための構

成されたインタビュー形式は入手可能である．構成されたインタビューの使用は観察者間信頼性において有意

な改善と関連していた(Wilson et al. 2002, Wilson et al. 2005, Banks et al. 2007)．加えて最近の日本語の案内

のあるインタビューと付随の質問紙が出版されている(Shinohara et al. 2006)．Quinn et al. (2007)は MRSの訓

練と認証パッケージの開発について述べている．認証評価データによるとこの標準訓練手続の使用は観察者間

信頼性の改善に関係し，特に彼らの認証試験に合格した検査者間においてはそうである(Quinn et al. 2008)．

もっとも最近では，Saver et al. (2010)は，mRS段階の派生を使用した Rankin Focused Assessment (RFA)を

開発したと述べている．このツールは特別な，段階レベル間の弁別を可能にする基準和提供し，検査者に与え

られた得点を割り当てる際に使用する機能的難度を示すことを可能にする(Saver et al. 2010)．他の標準化され

た評価ツールに関して，RFAの使用は観察者間信頼性の改善に関連する．尺度は二分されたグループに適して

いるだろうけども，これを実施する標準や一貫した点がない(Sulter et al. 1999, New & Buchbinder 2006)．

Rankin 得点の観点から，望ましい帰結対乏しい帰結に関する共通認識がないことを指摘している．広範囲な

帰結を分類する二分法の使用は，どんなリハビリテーション介入によって得られる利益の観点から，情報の喪

失と関連するかもしれない．Lai et al. (2001)は，彼らの研究に含まれる 62％の患者は，脳卒中後最初の 3 カ

月間において Rankin 段階の 1 つまたはそれ以上の回復を経験していると報告している．例えばもしこれらの

変更が段階 0と 1の間，もしくは 4と 5の間であれば，帰結の二分法の使用では変化がないことが報告される．

59

MRSの 0，1，2 が望ましく，3，4，5 が望ましくないと定義されている場合．Lai and Duncan (2001)は，さ

らに身体と社会機能において，rankin 段階の 0/1，2，3 と 4（p<0.05）間に有意な差を報告している．これは

Rankin 得点 3，4，5（p<0.05）の患者の BI 得点における差と同じである．これらの利点は Rankin 段階にお

ける変換に関係して，帰結の単純な二分法によって適切に捉えられることはない．Rankin 段階の変換は介入

の利益の評価においてより適切であろうを指摘されている(Lai & Duncan, 2001)．

Summary – Modified Rankin Handicap Scale

解釈可能性：とても簡単なツールであり，機能的能力低下に従った分類わけに有用である．理解するのは簡

単であり，それ自身が二分法に役立つ．しかしながら，実施される標準化された点はなく，比較に限界がある．

構成されたインタビューの使用は信頼性を増すであろう．

受容性：構成されたインタビューによる Rankin の実施は，おおよそ 15 分を要する．代理応答の使用は評価

されていない．

実現可能性：MRS は時間効率がよく，特別なツールや訓練を必要としない．介入の効果の比較に使用され

ているけれども，望まれる対乏しい帰結の評価による二分点には意見が一致していない．

21.3.12 Motor Assessment Scale (MAS)

Motor Assessment Scale (MAS)は脳卒中の後の毎日の運動機能評価の妥当かつ信頼できる方法を提供する

ため開発された (Carr et al. 1985)．MASは単独した運動パターンよりも機能的課題のパフォーマンスを評価

する課題指向型アプローチを基礎にした評価である(Malouin et al. 1994)．MASは 8 分野の運動機能に合致し

た 8 項目から構成される（背臥位から側臥位，背臥位から端座位，座位バランス，座位から立位，歩行，上肢

機能，手の運動，進歩した手の活動）．また含まれた単一項目，全般的筋緊張は患側の筋緊張の見積もりを提

供することを意図している(Carr et al. 1985)．それぞれの項目は，全般的筋緊張を除いて，機能的基準である

7 点の階層を使用して評価する．それぞれの基準のパフォーマンスは 0 得点（もっとも簡単）から 6（もっと

も複雑）の範囲での得点に関係している(Carr et al. 1985, Poole and Whitney 1988, Malouin et al. 1994, Sabari

et al. 2005)．患者は課題を 3 回実施し，最良のパフォーマンスを記録する．全般的な筋緊張は，評価の間の観

察と操作を通じて評価される．4 以上または以下の点数は過緊張と低緊張の程度の指標である一方，最大限の

機能を表す 4 点のように評点化される．(Carr et al. 1985)．項目得点は全般的筋緊張を除いて，48 点より全体

的な得点を提供するため合算されるであろう(Malouin et al. 1994)．この尺度は Carr et al. (1985)より入手でき

る．それはそれぞれの項目の段階の基準，一般的ルールと MAS実施の装備である．Carr et al. (1985)は，MAS

の実施はおおよそ 15 分必要とすると指摘し，続いた研究では実施時間は 15-60 分の範囲での実施を報告して

いる(Poole and Whitney, 1988, Malouin et al. 1994)．

60

Advantages

MAS は，脳卒中後の運動課題のパフォーマンスを評価する，短く，簡単な手段を提供する．実行の一般的

ルールは必要とされる装備のリストを提供する．必要な装備は様々な場面で一般的に手に入り，それは 8 つの

ゼリービーン，ゴムのボール，スツール（椅子），くし，スプーン，ペン，ティーカップ，水，テーブルのよ

うな項目を含む．Carr et al. (1985) は短い説明と，少なくとも 6 人の患者における評価の実施，正式な場面に

おけるテストの事前使用による練習期間を推奨している．

Limitations

報告は“全般的筋緊張”の項目は信頼性を評価するのが困難であると指摘している．庁舎によって提供され

ている評点基準は，緊張のテストに関する説明が与えられず，腕や脚，体幹において緊張が変化するときに，

どこでテストされるべきか，どのように項目を評点すべきがに関する説明がない(Poole and Whitney 1988)．

この項目は尺度からしばしば省略され，MAS を使用した報告や MAS に関する報告はこれを含んでいない

(Malouin et al. 1994, Loewen & Anderson 1990)．

項目は，7 点の運動活動パフォーマンスの階層を使用して評価する．それぞれの項目のため，より高いレベ

ルの基準の成功による完成は，対象者はより低い得点に一致したすべての基準に合致することができることを

指し示す(Sabari et al. 2005)．実施の必要な時間の量を減少させ，解釈可能性を増加する（同じ得点の患者は

同じ課題を実施できる），これは機能の適切な階層の推定を基礎としている．行動的基準の階層は上肢の機能

を評価する項目（6，7，8）に試験されたが，MASの残された項目については試験されていない．Poole and

Whitney (1988)と Malouin et al. (1994)の両者は，高等な手の活動項目に関連した階層評点における問題を指摘

している．これらのケースは，もっとも難しい課題を完成した対象者（くしを持ち，頭の後ろの髪をとく）は

より下位の基準（水平のラインを書く）を完成できなかったことを報告している．Sabari et al. (2005)は，ラ

ッシュ分析を使用して上肢機能，手の運動，高等な手の活動項目の階層的評点の妥当性を調査した．これらの

3 項目は上肢機能項目のみ項目難度の観点において適切な階層性を示した．他の項目のそれぞれにとって，角

井順序における相当な不一致が確認されると同時に，難度の同じレベルの項目を伴う複数の課題が確認された．

加えて，相当な床効果がすべての項目で確認され，上肢機能と手の運動項目において天井効果が確認された

(Sabari et al. 2005)．しかしながら Miller et al. (2010)はまたラッシュ分析を使用して UL サブスケール（MAS

678－上肢，手の運動，高度な手の活動）を調査した．Sabari et al. (2005) の反対の結果を報告し，Miller et

al.は，上肢項目と手の運動のサブスケールにおいてテスト項目の階層性は妥当であることを発見した．著者は

単一項目（#72-手首の橈骨の偏差）の年齢に関連する有意な異なる項目機能（DIF）を示している．このよう

にこの項目は 65 歳以下の対象者にとって実施はより簡単である．別の尺度としての上肢項目の使用は，これ

らのサブスケールの評点階層性のさらなる調査が済むまで注意するべきと，推奨されている(Lannin 2004,

Hsueh and Hsieh 2002)．

Summary – Motor Assessment Scale (MAS)

解釈可能性：評点は評価の課題指向型アプローチを反映している．項目の課題階層の使用は解釈可能性を増

加する．しかし課題階層性の妥当性の使用はさらなる研究が必要である．

受容性：テストは比較的実施に簡単かつ短い．代理による評価はパフォーマンスを基礎とした評価として適

切でない．

61

実現可能性：MASは Carr et al. (1985)において自由に入手できる．説明と評価の練習期間は，臨床または研

究場面で正式に使用する前に，実施が推奨されている．装備のリストが実施に必要であることは比較的長いが，

物品は一般的に入手できる．

21.3.13 Nine-hole Peg Test (NHPT)

The Nine Hole Peg Test (NHPT)は手指の巧緻性の時間的，量的尺度である．それは，全国多発性硬化症の多

発性硬化症の機能評価 (MSFC)の構成要素でもある．MFSC は多発性硬化症における３つの範囲 (歩行／下肢

機能，上肢／手の機能と，認知機能)を評価する多次元の量的尺度である．NHPT は Kellor, Frost, Silberberg,

Iverson, and Cummings (1971)によって開発され，Mathiowetz, Weber, Kashman, and Volland (1985)によって

標準化された．Mathiowetz et al. (1985)はこの手段の臨床的基準も発表した．

テスト中，患者は９本のペグを入れる容器と９つの穴の空いた木製かプラスチック製のブロックが置かれた

机に向かって腰掛ける．時間内に，患者は容器から１本ずつ９本のペグを取り，できるだけ速くブロックに空

いた穴にさすように要求される．すべてを穴に入れた時点で，１本ずつそれぞれのペグを抜き，できるだけ速

く容器に戻すよう要求される．課題を完了するのに要した合計時間が記録される．テストは利き手で連続して

２度行われ，それから非利き手で連続で２度行われる (多発性硬化症協会のウェブサイトの手順

http://www.nationalmssociety.org/MUCS_9hole.asp)．このテスト方法は標準化された．(Mathiowetz et al. 1985)

テストのスコアは，４施行の平均を取る．それぞれの手での 2 回の施行は平均化され，それから平均時間の

逆数（reciprocals）に変換される．これらの 2 つの逆数はそれから平均化される．このスコアは個別に，もし

くは MSFC の評価スコアの１つとして使用される．低いスコアほど手の巧緻性が優れているということを示

唆している．20 から 75+歳の範囲の成人での性別と同様利き手での NHPT の基準(Mathiowetz et al. 1985)と，

4 から 19 歳の小児での性別と同様利き手での基準(Smith et al. 2000; Yim et al. 2003; Poole et al. 2005)が発表

されている．

所要時間は患者のスキルに応じて変わる．しかしながら，テストは一般的に 10 分以下である．Administration

にとって訓練は必要であり，テストのいくつかの量産されたバージョンは購入可能である．マーケティングの

大手企業は Smith & Nephew Rehabilitation Division, Sammons Preston, S&S Worldwide, and North Coast

Medical である．

62

Advantages

心理統計学上，NHPT は成人と小児科集団において優れた信頼性と妥当性が証明されている．臨床症状をテ

ストする時の解釈の明瞭性を考慮して，年齢，性別，利き手における基準は実証されている．しかしながら，

Mathiowetz et al. (1985)によって発表された元の基準は，より使用しやすい商業用のテストには直接的に転換

ないだろう．NHPT の他の利点はその柔軟性である．つまり，それ自体で使用したり，多発性硬化症の機能評

価の１つとして使用できる．最終的に，テストは速く簡単に実施できる．

Limitations

NHPT は練習効果の影響を受けやすい．いくつかの研究でテストから再テストでパフォーマンスが改善され

たことを立証した(Cohen et al. 2006, 2000; Solari et al. 2004)．この効果は反復施行後に頭打ちになる傾向が

あり，研究者はそれ故，患者の機能を正確に評価するため数回テストを実施するよう提案している．NHPT の

基準と同様標準化された手順はしばらくの間発表されているが(Mathiowetz et al. 1985)，材料やデザインがそ

れぞれ変化している多くの商業用のバージョンは，それらの基準の使用に支障を来した(Davis et al. 1999)．商

業用のものは Mathiowetz et al.が使用していたオリジナルのもとは違うので，研究から発生した標準値はそれ

以上に一般化しない．例えば，Davis, Felon, Proctor and Watson (1997)は， the Smith and Nephew

Rehabilitation Division version で私用した遂行スピードと，Mathiowetz et al が使用したバージョンの遂行スピ

ードを比較した．21 から 72 歳の 32 の患者のサンプルでは，著者は別バージョンのテストが完了したときに

はっきりした差異を見つけた．そして，Mathiowetz et al.によって定められた基準がこのタイプの NFPT に適

応されないと結論づけた．ところが実際は別の商業用のバージョンのテストにおいてよく似た結果が発見され

ており，Davis et al. (1999)は商業用のバージョンのテストを使用し，NHPT のオリジナルの基準を解釈すると

きは過度なに警戒するべきだと警告した．著者は商業用のバージョンと一致した基準を開発する際は，観察が

必要とされることも強調している．幸い，子ども同様に成人も明るみに出始めてから基準が言われている

(Oxford et al. 2003; Poole et al. 2005)．いくつかの商業用バージョンのテストのより一層規範的な研究は有益

である．

加えて，発表された脳卒中の人に対する基準となる値の一般可能性は不確かである．たくさんの脳卒中患者は

高齢である．しかし 75 歳の人はほとんどおらず，より高齢の人が NHPT の基準値の研究に参加した(Kellor et

al. 1971, Mathiowetz et al. 1985)．それにもかかわらず，60 歳以上の健常な男性の全ての平均値は 20 秒より

優れており，60 歳以上の健常な女性の 18 秒より優れている(Mathiowetz et al. 1985)．Wade (1992)は，通常

の機能をもつ人ではたいてい課題を完了するまでに(ペグをさすだけにどれぐらいの時間がかかるかを計った

として)18 秒かかると主張している．そして，Heller et al. (1987)も”正常”の基準としてこれを用いた．しかし

ながら，高齢世代にテストを使用した時，完了までの時間として 20-25 秒が正常と見なされると提案されてい

る．

Summary – Nine-hole Peg Test (NHPT)

解釈可能性：NHPT は単純で一般的に使用される手指の巧緻性の定量的な評価である．市販されているバー

ジョンのテストでの成人と小児の基準値は存在している；しかしながら，高齢者は基準となるサンプルにほと

んど含まれていなかった．Mathiowetz et al. (1985)によって発表された基準は，いくつかの商業用バージョン

のテストには移転可能ではないだろう．

63

受容性：おおよそ 10 分と，施行は手短であり，患者負担がほとんどないことを意味している．

実現可能性：施行は手短で、簡単である．テストの道具はわずかであり，移送が簡単である．いくつかのバ

ージョンのテストは市販されており，テストを施行するには練習が必要である．

21.3.14 Rivermead Mobility Index (RMI)

Rivermead Mobility Index (RMI)は，Rivermead Motor Assessment Gross Function Scale の延長である．そ

れは短く簡単に，基本的機動性の面に焦点をあてた機動性能力障害の量的評価を提供する方法を意図している．

これは社会環境における個人の自立的機動性の視点である(Collen et al. 1991; Wade, 1992)．

RMI は，項目 1 から 15 にかけて難度が増加する 15 項目の階層的尺度である．14 項目は自己報告によって

評価された機能的活動のパフォーマンスに関する質問であり，1 つの活動は直接観察による評価である．全て

の項目ははい／いいえの二分法の応答を発生させる．総合尺度点数は 0-15 点であり，0 は評価に含まれたい

ずれの機能的活動の実施する能力がないことを指し示す．RMI を使用した評価はおおよそ 2－3 分かかり，特

別な装備や訓練を必要としない(Collen et al. 1991; Forlander & Bohannon, 1999)．それは患者や患者の最初の

介護者のインタビューにて一般的に実施される (Hsueh et al. 2003)．

Advantages

RMI は，特別な装備や訓練を必要としない，短く，簡単な評価であり，さまざまな場面で簡単に実行される

(Collen et al. 1991; Hsieh et al. 2000; Forlander & Bohannon 1999)．心理測定的評価の結果は，RMI は評価す

るのに信頼できる道具であり，経時的に機動性のパフォーマンスを監視できることを指摘している．

パフォーマンスの段階は，RMI のような階層的尺度(Guttman)においは簡単に解釈できる．同じ得点の患者

は同じ事柄を実施でき，得点における変化は，能力の対応した変化を表す．これは合計した指標の明らかな利

点を示す指摘されている．それは確認した得点は様々な項目の組み合わせから得られており，同じパフォーマ

ンスのレベルを反映するとは限らないことが指摘されている(Hsieh et al. 2000)．

Limitations

Franchignoni et al. (2003)の最近の研究において，彼は，RMI はガットマンスケール基準に合っていること

を確かめる一方で，最初の 3 つの尺度項目の順番における潜在的困難性を確認した．彼らは，より多くの患者

が，それ以前の 2 項目のいずれより，3 番の課題を実施できると報告している．これにより，著者は，真の段

階的尺度として RMI を解釈するのは注意がいると指摘している．RMI は患者自身の体を移動するための患者

自身の能力だけを反映している．このように，それは，環境調整や介助具の使用，人的介助を通じて達成した

64

機動性における増加を考慮していない(Collen et al. 1991)．

Summary – Rivermead Mobility Index

解釈可能性：ガットマンスケールとして，RMI によって評価されたパフォーマンスのレベルは簡単に理解さ

れ，比較される．

受容性：RMI を実施することによる患者の負担はほとんどない．それは実施に 3－5 分を要し，15 項目の

14 個ははい／いいえの自己報告により完成する．評価インタビューは最初の介護者によって提供される情報

を含むであろう一方，14 の自己報告項目への代理応答者による使用は，調査されていない．

実現可能性：RMI は縦断的評価に使用するためのテストである．実施は簡単で，特別な装備や訓練を必要と

しない．それは様々な施設や地域場面にて使用されるであろう．

21.3.15 Timed “Up & Go” Test (TUG)

基本的機動性とバランス操作の客観的評価；timed “up & go”は歩行や回転に関連した一連の運動課題を実行

する能力を評価する．

TUG は対象者の椅子から起立し，3mの距離を歩き，回転し，椅子まで歩いて戻り，椅子に座ることを要求

する．対象者は通常の履物を身に着け，もし通常使用しているなら歩行補助具の使用を許される．この活動は、

時間を測るセッションに着手する以前に一度，歩行することを許された後，時間を測られる．それは課題の完

成の直接的観察を通じて管理される．スコアは秒単位で，テスト活動を完成するのに要する時間で構成される．

timed up & go は，より初期のテスト；“get-up and go”(Mathias et al. 1986)の変化形であり，このテスト活

動は同じであるが，時間は測らなかった．代わりにテストはビデオ撮影され，のちに観察者によって 1（正常）

から 5（重度異常）の点数がつけられた．

Advantages

Timed “Up & Go”は早く，簡単に実施できる．テストは訓練や特別な装備（適切な椅子，ストップウォッチ，

3m の歩行路）を必要とせず，それは施設の場面と同じく地域においても簡単に実施できる．時間の評価は順

序測度よりも経時的変化に感度が高い(Whitney et al. 1998)．

Limitations

Rockwood et al. (2000)は，TUG は広い，不均一な集団での使用に適していないであろうと指摘している．

複数の研究は，認知障害が存在する対象者を除いて，高いレベルのテスト再テスト信頼性を報告しており，認

知的に障害されていない集団においてより望ましいであろう．しかしながら，Nordin et al. (2006)は，ケア施

65

設に入居している多種の事情を持つ高齢対象者(mean MMSE = 18.7, SD = 5.6)において，テストの間口頭指示

を許された時には，認知障害の存在は増加した得点の変動に関連がなかったと報告している．むしろ，著者は，

TUG パフォーマンスにおける変動の増加は，虚弱や多種のシステムを含む多種の事象の存在が関連している

と指摘している．TUG は制限された測定である．それはパフォーマンスの質よりもむしろ，比較的バランス

のいくつかの面に取り組ませる．そのバランスは速さに第一に集中する(Ng et al. 2011)．それは Berg Balance

Scale のような伝統的バランス測度より狭い評価を生み出している(Whitney et al. 1998)．転倒の予測に使用し

た場合，それは Berg Balance Scale よりもより低い感度と特異度を紹介している(Andersson et al. 2006)．

Nordin et al. (2008)は，長期ケア施設に住む虚弱高齢対象者群において，15 秒かそれ以下のスコアは，転倒の

高いリスクを排除することができると報告している（陰性尤度比 0.1，95% CI 0.0－0.4）．しかしながら TUG

得点はハイリスクの決定において有用ではなく，おそらくこれは機動性（TUG によって評価される）と転倒

のリスク間の非線形関係による．これは行動と環境の両方の他の因子によって修正されるであろう(Nordin et

al. 2008)．TUG の標準値は得られない．その主な使用は，対象者の変化の評価である(Thompson & Medley

1995)．Thompson & Medley (1995)は，杖の使用の有無に関わらない TUG の平均時間を 3 つの地域在住の年

配者(aged 65-69, 70-74, 75-79)にて報告し，標準的平均時間を基礎とした時間の形を推奨している．彼らはま

た TUG の時間と年齢間の有意な関係がないことを示す一方で，男性よりも女性の方がより遅くテストを実行

する傾向があると記しており(p<0.01)，特に杖を使用した場合(p<0.0001)にそうである．もっと最近，

Herschkovitz and Brill (2006)は，性による効果は見つからなかった一方で，高齢者デイリハビリテーションプ

ログラムから退院した TUG スコアにおいて年齢に関連した有意な低下を報告している(p<0.001)．

Siggeirsdottir et al. (2002)は，TUG のパフォーマンスは椅子のタイプによる直接的な関連性があることを報

告している(p<0.001)．推薦は肘掛けのある標準的椅子のタイプと座高が 45-47cmであることを生み出してい

る．

Summary – Timed “Up & Go” Test (TUG)

解釈可能性：スコアは客観的かつ簡単である．杖の有無によらない標準的平均時間は 3 つの年齢群の地域在

住の年配男女に提供されている．

受容性：それは短く簡単な活動であり、数分しか要さず，基本的操作しか必要としない．より少ない信頼性

が，認知障害患者において記されている．

実現可能性：TUG は特別な装備や訓練，大きな時間の量を必要としない．

21.3.16 Wolf Motor Function Test (WMFT)

元々は，慢性期脳卒中患者の上肢(UE)機能の強制使用の効果を課題の遂行時間に基づいて、定量化すること

66

を目的とされていた，the Emory Motor Test として発展した(Wolf et al. 1989)．その最初のはっ定以来，その

尺度は修正され，the Wolf Motor Function Test と改名された(Wolf et al. 2001, Morris et al. 2001, Wolf et al.

2005)．WMFT は脳卒中後の上肢機能の研究において使われてきた．特に CI 療法 (CIMT)においてよく使われ

てきた．

最新版WMFTは 17 の項目や課題から構成されている．課題はだんだんと難しくなっており、中枢から末梢

の関節を含むように進んでいく(Wolf et al. 2001)．課題 1－6 は，関節ごとの動きで，課題 7－15 は統合的で

機能的な動きを含んでいる(Wolf et al. 2001)．課題は遂行時間と動きや機能の質で評価する．それぞれの課題

ごとに時間制限されており、過度の遂行時間は一般的に 120 秒で打ち切られる．遂行時間評価の代表得点は、

すべての課題後ついて記録された中央値である(Morris et al. 2001)．

WMFT の機能的得点は 0(関連した腕で課題を達成できない)から 5(腕が共に動き、正常に近い動き)の 6 段

階のアプリケーションを通して評価される．いくつかは最大 75 点という合計点を使って報告されていたが

(Ang et al. 2006)，Functional ability scale (FAS)の得点は，項目ごとの点数として表記されていた(Morris et al

2001)．力を評価する 2 項目におけるパフォーマンスは時間でも，段階付けでもない．

WMFT は無料で利用できる．特定の備品は評価のためには必須ではあるが，日常的に手に入れやすい物で

ある．検査の実施は非常に長く，おおよそ 30 分要する．信頼性を確保するには訓練が必要とされる．

Advantages

WMFT は脳卒中に特化した評価であり，無料で利用でき，実施には一般的に入手可能な備品のみが必要で

ある．WMFT で評価される動きのパターンは単純なものから複雑なものにまで渡っており，個々が実演する

上肢の運動機能の幅で使用されるだろう．これは，遂行時間と動きの質の両方を評価できる．WMFT はいく

つかの機能評価が得られる一方で，WMFT の半分以上の項目で単肢の動きに機能的な終点がはっきりしない

ということに気づくべきだ(Morris et al. 2001)．

Limitations

しかしながら、Wolf et al. (2005)は課題終了時間と FAS 評価との間に強い相関関係があることを報告し，

Richards et al. (2001)はこれら 2 つの採点要素に弱い関連性しかなかったと報告した．つまりこれらは上肢機

能の同じ側面の評価を意味しないだろうと言っている．While Hsieh et al. (2009)は，FIMの総合と運動項目の

得点と遂行時間の得点との間に中等度の関係性があることと，動作の質(FAS)と FIMの得点との関係は相当弱

いということを証明した．加えて，課題完了時間のみ FIMを評価するような機能的評価の予測となった．これ

らの著者は，完了時間と動作の質の採点は上肢の運動機能の基本的な構造の違った側面を評価するだろうとも

示唆した(Hsieh et al. 2009)．もしWMFT を機能回復の予後予測を目的として使用するなら，もしくは治療を

容易にしたり，退院計画を立てたりするのであれば，課題完了時間はより実用的な判断材料になるだろう．し

かしながら，時間のスコアの解釈においては，パフォーマンスが体力に基づいているのと同様に，パフォーマ

ンスは性別と利き手であることの両方の影響を受けているだろうと気づくべきだ(Wolf et al. 2005, Wolf et al.

2006)．

WMFT を使用する場合の評価の信頼性と妥当背についての情報は，直接観察よりもビデオテープテスト時

での評価に基づいてきた．ビデオテープ評価では，評価が完了するまで度々評価者はテープを視察し、巻き戻

67

すだろう．もちろん，この選択は直接観察を伴う状況では利用できない．ビデオテープ評価はかなりの時間と

どのような評価方法のコストが付け加えられ，そして評価の臨床的な実用性に影響を与えるだろう．ビデオテ

ープと直接観察との関係性は，単一の機会において有益な結果が調査されてきた；最近の修正版 WMFT が使

われているが (Whitall et al. 2006)．

報告されている信頼性の水準は，最低限の信頼性の水準が達成されるまで行われたビデオテープの評価を使

用した綿密な訓練と訓練期間に基づいている(Morris et al. 2001)．

元々は，軽度から中等度の脳卒中患者の評価に使用され発展してきており、低い機能水準の患者には有意な

床効果が証明されてきた．課題完了時間は 120 秒で制限されているが，中等度から重度の脳卒中患者には短す

ぎるだろう(Bogard et al. 2009, Wolf et al. 2005)．修正版WMFT はそういった患者での使用も提案されている

が(Whitall et al. 2006)，現時点ではその測定特性については得られた付加情報はほんの少ししかない．

概して，測定特性についてや評価の著者が起源ではない WMFT の臨床的有用性について得られた付加情報

は比較的少ない．研究文献では，CI 療法にのみ使用されているようだ．

試験的な標準データは，課時間や力の課題のみ発表されてきた．しかしながら，サンプルサイズは小さく

(n=51)，得点に影響を及ぼすような変数層を調整できなかった(e.g. 年齢や利き手；Wolf et al. 2006)．しかし

ながら，選ばれた健常人からなるサンプルは，10 年の年齢層を成している(i.e. 40 – 49, 50 – 59, 60 – 69,70 –

79)．そしてそれは，比較的少人数の 4 群での結果であった．

WMFT の報告されている安定性は優れているようだけれども，Lin et al. (2009)と Fritz et al. (2009)は，最小

限の検出可能な変化(MDC)の計算に基づいて絶対的信頼性の目算は変化していると報告している．MDC は測

定誤差というよりもかえって真の変化とみされている最小の検出可能な差の目算と規定する．Lin et al. (2009)

は，WMFT の遂行時間における 4.36 秒の MDCは 90％の CI に基づいている．それは，患者が実際に 4.36 秒

かもっと多くの遂行時間の変化があるかやってみるべきであり，この変化が真の変化かと測定誤差のせいでは

ないということは 90％確実だろう．しかしながら，Fritz et al. (2009)は，0.5 や 0.7 秒の非常に異なった MDC

は各々90％や 95％の信頼区間に基づいているであろうと報告した．

しかしながら，両方の著者は報告されている MDC 値を導くために同じ基本公式を使用したが，それぞれの

研究において異なった計算が導かれた．例えば，Fritz et al. (2009)は時間のスコアの分布はそれぞれの不完全

な課題(時間のすべての項目の 16％)において最大値(121 秒)であり、それによって非対称性なので，スコアの

分布を分析し，それを決定付けた．正規性に合わせるために，時間スコアは変換が必要であった（自然対数）．

Lin et al. (2009) は最大スコアを出す患者数もしくは，時間スコアの分布に関しての情報を規定しておらず，

データの変換も報告していなかった．Lin et al によって報告されている MDC(真の変化の指標)がおおよその

WMFT の遂行時間の MCID (有意な差の指標)を上回ったということは有名だ．機能的能力スコアの MDC の有

用性は 0.1 (Fritz et al. 2009)から 0.37 まで (Lin et al. (2009)の範囲で全く劇的な変化がなかった．Fritz et al.

による FASスコアに対して実施されたデータの変換は，正規分布していた FAS得点と異なり，正規分布して

いなかった．

MCID は時間とともに起こる変化の解釈を深めるだろう，そして最小の臨床的有用性のある差(MCID)にとっ

ての様々な予測値が報告されてきた．もちろん MCID の異なった予測値は異なった導出方法を使用することで，

68

定着するだろう．そして，MCID の予測値は背景によって変化するだろう．脳卒中患者群内で，Lin et al. (2009)

は anchor-based calculationにおいて Fugl-Meyer Assessment (UE)においての 10から 15％の変化を使用した

時，WMFT 時間の MCID は 1.64 秒と報告しており，そして an effect size benchmark （Cohen’s effect size of

0.2）を使用した時，WMFT 時間の MCIDは 1.37 秒だったと報告した．FASスコアにおいては，MCID は各々

0.33 と 0.14 と推定されている(Lin et al. 2009)．Lang et al. (2008)は，anchor-based estimates of MCID は

WMFT の時間と FASのスコアにとって価値があるとも報告した．しかしながら，Fugl-Meyer Assessment の

ような他の上肢の評価から得られた客観的評価を使用するよりもかえって，著者は対象者の計算を基礎とした

受動的変化の主観的評価を使用した．遂行時間においては，麻痺側上肢が利き手の評価時は，MCID は 19 秒

になると予測された．麻痺側上肢が非利き手の時は MCID の有用性は予測できなかった．利き手と非利き手の

麻痺側の算出された MCID は，各々1.0と 1.2であった．両方の時間と機能的能力にとって，Lang et al. (2008)

によって規定された予測値は，Lin et al. (2009)によって報告されたものよりはるかに優れている．Lang et al.

は変化を感じた患者にとっての anchor-based calculation を用いた．それはおそらく，尺度項目の改善は患者

のとって意味をなさないような患者の受けた変化に有意に関連していないだろう．被験者個人の有意性を獲得

する上で大きな変化は必要だろう(Lang et al. 2008)．経時的な変化を解釈するとき，報告されている MDC と

MCID の推定値の両方が算出される両方の方法がとるべきである．

Summary – Wolf Motor Function Test

解釈可能性：スコアは遂行時間と動作の質の両方に基づいた上肢機能の評価をもたらす試験的な基準データ

は発表されてはいるが，これらは注意して用いらなくてはならない．報告されているMCID and MDC estimates

は大幅に変化している．

受容性：30 分という所要時間はより重度な脳卒中患者にとっては過度だろうが，患者負担に関する研究は

発表されていない．

実現可能性：テスト自体の使用は無料だが，テストを施行されている患者の訓練にはコストがかかる．テス

トやできるだけ録画が必要であり、その所要時間の長さによっても臨床実現可能性は限られるだろう．直接観

察による評価の信頼性や妥当性に関してのエビデンスはほとんどない．

69

21.4 Participation/Handicap Outcome Measures 参加／社会的不利のアウトカム測定

最後のセクションは ICF 分類体系の第 3 の水準もしくはカテゴリーに相当する．このセクションで扱われる

測定は，社会生活機能もしくは社会的役割のような生活状況への個人の関わりを反映しているものを含む，全

ての領域からの要素を含んでいる。これらの測定が健康関連 QOL を評価するために用いられている一方で，

そのような構成概念を明らかにすること，もしくはアセスメント自体は我々の目的ではない．

21.4.1 Canadian Occupational Performance Measure (COPM) カナダ作業遂行測定

カナダ作業遂行測定は，国民保健福祉部門やカナダ作業療法協会の特別調査委員会と協議して Lawら(1990)

によって開発された，個人に合わせたアウトカム測定である．カナダ作業遂行測定は，患者のニードの知覚，

及びこの領域において時間とともに知覚した動作や動作の満足度，もしくは個人の重要な活動変化を評価する

ことに基づいて作業遂行のゴールを設定した作業療法士を手助けするためにデザインされた，包括的でクライ

エント中心のツールである(Law et al. 1990, Law et al. 1994) ．クライエント中心の実践に関する作業療法ガ

イドラインと併せて用いられた COPM は，セルフケアや生産性、余暇の分野において個々の知覚した作業遂

行のアセスメントを提供する (Law et al. 1994, McColl et al. 2000, Finch et al. 2002) ．COPMは作業療法士に

よる半構造化インタビューで行われる 5 つの過程で実施される (Table 21.44) ．インタビューはクライエント

が求めている，必要としている，もしくは実施することを期待されている活動を同定することに焦点を当てて

いる (Law et al. 1990, Dedding et al. 2004) ．ステップ 3 の後，患者とセラピストは治療介入に関するゴール

を設定する．例えば，短期目標の設定や適切な介入の計画において，確認された欠点の本質や原因の理解を増

やす目的で，インタビュアーは観察や標準化されたテストの実施，もしくは患者の環境評価のような他の手段

を通して COPMインタビューの間に集めた情報を補足する必要があるかもしれない (Law et al. 1990)．

70

予備研究のデータは，COPMのインタビュー過程は 20～40分必要であることを示している(Law et al. 1990)．

しかしながら，実施の長さは患者の協力や認知能力に依存するかもしれない(Chen et al. 2002)．COPMは作

業療法士によって実施されるようにデザインされた．COPMをうまく使えるようにトレーニングが薦められ

る．COPMのマニュアルやトレーニングプログラムは www.caot.ca で利用可能である．

Advantages 利点

従来の質問紙またははかりは大抵，前もって決められた活動の選択における遂行を評価しており，個々の回

答者にとって重要でないかもしれない．COPMの項目は固定されておらず，むしろ回答者によって決められ

る．これは手段の信頼性や妥当性に悪影響かもしれないが(Cup et al. 2003)，自己認識した問題や個々の患者

のニードに忠実に焦点を当てている．それゆえ，患者に関連した治療ゴールの確認や治療計画の作成に役立っ

たり，彼らの優先事項を保つのに役立ったりする(Law et al. 1990, Ripat et al. 2001, Wressle et al. 2002, Cup et

al. 2003, Carswell et al. 2004) ．さらなる患者の妥当性は結果として個人のリハビリテーション過程に携わる

ことに関して高められた参加もしくはモチベーションとなるかもしれない (Bodiam 1999) ．個々の患者は

COPMの使用に関してポジティブなフィードバックをもたらす (Dedding et al. 2004) ．

71

Limitations 限界

COPMの使用は，セラピストがアセスメントや実践に対するクライエント中心のアプローチに満足してい

ることが必要とされる(Law et al. 1994)．セラピストは進んで患者と治療上のパートナーシップをつくり出さ

なければならない．クライエントとセラピストは時間や事前暴露もしくは上出来な COPM過程に必要な関係

性を確立するための介入が必要かもしれない(Law et al. 1990, Waters 1995)．さらに，インタビュー過程は関

連した情報を引き出したり，患者中心の治療上の介入を立案したりするのに極めて重要である．しかしながら，

インタビュー過程は標準化されておらず，質やインタビューから得られた情報の妥当性はインタビューによっ

て様々である．

ステップ 1 のインタビューの時に個人の応答が彼らの状況に対して特異的である項目を決定するという理

由から，COPMに関する利用可能な唯一の試験安定性の尺度は，試験・再試験信頼度である(Carswell et al.

2004)．しかしながら，個人に合わせた項目の本質や半構造化インタビューの構成を考えると，異なった結果

を伴ういくらか違ったインタビューは想定された安定状態の範囲内でさえ起こる可能性がある．新たな問題が

起こる可能性があり，過去の問題は日々治まる．さらに，同じ問題が優先事項の変化と重要性の格付けの変化

という 2つの原因で特定される可能性がある一方で，問題の認識は大きく変わる(Cup et al. 2003, Eyssen et al.

2005) ．臨床業務では，結果として起こる信頼性の低下は問題を引き起こさないかもしれない．しかしながら，

アウトカム測定を含めた項目を設定する調査では，信頼性と妥当性が必要とされる (Cup et al. 2003) ．

COPMの様々な項目はまた，ツールの妥当性を確立する困難さをつくり出す．COPMの正当性を立証する

ある試みに対する測定間でのテスト内容における特有の違いは，COPMと他のツール間における報告された

関係性の強さを弱めるかもしれない(Chan & Lee 1997, Cup et al. 2003)．

COPMから得られた結果は，クライエントの過程の理解や自身の状況における見識に対する能力に依存す

る可能性がある．認知障害の他に見識不足もしくはコミュニケーションの問題がある患者は，過程に効率的に

参加することができない可能性があり(Law et al. 1990, Wressle et al. 2002, Cup et al. 2003, Carswell et al.

2004) ，達成不可能もしくは不適切なゴールを求め，過程を厄介なものにし多大な時間を必要とするかもしれ

ない (Wressle et al. 2002) ．著者らは，（患者の）回答が問題の活動を特定できないこれらの場合，介護者も

しくは代理人は患者自身のために回答するかもしれない．しかしながら，介護者もしくは代理人は，患者が同

じ重要性を問題活動として捉えないかもしれないように，同じ欠点や問題を認識していない可能性がある

(Law et al. 1990, Law et al. 1994) ．例えば，最初の予備研究では，Lawら(1990)は，活動の重要性に関して

クライエントとその家族との間で意見の違いを報告した．不幸にも，代理人による COPMの使用を調査した

研究や，患者や家族で認識されている問題の比較を調査した研究はない．

COPMの臨床的有用性を調査した研究では，患者は自己評価課題の難しさや自身の問題をスコアに変換す

る難しさを報告している(Dedding et al. 2004, Bodiam 1999, Wressle et al. 2002) ．Chenら(2002)は，若年の

回答者と比較したとき，高齢の回答者はアセスメントを完了するのにより多くの時間や説明を必要とし，自己

評価の過程を熟知していない．

72

Summary – Canadian Occupational Performance Measure COPMの要約

解釈可能性：COPMはゴールセッティングや適切な患者介入の開発の基盤として使用されるかもしれない．

さらに，スコアは長期にわたる比較を容易にする目的で作りだされる．しかしながら，個人に合わせた尺度の

本質のために，基準値の開発や基準値との比較は不適切である．

受容性：患者は，考えが自身の治療の過程に含まれれば含まれるほど，リハビリテーションのゴールはより関

連したものとなると述べている．しかしながら，何人かの患者は，自己評価の過程や問題をスコアに変換する

難しさを認識している可能性がある．

実現可能性：上出来で信頼性のある COPMの使用には，前もってクライエント中心の実践や COPMの理論的

基礎に関する知識に加えて，トレーニングを必要とする．調査表はマニュアルや教育プログラムとともにカナ

ダ作業療法協会を通じて購入可能である．

21.4.2 EuroQol Quality of Life Scale (EQ5D) ユーロ QOL尺度

ユーロ QOL 尺度（EQ-5D）は多国間の集学的チームによって開発され，健康状態を評価・表現するために

用いられる包括的な調査表である(EuroQol Group, 1990)．EQ-5D は患者負担の有無の表現を要約しわかりや

すくすることを目的としている．一連の一般的な健康関連 QOL の項目や一般的なアセスメントの中核に焦点

を当てている．EQ-5D は共通の参考値扱いに関するデータセットの収集もしくは，他を補って完全にするも

のとしてより総合的な測定を普及させる意向がある(EuroQol Group 1990; Brooks et al. 1996; McDowell and

Newell, 1996; Coons et al. 2000) ．

EQ-5D は自己管理された 2 つの部分からなるアンケートである．1 つめは，5 つの要因（移動の程度，セル

フケア，通常の活動，痛み・不快感，不安・ふさぎ込み）からなる健康に関するシンプルで説明的なプロフィ

ールが含まれる．それぞれの側面は項目に対する 3 つの難しさのレベルに対応して，3 つの状態によって表さ

れる‐ある程度の問題，中等度の問題，極限の問題．回答者は，それぞれの側面において現在のところ最も自

身に当てはまる状態を選択する．

選択されたそれぞれの側面は，数字による採点を受ける（1：ある程度の問題・問題なし，2：中等度の問題，

3：極限の問題）．これらの採点は，それぞれの選択の組み合わせが，健康状態を意味する 5 つの数字を作り出

すように組み合わされる．理論的にいえば，243 通りの表示が可能である．標準的な価値観からスコアを適用

することによって，これらの健康状態は，0（死の状態）から 1（最上の健康状態）の利用価値（QOL 効用値）

に変換される．

73

QOL 効用値はタイム・トレード・オフ法を用いて得られた人口データから算出される(Finch et al. 2002;

EuroQol website, 2003)．値はカナダ，デンマーク，フィンランド，ドイツ，日本，オランダ，ニュージーラ

ンド，スロベニア，スペイン，スウェーデン，イギリス，アメリカ，ジンバブエにおける健康状態に対して導

き出された．

EQ-5D の 2 つめの部分は彼らの現在の健康状態を 0（最悪の状態）から 100（最上の状態）の割合で回答す

る visual analogue scale (VAS)からなる．

EQ-5D は，本来は自己管理向きであったが，インタビューによって管理することも可能である．完了する

までにおよそ 2～3 分要し，3 種類の情報をもたらす；5 つの要因で経験した問題の程度を示しているプロフィ

ール，人口‐加重健康指標，自己評価した現在の健康認識のアセスメント(Coons et al. , 2000)．尺度は公有財

産であり，大部分は無料で使用できるかもしれない．尺度の使用に関する制限のほかに現在の情報や EQ-5D

に関する参考資料はウェブサイト www.euroqol.org. から入手できる．

Advantages 利点

EQ-5D はとても短くシンプルである．高い回答率が報告されている(80% Dorman et al. 1997a; 80% to 86%

- Dorman et al. 1998, 92.5% - Barton et al. 2008) ．欠測値の報告は全体で少ないとはいえ混合された

(Essink-Bot et al. 1997; Dorman et al. 1997a) ．

尺度はまた，かなりの柔軟性を提供している．自己記入式の郵送の文書としてデザインされたが，向かい合

ったインタビューによって管理可能であり，代理人が回答することを評価してきた．さらに，データは 3 つの

異型で表され，用いることが可能である；非加重の回答に基づいた 5 つの領域の患者のプロフィール，健康の

実用性・指標，健康認識の総合評価．

Limitations 限界

報告された妥当性のレベルは，おそらく文書は個々の患者の経時的評価への使用には適していないことを示

唆しているだろう．研究での使用や群間での比較により適しているだろう(Essink-Bot et al. 1997; Dorman et al,

1998)．

Brazier ら(1996)は，高齢世代（平均年齢 80.1 歳）に EQ-5D を使用した時に 10%の欠測値率を報告した．

この見解は EQ-5D の自己記入する能力は年齢や認知機能と直接的に関係していることを示した 1998 年の

Coast らによって支持されている(p<0.0001)．著者らはまた，尺度を完了するためにインタビューを必要とす

る可能性は 65 歳の 11%から 85 歳の 73%まで増加したことを報告した．これは，高齢者の EQ-5D の使用に関

連してコストが増加するだろう．

尺度が脳卒中後において代理の回答者を評価している一方で，Dorman ら(1998)は，代理の回答者がアンケ

ートを患者寄りで完了した場合，信頼性は一貫して低いことを認識した．代理の回答者と患者との間での合意

の度合いは，移動の程度やセルフケアには許容範囲であるが，主観的な分野になればなるほど合意のレベルは

http://www.euroqol.org/

74

低くなる．鬱や不安感があるケースの場合，合意は，より重症の脳卒中患者にとってはもはや危険である

(Dorman et al, 1997c)．同様に，Pickard ら(2004)は，亜急性期における痛み・不快感(kw = 0.21)や不安・鬱

(kw=0.18)の領域に関する最も低い合意のレベルを報告した．しかしながら，患者と代理の間での合意は，特

により主観的な領域において時間とともに改善しているように思える(kw = 0.57 and 0.42 for pain/discomfort

and anxiety/depression at 6 months, respectively)(Pickard et al. 2004)．

EQ-5D の有効性で用いられた健康状態の評価は，タイム・トレード・オフ法から導き出される．これらの

テクニックは偏りやすい可能性があり，一般的な一か八かのテクニックよりは脳卒中に関する，より低い値を

引き出すことを示している(Post et al. 2001)．

Summary‐EuroQol Quality of Life Scale ユーロ QOL尺度の要約

解釈可能性：EQ-5D は実用的な加重（一連の実験的に導かれた評価）に基づいて， 5 つの領域から導かれ

た 5 つの健康状態に関する標準的な利用価値を提供するために人々を対象にしている．これらの加重は数多く

の国や文化で利用可能である．健康プロフィールはまた，5 つの要因の非加重のプロフィールとして考えられ

ている可能性があり，自覚した健康状態の評価に伴って起こる．

受容性：簡潔でシンプルにデザインされたが，欠測値の報告が入り混じっている．Essink-Bot ら(1997)は EQ-5D

に関して NHPや SF-36 よりも高い率の欠測値を報告した．しかしながら，容易さや簡潔さは脳卒中患者への

利用に関して有利である．Barton ら(2008)は，脳卒中患者のグループにおける自己報告の管理に関して 92.5%

の完成度を報告した．移動の程度とセルフケアの領域のみ信頼性がある状態だが，EQ-5Dは代理の回答者を

評価している．

実現可能性：EQ-5D は，郵送もしくは電話調査，向かい合ったインタビューとしてよりも，自己記入のアン

ケートとしてデザインされている．管理するのに特別なトレーニングは必要なく，尺度自体も支援情報も簡単

に入手できる．

21.4.3 London Handicap Scale (LHS) ロンドンハンディキャップスケール

ロンドンハンディキャップスケールは，WHO の ICIDH による社会的不利の定義に基づいて社会的不利のア

セスメントを提供するために開発された(ICIDH 1980)．LHS自体は，“個人の一般的な役割の達成を制限もし

くは妨害する，病気によって被った個人の健康に関する不利”の測定である(Harwood et al. 1994a)．尺度は，

ICIDH や 6 つの側面（移動の程度，身体自立，作業，社会的統合，経済の自給自足）における不利と照らし合

わせて社会的不利を分類する記述的なシステムに基づいた“分類アンケート”である(Harwood et al. 1994a,

Harwood et al. 1994b) ．

LHSの特徴はシンプルな質問からなることである．各質問への回答は，0（極限の不利）から 6（不利なし）

75

の細かい要因の範囲内で，自覚した不利点の 6 つの階層的なスケールを表す 6 つの説明的な文書の形式で提供

される．文書は，人的もしくは物的介助の必要性に関わらず一般的な環境内で何ができるかという観点で示さ

れる．回答者は，最も自身の状況を表している説明的な文書を選択するように指示される(Harwood et al 1994a,

1994b)．

LHSはそれぞれ 6 つの要因内の回答や加重した合計のハンディキャップスコアに基づいて，ハンディキャ

ップ像を提供する．この総合的な加重されたスコアは，回答者のプロフィールで示された健康状態の望ましさ

の見積りとして解釈されるべきである(Harwood and Ebrahim 2000a, 2000b)．マトリックス状のスケール加

重?や総合的なスコアを計算するための一次方程式が提供された．スケール加重は，LHS によって表わされる

考えられる一連の健康状態を評価することを求められる，無作為に選択された 79 人の地域高齢者のインタビ

ューを通じて導き出される(Harwood 1994a, 1994b)．

LHSは介護者もしくは適切な情報提供者によって完了されるかもしれないが，自己報告のアンケートとして

デザインされた(Harwood et al. 1994a)．実施するのにトレーニングを必要としない．

Advantages 利点

LHSは簡潔かつシンプルであり，郵送のアンケートとして使用可能である(Harwood et al. 1994a, 1994b)．

社会的不利の概念は最近の ICF における参加に取って代わったが，LHSにおける社会的不利の特徴は，関連

性があるままであり，参加の領域にマッピングすることが可能である(Jenkinson et al. 2000, Perenboom et al.

2003) ．LHSはオランダ語 (Perenboom et al. 2003) や広東語 (Lo et al. 2001) ，四川語 (Lo et al. 2007) ス

ウェーデン語 (Westergren et al. 2006) ，トルコ語 (Kutlay et al. 2011) を含むいくつかの他言語に翻訳されて

いる．

多くの文書は，参加を ICF のように測定しないが，身体機能や活動の評価は含まれる．11種類の文書の研

究では，LHSは参加の構成概念を最も綿密に測定している 2 つの文書のうちのひとつであると判断されてい

る(Perenboom and Chorus 2003)．しかしながら，著者らは，項目は参加の観点から定式化されているように

思える一方で，ICF の全ての領域における記述的な回答の範囲は身体機能から参加までであると述べた．身体

機能を表した回答文書は，大体は参加の制限と大いに関係している(Perenboom and Chorus 2003)．

Limitations 限界

合計スコアを導き出すための数列の使用は限界とみなされる可能性がある．全体としては，尺度が使いにく

くなればなるほど解釈するのが困難になる(Jenkinson et al. 2000)．初めのスケール加重の数列はたった 79 人

の地域高齢者から提供された評定から開発された．彼らはその後，224 のインタビューを盛り込んで改良した

(Jenkinson et al. 2000)．単純な総和に基づいて簡易化した非加重の採点の枠組みが，最初の加重した書式に対

して同様の情報を提供したことが示された(Jenkinson et al. 2000)．標本に基づいて加重した尺度が一般住民か

ら集められた場合は，個人が自覚した社会的不利の変化を直接的に評価しない(Harwood et al. 1994a)．そのよ

うなものとして，著者らは，尺度は群比較に利用されることを薦めた（例：臨床研究もしくは観察の疫学）

(Harwood et al. 1994a, 1994b)．

76

LHSは疾病による社会的不利や不利点を測定するものとしてデザインされた．一般住民に対して使用するの

は適切でない可能性がある．Dubic ら(2004)は，尺度が健康な地域高齢者の社会的不利を測定ために使用され

た場合の大きな天井効果を報告した．

LHSの使用は研究論文の間では普通に報告されている一方で，少なくとも 1 人の尺度の著者を含まない雑

誌からの LHSの信頼性や妥当性，反応性に関する記載は比較的少ない．さらに，独立評価が必要である．

Summary‐London Handicap Scale ロンドンハンディキャップスケールの要約

解釈可能性：スケール加重の使用は採点や解釈をより難しくする．LHSの合計スコアは 6つの領域の回答

によって提供される不利点のプロフィールの比較的望ましい状況の目安を表す．

受容性：LHSは簡易でとても短い自己報告の測定である．アンケートは（介護者などの）代理人によって完了

されるが，尺度の信頼性に関して代理人による影響はまだテストされていない．

実現可能性：このテストは管理や採点にトレーニングを必要としない．このテストは郵送での管理に適してい

る．

21.4.4 Medical Outcomes Study Short Form 36 (SF-36) SF-36

SF-36はMedical Outcome Studyの一部として一般住民の健康状態を評価するために作られた一般的な健康

調査である(Ware & Sherbourne 1992)．研究によって作り出された最初の 245 項目から得られた 36 項目で構

成される(Ware & Sherbourne 1992; McHorney et al. 1993)．

項目は 8 つの特性もしくは下位尺度に整理された；身体機能，日常役割制限（身体），体の痛み，社会生活機

能，心の健康，日常役割制限（精神），活力，全体的健康感．また，過去 1 年間での健康状態の変化を推測す

る意向がある 2 つの質問が含まれる．これらの 2 つの質問は，8 つの下位尺度とは別々のままであり，採点さ

れない．健康状態の全体的な変化の質問は別として，対象者は過去 4 週間参考に回答することを求められる．

SF-36 の急性版では過去 1 週間のみの問題を参照する(McDowell & Newell 1996)．

推奨された採点方法は加重されたリッカートシステムを各項目に使用することである．下位尺度内の項目はそ

れぞれの下位尺度もしくは特性に対して，合計スコアを提供するために要約された．8 つの合計されたスコア

は，各尺度にスコアを提供するために 0 から 100 のスケールに線形変換された．さらに，身体要素や精神要素

のスコアは尺度の項目から導き出された．いくつかの国における標準化された母集団のデータは，SF-36 で入

手可能である(McDowell & Newell 1996)．構成点はまた，平均 50±10 点で標準化された(Finch et al. 2002)．

77

SF-36 は，自己記入式もしくは自己管理，訓練されたインタビュアーによる電話が可能である．管理するのは

簡単で，完了するのに 10 分もかからないと考えられている(Andresen & Meyers 2000)．SF-36 を使用するた

めの許可は，標準化された SF-36 の管理を監視し運営やスコアの最新情報を提供する Medical Outcomes Trust

から入手できるだろう(McDowell & Newell 1996)．インターネットからダウンロードできる無料のエクセルテ

ンプレートを含む様々なコンピュータアプリケーションが SF-36 の採点を補助するのに利用可能である

(Callahan et al. 2005)．

Advantages 利点

SF-36 は管理が容易である．自己記入式もしくはインタビューの書式のどちらも完了するのに 10 分未満で

ある(Hayes 1995)．自己記入式としての，メールでのアンケートは適度な高返答率を示した(83% – Brazier et al.

1992, O’Mahoney et al. 1998; 75% - 83% Dorman et al. 1998; 85% - Dorman et al. 1999; 82% overall & 69%

for those over age 85 - Walters et al. 2001) ．

Limitations 限界

自己記入式の書式を用いたときに，高齢者においてより高い率の欠測値が報告された(Brazier et al. 1992;

Hayes et al. 1995; Brazier et al. 1996) ．O’Mahoney ら(1998)は項目の完成率は 66%から 96%であったと報告

した．尺度のレベルでは，完成したデータの収集（コンピュータで必要とされる尺度のスコア）は 67%（日

常役割制限‐精神）から 97%（社会生活機能）であった．Walters ら(2001)は地域高齢者における尺度の完成

率は，72%の回答率で 8 つの尺度において 86.4%から 97.7%であったことを報告した．Dorman ら(1999)は尺

度の欠測値の割合は 2%（社会生活機能）から 16%（日常役割制限‐精神）であったと報告した．データの完

全性の不足が見つかった事を考えると，SF-36 の郵送での管理は高齢者には適切でない．けれども，低い完成

率は自己記入式もしくは郵送での管理に限局されないかもしれない．Andresen ら(1999)は，SF-36 を高齢者

福祉施設の住民に向かい合ったインタビューの形式で実施し，5 人のうち 1 人だげが SF-36 を完了したと報告

した．

データの完全性は回答者の受け入れや彼らに関連のあるものとしての調査に対する理解を示している可能

性がある(O’Mahoney et al. 1998; Andresen et al. 1999) ．Hayes ら(1995)は，自己記入式のアンケートで欠け

ている最も共通した項目は，仕事もしくは精力的な活動であったと述べた．高齢の回答者らは，これらの質問

は若年の人に適しており自身の状況と関連がないと認識した．著者らは，高齢者の容認性が向上する可能性が

ある一部の質問の修正を提案した．SF-36 の身体機能や全体的健康感の側面の質的な評価において，

Mallinson(2002)は 65 歳以上の参加者はインタビュー過程からの離脱の兆候を示す傾向があり，何人かの参加

者は質問の関連性に関して不安を示したことを述べた．また，項目の主観的解釈でかなりのばらつきが示され

ており，多くの参加者は質問者に対して回答を明確にするために適格な文脈上の情報を用いた．Mallinson が

指摘したように，主観的な解釈や文脈の個人的な問題は，アンケートが採点されたときに戸惑う．

SF-36 は全体の要約スコアの創出と結び付かない．リッカートスケールを用いた尺度では，個々の回答に含

まれる情報は合計のスコアに紛れてわからなくなる（例：どんな一定の合計スコアでも個人の項目の回答によ

る様々な方法で得ることができる）(Dorman et al. 1999)．Hobart ら(2002)は，心の健康の要素と身体の健康

78

の要素からなる 2 次元モデルの使用を調査し，これらの 2 つの尺度は，SF-36 のスコアにおけるバリアンスの

唯一 60%の割合を占めることを発見し，2 つの要素のモデルを用いた場合の情報の重大な喪失を示した．最近

の SF-36 の因子分析において，Dallmeijer ら(2006)は，SF-36 を構成する 8 つの因子が支持された一方で，脳

卒中患者に対する 2 つの要約尺度の使用は，もし 2 つの要約尺度の使用が合計のバリアンスの 56%を占め，

因子負荷量が最初の因子構造から逸脱するなら再考されるべきである．さらに，全体的健康感，活力，心の健

康の下位尺度は，脳卒中患者を評価した場合に 1 次元性が欠落している(Dallmeijer et al. 2006)．

脳卒中患者で報告された試験・再試験信頼度のレベルは，SF-36 は個々の患者の連続比較に適切ではないか

もしれないが，どちらかといえば大きな群比較にのみ用いるべきであることを示している(Dorman et al. 1998)．

Weinberger ら(1996)はまた，短いテストの合間で共通の管理のモデル（向かい合ったインタビュー，自己管

理，電話インタビュー）を通じて入手した SF-36 のスコアの絶対的な相違が与えられた，個人の連続的評価に

おける SF-36 の実用性を疑問視した．

代理の回答者と患者の回答者との間において低い同意率が報告され(Segal & Schall 1994)，試験・再試験信

頼度はまた，代理人の回答者の悪影響を受けたことを示している(Dorman et al. 1998)．代理人の使用がより重

度の脳卒中患者からのデータを盛り込む唯一の手段かもしれない一方で，SF-36 の主観的な性質は，代理人の

使用を困難にする可能性がある，もしくはなおさら薦められないかもしれない(Dorman et al. 1998)．

Summary‐Medical Outcomes Study Short Form 36 SF-36の要約

解釈可能性：尺度のスコアや要約した構成点の使用は情報の喪失を表し，臨床的な解釈の可能性を減少させ

る．いくつかの国の標準化された基準が SF-36 で利用可能である．

受容性：自己記入式もしくはインタビューによるアンケートで完了時間はおおよそ 10 分である．いくつかの

項目は高齢者との関連について疑問視されている．しかしながら，SF-36 は代理人による使用に関して研究さ

れており，テストの信頼性は，代理の回答者が評価を完了したときに低下する．

実現可能性：SF-36 は自己記入式もしくはインタビュー（電話もしくは人）によって実施可能である．SF-36

は比較的高い完成率の郵送調査として利用されているが，入手したデータはインタビューのほうがより完璧で

ある．文書の使用許可や管理や採点に関する追加の情報は Medical Outcomes Trust から入手できる．

21.4.5 Nottingham Hearth Profile (NHP) ノッティンガム健康プロフィール

ノッティンガム健康プロフィールは，病気による社会的・個人的影響の周囲を取り囲む，知覚した健康の主

観的な測定を簡潔にするためにデザインされた(Hunt et al. 1980; Hunt et al. 1981; Hunt et al. 1984, Hunt et al.

1985) ．NHPは健康関連 QOL の測定もしくは特定の健康状態を認識する手段として意図しているものではな

79

い (Hunt et al. 1984; Bowling, 1997) ．項目も加重も一般人の考え方を反映することを目的としており，700

以上の急性期・慢性期の病気患者から集めた健康障害の影響に関する記述から導き出された (Hunt et al. 1981;

McDowell & Newell, 1996) ．

NHPは 2 つの部分からなる．パート 1 は 6 つの要因もしくは自覚的健康の小区分に分けられた 38 項目を含

む：身体動作（8 項目），疼痛（8 項目），睡眠（5 項目），社会的孤立（5 項目），感情的反応（9 項目），活力

（3 項目）．各項目は潜在的な問題の声明となって現れる．回答者は，項目が現在の自身に当てはまるかどう

かに関わらずそれぞれのメッセージに対して「はい」もしくは「いいえ」で答える．各メッセージには自覚し

た重大性に基づいた加重がつく．加重は項目を各要因に合計 100 点で割り当てる．仮にメッセージが確認され

たら，関連した加重で採点される．区分内の全ての加重された回答は，100 点のうち，その要因の合計スコア

を出すために計算された．スコアが高いほど乏しい健康状態の知覚と一致する．6 つの要因の結果は，合計ス

コアを出すために混合すべきではない．

パート 2 は回答者の健康による影響を受ける可能性がある領域もしくは活動を表している 7 つの項目を含

む：仕事，家事，社会生活，家族生活，性的機能，趣味，休日．回答者は，それぞれの領域が回答者の現在の

健康状態の影響をうけているかどうかに関して「はい」か「いいえ」で回答する．パート 2 の項目は加重され

ない．7 項目のスコアはポジティブな回答の数と合わせることによって得られる．パート 2 の管理は選択自由

である．

NHPは自己記入もしくはインタビューによって管理される自己報告アセスメントである．完了にはおよそ

10 分要する．ユーザー用マニュアル(Hunt et al. 1989)だけでなく健常人の年齢や集団，性別，社会階級による

基準スコアも利用可能である(Hunt et al. 1985)．

Advantages 利点

NHPは容易で簡潔な測定である．報告された完了時間は 5～15 分であり，もしインタビューが必要でなけ

れば，実施の負担は最小である(de Haan et al. 1993; Coons et al. 2000) ．郵送アンケートとして報告されて

いる回答率は，68%～93%である (Hunt et al. 1985; Brazier et al. 1992; Ebrahim et al. 1986) ．Ebrahimら

(1986)は低率の欠測値を報告した(4～7%)．

NHPは幅広く使われており，大々的に研究されている．NHPはヨーロッパで使うために開発された，健康

感の最初の測定である．

Limitations 限界

全体的に，NHPはいくらか制限された測定である．感覚障害や失禁，食事の問題，恥辱，記憶，知的能力，

経済的な苦しさのような不安の多くの領域を評価しない(Bowling, 1997; Ebrahim et al. 1986)．NHPは問題の

有無のみを評価している健康の負の測定であり，ポジティブなアウトカムもしくは感情の存在を扱っていない

(Hunt et al. 1985; Bowling, 1997)．スコア 0は NHPで表わされた問題がないことを示し，幸福感を示してい

ない．

80

パート 1 の文書は重大な問題を反映しており，これは病気の少ない人における尺度の有用性を制限するかも

しれない．天井効果の行き渡りを考えると，NHPは健常人もしくは軽微の疾患や悩みのみを経験している人

には適していない(de Haan et al. 1993; Bowling, 1997; Stansfeld et al. 1997; Coons et al. 2000) ．

加重の使用は，不適切で混乱させるとして批判されている(Jenkinson, 1991; Anderson et al. 1993)．

Jenkinsonの 1991 年の研究では，回答するための 0や 1 という数字を与え，各セクションにおけるポジティ

ブな回答を合計し，総計を割合として表した．このシンプルな方法で導き出されたスコアは従来の加重方法を

用いて入手した結果と強い相関がみられ(r=0.98; p<0.001)，加重の使用は不必要かもしれないことを示してい

る．

パート 2 は十分に研究されていない．最も評価を行った研究はパート 1 に関連する．これはおそらく選択が

自由の本質によるかもしれない．パート 2 の適用は，高齢者や失業者，身体障害者のような多くの対象者に対

していくつもの項目が不適切もしくは無意味としてパート 1 よりも制限されるかもしれない(Bowling, 1997)．

さらなる発展的な研究の後で，著者らはもはやパート 2 の使用を勧めないということが報告されている

(Bowling, 1997; Coons et al. 2000)．

Summary‐Nottingham Hearth Profile ノッティンガム健康プロフィールの要約

解釈可能性：NHPはヨーロッパで幅広く使用されており，よく研究されている．完全なユーザー用マニュ

アルは一般の基準や個々の患者群に関するスコアとして利用可能である(Hunt et al. 1989) (Hunt et al. 1984) ．

受容性：NHPは簡潔で少しの時間で完了できる．高い回答率と低い欠測値は回答者に受け入れられ安いこと

を示している．しかしながら，NHPは代理の回答者について検証されているものの報告された信頼性は低い．

実現可能性：NHPは自己報告アンケートもしくはインタビューとして処理が可能であり，郵送の調査として

用いられている．NHPは一般の健常人もしくは少しの障害を受けた集団での使用には適さない(Bowling, 1997)．

21.4.6 Reintegration to Normal Living Index (RNLI)

RNLI (Wood-Dauphinee and Williams 1987; Wood-Dauphinee et al. 1988) は，外傷性疾患もしくは再起不能

の疾患を経験した個人が復帰を達成する程度を定量的に評価する簡潔で容易な方法として開発された．正常な

生活への復帰は著者らの“人が再起不能の疾患や外傷の後に，うまく順応した生活を再開するための身体や精

神，社会的な個人の特性の再編成”によって定義された (Wood-Dauphinee and Williams, 1987) ．

文献のレビューや，診察や様々な専門領域，患者，患者の親族，聖職者による健康管理の専門家で構成され

る諮問委員会から集めた情報に基づいて，11の文が作成された．それぞれの文は回答者が 10cmの VAS（1～

81

10 で状況を表している程度を表現）で回答する． 100 点満点のスコアに比例的に変換される 110 点満点の合

計スコアを提供するために個々の項目のスコアが加えられた(Wood-Dauphinee et al. 1988)．RNLI 内の 2 つの

下位尺度（日常機能，自己認識）が確認された．これらは回答をそれぞれ最初の 8 つの文と最後の 3 つの分に

組み合わせることで計算される．

3分類と 4分類の採点システムが開発されたが(Wood-Dauphinee et al. 1988)，10cmの VASが採用された．

にもかかわらず，3 分類の採点システムが脳卒中患者の評価では用いられている(Mayo et al. 2000, Mayo et al.

2002) ．3 分類のシステムでは，追加のカテゴリーは 2 つのアンカーポイントの間に加えられ，回答者は 3 つ

のカテゴリーから最も当てはまるものを選択した．この選択肢は 0 から 22 の合計の尺度のスコアを与える．

RNL は短くて簡潔である．使用にトレーニングは必要なく，無料で使用できる．患者や代理人の書式は英

語やフランス語で利用できる．

Advantages 利点

RNLI は簡潔でシンプルな評価ツールである．訳文は患者もしくは適切な代理人回答者に英語かフランス語

で利用可能である．RNLI は年齢や性別に影響されないと思われる(Steiner et al. 1996, Carter et al. 2000) ．

RNL は社会で標準と考えられていることの達成よりもむしろ個人の能力や個人の自主性に関する気づきに

焦点を当てている(Cardol et al. 1999)．RNLI自体は患者中心の回復の評価である．

Limitations 限界

健康管理の専門家と患者による回答において低い相関関係が報告されている．主観的な文の本質を考慮する

と，著者らは健康管理の専門家を代理人として使うことを推奨していない(Wood-Dauphinee et al. 1988)．

下位尺度の使用が単一の合計スコアよりも多くの情報を提供する可能性がある一方で，理想的な下位尺度の

構成は不透明である．主成分分析を用いて，指標の 2 因子構造が確認されている(Stark et al. 2005)．しかしな

がら，因子の構成は RNLI の著者らによって確認された因子とは大幅に異なる．Stark ら(2005)は，2 つの要因

の存在を報告した：1 つは，“social”に分類され 6 項目で構成されている（これらは人間関係や家族の役割，

社会化，生活上の出来事に対する対処，社会活動，娯楽活動と関係している）．一方，2 つめは，“physical”

に分類され，5 項目からなる（これらは家の中の移動や社会での移動，旅行，セルフケア，生産性と関係して

いる）．著者らは，この違いはWood-Dauphinee ら(1998)の初期の有効性を確認する研究で用いられた患者集

団と比べて異なる患者集団を用いたことによるものであるかもしれないと述べている(Stark et al. 2005)．尺度

の因子構造の確認は脳卒中患者を用いて行われていない．

RNLI が脳卒中患者個人の評価に用いられる一方で，その信頼性や妥当性は患者間で十分に検証されていな

い．さらに，脳卒中患者の評価における VASの使用は適切でない．Price ら(1999)は，脳卒中患者に対する VAS

の使用を調査し，VASは調査した尺度の中で最も感度が高いが完成度の低さと関連していることを報告した。

VASを正確に完成できないのは触覚の不注意や半側無視，認知・視空間障害と関連している．明確な評価体系

82

（この場合は，ない・軽度・中等度・重度で構成される）は大抵 VASよりも正確に完成されている．RNLI に

関する 3 段階の評価体系が開発され脳卒中患者で用いられている一方で，3 段階の反応形式の信頼性や妥当性

は調査されていない．

一般的に受け入れられている現在利用可能な解釈の基準はない．RNL スコアの区分はクモ膜下出血後の患

者の研究で公表されている(Carter et al. 2000)．この区分では，重度の機能障害はスコア 0～69，中等度は 60

～79，軽度は 80～99 である．スコア 100 は機能障害がないことを表している．しかしながら，この提案され

ている区分は SAH 患者の小標本を用いて求めている．脳卒中患者への特化を抑えた大規模なさらなる調査が

必要である．

Summary‐Reintegration to Normal Living Index RNLIの要約

解釈可能性：一般的に受け入れられている解釈の基準はない．重度，中等度，軽度の機能障害に対するスコ

ア区分が提案されているが，提案されたスコア区分は小標本に基づいている．大規模な追加の調査が必要であ

る．

受容性：簡潔でシンプルな RNLI の管理は最小の患者負担を表している．重要な他者（大切な人）が使用した

場合，代理で回答することの評価は適度に信頼できる．

実現可能性：使用前に尺度の作成者に連絡を取ることを勧めているが，RNLI は無料で使用できる．管理にト

レーニングを必要とせず，縦断的研究での使用を評価している．

21.4.7 Stroke-Adapted Sickness Impact Profile (SA-SIP-30)

SIPは，本来は健康調査やプログラム計画，政策形成，病気の観点からの患者のモニタリングに用いること

を目的とした，包括的で行動に基づいた健康状態の認識の測定である(Bergner et al. 1976, 1981)．SIPは健康

関連 QOL の評価においてよく用いられる一般的なツールのひとつである．

SIPの使用における主な欠点はその長さである．SIPには 136 の項目が含まれ，完了までに 30 分以上を要

する．SIP自体は考慮すべき患者の負担を表しており，臨床試験や研究への適用に対する管理の難しさをもた

らすかもしれない．長い SIPに関連する受容性や実現可能性の問題を打開するために，脳卒中のアウトカム研

究において SIP の簡易版が開発されている(van Straten et al. 1997)．

SIPの簡易版(SA-SIP-30)は原版から直接的に生じている．Van Straten ら(1997)は脳卒中患者に関連の少な

い項目や下位尺度と，信頼性の低い項目を除外するために 3 段階のプロセスを実施した(van Straten et al.

1997; Golomb et al. 2001)．最終的に 8 つの下位尺度（ボディケアと運動，社会的相互作用，モビリティ，コ

83

ミュニケーション，情動行動，家庭経営，隙のない行動，移動）の 30 項目からなる．項目は，健康状態に対

する相対的重要度を反映するために加重された．SA-SIP-30 で用いられた加重は SIPと同じであり，保健の専

門家や

学生，保健計画のメンバーによって導き出された(de Bruin et al. 1992)．

各項目は，日常生活のある側面において，病気の影響を反映している行動の変化を表した記述という形とな

る．

回答は，最も自身を表している項目の採点を求められる．SA-SIP-30 を記録するために採点した項目に加重が

適用され，各下位尺度に加えられ，各下位尺度において割合（%）で表わされる．ハイスコアはよくない健康

状態を表す(van Straten et al. 1997; Finch et al. 2002; Cup et al. 2003)．下位尺度は 2 つの側面（身体的，心理

社会的）の形式を組み合わせることが可能である(van Straten et al. 1997)．

使用者マニュアルや指導者マニュアルが元の SIP に使用可能であるが，特別な道具やトレーニングを必要と

しない(McDowell & Newell 1996)．元の SIPのように，SA-SIP-30 はインタビューによって実施可能である．

Advantages 利点

SA-SIP-30は SIPよりも短くて簡潔であり，脳卒中患者のアウトカム研究での使用に適している(Finch et al.

2002)．作者ら(van Straten et al. 1997)は，SA-SIP-30 のスコアから予測した SIPのスコアの計算を考慮する

ための回帰加重を提供した．SIP の下位尺度の構造を維持することに加えて，これらの加重は SIPの 136 項目

を用いた研究の比較を容易にする．さらに，van Straten ら(2000)はよくない健康状態を表すカットオフ値を確

認した．33 以上のスコアの患者は ADL に問題があると報告されており，独立して生活できず，セルフケアや

モビリティ，主な活動でのパフォーマンスにいくらかの問題を経験しており，健康関連 QOL に関して低値が

報告されている．身体の側面のスコアが 40以上で同様の分析結果がみられたが，社会心理的側面を用いてカ

ットオフ値を定めることができなかった(van Straten et al. 2000)．

Limitations 限界

SA-SIP-30 を作る過程において，脳卒中と関連性の低い項目は除外された(ie. applying to fewer than 10% of

stroke patients)．しかしながら，尺度を脳卒中に対する潜在的重要性の項目もしくは領域で補う試みは行われ

なかった．脳卒中適用版は疼痛やレクリエーション，活力，基本的な健康の自覚，QOL 全体や脳卒中の兆候

を評価していない(Golomb et al. 2001)．

除外された項目の加重の調査において，van Straten ら(1997)は，（SIPの）より高い項目の加重は，除外さ

れた項目と関係しており，より重度な健康状態を表している傾向があると述べた．それゆえ，SA-SIP-30 は重

度の脳卒中患者にはあまり効果的ではないかもしれない．SIPの 136 項目から入手したスコアと SA-SIP-30

との間での一致はより健康な患者間よりも重症な患者間において低かった(van Straten et al 1997)．

SA-SIP-30 の合計スコアは，大部分は身体の側面で解釈されるように思える(van Straten et al. 2000)．より

包括的な健康状態を構成するものもしくは健康関連 QOL を表すというよりも身体の能力障害の評価を表して

84

いるかもしれない．

Summary‐Stroke Adapted Sickness Impact Profile SA-SIP-30 の要約

解釈可能性：SA-SIP-30 から得て見積もった SIP のスコアを計算することの提供に加えて，SIPの元の仕組

みの維持やスコアリングの手順は解釈可能性を高めている．よくない健康状態に関するカットオフ値提案され

ている(van Straten 2000)．

受容性：SA-SIP-30 は SIPよりも短くて簡潔であり，それによって患者の負担を軽減している．SIPは代理の

回答者に対する使用を検証している．

実現可能性：短くて簡素な SIPは負担の少なさを表しており，研究や臨床で用いやすい．

21.4.8 Stroke Impact scale (SIS)

SISは脳卒中に特異的で総合的な健康状態の測定である．尺度は患者と介護者からの情報により開発され

(Duncan et al. 1999)，機能障害から参加にわたる領域を含む意図がある(Duncan et al. 2000)．

バージョン 2.0は 8 分野（筋力，手の機能，ADL / IADL，モビリティ，コミュニケーション，感情，記憶と

思考，参加）の 64 項目から成っている(Duncan et al. 1999)．ラッシュ分析の結果に基づいて，バージョン 3.0

を作成するためにバージョン 2.0 から 5 項目を除外した(Duncan et al. 2003)．SISは患者に基づいた自己報告

の尺度であり，各項目は過去 1 週間に対象者が経験した，各項目を完了する難しさを 5 段階のリッカートスケ

ールで評価する．スコア 1 は項目を完了できないことを表しており，スコア 5 は項目を完了するのに何ら難し

くないことを表している．SF-36 で用いたのに相当するアルゴリズムを用いて，総スコアは各分野で生成され

た．分野のスコアは 0 から 100 である．SIS 2.0 の要因分析は，4 つの身体領域（筋力，手の機能，モビリテ

ィ，ADL / IADL）は単一の身体領域のスコアを作るために合計することが可能である一方で，他の領域のスコ

アは別々のままである(Duncan et al. 1999)．ある項目は対象者全体の回復の知覚の評価を含んでいる．この項

目は 0 から 100 の VASで提示され，0 は“回復していない”，100 は“完全回復”を表す．

SISは当初は向かい合ったインタビューでの管理で開発された．およそ 15～20 分要することが報告されて

いる(Finch et al. 2002)．SIS 3.0 の管理やスコアリングの説明はインターネットを通じて入手できる

www2.kumc.edu/coa. ．

Advantages 利点

SISは複数のテストを必要としないで脳卒中の回復における様々な領域を評価することを意図している

(Duncan et al. 2000)．これは患者負担の軽減と研究者にとっての実現可能性の増加を表しているかもしれない．

85

ドイツやポルトガルバージョンが開発され，評価されている(Petersen et al. 2001, Carod-Artal et al. 2008)．

分野による臨床的重要性の違いの見積もりは，繰り返しの評価から生じる結果の解釈可能性を改善させるか

もしれない(Lin et al. 2009)．

Limitations 限界

感情の分野は他の 7 分野よりも精神測定的に好ましくないように思われ(Duncan et al. 1999)，バージョン

3.0 でさえ感情の項目は単純さによって制限されていると報告されている．つまり，重度の脳卒中患者のみ困

難さを評価することができる(Duncan et al. 2003)．この尺度の精神測定の受容性に関する追加の研究が必要で

ある．

他の健康関連 QOL の多次元評価に関して，患者と代理の評価者間での一致は観察可能な行動を評価する領

域において強かった(Duncan et al. 2002)．これはまた，Carod-Artal ら(2009)によって報告されており，彼ら

は低いレベルの一致は記憶，コミュニケーション，感情，社会参加の領域であることを示している．この 2 つ

の研究において報告されたバイアスの規模は小さいが，代理の評価者は患者自身の評価よりも患者を悪く評価

する傾向があり(Duncan et al. 2002, Carod-Artal et al. 2009)，特に筋力，ADL，複合の身体領域においてその

傾向がある(Carod-Artal et al. 2009)．

Summary‐Stroke Impact Scale SISの要約

解釈可能性：標準スコアや基準のスコアはない．この尺度は新しく，利用可能な情報が限られている．

受容性：患者中心の尺度の開発は患者に対する関連性を高め，様々なレベルでの評価は患者の負担を軽減する

可能性がある．この尺度は代理の回答者が使用することを評価している．

実現可能性：管理しやすく，メールのアンケートとして使用することを検証している．

21.4.9 Stroke Specific Quality of Life Scale (SSQOL)

SSQOL は脳卒中患者に特異的な健康関連 QOL を評価することを意図した患者中心のアウトカム測定であ

る．尺度の領域や項目は，脳梗塞患者への一連のインタビューに由来している(Williams et al. 1999a,

Kelly-Hayes 2000)．

SSQOL は 12 領域（動作，活力，上肢機能，仕事／生産力，気分，セルフケア，社会的役割，家庭内役割，

視覚，言語，思考，性格）の 49 項目を含む自己報告の尺度である．

86

それぞれの項目は 3 つの主要な回答パターンのひとつを選んで 5 段階のリッカートスケールで評価する

(Williams et al. 1999a)．高スコアはよい機能を表す．SSQOL には領域スコアと SSQOL全体の要約スコアが

ある．領域スコアは加重されていない関連した項目の平均である一方で，要約スコアは加重されていない全

12 領域のスコアの平均である(Williams et al. 1999b)．

Advantages 利点

開発の方法は，確実な内容妥当性や，患者に基づいた脳卒中患者に意義のある測定を用いた(Williams et al.

1999)．デンマーク語やドイツ語，中国語版が開発された(Muus et al. 2005, Ewert and Stucki 2007, Muus et al.

2007, Muus et al. 2009, Muus et al. 2011, Hsueh et al. 2011)．

Limitations 限界

SSQOL は新しい尺度で十分に研究されていない．重度の脳卒中患者で検証されていない．

SSQOL は長い間に変化に対してよい感度を示すように思えない．作成者らは，SSQOL の半分の領域は中

等度のエフェクトサイズを示さず，介助量の回答パターンは反応性が不足しているように思えると報告した

(Williams et al. 1999a)．最近になって，Linら(2010)は脳卒中後の上肢機能のリハビリテーションを目的とし

た治療介入の前と介入から 3 週間後に行った評価に基づいて，SSQOL の領域の SRM値は-0.03（セルフケア）

から 0.17（言語）であったことを報告した．SSQOL の合計スコアの SRM値は 0.14 であった．

代理の回答者による SSQOL の使用がいくつか研究されている．身体領域の評価者間の一致は優れていたと

報告されているが，回答は観察よりも個人の意見や判断に基づいている可能性があり，患者と代理の回答者間

の関係性は弱い(Williams 2000, Williams et al. 2006, Muus et al. 2009)．代理の回答者から得られる情報は実質

的にというよりむしろ補助的に扱うことや，代理人の使用は同居人もしくは毎日患者に接する人に限定するこ

とが薦められている(Snow et al. 2005, Muus et al. 2009)．

Summary‐Stroke-Specific Quality of Life Scale SSQOL の要約

解釈可能性：比較に使用するための標準化された値や基準値はない．

受容性：患者中心の展開は評価しようとしている患者に対する関連性を高めるかもしれない．

実現可能性：使用にあたってトレーニングを必要としない．SSQOL は自己報告のアンケートである．

87

21.5 Conclusions and Recommendations 結論とアドバイス

脳卒中リハビリテーションのアウトカム測定の文献から得られる測定の質のレビューから以下の主な結論

が出された．

1．一般的に使われている測定の信頼性や妥当性を評価するための十分な情報があるように思える．

2．これらの評価ツールの測定の質を調査するアプローチは一貫性がない（特に妥当性に関して）．

3．信頼性や妥当性と比較して，測定の反応性に関する極めて少ない情報が利用できる（Table 21.42，21.43，

21.44 参照）．

4．ICF 分類の 3 つのカテゴリーのうち，参加のカテゴリーが最も以下のことに関して問題であるように思え

る．(a)測定を必要とする領域の範囲が一致していない．(b)一般に，主観的な QOL と比較して，健康関連

QOL のほうが重要視されている．(c)ICF の 3つのカテゴリー全てから測定の混合が含まれている．

5．アウトカム測定の選択を確かにする方法に関する，非常に少ない特定のアドバイスを提供する文献は臨床

の意図や研究の論題に適している．この基準で測定を評価することは不可能であることが分かった．適切

性の概念と妥当性との関係はある意味で脳卒中リハビリテーションのアウトカム測定の選択を促すという

ことを説明できない．

関係者の見解から脳卒中に関連した疾患の全ての重要な特徴に有効なリハビリテーションの単一の形式は

明らかにない．それゆえ，特定の領域の介入における強いエビデンスは，この介入が全ての領域において期待

できるアウトカムをもたらす可能性を必然的に示すということを当然と思わないようにすべきである．我々の

レビューからの結論に基づいて，我々は SREBR からの臨床的有意味性を高める方法に関して読者に以下のア

ドバイスを提案する．

1．可能な限り，理論の脈絡や概念的枠組み，もしくは治療とアウトカムの関係を理解するモデルの範囲内で，

脳卒中リハビリテーションの特定の様式に関するエビデンスの長所を解釈しようとすること．そうするこ

とで，自身の臨床の関心に最も適している信頼性，妥当性，反応性に関する形式や基準，時間枠を決定す

るのに役立つだろう．

2．利害関係者の価値や考え方のバランスを考えることは，エビデンスの長所を理解するのに最も重要である．

これらの考え方から信頼でき，妥当で反応性のある測定を用いた研究のエビデンスに関心を持つべきである．

3．脳卒中リハビリテーションにおいて関心のある領域に関するエビデンスの長所の報告で用いられた，アウ

トカム測定の本質や範囲を注意深く調査すること． 3 つの ICF のカテゴリーの中で用いられた測定の本質

や範囲の多様性が存在し，それぞれの領域において成功したリハビリテーションアウトカムの最も重要な

インディケーターは何かということに関する合意不足がある．

88

21.5.1 Evaluation Summaries by ICF Category ICF カテゴリーによる評価の要約

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

Documents

21. Outcome measures in Stroke Rehabilitationa.matsuo/pdf/a21.pdf4 21. Outcome Measures in Stroke Rehabilitation 脳卒中リハビリテーションにおける帰結測定 21.1 Introduction