61
部会資料 ICH E10 ガイドラインに関する 統計的諸問題 平成 15 6 医薬品評価委員会 統計・DM 部会 発行 医薬出版センター

ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

  • Upload
    lexuyen

  • View
    233

  • Download
    5

Embed Size (px)

Citation preview

Page 1: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

部会資料

ICH E10 ガイドラインに関する 統計的諸問題

平成 15 年 6 月

日 本 製 薬 工 業 協 会

医薬品評価委員会 統計・DM 部会

発行 医薬出版センター

Page 2: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

ICH E10 ガイドラインの運用に関する統計的諸問題の検討

資料作成者

第 1 検討グループ ICH-E10 サブグループ

長谷 文雄 味の素ファルマ株式会社

安達 毅 シェリング・プラウ株式会社

(現:日本ベーリンガーインゲルハイム株式会社)

北川 忠行 田辺製薬株式会社

東郷 香苗 日本化薬株式会社

乙黒 俊也 日本たばこ産業株式会社 (~平成 14 年 1 月)

中水流 嘉臣 日本たばこ産業株式会社 (平成 14 年 2 月~)

八木 伸高 日本ベーリンガーインゲルハイム株式会社

平岡 毅彦 丸石製薬株式会社

秋山 浩喜 明治製菓株式会社

矢島 勉 持田製薬株式会社 (リーダー)

杵渕 隆二 山之内製薬株式会社

村本 吉弘 ヤンセン ファーマ株式会社

第 1 検討グループリーダー 竹綱 正典 日本イーライリリー株式会社

同 サブリーダー 小宮山 靖 ファイザー製薬株式会社

監修

統計・DM 部会 部会長 前田 博 藤沢薬品工業株式会社

同 副部会長 上坂 浩之 日本イーライリリー株式会社

同 副部会長 東宮 秀夫 住友製薬株式会社

同 副部会長 酒井 弘憲 三菱ウェルファーマ株式会社

以上の資料作成に当たり、医薬品評価委員会 魚井委員長ならびに本資料の査読を実施頂いた

査読担当の諸氏に感謝致します。

Page 3: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ
Page 4: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

1. 緒言 ................................................................................................................1

1.1 はじめに ...................................................................................................1

1.2 構成 ..........................................................................................................2

2. 優越性試験と非劣性試験 ................................................................................3

2.1 優越性試験................................................................................................3

2.1.1 仮説構造 .............................................................................................3

2.1.2 優越性試験の長所 ...............................................................................3

2.1.3 問題点 ................................................................................................4

2.1.3.1 対照薬にプラセボを用いる場合 .......................................................4

2.1.3.2 対照薬に実薬を用いる場合 ............................................................5

2.2 非劣性試験................................................................................................6

2.2.1 仮説構造 .............................................................................................6

2.2.2 非劣性試験の長所 ...............................................................................6

2.2.3 問題点 ................................................................................................7

2.2.4 非劣性の限界値 ..................................................................................8

3. 非劣性試験において検討すべき事項............................................................. 11

3.1 試験計画時に検討すべき事項(非劣性試験の成立要件) ............................ 11

3.1.1 過去の試験の利用可能性 .................................................................. 11

3.1.2 試験デザインにおける工夫 ...............................................................14

3.1.3 比較の公平性 ....................................................................................15

3.2 試験終了時に検討すべき事項..................................................................16

3.2.1 試験の質 ...........................................................................................16

3.2.2 過去の試験との類似性 ......................................................................16

3.2.3 分析感度 ...........................................................................................17

4. プラセボ対照 ................................................................................................18

4.1 プラセボ対照を試験に含めるか否かの判断.............................................18

Page 5: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

4.2 プラセボ効果 ..........................................................................................21

4.3 プラセボ効果の要因................................................................................22

4.4 プラセボはパワフルかパワレスか...........................................................24

4.5 プラセボ使用の問題点 ............................................................................25

4.6 ヘルシンキ宣言とその議論 .....................................................................27

4.7 プラセボを用いるための試験デザインの工夫 .........................................29

4.8 Putative Placebo (Imputed Placebo) .......................................................30

5. 仮説構造 .......................................................................................................32

5.1 3 群比較試験の仮説構造 .........................................................................32

5.1.1 比較の対 ...........................................................................................32

5.1.2 過去に行われた議論 .........................................................................32

5.1.3 個々の比較の重要度 .........................................................................33

5.1.4 例数設計の観点から .........................................................................33

5.1.5 リスク管理の観点から ......................................................................34

5.1.6 被験薬と実薬対照の比較の位置づけ .................................................35

5.2 被験薬の複数用量群とプラセボ群、実薬対照群を持つ多群試験の

仮説構造 .................................................................................................38

6. その他のトピックス .....................................................................................42

6.1 優越性と非劣性の Switching ...................................................................42

6.1.1 非劣性から優越性への Switching ......................................................43

6.1.2 優越性から非劣性への Switching ......................................................43

6.2 解析対象集団 ..........................................................................................45

6.3 残されたトピック ...................................................................................47

7. 結びに代えて ................................................................................................48

8. 謝辞 ..............................................................................................................49

9. 引用文献 .......................................................................................................50

Page 6: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ
Page 7: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 1 −

1. 緒言

1.1 はじめに

ICH 三極の合意を受けて、「臨床試験における対照群の選択とそれに関連する

諸問題について」(医薬審発第 136 号、平成 13 年 2 月 27 日:以下 E10 ガイドライ

ン)が通知された。ICH の活動を通して見ると、E10 ガイドラインで扱っている諸

問題は「治験の総括報告書の構成と内容に関するガイドライン」(薬審第 335 号、

平成 8 年 5 月 1 日:E3 ガイドライン)を萌芽とし、「臨床試験のための統計的原則」

(医薬審第 1047 号、平成 10 年 11 月 30 日:以下 E9 ガイドライン)を経て E10 ガイ

ドラインをもって結実したといえる。この過程を追うことにより、一貫性を保ち

ながら議論が深まっていることが確認できる。E10 ガイドラインでは、分析感度

の概念が丁寧に説明され、プラセボ対照を置くことの重要性が述べられている。

これまで日本においては多くの場合、第Ⅲ相比較試験として被験薬と実薬対照の

並行 2 群比較からなる優越性試験あるいは非劣性試験を行ってきたという経緯が

あり、対照群選択ガイドラインの運用に際して、各製薬会社とも少なからず困惑

している状況にある。

E10 ガイドラインを実際に開発計画の立案や臨床試験の計画に反映させるとき

に、プラセボ対照と実薬対照の選択、優越性試験と非劣性試験の選択、非劣性の

限界値の選択、例数設計、解析方法など、議論の余地が残されている様々な問題

に直面する。E10 ガイドラインは大枠の指針を与えてはいるものの、細部に立ち

入ることはせず、このような議論のきっかけを与えているという見方もできる。

一方では、昨今のブリッジング戦略あるいは期間の短縮を狙った開発において、

プラセボ対照、複数用量の被験薬、実薬対照を同時に持つ多群比較試験の需要も

出てきている。また E10 ガイドラインには、仮説構造の構成法および解析方法が

述べられておらず、概念的な整理が必要であると考えられる。

Page 8: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 2 −

1.2 構成

本報告書では、まず 2 章において 2 群比較試験としての優越性試験および非劣

性試験について、その仮説構造、長所、問題点を整理し、非劣性の限界値につい

て現在までに行われている議論を概説する。3 章では非劣性試験に特有な検討す

べき事項について述べる。非劣性試験の結果を解釈するときにその試験が分析感

度を有していたかの問いに対する明確な回答を用意するための方策は、プラセボ

対照を追加した 3 群比較試験を実施することであるが、3 群比較試験の議論に進

む前に、プラセボが何をもたらすのか、プラセボにまつわる議論はどのように行

われてきたのかについて 4 章にまとめる。5 章では、E10 ガイドラインが述べて

いない 3 群比較試験および被験薬の複数用量群が含まれる多群比較試験の仮説構

造について考察する。

Page 9: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 3 −

2. 優越性試験と非劣性試験

最初に、2 群比較試験を前提として、有効性の検証を目的とした試験において

最も汎用される優越性試験と非劣性試験のそれぞれについて、仮説構造、長所、

問題点を整理する。意図した結果を得るための視点に加えて、優越性試験では治

療間差を過大評価する向きに、非劣性試験では治療間差を過小評価する向きに働

くバイアスの可能性にも十分な注意が必要となる。これは意図した結果が得られ

たとしても、このようなバイアス混入の懸念が生じた場合は結果の信頼性に疑念

が生じるからである。解析時においては、帰無仮説に対して(たとえば欠損値の取

り扱いに関して)保守的なアプローチの採用、感度分析の実施により結果の頑健性

を確保するのが実際的であろう。また、「分析感度」は E10 ガイドラインのキー

ワードの一つであり、有効な治療と有効性の低いあるいは無効な治療とを区別す

る力として定義される臨床試験の特性であるが、分析感度をどのように示すかと

いうことが、E10 ガイドライン後の今日、試験計画および結果の解釈に大きなイ

ンパクトを与えている。

2.1 優越性試験

2.1.1 仮説構造

優越性試験における仮説検定では、被験薬(T )、対照薬(実薬あるいはプラセボ:

C )の真の効果 Tµ 、 Cµ について、帰無仮説 TC µµ =:H0 に対して対立仮説

TC µµ ≠:H1 を立てて検定する(ここでは両側検定を用いた場合を想定する)。ここ

で対立仮説 1H を採択することは対照薬と被験薬の効果に差があることの証明と

なる。被験薬の有効性を示す場合の仮説構造は、対照が実薬である場合もプラセ

ボである場合も全く同じである。

2.1.2 優越性試験の長所

科学的にエビデンスを構築するという点においては、優越性試験が最も説得力

を持つことは異論のないところであろう。対照群の種類に因らず、成功した優越

性試験の結果は、有効性の証拠として容易に解釈できる。成功した優越性試験の

結果は、他の試験結果のような試験外部の情報や、他の試験の対象集団、試験が

行われた環境などとの一致性の仮定を何ら持ち込むことなく、直ちに有効性の強

い証拠を与えることができる。プラセボを対照とした場合は特に解釈が容易であ

Page 10: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 4 −

る。プラセボが対照として科学的には最も好ましい性質を有していることは明ら

かであろう。実薬を対照とした場合、たとえ実薬対照の用量が低すぎるか実薬対

照の利益が不確かな時でさえ、有効性の証拠として容易に解釈できることは優越

性試験の強みである。ただし、実薬を対照とする場合には、実薬対照が実際に有

害ではない(負の効果を示さない)という前提の下で、実薬対照が適切な用法・用

量で適切な患者に用いられる場合にのみ、被験薬の実薬対照に対する真の優越性

が示されるものとして解釈できるということに注意が必要である。成功した実薬

対照優越性試験の結果は、医療現場に対して既存治療から被験薬による新しい治

療への変更をアピールするための最も説得力のある説明を与えることができる。

プラセボ対照の優越性試験は、実薬対照の優越性試験に比べて検出するべき効

果の差が大きいため、より少ない被験者数で目的を達成することができる。

実薬を対照とした優越性試験は、全ての被験者が実薬を投与されるため、一般

にプラセボ対照試験よりも倫理上および実施上の問題は少ないと考えられている。

重要な健康上の利益が証明されている薬を使用しないことに伴う倫理上の懸念は

軽減される。従って、被験者数を多くすることがときとして可能であり、また、

受け入れられやすい。その結果として、より多くの安全性情報を得ることも可能

になる。また、効果がないことによる脱落が少なくなる可能性もある。プラセボ

を用いないため、「現実世界」の値に近い推定値が得られることが期待できる。

2.1.3 問題点

2.1.3.1 対照薬にプラセボを用いる場合

プラセボ対照の優越性試験が成功しなかった場合、その試験からは有効性の証

拠を示すことができない。被験薬が有効な治療でなかったのか、試験に有効な治

療と無効な治療を区別する力(すなわち分析感度)がなかったのかを区別すること

もできない。試験を計画するときには、倫理上の懸念や患者と医師の治験実施上

の懸念は、プラセボ対照の最大の障壁である。プラセボを使用するかどうかは方

法論としてのプラセボ対照の必要性と患者への倫理的な配慮との綱引きによって

決められる。プラセボ対照を受け入れやすくするために組み入れ基準で対象患者

を軽症例に限定したり、組み入れ基準を軽症例に限定していない場合でも医師が

意識的にあるいは無意識のうちに軽症例を多く組み入れることによって、結果的

に軽症例に偏ってしまう可能性がある。このような場合には、より重症な患者へ

結果を外挿することが困難になる、あるいは、反応自体が小さくなり効果の差を

Page 11: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 5 −

検出しづらくなるなどの危惧がある。また、ときにプラセボ対照試験は、「現実世

界」の有効性と異なる結果を与える人工的な環境で実施されているということが

論じられる。もちろん、実薬対照がないプラセボ対照試験からは、相対的な効果

に関する有用な情報はほとんど得られない。

2.1.3.2 対照薬に実薬を用いる場合

実薬対照の優越性試験では、両薬間に期待される差は薬とプラセボの間に期待

される差よりも常に小さいため、プラセボを用いる場合に比べ被験者数が多くな

る。もちろん、両薬間の差が医学的に価値あるものであるべきことは言うまでも

ない。

実薬対照の優越性試験が成功しなかった場合、その試験からは有効性の証拠を

示すことができない。被験薬が実薬対照に優る有効な治療でなかったのか、試験

の分析感度がなかったのかを区別することもできない。分析感度が存在しても、

実薬対照に対して相対的効果を知ることはできるが、被験薬の絶対的効果を直接

知ることはできない。さらに、プラセボ群からの安全性情報がないため、安全性

に関する結果の定量的評価にはより一層の困難を伴う。また、実薬対照の結果の

不確実性のために、試験の成功確率が検定の名目上の検出力より小さくなるリス

クがある。この点については 5 章で詳しく論ずる。

Page 12: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 6 −

2.2 非劣性試験

2.2.1 仮説構造

非劣性試験の仮説検定では、帰無仮説 TC µ∆µ ≥−:H0 、に対して対立仮説

TC µ∆µ <−:H1 を立てて検定する(∆:非劣性の限界値、E9 ガイドラインでは「同

等限界」と表記される)。非劣性の限界値について、E9 ガイドラインには「同等

限界とは、臨床的に許容できると判断しうる最大の差であり、実薬対照の有効性

を立証した優越性試験において観測された差よりも小さいものであるべきであ

る。・・・<中略>・・・。同等限界の大きさの選択には、十分な臨床的根拠を示すべ

きである」と述べられている。被験薬の対照薬に対する非劣性の検証は通常、信

頼区間に基づいて行われ、非劣性の検証は(被験薬から対照を引いた)試験治療間

の差が下側同等限界より小さいという帰無仮説に対して、試験治療間の差は下側

同等限界よりも大きいという対立仮説を検定する片側仮説検定に対応する。ここ

で、第一種の過誤の大きさの選択は、片側検定又は両側検定のどちらを選択する

かとは別に検討すべきであり E9 ガイドラインの規定する棄却域は片側 2.5%であ

る。また、信頼区間による方法とは別に、先の仮説検定において、対立仮説 1H を

採択することで、被験薬の効果が対照薬に対して劣らないことを検証することも

行われている。

2.2.2 非劣性試験の長所

全ての被験者が実薬を投与されるため、一般にプラセボ対照試験よりも倫理上

および実施上の問題は少ないと考えられている。重要な健康上の利益が証明され

ている薬を使用しないことに伴う倫理上の懸念は軽減される。

分析感度が確立されていれば、被験薬の有効性の証拠を与えることと同時に実

薬対照に対する相対的な効果を知ることが可能である。実薬対照を用いるので、

「現実世界」の値に近い推定値が得られることが期待できる。

また、対照薬にプラセボを用いる優越性試験に比べて、実薬対照を用いる非劣

性試験は比較薬剤間の薬理学的プロファイルの類似性が高いため、徐々に盲検性

が崩れてくるという懸念が生じにくい。

Page 13: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 7 −

2.2.3 問題点

試験の計画時および結果の解釈においても、分析感度への特別な配慮が必要と

なる。

全ての被験者が実薬を使用していることを知っていることにより、たとえば抗

うつ薬の試験のように部分的に主観的な評価が実施される場合には、ボーダーラ

イン上の症例を成功側へ分類するといった傾向が生じうる。そのようなバイアス

は観測された治療間差を小さくする可能性があり、非劣性が示されたことが有効

性の証拠とはならない可能性を高くする。

被験者数については、非劣性の限界値は保守的に選ばれるために例数がそれほ

ど少なくならない可能性がある。

非劣性試験に係る懸念として、バイオクリープ(biocreep)と呼ばれるものがある。

バイオクリープとは、非劣性試験を何世代にも渡って繰り返したときに起こりう

る現象であり、非劣性試験の被験薬が実薬対照に一定以上劣らない(実薬対照の効

果の大部分を保持する)ことを示すという性質に起因するものである。実薬対照よ

りも僅かに劣る薬が、次の世代の実薬対照として用いられることが繰り返され、

実薬対照の真の効果が徐々に低減していくことをいう。しかしながら、非劣性の

限界値 ∆が適切に設定されているならば、実際には非劣性試験が繰り返されるこ

とでこの現象が起こるとは想定し難い。これは、極端に低い効果を示すような薬

剤は非劣性試験の対照薬として選択されないであろうし、効果の期待値が実薬対

照に比べて若干でも劣るような被験薬において非劣性を検証する場合、必要症例

数が莫大となり、実施可能性の面から歯止めがかかるであろうと考えられること

からである。この問題に関して広津 (2001)は、2 項分布モデルで 1.0=∆ とした場

合について必要症例数の面から考察を行い、標準薬より劣る新薬が非劣性試験を

容易に行えることはなく、またたとえ実施されても容易にパスする可能性は小さ

いことを示唆している1。また、D’Agostino ら (2003)は、実薬対照には常に最良の

ものを用いることが対策となると述べている2。

また、上坂、森川、魚井 (2000)は、非劣性試験の妥当性の問題として、試験の

実施、解析および評価において入りうる偏りの問題と、試験計画上の問題を取り

上げている。実施・解析においては、被験者の組み入れや試験薬の投与、治療の

方法などにおいて、計画した試験と現実の試験の状況が異なることにより生じる

偏りが、第一種の過誤率を増大させることを指摘している。また、試験計画上の

Page 14: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 8 −

問題としては、対象の選択・除外基準、用法・用量、併用治療、観測変数・時点、

中止基準、施設・医師などの諸条件を、対照薬がプラセボに対する優越性を示し

た試験と同一に保ち実施しなければ、対照薬とプラセボの効果の差は保証されな

いと述べている3。

2.2.4 非劣性の限界値

非劣性の限界値を決定するためにE10ガイドラインは 2つの指針を与えている。

(1) 非劣性試験における限界値の決定は、統計的推論と臨床判断の双方に基づく

ものであり、その選択の基となった証拠の不確実性を反映するとともに、適

度に保守的であるべきである。

(2) 非劣性試験のために選ばれる限界値は、計画している試験の設定条件で、実

薬対照とプラセボを比べた場合に、「確実に期待できる実薬対照の効果の大

きさの最小値」より大きな値であってはならない。

(1)において述べられている「臨床判断」について、D’Agostino ら (2003)は長年

にわたるコンサルタントとしての経験の中で「臨床判断」が非劣性の限界値の決

定要因になったケースに出会ったことはないと述べている2。その一方で、非劣性

の限界値の決定は「臨床判断」に基づくべきであり、「統計的推論」には基づくべ

きではないとする意見もある4。実際には、以下に述べるような考え方を参考にし

ながら、上の指針に沿ってケース・バイ・ケースで決定される。

非劣性の限界値( ∆ )に関しては、The European Agency for the Evaluation of Medicinal Products (EMEA)の Concept Paper などにおいて一般的にはプラセボに対

する実薬対照の効果の大きさ(δ )の 1/2 以下が受容されると考えられている5,6,7。

Koch and Tangen (1999)は被験薬(T )、実薬対照( A )、プラセボ( P )の 3 群比較試験

の枠組みでこの問題を定式化している。帰無仮説 ( ) ( ) 0:H0 =−−− PAPT φ におい

てφを事前に規定した fraction of effect とし、φを 0 から 2 の範囲で変化させた場

合を考え、非劣性を示すには 0.15.0 <≤ φ ( 20 δ∆ ≤< に相当、図 2.1 参照)が通常で

あろうと意義付けしている8。上坂 (2001)はこれをさらに確信の度合いにより細分

し、 2δ∆ = は実薬とプラセボのいずれに近いかという場合の境界の値、 3δ∆ = は

明らかに実薬に近い値を意味しており、これらの値と臨床的に同等とみなせる値

とを比較考量し∆を決定するのが適切であると述べている9。

Page 15: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 9 −

図 2.1 実薬対照の絶対的な効果の大きさδ ,非劣性限界値 ∆ ,

fraction of effectφ の関係

最近は非劣性試験の目的を以下の 2 つに区別した上で議論が行われている10。

(1) T の Aに対する相対的な効果を確立する。

(2) T と Aが同等であることを主張せずに、Aを通して P と比較することにより

間接的にT の効果を確立する。

さらに、(2)を目的とする場合は大きめの ∆を設定することが正当化できると考

えられている11。実際に U.S. Food and Drug Administration (FDA)の Advisory Committee が 2δ∆ = を勧告した事例もある12。以上より、安全性、製剤、コスト

などの面においてT が Aを上回る臨床的利益を有している場合などは 2δ∆ = を

目安としても良いのではないだろうか。逆に(1)を目的とする場合は 3δ∆ = を目

安とすべきかもしれない。

なお、Hauschke (2001)は、AUC、Cmax を評価変数とする生物学同等性試験は、

先述の Koch and Tangen が示した枠組みで 0=P としたケース( 0:H0 =− AT φ 、通常

8.0=φ )に相当し、一般的な非劣性試験の特殊な場合として位置づけられることを

示している13。Aは実際の試験結果より点推定することになり、 )( PA − の推定値の

不確実さは考慮されていないが、その分φ が保守的な設定となっているとも考え

られる。

Wiens (2002)は、∆の選択に関するいくつかのアプローチを、①過去のプラセボ

と実薬対照の試験成績に基づくもの、②臨床的な意義に基づくもの、③統計モデ

1

0

∆ = 0 A

P

T

T

T δ

φ = 0.5 φ = 0.67

φ = 1

3δ∆ =

2δ∆ =

Page 16: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 10 −

ルに基づくものの 3 つに大別して議論を展開している14。特に③は ∆を探索した

り、①、②により導出された∆を評価する上で価値があるとし、 σ∆ k= (σ :反

応変数の自然変動)に基づく方法論と proportion of similar response(または

overlapping coefficient:PSR)に基づく方法論15の 2 つを紹介し論じている。抗菌薬

領域での「通常 1.0=∆ 位、有効率が非常に高い場合は ∆をもっと小さくする必要

がある」16という考え方は前者の方法論に通じる。PSR は“the area under the smaller of the two population density functions”と定義される 2つの確率分布の重なりを表す

指標であり、分布に全く重なりがない場合は 0、完全に重なる場合は 1 となる規

準化された統計量である。Rom and Hwang (1996)は同等閾値として 0.7 くらいが適

当ではないかと述べている17。これらの方法は P の大きさを推定できない場合で

も適用可能だが、実際の ∆の選択に関してはまだまだ検討の余地があるようであ

る。

いずれにせよ、非劣性試験には ∆の設定が不可避であり、今後の総論的および

各論的議論の進展が予想される。

Page 17: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 11 −

3. 非劣性試験において検討すべき事項

非劣性試験を行う場合に検討すべき事項を試験計画時および試験終了時に分け

て考察する。

3.1 試験計画時に検討すべき事項(非劣性試験の成立要件)

E10 ガイドラインの 1.5.1 節には、非劣性試験のデザインおよび実施において

重要な 4 段階が述べられている。

1. 「薬剤効果に対する感度の既存の証拠」の存在を確認する。

2. 試験デザインは、1.の判断の根拠となった試験のデザインをできるだけ踏襲

する。

3. 非劣性の限界値を設定する。

4. 試験の実施段階では、過去の試験にできるだけ近い形で、質の高い内容とす

る。

これらの中で非劣性試験の計画時に検討すべき事項は 1.~3.である。4.は試験の

実施段階の注意点であり、試験終了時にも確認する必要がある。

3.1.1 過去の試験の利用可能性

「薬剤効果に対する感度の既存の証拠」の存在を確認するためには、実薬対照

として計画している実薬治療について、その有効性を証明するために行われた過

去の試験を評価する必要がある。その際には、以下の 2 点が満たされているかを

状況に応じて判断する必要がある。

(1) 過去の試験において対照薬の有効性が証明されていること、すなわち、優越

性試験で対照薬に優っているか、あるいは分析感度の存在が明確な非劣性試

験で、非劣性が検証されていること。

(2) その試験の重要なデザイン上の特徴、すなわち、選択基準、主要評価項目、

用法・用量、試験期間などが計画中の試験と同様であること。

適切にデザインされ、実施され、信頼性をもって一定の効果を示したと判断さ

れる試験が存在する場合には、(1)を満たしていることを容易に判断できる。しか

しながら、実際にはエンドポイントや疾患の定義の変化、測定機器の進歩により

Page 18: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 12 −

様々な問題が想定される。以下のような状況の場合には「薬剤効果に対する感度

の既存の証拠」が存在すると判断することは困難であろう。

• 利用可能な試験のデザインあるいは質について問題点が認められる場合

• 過去に全般改善度などの主観的な評価しか行われておらず、新しいエンドポ

イントが全く観測されていないか、一部の被験者でしか観測されていない場

• 過去に新しいエンドポイントが観測されていても、推定値の信頼性が低い場

合(たとえば施設ごとに異なる機器で測定がされている、評価者の十分なト

レーニングが行われていないなど)

• 過去に複数の試験で新しいエンドポイントが観測されていても、再現性が低

く、「確実に期待できる実薬対照の効果の大きさの最小値」が妥当な形で合

理的かつ確証的に決定できない場合

また、これらについての検討は、以下の(i)~(iii)のそれぞれの状況において行わ

れる必要がある。

(i) プラセボ対照試験が行われていない

D’Agostino ら (2003)は、プラセボ対照試験が一つしか行われていない場合や全

く行われていない場合にしばしば遭遇すると述べている2。この時、想定している

実薬対照 Aが他の実薬対照 B に対する優越性によって有効性が示されている場合

は「薬剤効果に対する感度の既存の証拠」が存在すると判断できるが、実薬対照 Bに対する非劣性によって有効性が示されている場合は注意が必要である。その場

合でも、実薬対照 B でプラセボ対照試験が行われており、その結果と A vs. B の非

劣性試験の結果における B の効果の違いが説明可能ならば問題はないであろう。

一般にプラセボ効果が高い領域においては、プラセボ対照試験とプラセボ対照の

ない実薬対照試験では「効果の大きさ」(ここでは、プラセボとの差という意味で

はなく、あらゆることを含めた絶対量)は異なったものとなる。プラセボ対照試験

と実薬対照試験では、しばしば組み入れられた患者の重症度に違いがみられるこ

と、プラセボ群の有無により医師および患者の効果に対する期待値が異なること

などがこの違いをもたらす可能性がある。

(ii) 疾患の定義が時代変遷とともに過去の試験から変化し、選択基準すなわち対

象集団が異なる

Page 19: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 13 −

疾患については、少なくとも過去の定義に基づく試験対象集団で「薬剤効果に

対する感度の既存の証拠」が存在すると判断でき、なおかつ、その過去の試験に

おける対象集団が、計画している試験の対象集団の部分集合であるか、あるいは

両者の間に大きな共通部分を構成できるならば、計画している非劣性試験の分析

感度の評価が事後的に可能であろう。

(iii) 測定機器の進歩

たとえば骨密度の MD 法が DXA に変化したように、過去に使用された測定方

法に「薬剤効果に対する感度の既存の証拠」が存在していたとしても、それを利

用すること自体に意味がないということがある。機器技術については、医学的な

見解の発展よりも進展の程度が速いことがしばしばあり、内容次第では重要な検

討項目になりうる。

以上の点に留意して、「薬剤効果に対する感度の既存の証拠」の確認を行い、非

劣性試験に必要な要件を検討することが考えられるが、以下のことについて考慮

しておくことも対照薬を選択する上で意義があると思われる。

• 実薬対照との比較が必要となるのは、その治療領域における標準治療(薬)が存在していることが前提であるが、その治療がどのようにして標準治療とし

て確立されてきたかを十分検討する必要がある。すなわち、標準治療として

どれだけ一般的に受け入れられてきているかは、一般的な臨床現場で標準治

療であるその薬がどの程度の信頼を得ているかに依存するということであ

る。その根拠となるものは、過去の試験で示された結果とは別の観点から出

てきていることもありうる。たとえば、臨床試験では 4 週間までの効果を二

重盲検下で評価したが、実際の医療現場では 2、3 ヶ月程度の投与をしたと

きに効果が確信できる場合などである。

• 標準治療となりうる根拠は、過去の試験のみということはなく、むしろそれ

以外の情報の方が多く存在すると考えれば、「薬剤効果に対する感度の既存

の証拠」の確認は様々な観点を考慮する必要があると考えられる。また、「薬

剤効果に対する感度の既存の証拠」は、標準治療における薬剤の効果のみで

はなく、どれだけ臨床試験の実施手順の質が高かったかにも依存する。これ

は、現在開発している薬剤の試験計画時に制御できない問題である。

• 薬剤効果が不安定で「薬剤効果に対する感度の既存の証拠」が確固たる証拠

として確認できないような場合には、非劣性の限界値を検討する際に、「確

Page 20: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 14 −

実に期待できる実薬対照の効果の大きさの最小値」が極めて小さな値となり、

優越性と同程度の症例数が必要となることもありうる。従って、優越性を示

せるほどの効果が想定できない薬剤について非劣性試験を計画し実施する

際には、実薬対照の効果の不確実さがリスクとなる。

新しい薬剤に求められることは、その薬剤を選択した患者にとってどのような

便益が得られるのかということであるため、有効性が同程度であっても安全性が

優れている、あるいは、主要項目以外の副次的な項目が優れていれば存在価値の

ある薬剤であるため、これらを考慮した上で薬剤を評価する方法を検討すること

が必要である。

3.1.2 試験デザインにおける工夫

過去の試験が比較的少数例で行われている場合、推定値そのものが不安定であ

り、多数例を用いて精度を高めて試験を実施した場合と一見異なって見えること

がある。さらに、何らかの未知の変動要因あるいはバイアスが過去の試験の見か

けの分析感度を高めることや、ランダム化しても未知の変動要因が群間で不均衡

であることも想定される。

また、過去の古い試験で、計画上あるいは実施上何らかの問題が認められる場

合に、その試験デザインや実施内容を踏襲することには問題がある。特に、測定

機器の共通化、測定あるいは判定のトレーニングなど質を向上させるために行っ

た方策が、過去の試験との相違を生じさせる可能性はある。質の高い試験を行っ

ても、結果的に「薬剤効果に対する感度の既存の証拠」が脆弱なものであったこ

とを示すことになることもありうる。このような場合には分析感度を低下させな

かったことを示すことが困難になる。

実薬対照の過去の試験では、実施者が異なることをはじめとして様々な環境や

状況が異なるため、それを対照として一回の比較試験で効果を示すには、以上の

ようなリスクが伴う。このようなリスクを低減するには、

(A) 非劣性→優越性の switching を計画しておく

(B) Placebo あるいは pseudo-placebo を置く 3 群比較試験とする

(C) Phase II の段階で用量反応試験に実薬対照を入れて事前に比較しておく

などの方法が考えられる。

Page 21: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 15 −

(A)に関して、分析感度についての一番の問題は非劣性試験におけるそれ自体の

確立にあるが、優越性が検証された場合の分析感度は自己確証的であるため、実

薬対照の非劣性試験において非劣性が証明された後に優越性も検証されればいず

れの結論に対しても問題ないこととなる。

(B)に関して、治験薬投与群にプラセボ投与群、実薬投与群を入れた 3 群比較試

験を実施することについては、プラセボ投与に関連する実施上の問題や、統計学

的な仮説構造の問題、コストの問題など様々な問題点が伴う(5 章を参照)。

(C)に関して、前相までに探索的な位置づけの試験や用量反応性を検討した試験

が存在し、この段階で対照薬の効果に見当がついていれば、検証試験におけるリ

スクを減らすことができる。

3.1.3 比較の公平性

非劣性試験においては、実薬対照が「通常の」効果を発揮できないような条件

を伴うデザインとなっていないかに注意を払うことは重要である。E10 ガイドラ

インには一方の治療を不当に有利にしうるデザインの側面として、用量、患者集

団の選択、エンドポイントの選択、その評価時期が挙げられている。3.1.1 節で述

べたように、過去の試験を踏襲できない場合には、患者集団の選択、エンドポイ

ントの選択などで、試験終了後に過去の試験との比較ができるように、過去の試

験の対象集団を部分集合として含む試験を計画する、あるいは両試験の対象集団

で大きな共通部分を構成できるような試験を計画することも考えられる。

Page 22: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 16 −

3.2 試験終了時に検討すべき事項

「薬剤効果に対する感度の既存の証拠」があり、過去の試験とデザインが類似

している場合でも、臨床試験の実際の行われ方により分析感度が低下することが

ある。分析感度を保証するためには、臨床試験の行われ方は、過去の試験にでき

るだけ近いものでなければならず、また、質の高いものでなければならない。

3.2.1 試験の質

非劣性試験の分析感度を保持するためには、質の高い臨床試験を実施しなけれ

ばならない。臨床試験の質を低下させる原因として、以下の項目が考えられる。

• 服薬(治療)不遵守

• 薬剤に反応しにくい被験者の組み入れ

• 試験薬の作用を小さくするような併用薬(療法)の使用

• 自然回復する傾向があり、薬剤による改善の余地がない被験者の組み入れ

• 試験対象外の疾患を有する被験者の組み入れ

• 実薬対照の投与による被験者の先入観に起因する評価の偏り

臨床試験の質の低下は、分析感度を低下させる以外にも、平均的な治療効果の

推定値のバラツキを増加させ、その結果として治療間差の信頼区間幅を広げる。

この点は試験終了時だけではなく実施時においても十分留意すべきである。

3.2.2 過去の試験との類似性

過去の試験と終了した非劣性試験との間で、以下の項目などについて類似性を

比較検討する必要がある。

• 実際に組み入れられた被験者集団

• 併用薬(療法)の使用状況

• 治療のコンプライアンス

• 中止・脱落の程度とその理由

また、過去の試験に対して高い類似性を示したように見える場合でも、非劣性

試験における実薬対照の有効性が明らかに過去の試験のものと異なれば、重要な

Page 23: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 17 −

相違が存在したことを示している可能性がある。

3.2.3 分析感度

非劣性試験は、成功したとしても分析感度についての直接的な証拠を有してい

ないため、試験終了時にも間接的な説明が必要である。そのために 3.2.1 節およ

び 3.2.2 節で述べた、試験の質と過去の試験との類似性の確認は必須の作業とな

る。終了した試験が分析感度を有していたかどうかの判断は、もしその試験にプ

ラセボ群があったとしたら、実薬対照がプラセボに優っていたであろうという確

信を持てるかどうかに掛かっている。試験の質や過去の試験との類似性がある程

度判断の問題であるために、その確信の度合いには幅がある。実薬対照が過去に

一貫してプラセボに優っていたという条件下で試験の質や過去の試験との類似性

から一寸の曇りもなく分析感度の存在を示すことができる場合もあるかもしれな

いが、実際には判断を躊躇させる何らかの情報不足、不備、齟齬があって説明に

窮する場面も容易に想定される。4.8 節で紹介する putative placebo の解析はこの

ようなときの論理的な補強材料として使えるかもしれない。

分析感度の根拠となる「薬剤効果に関する感度の既存の証拠」や「試験の適切

な実施」は、過去の試験を基準にしなければならないという根本的な問題を抱え

ており、これが陳旧化している場合、非劣性試験を計画するには非常に厳しい状

況となる。非劣性試験の分析感度の問題に対する理想的な解決策はプラセボ群を

追加した 3 群比較試験であるが、その考察を行う前にプラセボというものを今一

度見つめ直してみることにする。

Page 24: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 18 −

4. プラセボ対照

4.1 プラセボ対照を試験に含めるか否かの判断

計画している試験の中にプラセボ対照を含めるか否かについては、

• 治験を実施する治療が、過去にはない全く新しい治療方法であるか

• 実薬対照との比較をどのような形で行うことができるか(優越性、非劣性)

• 対照とする薬剤について過去に実施したプラセボ対照試験と、新たに計画し

た試験との治療環境が明らかに異なってはいないか

• 対照薬がプラセボに対して一貫して安定な位置関係を維持しているか(分析

感度の存在を対照薬のプラセボ同時対照に対する試験以外の情報を使って

説明することが可能か)

• プラセボ対照を用いずに仮定や外部(試験外)情報だけで分析感度の存在を

説明できるか

• 薬剤以外の要因による改善の程度が無視できず、従って薬剤以外の要因が入

り込む余地が大きなエンドポイントであるか

など様々な観点から検討が行われるであろう。特に第Ⅲ相試験のような検証的な

試験においては、被験薬の実薬対照に対する非劣性を主要な目的として、プラセ

ボ対照を含まない 2 群比較試験とするか、プラセボ対照を追加した 3 群比較試験

とするかを決定するときにこのような検討が必要になる。E10 ガイドラインには

プラセボ対照を用いることの動機となる長所とプラセボ対照がもたらす短所につ

いて以下のような記載がある。

長所:

• プラセボ対照試験には分析感度の証拠が内在している。差が示された場合、

外的な証拠を参照することなく結果の解釈が可能である。

• 治療の有効性を示すために、仮定や外部(試験外の)情報へ依存する度合いが

最も少ない。

• 「絶対的」な有効性、安全性を測りうる。

• プラセボ対照試験は、ランダム化と盲検化が用いられるため、被験者および

Page 25: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 19 −

治験実施医師のバイアスは一般に最小となる。

• 被験者と治験実施医師の期待による影響を最小化する。

• 少ない被験者数で治療効果を検出できるという意味で効率的である。

短所:

• 倫理上の懸念がある。

• 患者と医師の実施上の懸念がある。

• プラセボの使用により対象集団が歪められる、あるいは狭められるという一

般化可能性に関する懸念がある。

• 実薬対照群を持たない場合、比較情報が得られない。

これらの長所短所の中には、倫理上の懸念のようにそれだけでプラセボ対照を

用いることができなくなるような大きな障壁となりうるものもある(倫理上の懸

念とこれに関連する議論については 4. 5 節および 4. 6 節で詳しく述べる)。一方、

長所の中でプラセボ対照を用いる強い動機となりうるものは、分析感度の証拠の

積極的な提示と、絶対的効果とプラセボ効果の峻別であろう。実薬対照との比較

の形式が非劣性の場合は、分析感度の内的な証拠の重要性が増すであろうし、プ

ラセボ効果の大きい治療分野においてはプラセボ対照なしに効果全体のなかでの

薬の絶対的効果の大きさを評価できない。世界的にも、倫理上の理由からプラセ

ボの使用が難しい一方で、分析感度も問題になりそうでない領域(癌、感染症、あ

る種の冠循環疾患等など)では、実薬対照のみの非劣性試験が行われている。これ

らの強い動機が働く状況下でも、プラセボ使用の倫理性が問題となる場合には、

次善の策として 4.7 節で述べるデザイン上の工夫によってプラセボの使用が可能

になるかもしれない。

以上のようなプラセボ対照そのものに対する観点に加えて、2 群比較試験にプ

ラセボ対照を追加し 3 群比較試験とすることにより試験全体として何が付加され

るのかという観点も重要であろう。

• 実薬対照のプラセボに対する優越性が検証された場合には、分析感度の最も

強固な証拠を与えることができる。

• 不均等割付が可能な場合には、被験者がプラセボに割り付けられる可能性は

それほど大きくならないかもしれない。そうであれば患者や医師にとって試

Page 26: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 20 −

験を受け入れやすいものにする。

• プラセボ対照を追加することにより有効性の存在の証明を被験薬のプラセ

ボに対する優越性で示せるようになる。

• 比較可能性が確保された、より大きなデータベースを持つことができる。

• プラセボ対照の長所を保持しながら、多くの場合興味の対象となる実薬対照

との比較に関する情報を得ることができる。

• 被験薬と実薬対照との比較を、それぞれの絶対的効果を知った上で行うこと

ができる。

Page 27: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 21 −

4.2 プラセボ効果

プラセボ対照試験は 4.1 節で述べたように分析感度の存在を示すことができ、

絶対的効果を知ることができる。絶対的効果とはプラセボと比較した場合の有効

性または安全性である。プラセボを使用するか否かを検討する際、プラセボ対照

の意味や価値を再確認しておくことは重要であろう。

プラセボ効果(placebo effect)という用語は意外にも様々な意味で用いられてお

り文脈によってその指し示すものが異なっている。広い意味で、「プラセボの投与

を受けた被験者に発現したあらゆる医学的な反応、事象」はプラセボ反応(placebo response)といわれる。効果という用語は実際に観測された反応を指すこともあり18、

プラセボ効果とプラセボ反応は同じ意味で用いられることがある。また、プラセ

ボ効果という用語が、プラセボの投与を受けた被験者に発現したあらゆる医学的

な反応、事象の全体を指すのか、プラセボという基剤自身が持つ薬理学的な効果

の部分だけを指すのか、プラセボという基剤によってもたらされる効果以外の部

分(つまり薬を飲むという行為、医師の管理下に置かれたことや臨床試験に参加し

たことなどによってもたらされた効果)を指すのかについても、ある種の議論では

注意が必要である。以下の説明においては、最も広い意味での「プラセボの投与

を受けた被験者に発現したあらゆる医学的な反応、事象」をプラセボ反応あるい

はプラセボ効果と呼び、これらを区別することなく用いる。

Page 28: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 22 −

4.3 プラセボ効果の要因

Piercy ら (1996)は、プラセボ効果に影響を与える要因として暗示的な効果

(suggestive effect) を挙げ、これを患者側の要因 (patient factors) と環境要因

(environmental factors)の二つに分類している19。患者側の要因とは、患者が経験し

てきたこと、患者の性格、新しい治療に対する期待など患者自身の要因であり、

これらは基本的に制御することができないものである20。具体的には、おとなし

く従う人、暗示にかかりやすい人、管理下に置かれることを好む人、薬を飲むこ

とで安心する人、薬で嫌な思いをしたことがあまりない人はプラセボ効果が大き

い傾向にある。一方、猜疑心の強い人、普段からなるべく薬を飲まないようにし

ている人はプラセボ効果が小さい傾向にある。環境要因とは、医療現場の環境や

雰囲気、医師や協力者の態度、新しい治療に対する医師や協力者の期待など医療

機関に存在する要因である。これらは反応の測度に主観的な要素があればあるほ

ど、プラセボ効果に大きな影響をもたらすものであり、これらには制御できる部

分がある。具体的には、患者に対する共感、温かみ、興味、理解を示すような医

師の態度、医師の新しい治療に対する熱意や期待は大きなプラセボ効果をもたら

す環境をつくる傾向にある。一方、医師のよそよそしい態度、悲観的な態度、新

しい治療に対する過度な期待を持たず冷静に効果を見極めようとする態度はプラ

セボ効果を小さくする環境をつくる傾向にある。また、患者側の要因と環境要因

は医師と患者の人間関係という形で互いに関連し合っており、プラセボ効果に大

きな影響を及ぼす社会心理学的に重要な要因であるとも言われている。

反応の測度が主観的なものであればあるほど、これらの暗示的な効果が入り込

む余地は大きいが、一見客観的であると思われる指標においてもプラセボ効果が

観察されたという報告が数多くある。血圧の低下21、潰瘍症状の軽減22、喘息患者

における気道抵抗23、睡眠時の REM 睡眠期の減少24、痛みの試験におけるエンド

ルフィンの産生25、心拍数、心電図のパターン、血管運動神経の活動、運動誘導

性の気管支痙攣の減少、免疫反応などである26。また、プラセボ対照試験におい

て実薬で予見されていた有害事象がプラセボ群で見られたという報告もある。メ

フェネシンのプラセボ対照試験における水性下痢、蕁麻疹、唇の浮腫、ストレプ

トマイシンのプラセボ対照試験における聴覚異常、好酸球増加、レセルピンのプ

ラセボ対照試験における幻覚、視覚減少、知覚障害、便秘、鼻づまりなどである27。

暗示的な効果以外にも、臨床試験へ参加した患者自身が生活を改善することで

Page 29: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 23 −

有効性の評価指標が改善する効果や、測定の反復による患者の慣れや学習効果な

どもプラセボ効果を大きくする要因である28。精神科領域では錠剤の大きさ、一

度に服用する錠剤の数、錠剤の色がプラセボ効果に影響するという報告もある29,30,31。

このように個々の被験者の改善には、被験者それぞれの事情があり何らかの要

因がプラセボ効果に影響を与えている。これに対して、集団としてのプラセボ反

応を説明するための要因として平均値への回帰(regression towards(または to) the mean)という現象がある。平均値への回帰は、ある観測値の極端に大きな(あるい

は小さな)値がその観測値を再び観測したときの平均値に近づいて推移するとい

う傾向であり Galton (1885)が最初に報告した32。

平均値への回帰は、ある閾値以上あるいは以下の観測値を持つ患者を組み入れ

ようとする臨床試験が抱える普遍的な問題であり、プラセボ群で観察される改善

の多くは平均値への回帰で説明可能であると言われている33。平均値への回帰を

説明するために、確率変数 1Y (前)および 2Y (後)をある被験者の異なる 2 時点のある

評価変数とし、単純のために 1Y および 2Y が共通の平均 µ、共通の分散 2σ 、相関係

数 ρを持つ同時正規分布に従うと仮定すると、

( ) ( )( )ρµ −−=− = 1112 11yYYE yY

が成り立つ。この式より平均値への回帰について重要な二つの性質が得られる。

一つは 1Y が平均値から外れた値であればあるほど変化の期待値(平均値への回帰)は大きいということであり、もう一つは変化の期待値は ρ−1 に比例するというこ

とである。後者は ρが小さい、すなわち評価変数の再現性や信頼性が低ければ低

いほど平均値への回帰が起きやすいことを意味する34。

薬(被験薬、実薬対照)の絶対的効果に比べ、薬以外の要因によってもたらされ

る効果の大きさが無視できないときには、薬の絶対的効果を測るためにもプラセ

ボ対照は重要な意味を持っている。E10 ガイドラインでは、プラセボからの新薬

の効果をその薬剤の絶対的効果と定義しており、プラセボは効果を測定する場合

の原点的役割を果たしていると考えられる。ただし、この考え方は、真の治療効

果(pure drug effect)とその他の効果(non-drug effect)が加法的であるという前提の上

に立っている。この加法性が、ある評価変数に超えることのできない上限(天井効

果:ceiling effect)あるいは下限(floor effect)がある場合にも成り立つかどうかにつ

いては疑問視する声がある35。

Page 30: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 24 −

4.4 プラセボはパワフルかパワレスか

プラセボ対照試験では、前節で述べた要因によって、時にプラセボ効果が大き

く観測されることがあるであろう。「プラセボはパワフルかパワレスか」という議

論は 1955 年に発表された Beecher (1955)の論文36から始まり今日まで続いている。

• Beecher (1955)は様々な領域のプラセボ対照試験をランダムに 15 試験選び、

プラセボに平均 35%の有効率がみられたと報告した36。

• Kienle and Kiene (1997)は、Beecher (1955)を再解析し、患者の改善は他の要

因(自発的改善、症状のゆらぎ、平均への回帰、追加の治療、プラセボへの

switching 条件、スケーリング・バイアス、無関係な応答変数、答えの丁寧

さ、実験の従属関係、条件付きの答え、神経症または精神病性の間違った判

断、精神の特異現象、引用の誤り等など)によるとの説明が可能であり、プ

ラセボの効果は全くないと報告している37。

• Hróbjartsson and Gøtzsche (2001)は、Beecher (1955)ではプラセボの効果と自

然治癒、平均値への回帰およびその他の要因が区別できていないため、再調

査を行った。プラセボと無治療に無作為割付を行っている臨床試験のうち、

評価変数が 2 値の 32 試験および連続量の 82 試験についてレビューを行った。

その結果、評価変数が 2 値の場合、主観的評価と客観的評価の両方において、

プラセボと無処置の間に有意な差は認められなかった。連続値の場合、客観

的評価では有意な差は認められなかったが、主観的評価(Visual-Analog Scale)では有意な差が認められた。結論として、臨床試験以外でのプラセボの使用、

すなわち治療としてのプラセボの使用は正当ではないと主張している38。

Hróbjartsson and Gøtzsche (2001)のレビューに対してもまた、議論が起こってお

り39、プラセボはパワフルかパワレスかという問いに決着をみていない。

Page 31: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 25 −

4.5 プラセボ使用の問題点

プラセボ対照試験を計画する際、倫理的問題が最も大きな壁になるであろう。

プラセボ対照試験は、既存の治療が存在しない場合には通常、倫理的に受け入れ

られる。しかしながら、既存の治療が存在する場合、倫理的受容性は治療領域に

よって異なる。既存の治療が存在する場合の倫理的受容性について以下に挙げる。

倫理的に受け入れられない場合:

• 既存治療は効果が明確で、長期予後に対して重要な効果がある。

倫理的に受け入れられる場合:

• 既存治療は、治療効果について有効である証拠はあるが、有効性のメリット

が安全性のデメリットを上回るほどではない40。

• 死亡率や有病率では長期治療における便益があるが、短期間の結果が不明で

ある40。

• 治療コストの面から、多くの場面で有効な既存治療が利用できない40。

• 既存治療は有効性または安全性の証拠の一般化可能性が低い、もしくはその

証拠に新たな疑問が生じている。

• 既存治療の評価をしていない部分患者集団に対して新しい治療の試験をす

る。

さらに、プラセボ対照試験の倫理的受容性は試験デザインにも依存する。たと

えば、中等度の高血圧症患者の短期試験(8 週間投与など)ではプラセボ対照試験

は受入れられるが、長期試験や重症な患者を対象とする試験では受入れられない

といったことが考えられる。

倫理的問題以外に、プラセボを用いる場合の問題点として、

• プラセボでは起こりえない有効性あるいは安全性上の事象が起こるとき盲

検性を維持し難い

• 被験者集団や治療期間の長さのような試験デザイン上の特徴を大きく制限

され、原疾患の重症度の低い患者に対象が限定されてしまう可能性がある

• 倫理的に受け入れられるとしても被験者の同意が得られない可能性が高く

Page 32: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 26 −

なる

ことが挙げられる。

一方、臨床の現場におけるプラセボの使用は、日本では伝統的に受入れ難く、

米国では審査側は好むようであるが最近は患者側から異論が出ている、というよ

うに地域によって異なる状況にある41。有効性が証明された治療が存在する場合、

将来的にはプラセボ対照試験は実施困難となり、プラセボを使用しない非劣性試

験に頼らざるを得ない状況が増えると予想される。

Page 33: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 27 −

4.6 ヘルシンキ宣言とその議論

新しい情報の蓄積や様々な環境の変化により、人々のプラセボ対照に対する受

け入れ方も変化している。それでもなお、前節で述べたように、臨床試験で有効

な治療が存在している場合や、生存率を改善する治療や重篤な疾患の治療が存在

する場合などは、プラセボや無治療を対照に用いることが倫理的問題となる。こ

の問題について、ヘルシンキ宣言(2000 年 10 月エジンバラ修正)42の第 29 条は以

下のように述べている43。

しかし、Temple and Ellenberg (2000)は患者の長期間の健康に影響しない場合、

プラセボを割当てられても、最善とされている予防、診断および治療を受けない

というリスクが一時的でしかないことから、他の有効な代替治療が可能なことに

ついて患者が十分に説明を受けていれば、プラセボ対照試験は倫理的に実施可能

であると述べている44。また、ヘルシンキ宣言が、有効な治療が存在している場

合に一様にプラセボ対照試験を禁じていることについて、American Medical Association (AMA)、World Health Organization (WHO)および Council of International Organizations for Medical Sciences (CIOMS)はこれを受け入れていない45。

第 29 条への批判が高まる中、世界医師会(World Medical Association:WMA)は2002 年に第 29 条に対する脚注をヘルシンキ宣言に加え、以下の場合にはプラセ

ボ対照試験が受け入れられると述べている46。

一方、臨床試験の現場では、方法論としてのプラセボの必要性とプラセボの倫

− Where for compelling and scientifically sound methodological reasons its use is

necessary to determine the efficacy or safety of a prophylactic, diagnostic or

therapeutic method; or

− Where a prophylactic, diagnostic or therapeutic method is being investigated for a

minor condition and the patients who receive placebo will not be subject to any

additional risk of serious or irreversible harm.

新しい方法の利益、危険、負担及び有効性は、現在最善とされている予防、診

断及び治療方法と比較考量されなければならない。ただし、証明された予防、

診断あるいは治療方法が存在しない場合の研究において、プラシーボまたは治

療しないことの選択を排除するものではない。(日本医師会訳)

Page 34: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 28 −

理的な問題の狭間にあって、プラセボを使用するかどうかの決定が困難な場合が

しばしばある。Cavazos ら (2002)は、ヘルシンキ宣言の改訂を受けて、IRB の立

場から、常に同じ指針の下でプラセボ対照試験の承認、非承認を行う、あるいは

そのための議論を共通の指針の下で行うためのチェックリストを提案している47。

これは、(1)標準治療のベネフィット、(2)プラセボを用いることのリスク、(3)治験

実施計画におけるリスク・マネジメントの体制、(4)同意説明文書におけるリスク

の開示のそれぞれについて、検討すべき項目とそれに対する対応が列挙されてい

るものであり、治験依頼者にとっても参考になるものである。彼らは同じ論文の

中で、うつ病、骨粗しょう症、糖尿病の各分野でプラセボ対照試験がどのように

承認されたかの実例を報告しており興味深い。

Page 35: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 29 −

4.7 プラセボを用いるための試験デザインの工夫

プラセボは治療の有効性を証明するためには必要であるが、4. 5 節および 4. 6節で述べたようにその使用は困難であることが多い。E10 ガイドラインでは、プ

ラセボ使用の困難さを解決するために、いくつかの「試験デザインの工夫」を提

示している。以下に試験デザインの工夫を行っている文献を紹介する。

• 「上乗せ試験」を取り入れた慢性喘息治療薬のプラセボ対照・ダブルブライ

ンド・クロスオーバー試験48:副腎皮質ステロイドが投与されている患者を

対象にし、被験薬(モンテルカストナトリウム)またはプラセボを上乗せ投与

した。

• 「置き換え試験」を取り入れた小児喘息の治療におけるプラセボ対照・ダブ

ルブラインド試験49:副腎皮質ステロイドが投与されている小児患者を対象

に、被験薬(抗免疫グロブリン性 E 抗体)またはプラセボを上乗せ投与し、喘

息の悪化基準に該当する事象が起こるまでステロイド投与量を減少した。ベ

ースライン(ステロイド投与量の安定期)からの減少量をエンドポイントと

した。

• 「強化(enriched)組み入れ試験デザイン」と「早期離脱」を取り入れたダブ

ルブラインド・クロスオーバー試験50:ヘルペス後神経痛治療における局所

リドカインパッチとプラセボパッチのダブルブラインド・クロスオーバー試

験を実施した。試験薬割付け前にリドカインパッチを 1 ヶ月以上使用して痛

みがコントロールされている患者を対象とした。最大投与期間は 28 日間(各期 14 日間)だが、イベント(神経痛)が発現したら投与を中止し、発現までの

期間をエンドポイントとした。

Page 36: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 30 −

4.8 Putative Placebo (Imputed Placebo)

分析感度の存在をはっきりと示すためには、プラセボを対照とした優越性試験

が選択されるべきではあるものの、プラセボを用いることが試験の実施上困難な

場合、プラセボ対照を設けずに検討する方法がある。それは、過去の対照薬とプ

ラセボの試験から被験薬とプラセボの相対的な関係を統計学的に推定する手法で

ある。このとき推定されたプラセボは putative placebo (または imputed placebo)と呼ばれている。FDA における審査ではこのような方法による裏付けを求めている

ケースもある51。このような方法を用いて被験薬の有効性の証明を検討すること

は意義があると思われるが、その一方で、この手法の是非については様々な議論

があることにも留意する必要がある。Putative placebo の推定精度が重要であるの

は言うまでもなく、putative placebo との比較可能性を考慮して試験デザインを立

てることも重要である。

この手法を用いた一つの例として、CAPLIE 試験52における内容を以下に示す。

これは、試験実施上の理由から同時対照としてのプラセボを置くことができなか

った例である。CAPLIE 試験は抗血小板剤の実薬対照試験(被験薬:クロピドグレ

ル、対照薬:アスピリン)で、虚血性発作をエンドポイントとした。この試験は倫

理的理由からプラセボ対照を設けることができなかった。その一方で、対照薬と

プラセボの比較試験は数多くあり、それら試験結果のメタアナリシスが行われて

いる53。Fisher ら (2001)は被験薬とプラセボのオッズ比を、実薬対照試験の被験

薬と対照薬のオッズ比とメタアナリシスによって推定された対照薬とプラセボの

オッズ比の積から推定している54。

統計手法の詳細:

被験薬と対照薬の比較試験(CAPLIE 試験)のデータから近似オッズ比( TtoAOR )を

算出する。

( )

の分散

の期待値

発現数被験薬の虚血性発作の

OVOE

O

VEOOR

TtoA

TtoATtoA

:::

exp2

=

Page 37: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 31 −

対照薬とプラセボの併合オッズ比( AtoPOR )は Peto 法を用いて推定される。

( )

( )∑

=

i iAtoP

ii

i

AtoP

i iiAtoP

OVOE

iO

VEO

OR

の分散

の期待値

の発現数における被験薬の発作試験

:::

exp2

これらのオッズ比の積を被験薬と対照薬のオッズ比( TtoAOR )の推定値とする。な

お、このオッズ比の分散は TtoAOR と AtoPOR が独立であることから容易に推定できる。

TtoPOR とその 95%信頼区間は、

+×±+×AtoPTtoA

AtoPTtoAAtoPTtoA VV.OROR ,OROR 11961loglogexp

となる。

Page 38: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 32 −

5. 仮説構造

5.1 3 群比較試験の仮説構造

被験薬の実薬対照に対する非劣性を第一義的な目的とした 3 群比較試験のみな

らず、実薬対照に対する優越性を第一義的な目的とした 2 群比較試験であっても、

優越性が証明できなかった場合のセーフティーネット(防衛策)として switching を

testing strategy に含め、非劣性試験としても十分な情報が得られるようにプラセボ

群を追加し 3 群比較試験を計画することがある。また、プラセボ効果が大きな評

価変数において、薬の絶対的効果を示す必要からプラセボ群を設定することもあ

るかもしれない。以下の考察においては、被験薬と実薬対照の比較を非劣性に限

定せず、有効性を検証し可能な限りの安全性情報を収集することを目的とした試

験を想定する。ここでは、プラセボの使用が倫理的に許される状況を前提とする。

5.1.1 比較の対

3 群比較試験には以下のような 3 つの比較の対がある。

• 被験薬とプラセボの比較(優越性):被験薬の有効性の存在の証明。

• 被験薬と実薬対照の比較(優越性、非劣性、あるいは成否の閾値を設けない

差の推定):被験薬の医療環境における位置づけを明らかにする。優越性あ

るいは分析感度が確保された上での非劣性は、有効性の存在の証明になると

いう側面もある。

• 実薬対照とプラセボの比較(優越性):分析感度の確立。

5.1.2 過去に行われた議論

3 群比較試験の仮説構造については、D’Agostino and Heeren (1991)55に端を発す

る一連の議論がある56,57。その議論の中で被験薬群、プラセボ群、実薬対照群から

なる 3 群比較試験は gold standard と呼ばれ、複数の実薬対照が存在する場合の実

薬対照とプラセボの比較および被験薬と実薬対照の比較における第一種の過誤を

制御する方法に焦点が当てられている。Experimentwise の第一種の過誤について

は、3 つの比較の対の全てで帰無仮説が棄却されることが必須である(積命題)とし

て、3 つの比較の間の多重性の調整を考えないか、検定の順序制約を導入し閉検

定手順により experimentwise の第一種の過誤を制御する方法が述べられている.

Page 39: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 33 −

特に臨床試験の感度(E10 ガイドラインにおける分析感度に相当、当時は downside sensitivity と呼ばれていた)を確立するために実薬対照のプラセボに対する優越性

は最初に示すべきであると述べられている。

5.1.3 個々の比較の重要度

これら 3 つの比較の重要度は一律に論じることはできず、状況によって柔軟に

考えるべきものであろう。たとえば、被験薬とプラセボの比較が第一義であって、

実薬対照との比較はあくまでも参考と位置づけられる場合には、実薬対照とプラ

セボの比較によって確立される分析感度はあまり厳格に問題視する必要がないか

もしれない。一方、被験薬と実薬対照の比較(非劣性が含まれる)が第一義である

場合には、実薬対照とプラセボの比較は重要性が増すであろう。

5.1.4 例数設計の観点から

被験薬の実薬対照に対するメリットを主要評価項目以外で示すことができるも

のの、主要評価項目では被験薬が実薬対照に対して劣ることがありうるという特

殊な場合を除いて、主要評価項目における被験薬、実薬対照、プラセボの真の位

置関係は次の図 5.1 に示すように仮定され、例数設計はなされるであろう。

図 5.1 位置関係の概念

この図は被験薬、実薬対照、プラセボの位置関係を概念的に示したものであり、

PAT >> の関係を図示したものである。被験薬と実薬対照との真の差( 0>TAδ )、実薬対照とプラセボとの真の差( 0≥APδ )の大小関係は、どちらが大きい場合もあ

りうる。しかし、これらの差はいずれも被験薬とプラセボとの真の差( 0≥TPδ )よ

δAP

δTA

δTP

被験薬(T)

プラセボ(P)

実薬対照(A)

Page 40: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 34 −

りは小さいと仮定される。非劣性の限界値は、「確実に期待できる実薬対照の効果

の大きさの最小値」より大きな値とはならないように設定されるので、 APδ より

は小さい。非劣性検定において検出されるべきシグナルは ∆δ +TA となり、少なく

とも TPδ よりは小さい。

∆δδδδ +>+= TAAPTATP

例数設計の観点から考えると、一定の検出力のもとで TAδ あるいは APδ を検出す

るために必要な例数は、 TPδ を検出するために必要な例数よりも多くなる。被験薬

と実薬対照の比較を非劣性で示す場合にも、被験薬と実薬対照の比較あるいは実

薬対照とプラセボの比較が試験全体の例数を決定する。例数設計においては安全

性データベースの大きさも考慮する必要がある。被験薬の例数が実薬対照やプラ

セボの例数に比べて極端に小さいような例数設計は安全性データベース全体のバ

ランスとして適切ではないかもしれない。このようなバランスを考慮して例数設

計するために、3 つの比較について異なった検出力を設定する方法も考えられる。

たとえば、被験薬と実薬対照との比較や実薬対照とプラセボとの比較に被験薬と

プラセボとの比較よりも低い検出力を設定することは、最も厳格に優越性を示す

べき比較の成功確率を増やすという意味で現実的である。

窮めて厳格な立場に立てば、これら 3 つの比較が全て成功裏に示される必要が

あり、被験薬の実薬対照に対する優越性あるいは実薬対照のプラセボに対する優

越性が試験の規模の決定要因となる。しかし、このような厳格な条件が常に必要

であろうか。

5.1.5 リスク管理の観点から

実薬対照とプラセボとの差が小さいほどこれを検出するために多くの被験者が

必要となる。このことは、効果が小さいあるいは効果を示すことが困難な実薬対

照ほど、たとえ被験薬が実薬対照よりも優れた効果を期待できるとしても、分析

感度の確立のために多くのリソース(被験者、人、お金、時間)を費やす必要があ

るという不合理さをはらんでいる。そのような実薬対照に対しては、プラセボ群

なしの 2 群比較試験ではっきりとした優越性を示せば分析感度を確立しようとす

るために生じるこのような問題は起きないのであるが、実薬対照に対する優越性

を示すことに失敗するリスクを考えるとなかなか割り切ることができない困難な

意思決定の問題となる。また、成功のためのハードルという側面から考えると、

被験薬のプラセボに対する優越性も被験薬の実薬対照に対する優越性(あるいは

Page 41: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 35 −

非劣性)も被験薬の有効性の存在の証明を意図したものであり、両方の検証が必要

ということになると、被験薬の有効性の存在の証明という意味では二重のハード

ルを課すことになる。実薬対照との比較の成否に試験全体の成否の一端を委ねる

ことのリスクも考えておく必要がある。

計画している被験薬の臨床試験の中で実薬対照がどのような結果を与えるかに

ついては、実際のところ不確定な要素が多い。デザイン上の重要な性質が実薬対

照の過去の試験と一致していても、別のスポンサーが行った過去の試験結果とい

うのは、医師や治験協力者の教育、症例報告書の作り、データ収集のガイダンス(手引書)、解析のアルゴリズムなど、何か実施上のノウハウがあってこそ実現できて

いたものかもしれない。被験薬と実薬対照とでは結果の再現可能性についての確

信の度合いが大きく異なるのである。

実薬対照がプラセボに対して優越性を示すことができれば、分析感度を最も明

確な形で確立することができる。しかし、実薬対照の結果の不確実性によるリス

ク、検出すべき差の大きさに起因する例数設計上のバランスの悪さを考えると、

実薬対照のプラセボに対する優越性を他の比較の前提条件とすべきであるとする

D’Agostino and Heeren (1991)55に端を発する一連の議論56,57の中で述べられていた

厳格な立場を実践するのは、かなり困難であると言わざるを得ない。実薬対照と

プラセボの差の推定値の過去の試験との近さを示すことや試験の特性や副次的な

評価項目から過去の試験との違いを説明するという余地は残っているのであり、

分析感度は単純に検定によって白黒をつけられるような問題ではないのではない

かと考えられる。

一方、試験の目的が被験薬の有効性を検証することであるならば、被験薬のプ

ラセボに対する優越性については、仮説検定の枠組みで厳格に証明する必要があ

るであろう。

5.1.6 被験薬と実薬対照の比較の位置づけ

2 群比較試験における主要評価項目の優越性や非劣性の検定は、被験薬の有効

性の証明と実薬対照に対する被験薬の位置づけに関する強いメッセージを作り出

すという 2 つの役割を担っている。一方、3 群比較試験では被験薬のプラセボに

対する優越性を示すことによって被験薬の有効性が証明できるため、実薬対照に

対する優越性や非劣性は、実薬対照に対する被験薬の位置づけに関する強いメッ

Page 42: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 36 −

セージを作り出すのみとなる。実薬対照との比較をどの程度厳密に行う必要性が

あるのか、いくつかの状況を考え、以下に考察する。

(i) 実薬対照に対する優越性がエビデンスとして必須の場合

広く使われている標準薬が存在しており、被験薬が安全性あるいは他の有効性

評価項目において何らかのメリットを示すことができず、実薬対照に対する優越

性を示すことによってのみ被験薬の存在価値を説明できる場合:

安全性あるいは他の有効性評価項目で明らかに劣っている項目がある場合には、

たとえ優越性が示せたとしても、劣った部分を補って存在価値を説明できるかは、

医療現場において既にどれだけの選択肢が存在しているかなどの判断の問題とな

る。優越性が必須の場合には当らないが、実薬対照に対する非劣性を示すことで

僅かながらも生き残る道があると判断できる場合には、非劣性から優越性への

switching を事前規定しておく戦略もありうるであろう。

(ii) 実薬対照に対する非劣性がエビデンスとして必須の場合

広く使われている標準薬が存在しており、被験薬が安全性あるいは他の有効性

評価項目において何らかのメリットを示すことができるが、主要評価項目におい

て臨床的に決定的な意味があるほどの差は見込めない場合:

安全性あるいは他の有効性評価項目において何らかのメリットを示すことがで

きない場合は、たとえ非劣性が示せたとしても、存在価値を説明できるかは、医

療現場において既にどれだけの選択肢が存在しているかなどの判断の問題となる。

非劣性が必要条件であるが、優越性を示すことができる可能性も相当見込めるな

らば、非劣性から優越性への switching を事前規定しておく戦略もありうるであろ

う。

(iii) 実薬対照との位置関係を知ることは意味があるが、優越性(あるいは非劣性)の形でエビデンスを示すことまでを必須としない場合

既存薬がまだ標準的治療とは認知されておらず、被験薬の有効性、安全性のプ

ロファイルを示すことが重要で、既存薬から大きく劣る点がない限り、治療の選

択肢として参入することに反論が少ない場合:

作用機序が異なる場合には説明がしやすいかもしれない。既存薬が標準治療の

Page 43: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 37 −

地位を確立しているが、かなり古い薬であり、現在の医療環境あるいは臨床試験

の環境における効果の証明という意味で信頼性に疑問があるときにも当てはまる

場合があるかもしれない。

Page 44: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 38 −

5.2 被験薬の複数用量群とプラセボ群、実薬対照群を持つ多群試験の仮説構造

3 群比較試験の拡張として、被験薬、実薬対照あるいはその両者に複数用量を

持つ 4 群以上の比較試験を考えることができる。ここでは、被験薬のみ複数用量

をもち、1 用量の実薬対照とプラセボ群からなる 4 群以上の試験について考察す

る。このようなデザインの試験は、ブリッジング試験としてのプラセボ対照用量

反応試験に実薬対照を追加する場合、被験薬の複数の用量についての有効性、安

全性に関する情報を標準治療との位置関係を考慮しながら収集したい場合などに

計画される。検討可能な比較の対(あるいは対比)が格段に増え、仮説構造が複雑

になる。Bauer ら (1998)は、特に多重性の問題に対処する検定のストラテジーに

ついていくつかの提案を行っている58。以下に彼らが提案した 3 つの方法につい

て紹介を行う。これらの方法はどれもStep A 、Step B から成り、Step A は共通で

ある。Step A として最初に示す必要があるとされる実薬対照群とプラセボ群の比

較、あるいは用量反応性の検定を行うことが本当に必要かどうかについては、3群比較試験での議論と同様に状況により議論の余地が残されていると考えられる。

プラセボ群、被験薬の各用量群、実薬対照群(1 用量)のある評価変数の位置母数

をそれぞれ Pθ 、 ( )kTjTj,...1=θ 、 Aθ とする。また、以下の表記において大きな値ほ

ど望ましいものとし、仮説の構成要素として以下のものを考える。

(A) 用量反応性:

kP θθθ === L10 :H

)1( :H 11 り立つつの不等号は厳密に成少なくともkP θθθ ≤≤≤ L

(B) 被験薬群とプラセボ群の比較:

PTT jjθθ ≤:H ,0

PTT jjθθ >:H ,1

(C) 被験薬群と実薬対照群との比較(非劣性の特別な場合として優越性を含む):

∆θθ∆ −≤ ATACT

T jj:H ,,0

∆θθ∆ −> ATACT

T jj:H ,,1

0 ≥∆ここで

Page 45: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 39 −

と表記する 

、は、優越性をする必要がある場合に優越性と非劣性を区別

H

H

,,1

,,0

ACTTP

ACTTP

j

j

(D) 実薬対照群とプラセボ群の比較:

PAA θθ ≤:H ,0

PAA θθ >:H ,1

【方法 1】

Step A :有意水準α で 0H あるいは A,0H を検定する。棄却された場合にはStep B に

すすむ。

このステップでは用量反応関係あるいは分析感度を確立する。検定に際しては

次の 3 つの考え方のうちから選択する余地がある。①被験薬が有効性を有するこ

とを示す 1H が確立された後でのみ被験薬と実薬対照との比較に意味があるとす

る考え方に基づいて 0H を検定する、②分析感度が確立した後でのみ被験薬と実薬

対照との比較に意味があるとする考え方に基づいて A,0H を検定する、③両方が同

時に確立した後でのみ被験薬と実薬対照との比較に意味があるとする考え方に基

づいて 0H と A,0H を検定する(D’Agostino ら)。

Step B :被験薬群間に順序制約 ( kθθθ ≤≤≤ L10 )を仮定し、下降手順により

1,...,1, −= kkj の順に有意水準α で ACTTj,,0H ∆ に対して検定する。

このステップでは、最後に棄却される ACTTj,,0H ∆ まで非劣性を確立する。Step B は順

序制約を仮定しない場合、以下のStep B’ に置き換えることができる。

Step B’ :被験薬群間に順序制約を仮定せず、Dunnett 型の多重比較法を用いて

ACTTj,,0H ∆ を検定する。

Step B における各仮説は { }ACTT

ACTTP jj ,,0,,0 HH ∆∩ のような優越性と非劣性の同時検定

(simultaneous testing)で置き換えることができるであろう。 ACTTP j,,0H と ACT

Tj,,0H ∆ のそれぞ

れの検定は family-wise error rate を維持しながら有意水準αで行うことができる。

Page 46: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 40 −

従って、下降手順はどちらか一方(あるいは両方)の仮説が有意水準α で棄却され

た場合に続けられる。この方法の欠点は、実薬対照に対して非劣性を示すことが

できた用量がプラセボに対する優越性を示せるとは限らないことである。 A,0H を

第 1 段階として検定することは 3 群比較試験の仮説構造において考察した検出力

の観点から困難な状況もある。

【方法 2】(分割仮説 Split hypothesis)

Step A :有意水準α で 0H あるいは A,0H を検定する。棄却された場合にはStep B に

すすむ。

このステップでは、用量反応関係あるいは分析感度を確立する。

Step B :被験薬群間に順序制約( kP θθθ ≤≤≤ L1 )を仮定し、 21 ααα += とする。下

降手順を用いて以下の 2 つの系列の検定を並行して行う。

系列 1( 1α ): 1,...,1, −= kkj の順に有意水準 1α でjT,0H に対して検定する【プラセボ

vs.被験薬】

系列 2( 2α ): 1,...,1, −= kkj の順に有意水準 2α で ACTTj,,0H ∆ に対して検定する【被験薬

vs.実薬対照】

このステップでは、被験薬の各用量がプラセボに対する優越性と実薬対照に対

する非劣性を同時に、あるいは一方を示す。Step B の系列 2 の各仮説は優越性と

非劣性の同時検定で置き換えることができるであろう。この方法の欠点は、実薬

対照に対して非劣性を示すことができた用量とプラセボに対する優越性が示せた

用量が必ずしも一致しないことである。

【方法 3】(連結仮説 Linked hypothesis)

Step A :有意水準α で 0H あるいは A,0H を検定する。棄却された場合にはStep B に

すすむ。

このステップでは、用量反応関係あるいは分析感度を確立する。

Page 47: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 41 −

Step B :被験薬群間に順序制約( kP θθθ ≤≤≤ L1 )を仮定し、{ }ACTTT jj ,,0,0 HH ∆∪ を union

null hypothesis とする。つまり、両方の仮説が棄却されたときのみ全体が棄却さ

れる。下降手順により 1,...,1, −= kkj の順に有意水準αで検定する。

このステップでは、被験薬の各用量がプラセボに対する優越性と実薬対照に対

する非劣性を同時に示す。Step B は順序制約を仮定しない場合、以下のStep B’ に

置き換えることができる。

Step B’ :被験薬群間に順序制約( kp θθθ ≤≤≤ L1 )を仮定せず、 { }ACTTT jj ,,0,0 HH ∆∪ に対

して Bonferroni-Holm 型の下降手順を用いて ACTTj,,0H ∆ を検定する。

Step B の各仮説は優越性と非劣性の同時検定、つまり ( ){ }ACTT

ACTTPT jjj ,,0,,0,0 HHH ∆∩∪ に

対する検定手順で置き換えることができるであろう。つまり、jT,0H が棄却され、

かつ、実薬対照に対する優越性あるいは非劣性の帰無仮説のどちらか一方が棄却

されたときに下降手順が続けられる。この方法は、方法 1 と方法 2 の欠点を補い、

順序制約を仮定した場合には多重性調整の代償としての症例数の増加を抑えるこ

とができる方法であるが、優越性と非劣性の同時検定を行ったときに実薬対照に

対する優越性が高用量で示されず、低用量で示されることが起こりうるという欠

点も有する。

Page 48: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 42 −

6. その他のトピックス

6.1 優越性と非劣性の Switching

優越性と非劣性間の switching(優越性→非劣性または非劣性→優越性)について、

2000 年 7 月 27 日付けで EMEA から Points to Consider on Switching between Superiority and Non-inferiority (以下 Points to Consider on Switching)が報告されてい

る59。

Switching という言葉が一般的になったのは Points to Consider on Switching が公

表された以降であるものの、日本においては優越性と同等性の検証の併存問題と

して一昔前から論じられていた。非劣性試験の多い日本においては、switching は

重要な問題であり、本協会においても検討されている60,61。また、switching にお

ける多重性の問題は、Morikawa and Yoshida (1995)が論じている62。

2002年 7月に、The Pharmaceutical Research and Manufacturers of America (PhRMA)により米国で実施された実薬対照試験のアンケート調査を日本でも実施したとこ

ろ、17 社(本協会会員 70 社中)が switching の経験があると回答しており63、日本に

おいて switching は特殊な手法としてではなく用いられていることが推察される。

米国でも非劣性試験が注目されつつあるので、今後、switching への興味はますま

す大きくなっていくものと思われる。

Switching は優越性試験と非劣性試験の 2 つを結合した内容として参考となるた

め、Points to Consider on Switching の内容を以下に紹介する。

この Points to Consider on Switching は7つの章で構成され、第Ⅳ章に優越性と非

劣性間の switching が紹介されている。その switching に関する内容の前に、その

試験が優越性試験、同等性試験、あるいは非劣性試験であるかの事前定義は次の

事項を含む多くの理由から必要であるとしている。

• 対照となる治療、用量、被験者集団、エンドポイントが適切であることを保

証するため

• サンプルサイズの見積もりが正しい検出力計算に基づくようにするため

• 同等性・非劣性の基準が事前に定義されていることを保証するため

• 適切な解析計画がプロトコールに宣言されるようにするため

Page 49: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 43 −

• その試験が目的を達成するために十分な感度を持っていることを保証する

ため

以上のような面は、試験の目的を優越性から非劣性へ、あるいはその逆へとス

イッチする場合、有意性検定や信頼区間の解釈よりも大きな困難に通じるもので

あろうと述べられている。

次に、非劣性から優越性への switching と優越性から非劣性への switching につ

いての内容を紹介する。

6.1.1 非劣性から優越性への Switching

成立条件は「治療間の差の 95%信頼区間が−∆だけでなく 0 も上回る」であり、

これが成立した場合、「優越性(有意水準 5%で統計的に有意)の証拠がある」とし

ている。尚、多重性については simple closed test procedure であるため、統計的多

重性の議論は生じないとしている。また、解析対象集団については、優越性にお

いては、Intent-to-Treat (ITT)の原則に基づく Full Analysis Set (FAS)が、Per-Protocol Set (PPS)による適切なサポートをもって、選択されるべき解析対象集団であると

し、非劣性においては、FAS と PPS の両解析対象集団が等しく重要となり、頑健

な解釈のため、両解析対象集団を用いた結果が似たような結論を導くべきとして

いる。

なお、switching を行う際は、優越性と非劣性における両解析対象集団の特性に

おける違いを強く認識することが必要であるとしている。その他、試験の質とし

て、非劣性を示す試験は高い程度でプロトコールでの計画と一致していることを

示すべきであるとし、対照薬の適切性や検出力計算などについても記載されてい

る。

6.1.2 優越性から非劣性への Switching

優越性試験が治療間の有意な差の検出に失敗する場合、非劣性の検証という格

下げした目的へと興味が移るが、優越性試験の結果が治療間の差の平均の 95%信

頼区間で要約され、試験プロトコールで受け入れ可能な非劣性限界値 ∆を事前に

定義しているとき、非劣性への検証という目的の格下げにおける方法論的な問題

はより少なくなるとしている。

試験プロトコールにおける非劣性限界値の事前定義は、非劣性が承認目的とし

Page 50: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 44 −

て受け入れられる可能性がある状況下の優越性試験において、後に非劣性を選択

するときに生じる重大な困難を避ける意味で賢明であるとしている。一方、事前

定義が不可能な場合は、限界値は事後的に正当化することになるため、多くの場

合、正当化することは不可能であろうとしている。

また、このような状況下においては、その試験が薬剤効果を検出するのに十分

な感度を持っていることを正当化する必要上、可能な限り試験計画時に注意を払

うことも賢明であるとしている。ただし、実薬対照に対する非劣性が有効性の証

拠として受け入れられそうもない薬剤の領域についてはプラセボ対照試験が必要

となることが記載されている。

解析対象集団については、前節「非劣性から優越性への switching」と同様なこ

とが記載されており、試験の質については、非劣性を示す試験は高い程度でプロ

トコール計画と一致していることを示すべきであり、試験感度を示すために、次

の内容を考慮する必要があるとしている。

• 直接的または間接的に、対照薬が通常の有効性を示している証拠を示す。

• 対照薬の効果を示した、以前の試験と比較する。

• とりわけ、服薬不遵守や被験者やデータの脱落の程度が、以前の試験と同程

度であることを示す。

• FAS、PPS とも同じような結果を示す。

その他、対照薬の適切性や検出力計算などについても記載されている。

Page 51: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 45 −

6.2 解析対象集団

解析の原則として、ランダム化後の治療状況の如何に拘らず割り付けられた処

置群のままを解析対象とする ITT と、プロトコールを遵守して治療効果が評価可

能であった患者のみを解析対象とする Per-Protocol (PP)の 2 つの考え方がある。E9ガイドラインではこれらの考え方を反映したものとして最大の解析対象集団

(FAS)と治験実施計画書に適合した対象集団(PPS)が定義されている。さらに E9 ガ

イドラインは優越性試験では FAS を主たる解析対象集団として推奨しているが、

非劣性試験では FAS と PPS のどちらを選択すべきかを明言していない。

これら 2 つの解析対象集団および症例数について、D’Agostino ら (2003)に以下

の記載がある2。ITT は 2 種類の処置の差を小さくし PP はその差を大きくさせる

傾向があるため、非劣性試験の解析対象集団としては PP が適している。その一

方で、この解析対象集団として ITT が適しているという正反対の考え方もある。

最近ではこれら両方が非劣性試験の解析対象集団であると考えられている。なぜ

なら、臨床試験の結論としてこれら 2 種類の解析対象集団で得られた結果に相違

がないことが期待されているからである。Points to Consider on Switching には、非

劣性試験において、“their[ITT の原則に基づく FAS および PPS を指す] use should lead to a similar conclusions for a robust interpretation”とある59。そして症例数はこれ

ら両方で解析するために、その数が ITT より少ない PP を基にして解析に必要な

数を求めるべきである。

佐藤 (1994)は ITT 解析こそが実践的な解析であり、非劣性試験で通常の ITT 解

析が不適切な場合でも少なくとも“ランダム化に基づく” ITT 解析を行う必要があ

るだろうと述べている64。上坂、森川、魚井 (2000)は PP 解析が平均値の差をゼロ

に近づけるようなバイアスをもたらすとともに分散の縮小ももたらすと指摘して

いる3。さらに上坂 (2001)は、薬剤間の差を小さくする可能性のある試験計画から

の違反・逸脱を許容する ITT 解析(あるいは E9 ガイドラインがいう ITT の原則に

可能な限り近づけた FAS 解析)ではなく、処置の差を縮小させる方向に作用する

バイアスを制御した上での FAS を用いることを提案している9。また Koch and Röhmel (2002)は、分散の増大と平均値の差の縮小のどちらがより大きな影響を及

ぼすかを検討した上で、より保守的な解析対象集団と評価不能な測定値に対する

imputation 法を選択すべきとし、そのためには実際的な状況に応じたシミュレー

ションが有用だと述べている65。

Page 52: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 46 −

特定治療領域ごとにその解析対象集団を明確化しようとする動きも見られる。

非劣性試験が避けられない侵襲性真菌感染症領域の Points to Consider では、対象

症例を診断の確かさにより possible、probable、proven の 3 区分に分けて有効性検

証の主要解析には後者 2 つを clinically evaluable population として用いるべきであ

るとしている66。

Page 53: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 47 −

6.3 残されたトピック

本報告書で十分に言及できなかった E10 ガイドライン周辺の論点を紹介する。

• Putative placebo と非劣性限界値

非劣性の限界値の決定には「統計的推論」と「臨床判断」の双方に基づくべ

きとされている。「統計的推測」による場合は、当該試験でのプラセボの効

果の大きさを仮想的に推定することになり、信頼限界などにより推定の不確

実性を反映させることになる(この場合、信頼幅が保守性を保つクッション

的な役割を果たす)。しかし、我々が究極的に知りたいのは点推定値であり、

「臨床判断」との一致性である。(たとえば、メタアナリシスを行うに際し

て)どのような点を留意することで、より確かで精度の高い推測が可能とな

るのであろうか。

• 「差」vs.「比」

2 つ反応変数を「差」で評価するのか、「比」で評価するのかは、その試験

の評価指標としてどちらが適切であるかによって決められるであろう。現実

的に「差」が用いられることが多いためであろうか、E10 ガイドラインでは

「差」について整理されている。他方、「比」についてはまだ議論の余地が

残されているように思われる。

Page 54: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 48 −

7. 結びに代えて

医薬品開発に携わるものの使命は、より良い薬剤をより早く患者に提供するこ

とであり、そのためには医薬品として承認を得るというプロセスを避けて通るこ

とはできない。最終的な許認可は規制当局の判断に委ねられるところとなるが、

その事由の根幹を成すのは申請者が提示する科学的なデータであることは疑いよ

うもない。最近特に強調されている Evidence Based Medicine (EBM) という面にお

いても、被験薬の有効性および安全性に関しての確固たる証拠をいかにして得る

か、すなわち、どのような検証を行えば強固なエビデンスが得られるかという問

題は常に最大の関心事である。E10 ガイドラインはこの問題に対峙した最初の

ICH ガイドラインであるという見方もできる。しかし、ここで述べられている原

理原則を現実の様々な適用場面でどのように、あるいはどこまで受け入れるかは

申請者の判断に負うものであり、実際応用に当っては工夫や折り合いが必要とな

ることが多い。本報告書では、E10 ガイドラインを運用するに当り我々が勘案す

べきであろうと考えた事項を多角的に検討した。

患者にとって好ましい薬剤という視点には、有効性面のみならず安全性面、

Pharmacokinetics (PK)面、製剤面など様々な側面が考えられる。実際に対照群の選

択においてこれらが考慮されることは多いと思われる。たとえば、有効性は市場

での標準薬とほぼ同等(あるいはそれ以下)だが安全性面でより好ましいプロファ

イルが期待されるような新薬の場合、有効性と安全性に関して、どの様なことを、

どこまで、どの様な手順で立証すれば良いのであろうか。また、どのような点に

留意すれば良いのであろうか。本報告書に示した検討結果が座右の手引きとして、

本邦における「臨床試験における対照群の選択とそれに関連する諸問題について」

のガイドラインの適切な理解と臨床試験のデザイン検討、さらには有用な薬剤の

確固たるエビデンス付与の手助けとなれば幸いである。

Page 55: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 49 −

8. 謝辞

E10 ガイドラインの解釈および考え方に加え、E10 サブグループの活動に多大

なご助力を戴いた E10-EWG の森川敏彦氏ならびに上坂浩之氏に感謝致します。

Page 56: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 50 −

9. 引用文献

1 広津千尋. 科学技術としての統計的方法. 臨床精神薬理, 2001; 4: 763-773.

2 D’Agostino, R. B. Sr., Massaro, J. M., and Sullivan, L. M. Non-inferiority trials: design

concepts and issues - the encounters of academic consultants in statistics. Statistics in

Medicine, 2003; 22: 169-186.

3 上坂浩之, 森川敏彦, 魚井徹. 非劣性試験におけるデザインと試験の質の諸問題. 計量

生物学, 2000; 20(2): 201-215.

4 Chuang-Stein, C. Clinical equivalence – a clarification. Drug Information Journal, 1999; 33:

1189-1194.

5 Committee on Proprietary Medicinal Products. Concept paper on the development of a

committee for proprietary medicinal products (CPMP) points to consider on

biostatistical/methodological issues arising from recent CPMP discussions on licensing

applications: Choice of delta. Committee on Proprietary Medicinal Products, London,

September 23, 1999.

6 Hwang, I. K. Design issues in noninferiority/equivalence trials. Drug Information Journal,

1999; 33: 1205-1218.

7 Phillips, A., Ebbutt, A., France, L., and Morgan, D. The international conference on

harmonization guideline “statistical principles for clinical trials”: Issues in applying the

guideline in practice. Drug Information Journal, 2000; 34: 337-348.

8 Koch, G. G., and Tangen, C.M. Nonparametric analysis of covariance and its role in

noninferiority clinical trials. Drug Information Journal, 1999; 33: 1145-1159.

9 上坂浩之. 新薬の臨床的有効性はどのようにして確認すべきか. 臨床精神薬理, 2001; 4:

783-789.

10 Wang, S. J., Hung, H. M. J., and Tsong, Y. Utility and pitfalls of some statistical methods in

active controlled clinical trials. Controlled Clinical Trials, 2002; 23: 15-28.

11 Ng, T-H. Choice of delta in equivalence testing.. Drug Information Journal, 2001; 35:

1517-1527.

12 Gupta, G., Hsu, H., Ng, T-H., Tiwari, T., and Wang, T. Statistical review experiences in

Page 57: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 51 −

equivalence testing at FDA/CBER. Proceedings of the Biopharmaceutical Section, American

Statistical Association, 1999; 220-223.

13 Hauschke, D. Choice of delta: a special case. Drug Information Journal, 2001; 35: 875-879.

14 Wiens, B. L. Choosing an equivalence limit for noninferiority or equivalence studies.

Controlled Clinical Trials, 2002; 23: 2-14.

15 Stein, R. A., and Heyse, J. F. Non-parametric estimation of overlap. Statistics in Medicine,

2001; 20: 215-236.

16 Committee for Proprietary Medicinal Products. Note for guidance on evaluation of new

anti-bacterial medicinal products. Committee for Proprietary Medicinal Products, London,

April 1997.

17 Rom, D. R., and Hwang, E. Testing for individual and population equivalence based on the

proportion of similar responses. Statistics in Medicine, 1996; 15(14): 1489-1505.

18 Encarta(R) World English Dictionary.

19 Piercy, M. A., Sramek, J. J., Kurtz, N. M., and Cutler, N. R. Placebo response in anxiety

disorders. Annals of Pharmacotherapy, 1996; 30: 1013-1019.

20 Cleophas, T. J. M. The importance of placebo effects. JAMA, 1995; 273-283.

21 Gould, B. A., Mann, S., Davies, A. B., Altman, D. G., and Raftery, E. B. Does placebo lower

blood-pressure? Lancet, 1981; 2: 1377-1381.

22 Sturdevant, R. A., Isenberg, J. I., Secrist, D., and Ansfield, J. Antacid and placebo produced

similar pain relief in duodenal ulcer patients. Gastroenterology, 1977; 72(1): 1-5.

23 Luparello, T., Leist, N., and Lourie, C. H. The interaction of psychologic stimuli and

pharmacologic agents on airway reactivity in asthmatic subjects. Psychophysiology, 1970; 32:

509-513.

24 Vogel, G. W., Vogel, F., McAbee, R. S., and Thurmond, A. J. Improvement of depression by

REM sleep deprivation: New findings and a theory. Archives of General Psychiatry, 1980;

37(3): 247-253.

25 Levine, J. D., Gordon, N. C., and Fields, H. L. The mechanism of placebo analgesia. Lancet,

1978; 2: 654-657.

Page 58: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 52 −

26 Straus, J. L., and Cavanaugh, S. V. A. Placebo effects: Issues for clinical practice in psychiatry

and medicine. Psychosomatics, 1996; 37: 315-326.

27 Schindel, L. Placebo-induced side effects. In: Drug Induced Diseases, vol. 3, 323-330 (Meyler,

L., and Peck, H. M., eds.), Excerpta Medica, Amsterdam, 1968.

28 Committee on Proprietary Medicinal Products. Note for guidance on the clinical investigation

of medicinal product for the treatment of urinary incontinence. Committee on Proprietary

Medicinal Products, London, December 18, 2002.

29 Schapira, K., McClelland, H. A., and Griffiths, N. R. Study on the effects of tablet colour in

the treatment of anxiety states. BMJ, 1970; 2: 446-449.

30 Blackwell, B., Bloomfield, S. S., and Buncher, C. R. Demonstration to medical students of

placebo responses and non-drug factors. Lancet, 1972; 1: 1279-1282.

31 Thomson, R. Side effects and placebo amplification. British Journal of Psychiatry, 1982; 140:

64-68.

32 Galton, F. J. Regression towards mediocrity in heredity stature. Journal of the Anthropological

Institute of Great Britain and Ireland, 1885; 15: 246-263.

33 McDonald, C. J., Mazzuca, S. A., and McCabe, G. P. Jr. How much of the placebo 'effect' is

really statistical regression? Statistics in Medicine, 1983; 2(4): 417-427.

34 Stinger, T. R., and Pan, E. F. C. Placebo effect. In: Encyclopedia of biopharmaceutical

statistics, 402-407, Marcel Dekker, New York, 2000.

35 Spilker, B. Interpreting placebo data. In: Guide to Clinical Trials, Chapter 93, 713-720,

LW&L, 1991.

36 Beecher, H. K. The powerful placebo. JAMA 1955; 159: 1602-1606.

37 Kienle, G. S., and Kiene, H. The powerful placebo effect: Fact or fiction? Journal of Clinical

Epidemiology, 1997; 50(12): 1311-1318.

38 Hróbjartsson, A., and Gøtzsche, P. C. Is the placebo powerless? An analysis of clinical trials

comparing placebo with no treatment. New England Journal of Medicine, 2001; 344:

1594-1602.

39 Spiegel, D., Kraemer, H., Carlson, R. W., McDonald, C. J., Miller, F. G., Kaptchuk, T. J.,

Page 59: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 53 −

Einarson, T. E., Hemels, M., Stolk, P., Lilford, R. J., Braunholtz, D. A., Kupers, R., Shrier, I.,

DiNubile, M. J., Beldoch, M., Hróbjartsson, A., and Gøtzsche, P. C. Is the placebo powerless?

New England Journal of Medicine, 2001; 345: 1276-1279.

40 Ellenberg, E. S., and Temple, R. Placebo-controlled trials and active-control trial in the

evaluation of new treatments, Part 2: Practical issues and scientific cases. Annals of Internal

Medicine, 2000; 133: 464-470.

41 Huitfeldt, B., Danielson, L., Ebbutt, A., and Schmidt, K. Choice of control in clinical trials –

issues and implications of ICH-E10. Drug Information Journal, 2001; 35: 1147-1156.

42 World Medical Association Deceleration of Helsinki: Ethical principles for medical research

involving human subjects. JAMA, 2000; 284(23): 3043-3045.

43 世界医師会(WMA)の宣言・声明・決議等について. 日医雑誌 2000, 123(2): 186-194.

44 Temple. R, and Ellenberg, S. S. Placebo-controlled trials and active-control trial in the

evaluation of new treatments, Part 1: Ethical and scientific issues. Annals of Internal Medicine,

2000; 133: 455-463.

45 Vastag, B. Helsinki discord? A controversial declaration. JAMA, 2000; 284(23): 2983-2985.

46 World Medical Association Deceleration of Helsinki: Ethical principles for medical research

involving human subjects. World Medical Association ホームページ内

http://www.wma.net/e/policy/17-c_e.html#clarification.

47 Cavazos, N., Foster, D., and Bowen, A. J. Ethical concerns in placebo-controlled studies: An

analytical approach. Drug Information Journal, 2002; 36: 249-259.

48 Robinson, D. S., Campbell, D., and Barnes, P. J. Addition of leukotriene antagonists to therapy

in chronic persistent asthma: A randomised double-blind placebo-controlled trial. Lancet,

2001; 357(9273): 2007-2011.

49 Milgrom, H., Berger, W., Nayak, A., Gupta, N., Pollard, S., McAlary, M., Taylor, A.F., and

Rohane, P. Treatment of childhood asthma with anti-immunoglobulin E antibody (omalizumab).

Pediatrics, 2001; 108(2): e36.

50 Galer, B. S., Rowbotham, M. C., Perander, J., and Friedman, E. Topical lidocaine patch

relieves postherpetic neuralgia more effectively than a vehicle topical patch: results of an

enriched enrollment study. Pain, 1999; 80(3): 533-538.

Page 60: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 54 −

51 Briefing document concerning NDA 20-807/S-004, Refludan@ [lepirudin (rDNA) for

injection] in acute coronary syndromes: unstable angina and acute myocardial infarction

without persistent ST elevation for Cardiovascular and Renal Drugs Advisory Committee

Meeting, May 2, 2000. U.S. Food and Drug Administration ホームページ内

http://www.fda.gov/ohrms/dockets/ac/00/backgrd/3612b2.htm.

52 CAPRIE Steering Committee. A randomized, blinded trial of Clopidogrel versus Aspirin in

patients at risk of ischaemic events (CAPRIE). Lancet, 1996; 7: 177-188.

53 Antiplatelet Trialists’ Collaboration. Collaborative overview of randomized trials of

antiplatelet therapy, I. BMJ, 1994; 308: 81-106.

54 Fisher, L. D., Gent, M., and Buller, H. R. Active-control trials: How would a new agent

compare with placebo? A method illustrated with clopidogrel, aspirin, and placebo. American

Heart Journal, 2001; 141(1): 26-32.

55 D’Agostino, R. B., and Heeren, T. C. Multiple comparisons in over-the counter drug clinical

trials with both positive and placebo controls. Statistics in Medicine, 1991; 10: 1-6.

56 Koch, G. G. Comment. Statistics in Medicine, 1991; 10: 13-16.

57 Dunnett, C. W., and Tamhane, A. C. Comparisons between a new drug and active and placebo

controls in an efficacy clinical trial. Statistics in Medicine, 1992; 11(8): 1157-1163.

58 Bauer, P., Roehmel, J., Maurer, W., and Hothorn, L. Testing strategy in multi-dose experiments

including active control. Statistics in Medicine, 1998; 17, 2133–2146.

59 Committee for Proprietary Medicinal Products. Points to consider on switching between

superiority and non-inferiority. Committee for Proprietary Medicinal Products, London, July

27, 2000.

60 日本製薬工業協会医薬品評価委員会臨床評価部会臨床試験における統計学的諸問題検

討分科会. 臨床的同等性の問題. 日本製薬工業協会資料, 1992.

61 日本製薬工業協会医薬品評価委員会臨床評価部会臨床試験における統計学的諸問題検

討分科会. 「同等性について」講演記録. 日本製薬工業協会資料, 1992.

62 Morikawa, T., and Yoshida, M. A useful testing strategy in phase III trials: Combined test of

superiority and test of equivalence. Journal of Biopharmaceutical Statistics, 1995; 3: 297-306.

Page 61: ICH E10 ガイドラインに関する 統計的諸問題 E10 ガイドラインの運用に関する統計的諸問題の検討 資料作成者 第1 検討グループ ICH-E10サブグループ

− 55 −

63 日本製薬工業協会医薬品評価委員会統計 DM 部会. Industry Survey of Current Practices in

the Design, Analysis, and Interpretation of Active Control Study. 2002.

64 佐藤俊哉. ランダム化にもとづいた intent-to-treat 解析. 応用統計学, 1994; 23(1): 21-34.

65 Koch, A., and Röhmel, J. The impact of sloppy study conduct on noninferiority studies. Drug

Information Journal, 2002; 36: 3-6.

66 Committee on Proprietary Medical Products. Draft: Points to consider on the evaluation of new

anti-fungal agents for invasive fungal infections. Committee on Proprietary Medical Products,

London, July 25, 2002.