米国欧州における最近のソフトウェア規制 ... · 深層学習の特長画像の特徴を人間が教えなくても、勝手に学習する。特徴のとらえ方が非常にうまい

米国欧州における最近のソフトウェア規制

人工知能、サイバーセキュリティ

ミックインターナショナル株式会社

２０１9年12月13日

講演内容第一部：人工知能 (AI) による画像診断 FDA

承認例とその臨床成績高田覚

第二部：欧州におけるソフトウェア規制大原澄夫

第三部： FDA510(k)申請に適用される新規サイバーセキュリティガイダンス

金井文昭

第一部人工知能 (AI) による画像診断FDA承認例とその臨床成績講演内容

1．医療分野に応用されるAI技術

2．米国における承認基準の現状

3．CADeに関するFDAガイドラインのポイント

4．CADeの臨床試験で使用される統計手法

5．CADe臨床試験のデザインの特徴

(承認例から)6．確定診断するAIの承認例

7．サンプル数の根拠づけについて

あらためてAIとは？

第一次AIブーム 1960年代「推論と探索」

第二次AIブーム 1980～1987年「エキスパートシステム」・・・専門家（エキスパート）の知識をコンピュータに移植することにより現実の複雑な問題を人工知能に解かせようとするもの

第三次AIブーム 2006年～ディープラーニングによる

ブレイクスルー

現在のAIのキー技術=ディープラーニング（深層学習）

ディープラーニングまたは深層学習（ deep learning）とは、（狭義には4層以上の）多

層のニューラルネットワーク（ディープニューラルネットワーク、deep neural network）による機械学習手法である（Wikipedia)

ニューラルネットワーク人間のﾆｭｰﾛﾝのﾈｯﾄﾜｰｸがﾓﾃﾞﾙであるが、脳の模倣をめざし

てはいない・・・・多変量解析の多層化のイメージ

AI 機械学習手法学習内容目的・用途手法・アルゴリズム

教師あり学習

正解付きデータから正解を得る特徴を学習し、予測につなげる

回帰線形回帰ベイズ線形回帰ロジスティック回帰

分類Neural Network

教師なし学習正解が不明の与えられたデータを分類

クラスタリング混合正規分布モデル

情報の圧縮（低次元化）

主成分分析

強化学習

試行錯誤させ「報酬」を与えることで、行動の良し悪しを判断させ、その報酬が最大になる様に学習

ゲームなど囲碁・将棋のAIαGoも

深層学習の特長

画像の特徴を人間が教えなくても、勝手に学習する。特徴のとらえ方が非常にうまい

特徴量が多くても、「次元の呪い」をのりこえられる（多次元=必要データ数増加）

過学習もしなくなった。☆過学習=過学習の原因は、特定の学習データだけに最適になるように学習したため、推定すべき他のデータに対する誤差（汎化誤差）が逆に上がってしまう現象

強化学習にも使える

第一部講演内容








臨床試験‐３つの側面

1. 全ての未承認医療機器の臨床使用に適用

2. 同一性を示すための臨床試験

3. 新医療機器の臨床的有用性を示すための試験

IDE = Investigational Device Exemption (治験医療機器の適用免除)

医療機器の臨床試験実施のためのFDAへの治験届

臨床試験のprotocolについて事前にFDAの見解を得る制度 510(k)についても、申請前にFDAの見解が得られる

FDAは基本的には臨床試験実施者の質問に電話会議、面談、及び書面で詳しく回答、問題点も指摘する。

この制度を活用し、承認されやすいようにFDAの意向を汲んで試験を実施する。

統計解析方法等詳しい見解がでることが多い。

申請時にPre-IDE Communicationの内容を含める。

→Pre-Submission programに統合される

Pre‐Submission Program

•リスク分析

•非臨床試験実施内容

•動物試験

•対象患者、治験患者数、統計解析法、

• Endpoint, 市販後試験の期間及び実施内容

等を含む臨床試験プロトコール

治験前相談に含む推奨資料

•非臨床試験のプロトコールにより臨床試

験をサポートする機器の安全性に関す

るデータを得ることができるか？

•一次、二次Endpointはindication for use（案）に対し適切か？

•試験デザイン及び比較対照群は適切か？

•患者数計算法及び関連する統計解析法は適切か？

治験前相談 FDAに対する質問例

臨床試験（IDE）申請

臨床試験の実施の前にIDE申請を提出する必要がある

IDE申請は承認のための治験、同一性を示すための臨床試験(510(k)申請書資料）、医師主導の試験等未承認医療機器、未承認適応使用を行う場合に提出

IDE申請後３０日でFDAの返事

新医療機器の承認については事前にFDAに確認しておく必要がある。FDAは患者の権利を守ることを主として審

査する。臨床試験の目的が達成されても承認されるとは限らない。

米国では米国臨床試験規則(Part812) が主な規則である。

GCPは二つの側面がある。

患者権利の保護

科学的に妥当であるかどうか

Protocolに準じていない患者も原則統計解析の対象とする。（Intent-Treatment-analysis）これは一つには意図的に都合の悪い患者を除くようなことを避けるためである。

一方、契約前に行った試験とか一部抜けがあってもそのこと自体が大きな問題になることはなく、基本的に科学的な結論と言えるのか、特に統計学的な観点からFDAは追及する。決して甘いとは言えない。多くの場合、比較試験を実施することが科学的妥当性を与える

GCP, 統計解析‐日米の違い

“Intent-to-treal “（ IDE Manual ）

D. Accountability for PatientsThe Agency will require an analysis of the data by "intention-to-treat. " This is an analysis method in which "the primary tabulations and summaries of outcome data are by assigned treatment“ (Meinert, 1986). In such analyses, patients lost-to-follow-up in the intervention and control groups must be counted as though they actually completed the study in their assigned group. Since there is no observation of outcome variable after the time the patient is lost-to-follow-up, the observation cannot be counted as a success (and is considered failure).

「科学的」とは

米国臨床試験規則(Part812) より(b)Protocol. A written protocol describing the methodology to be used and an analysis of the protocol demonstrating that the investigation is scientifically sound. （Sec. 812.25 Investigational plan.）(B) For a protocol change, the notice shall include a description of the change (cross-referenced to the appropriate sections of the original protocol); an assessment supporting the conclusion that the change does not have a significant impact on the study design or planned statistical analysis; （ Sec. 812.35 Supplemental applications. ）

結局「科学的」とは？

⑴当該医療機器の技術分野の最新知見を踏まえている⑵適切な統計手法に基づいた論理的な結論・判断

（サンプル数を含む）

510k申請においても、かなりの統計的な厳密性と現時点での最適な手法の適用が求められる。また要求される水準は特に重要な診断機器においては強化されている。

申請する側においても、両面での理論武装が必要がある。

IDE申請書内容

1. 申請者の名前と住所

2. 従来の試験の概要と臨床試験計画

3. 医師との契約書サンプル

4. すべての治験医師が契約書にサインしたことの

証明書

5. 院内倫理委員会（Institutional Review Board,

IRB）の委員長のリスト

6. 治験参加施設のリスト

7. 製品を有料で提供する場合の価格と販売でないことの説明、コストのみを価格にしていることの説明

8. 製品ラベリングのコピー

9. 患者同意文書を得るために用いられる全ての資料

AIの医療への応用医学的診断・・いわゆるAI ドクターDraft Guidance が2017.12に公開された

“Clinical and Patient Decision Support Software - Draft Guidance”

CADe device の510k 申請GuidanceCADe = computer-assisted detection device

CADe(=Computer‐Assisted Detection Devices) とはComputer-assisted detection (CADe) devices applied to radiology images and radiology device dataCADe devices are computerized systems that

incorporate pattern recognition and data analysis capabilities

FDA Guidance より









CADeに関するFDA GuidanceScope(1)

This document provides guidance regarding clinical performance assessment studies for CADe devices applied to radiology images and radiology device data.

……

MRI..CT..PET and digitized film images

CADe devices are computerized systems intended to identify, mark, highlight, or in any other manner direct attention to portions of an

image, or aspects of radiology device data, that may reveal abnormalities during interpretation of patient radiology images or patient radiology device data by the clinician.

CADeに関するFDA GuidanceScope(2)

例として、

a CADe algorithm designed to identify and prompt microcalcification clusters and masses on digital mammograms

a CADe device designed to identify and prompt colonic polyps on CT colonography studies

a CADe designed to identify and prompt filling defects on thoracic CT examination

a CADe designed to identify and prompt brain lesions on head MRI studies

3．CADeに関するFDAガイドラインのポイント臨床試験デザインに関する Guidance

CADe に特徴的な事項

Retrospective Study を許容あるいは推奨

With CADe vs Without CADe で比較する

Design は Sequential またはCross OverCross Over Designの時は、Washout期間を設ける（記憶を消す；4週間以上）

画像データをRandomizeして、各種Biasを回避する

正解データを用意する

非劣性試験を許容あるいは推奨

非劣性証明

FDAガイドラインでは非劣性の証明が許容されている。つまり、AIによる判断が人間より優れていることを証明する必要はなく、また教師ありの学習であるから、原理的に優れているはずがない。

（もちろん、比較する人間=画像診断医の力量にもよるが．．）

基本的には、評価には一定のトレーニングを受けた画像診断医が参加する

非劣性証明とは？

比較する対照に対して、明確に（統計学的有意差を以て）劣っていないことを証明する。

実際には、どの程度劣っても良いのかを許容限界幅として設定し、比較対照（AIの場合は

人間）よりその許容限界幅以上には劣っていないことを証明する。許容幅は10％とすることが多い。

教師あり学習によるAIとしてはきわめて妥当な基準と思われる。

非劣性証明のイメージΔ以上は劣っていないことを統計学的に証明

非劣性試験の正しい見方［J-CLEAR通信（43）］No.4706 (2014年07月05日発行) P.46 折笠秀樹









診断；陽性・陰性判断を目的とした医療器での臨床評価

基本的にROC解析であるが、CADeに適合した手法へと改良されている

ROC解析から FROC解析さらに、AFROC解析へ

(2)陽性／陰性判定医療機器の統計解析ROC解析(ROC=Receiver Operating Characteristic)

第２次世界大戦中に飛行機を発見するレーダー・システムの性能評価を目的として考案された方法

飛来する物体が飛行機なのか鳥の群なのか，低空飛行をしている飛行機が認識できるかどうかといったレーダー・システムの能力を評価するために開発された．

その後，放射線画像診断の判断の評価に適用されるようになった．これは，「レーダー・システム」を「放射線画像システム」に，「飛来する飛行機」を「病変」に，「鳥の群」を「人体の正常構造」に置き換えて考えればよい．つまり，画像診断における”診断の正確さ”を評価するために応用された

陽性／陰性判定医療機器の統計手法ROC解析の概略説明‐1

真陽性(True Positive)

偽陰性(False Negative)

偽陽性（False Positive)

真陰性(True Negative)

病変あり

正常

陽性陰性

感度 = 真陽性数／陽性（病変あり）総数特異度 = 真陰性数／陰性（病変なし）総数

横軸は偽陽性率、縦軸は真陽性率（感度）判定結果を確信度レベルの高い順にそれ以下の確信度について、縦横軸それぞれの率の総和をプロットしたもの※ 点線は判定が無効、無意味な場合であり、曲線がこれより上にあるほど診断が有効である点線だと、偽陽性率=偽陰性率

陽性／陰性判定医療機器の統計手法ROC解析の概略説明‐2

画像診断で使用される統計手法AFROC解析(alternative free‐response ROC)

画像診断では、一枚当たりの病変数は一定せず複数存在する。

ROC解析をこのような場合に適合させたFROC解析（横軸がFPI =False Positive per Image （一枚当たりの偽陽性数））、さらには統計解析可能なように横軸を改良したAFROC解析が行われる横軸； P（FPI）= 1-exp（-FPI)

（このように横軸値を変換するとP(FPI)の値はFPI→∞のとき1に収斂する）

AFROC解析ではAUC（Area Under Curve=ROC曲線下の面積)の比較により、AIの性能評価が可能となる。

FROC曲線横軸がFPI =False Positive per Image

(一枚当たりの偽陽性数）

AFROC曲線横軸； P（FPI）= 1‐exp（‐FPI)

JAFROC解析

FROC曲線のAUCの標準誤差の推定方法を言う

手法としてjackknife 法をもちいて推定する被験者（画像ﾃﾞｰﾀ）を一人ずつ除外したデータを用意、その値から標準誤差を推定する

Chakraborty DP Analysis of location specific observer performance data: validated extensions of the jackknife free-response (JAFROC) method.. Acad Radiol. 2006;13(10):1187-93.

DBM Dorfman‐Berbaum‐Metz法

FROC解析をjacknife法で実施し、平均AUCに関する統計的推測を行う方法

基本的に、混合効果モデルによるANOVAつまりMixed ANOVAである

変量効果因子として、読影者、被験者（画像）およびその交互作用とするMixed ANOVA解析

ROC 解析のソフトウエア

最新のこれらのROC解析に関するソフトウェアは下記から入手可能である。

http://www.devchakraborty.com/index.php









3．CADeに関するFDAガイドラインのポイント臨床試験デザインに関する Guidance

CADe に特徴的な事項

Retrospective Study を許容あるいは推奨

With CADe vs Without CADe で比較する

Design は Sequential またはCross OverCross Over Designの時は、Washout期間を設ける（記憶を消す；4週間以上）

画像データをRandomizeして、各種Biasを回避する

正解データを用意する

非劣性試験を許容あるいは推奨

非劣性証明

FDAガイドラインでは非劣性の証明が許容されている。つまり、AIによる判断が人間より優れていることを証明する必要はなく、また教師ありの学習であるから、原理的に優れているはずがない。

（もちろん、比較する人間=画像診断医の力量にもよるが．．）

基本的には、評価には一定のトレーニングを受けた画像診断医が参加する

PowerLook Tomo Detection Software (iCAD Inc)Study Design

RetrospectiveCross over

※Single Truther；Biopsyで判断

PowerLook Tomo Detection Software (iCAD Inc)Study Readers

1．QualificationAll 20 readers had American Board of Radiology certification, qualified to interpret mammograms under MQSA and had completed eight hours of initial training in breast tomosynthesis as required by the FDA.

Readers had a range of experience in the interpretation of breast images with 55% (11/20) of readers devoting less than 75% of their professional time to breast imaging for the last 3 years and 45% (9/20) devoting 75% or more of their professional time to breast imaging for the last 3 years.

2．TrainingReaders were trained in study reading procedures with 30 tomosynthesis cases. Since the readers were fully certified to interpret tomosynthesis exams and were currently reading tomosynthesisexams in their clinical practices, no additional tomosynthesisinterpretation training was provided.

The Study was designed to test a pair of co-primary hypotheses1．ROC曲線のAUCがマージン 0.05で非劣性；有意に劣っていない

a) The reader with ABUS plus QVCAD assistance is non-inferior to the reader with the ABUS image alone. This will be evaluated using the difference in the areas under the Receiver Operating Characteristic (ROC) curves (AUCs), evaluated for non-inferiority (non-inferiority margin = -0.05 for AUC ABUS+QVCAD –AUC ABUS alone );

2．時間短縮b) The reader interpretation time for QVCAD and ABUS combined is reduced demonstrating superiority to ABUS alone. ]

QVCAD System (Qview Midical Inc)Study Endpoints









適応；IDx-DRは、以前に糖尿病性網膜症と診断されたことがない糖尿病と診断された成人において軽度の糖尿病性網膜症（mtmDR）を自動的に検出するために医療提供者によって使用される。 IDx-DRはTopcon NW400で使用する。

診断の流れ；

１．クリニックで作業者は両眼で2枚眼底画像を取る。

２．画像はユーザーコンピュータにインストールしたIDx-DR Clientにより、データセンター（IDX Secure Service）にインターネットでIDx-Serviceに送付

３．IDx-Service内のソフトウェアIDx-DR Analysisは画像を処理して画像の質及び mtmDR （more than mild diabetic retinopathy軽度の糖尿病性網膜症以上のもの）が陽性か陰性かの結果をIDx-Serviceに返し、 IDx- Serviceは次いで結果をthe IDx-DR Clientに伝える。

6．確定診断するAIの承認例IDx‐DR人工知能機器の概要1

・IDx-DR人工知能機器；①用途；糖尿病性網膜症のスクリーニング診断

②適用；クリニック等一次治療施設で、

安定した視覚的に無症候性の糖尿病で

以前に糖尿病性網膜症と診断されてい

ない患者

6．確定診断するAIの承認例IDx‐DR人工知能機器の概要 2

IDx-DR結果⇒糖尿病性網膜症陽性判定

さらなるスクリーニングおよび治療のために直ちに眼科医に紹介されるべきである。

IDx-DR結果⇒糖尿病性網膜症陰性判定将来適切な時点で再度テストすることを強く勧める

IDx-DR 結果⇒糖尿病性網膜症判定できない。

患者は常に直ちに再検査されるか、眼科医療提供者に紹介

※このIDx-DRの診断結果が陰性の判定の場合は、将来の再検査を勧めてはいるが、しばらくの間は病気のリスクは低く、この結果について医師と相談する必要がないとしている点

=医師の判定なく、確定している点がAI診断ソフトウェアとしては画期的です。

6．確定診断するAIの承認例IDx‐DRの診断結果の表示メッセージ

画像診断未経験者をトレーニングプログラムで教育する。即ち、完全にAI機器だけの診断

・臨床試験参加者をリクルートする前に、IDx- DR作業研修生は、以前に眼の画像診断を行ったことがないことを証明しなければならない。

・その後、画像の取得方法、IDx-DRの使用方法（不十分な品質出力の場合の画像品質の改善方法およびIDx-DRへの分析用画像の提出方法）について、1回の標準化された4時間のトレーニングプログラムを受ける。

6．確定診断するAIの承認例臨床試験の概要 1 作業者の選択、教育

IDx‐DRの臨床評価

AI機器による診断結果（訓練を受けた初心者による）が出たあと=AI診断

専門読影医による without AI診断を受ける専門の撮影者による画像をリーディングセンターに送り、糖尿病性黄斑浮腫（DME）の重症度の判定を受ける

AI診断と(without AI)専門医診断を比較する

すなわち、AIの診断とAIによってAssistされない専門医の診断との比較。

Endpointは感度と特異性で、感度について85.0％以上、特異性について82.5％以上と定義した

感度 = 真陽性数／陽性（病変あり）総数

特異度 = 真陰性数／陰性（病変なし）総数

6．確定診断するAIの承認例臨床試験の概要 2 デザイン









サンプル数の根拠要求

ISO 13485:2016 から、統計手法にはサンプル数の根拠も求められるようになった

米国のSUBCHAPTER H--MEDICAL DEVICES PART 820 QUALITY SYSTEM REGULATIONには、明確なサンプル数の根拠要求の文章はないが、以前よりサンプル数の根拠は必須であった。統計手法の適用とサンプル数の根拠は表裏一体という考え方である。

臨床評価結果の解析結果の記載の方向性

統計学的厳密性

最新の統計学的知見に基づく解析方法

症例数計算

統計学的手法に応じた症例数計算

使用者への情報提供の要求

申請機器の特性、先行機器と置き換えた場合の結果の互換性等について・・

Guidanceが充実しているので、Guidanceに沿った記載が求められる。

ISO 13485:2016におけるサンプル数の根拠要求

7.3.7 Design and development validation“validation plans that include methods,

acceptance criteria and ,as appropriate, statistical techniques with rationale for sample size."

7.5.6 Validation of processes for production and service provision“organization shall document procedures forvalidation of processes, including:d) as appropriate, statistical techniques with rationale for sample size"

サンプル数計算の基本 α,βα；第一種の過誤 =帰無仮説が不成立の危険率①「あわてもの（差がないのに差があると判断する）の過誤」

②生産者リスク;合格品を不合格と判定してしまう危険率

β；第二種の過誤 = 対立仮説が不成立の危険率①「ボンヤリ（差を見落とす）過誤」

②消費者リスク；不合格品を合格と判定されてしまう危険率

α,βのイメージ帰無仮説・対立仮説の二つの分布の比較の場合

合格ロットの分布、不合格ロットの分布の場合には、αは生産者リスク、βは消費者リスクとの意味と理解できる

分布を想定した場合のサンプル数の計算α, β 値の設定

分布の標準偏差 σ統計解析対象の値の差 δ

例；標準正規分布の場合、次の式が知られている

n )2(Zα+Zβ)2

正規分布を前提としたサンプル数の計算

= より、先ほどの式が導かれる= ( ) =

サンプル数の計算～平均値の差

先ほどの式では、σが既知である前提での式である。

厳密には、σは未知であり、

従って、分布曲線も正規分布ではなく、t分布と非心t分布から計算する必要がある

しかし、分布曲線の形状が異なるだけで、α, βおよび δ のイメージは同じ

つまりα, βは分布曲線の積分値で計算でき、統計ソフトで計算が可能

サンプル数の計算～平均値の差先ほどのイメージ図から分かるように、α, β, は分布曲線の積分値で計算できる。

○永田靖「サンプル数の決め方」(朝倉書店,2003)には近似式が与えられている。この式を用いれば、Zα、Zβ、δからσ未知の場合も、積分をしないでサンプル数を計算できる。

○M.Bland ”An Introduction to Medical Statistics” (2000)では、所詮は推定であり、誤差もつき

ものなので、あえて非心分布をもちいて求める必要がないが、少ないサンプル数では正確に計算する必要ありとしている

サンプル数の計算～σの比、ANOVA○F分布；先ほどのイメージ図は分布曲線をF分布にすれば、σの比に関するF検定にも β は設定したαをもとに、分布曲線の積分値で計算できる。このβからサンプル数を求める。

○ANOVAのサンプル数計算；

誤差の分散が未知なので、非心F分布を使う必要があるが、βの計算は同様に非心F分布のαをもとにした積分値で計算できる。

このβからサンプル数を求める。

AFROC解析（DBM法）での症例数計算

非心F分布を利用した計算

読影者数、画像数を求めることができる

詳細は以下の論文参照

Hillis, S.L., & Berbaum, K.S. (2004). Power estimation for the Dorfman-Berbaum-Metz method. Academic Radiology, 11, 1260-1273.

輸送試験におけるサンプル数計算Sterilization and Shelf-Life の中のパッケージングの輸送試験

滅菌バリアの維持、という意味でパッケージングの輸送試験も必須になる傾向がある

パッケージング試験のサンプル数について、FDAの要求は「95％ confidence at 95% reliability」である。

輸送試験のサンプル数は抜き取り試験に適用される統計解析（二項分布）に基づく

この95％Confidence 95% reliability はこれまで述べたα、βとは別の考え方である

輸送試験におけるサンプル数計算

パッケージングの輸送試験次のような二項分布を用いることをFDAは要求している= ・ (1 − )

Confidence level； 1 − n個試験をしたときのr個不合格の確率

Reliability ；∑ ( ) すなわち、不合格がr個以下の確率

N個の抜き取り試験で、不合格がk個以下の確率は∑ ( ) = ∑ (1 − )


1 製品およびパッケージ設計

から、輸送中の破損発生に

対するリスク分析を行う。

2 リスク分析の結果から

Confidence Limitおよび

Reliabilityを設定する

3 Confidence Limit およびReliabilityからzero failure の場合のサンプル数を計算する


パッケージングの輸送試験

Zero failure 即ちn回の試行で全数合格のとき、先ほどの累積確率でとすればその確率は

だけの項になり、

Reliablity R= 1-p、Confidence level CL=1-P(n)とすれば

この時のサンプル数は上式をnで解いて

例えば、R=0.99、CL=0.95なら 298 となる。

ロット抜き取り試験AQL,BQLとα,β

αは生産者リスクであり、不合格確率であり、AQLから

計算されるロット抜き取り検査で合格ロットなのに、不合格と判定される危険率だから、AQLから二項分布で計算できる。α=Confidence Level

βは消費者リスクであり、ロット抜き取り検査で不合格なのに合格と判定されるリスクであり。RQL(不合格品質基準）から二項分布で計算できる。

AQL(Acceptable Quality Limit) は上式でのpに相当し、1回の試験で不合格となる確率である。

ご清聴有難うございましたご質問をどうぞ

Documents

米国欧州における最近の ソフトウェア規制 ... · 深層学習の特長 画像の特徴を人間が教えなくても、勝手に学 習する。特徴のとらえ方が非常にうまい

米国欧州における最近のソフトウェア規制 ... · 深層学習の特長画像の特徴を人間が教えなくても、勝手に学習する。特徴のとらえ方が非常にうまい