Upload
tak-izaki
View
1.495
Download
0
Embed Size (px)
Citation preview
エヌビディア合同会社 ディープラーニング部部長 井﨑 武士
ディープラーニングの最前線と医療分野への応用
2017年1月28日
2
創業1993年
共同創立者兼CEO ジェンスン・フアン(Jen-Hsun Huang)
1999年 NASDAQに上場(NVDA)
1999年にGPUを発明その後の累計出荷台数は10億個以上
2015年度の売上高は46億8,000万ドル
社員は世界全体で9,100人
約7,300件の特許を保有
本社は米国カリフォルニア州サンタクララ
3
自動車HPC&Cloudエンタープライズグラフィックスゲーミング
GEFORCE
SHIELDQUADRO
QUADRO VCA
Tesla
GRID
JETSON
DRIVE
インテリジェントマシン
4
AGENDA
Deep Learningとは
Deep Learning 事例
医療画像分野での実例
なぜGPUがDeep Learningに向いているのか
NVIDIA Deep Learningプラットフォーム
DIGITS
DIGITSデモ (時間があれば)
5
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
ディープラーニングの目覚しい進化IMAGENET正答率
従来 CV 手法 ディープラーニング
DeepMindのAlphaGoが囲碁で世界チャンピオンを越える
Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発
FANUCがピッキングロボットで8時間の学習で90%の取得率を達成
X線画像読影診断で肺がんの検出率が読影診断医の1.5倍
みずほ証券が株価のトレードにDeep Learningを導入
1秒間に600万人の顔認識を行える
Deep Face
生産性の向上 – 活用事例
Google: AIによりデータセンターの消費電力を数100億円規模で
低減
FANUC:40日前にロボットの故障を予測
選択的な給水や除草により化学薬品の使用を90%
低減
便利な生活 – 活用事例
Alibaba: スマートフォンで撮った写真から同一商品、類似商品を
検索
WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が
登場
Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで
掃除を開始
AI CO-PILOT (1)
Face Recognition Head Tracking
AI CO-PILOT (2)
Lip ReadingGaze Tracking
安心・安全な生活 – 活用事例
Paypal:不正決済の検出の誤報率が50%低減
herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上
vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防
13
DEEP LEARNING INSIGHT従来のアルゴリズム ディープラーニング
0%20%40%60%80%
100%
overall passengerchannel
indoor public area sunny day rainny day winter summer
Pedestrian detection Recall rate
Traditional Deep learning
70
75
80
85
90
95
100
vehicle color brand model sun blade safe belt phone calling
Vehicle feature accuracy increased by Deep Learning
traditional algorithm deep learning
監視カメラ
医療分野での実例
子供の成長の問題をAI が検出Detecting growth-related problems in children requires calculating their bone age. But it’s an antiquated process that requires radiologists to match X-rays with images in a 1950s textbook. Massachusetts General Hospital, which conducts the largest hospital-based research program in the United States, developed an automated bone-age analyzer built on NVIDIA cuDNN and the NVIDIA DIGITS DevBox. The system is 99% accurate and delivers test results in seconds versus days.
Deep Learning for early detection of Age-related Macular Degeneration________________________________________
– UW developed a deep learning system to read OCT scans and automatically detect Age-related Macular Degeneration.
– There were 5.4 Million Scans in 2014
– In under one month of training, the system is over 90% accurate
80% of people above 80 have Age-related Macular Degeneration and it is treatable-Aaron Lee, Assistant Professor of Ophthalmology, University of Washington
乳がんの転移の検出• 腋下リンパ節の状態を検出• データセットはCamelyon16 Challengeのものを利用
https://camelyon16.grand-challenge.org/
• データには2つの独立したデータセットから合計400の歩哨リンパ節のWSI(Whole-slide-image)が含まれている
• トレーニングデータ
• テストデータオランダのラドバウド大学メディカルセンター/
ユトレヒト大学メディカルセンターから集めた130のWSI
TASK
スライドベースの評価
• 転移を含むスライドと正常なスライドの区別
• スライドレベルでのROC分析
• アルゴリズムの比較はROC曲線下面積(AUC)を用いる
病変ベースの評価
• 信頼スコアを伴う腫瘍領域の検出
• FROC曲線を使用
• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる1/4,1/2,1,2,4,8
FRAMEWORK
NNの詳細
ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用
Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコンテキストのキャプチャを可能とする
トレーニングはNVCAFFEを使用。パッチサイズは20xで512X512。ミニバッチサイズは10
ラーニングレートは2.5e-4から始め、0.9乗の多項式
重み減衰 0.0005 モーメンタム0.9
Tesla P100で40000イタレーション
約1日
性能比較
推論性能
8*p100: DGX-1
計算性能
結果
医療画像セグメンテーション磁気共鳴画像 (MRI)
神経画像ではデファクト
複雑で高価
優れた組織コントラスト、高いリアリティ、高いSN比
医療画像セグメンテーション超音波画像
非侵襲的、装置が小型、安価、リアルタイム、安全
ノイズ、リアルではない、影や低いコントラスト
早期のパーキンソン病の診断には有効
CNNを用いたセグメンテーションボクセルベースの分類
全領域に対するセグメンテーションマスクの予測
ローカリゼーションとセグメンテーションに対するベクトルの多数決
ハフ-CNN 学習
パッチと投票の学習セット
分類CNNの学習
前景パッチの特徴抽出
データベースの構築(特徴、ベクトル、セグメンテーションパッチ)
ハフ-CNN 推論CNNによる分類&特徴抽出
ハフ-CNN 推論CNNによる分類&特徴抽出
特徴を元にデータベースからベクトルを取り出す
ハフ-CNN 推論CNNによる分類&特徴抽出
特徴を元にデータベースからベクトルを取り出す
ベクトルを配置し、マップから基点の集中箇所を特定
ハフ-CNN 推論CNNによる分類&特徴抽出
特徴を元にデータベースからベクトルを取り出す
ベクトルを配置し、マップから基点の集中箇所を特定特定された基点を元に関連するセグメンテーションパッチを割り出す(データベースから)
結果
結果
0,76 0,77 0,85 0,85
なぜGPUがディープラーニングに向いているか
ディープラーニングを加速する3要因
DNN GPUビッグデータ
1分間に100 時間のビデオがアップロード
日々3.5億イメージがアップロード
1時間に2.5兆件の顧客データが発生
0.0
0.5
1.0
1.5
2.0
2.5
3.0
2008 2009 2010 2011 2012 2013 2014
NVIDIA GPU x86 CPU
TFLO
PS
TORCH
THEANO
CAFFE
MATCONVNET
PURINEMOCHA.JL
MINERVA MXNET*
典型的なネットワーク例多量なトレーニングデータと多数の行列演算
目的顔認識
トレーニングデータ1,000万~1億イメージ
ネットワークアーキテクチャ10 層10 億パラメータ
ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日
CNN: CONVOLUTION NEURAL NETWORKLeNet5 [LeCun et al.,1998]
FULL CONNECTION
Forward
Layer 1 Layer 2 Layer 3 Layer 4
FULL CONNECTION
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
x[N] y[M]w[N][M]
FULL CONNECTION
x[N] y[M]w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
メモリバンド幅で性能が決まる
Xeon E5-2690v3 Tesla M40
68GB/s 288 GB/s
FULL CONNECTION (MINI-BATCH)
x[N] y[M]w[N][M]
x =
w[N][M] x[N] y[M]
Matrix Vector
𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )
FULL CONNECTION (MINI-BATCH)
x[K][N] y[K][M]w[N][M]
x =
w[N][M] x[K][N] y[K][M]
Matrix Matrix
高い演算能力を発揮できる
𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗
(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )Xeon E5-2690v3 Tesla M40
0.88 TFLOPS 7.0 TFLOPS
CNN: CONVOLUTION NEURAL NETWORK
LeNet5 [LeCun et al.,1998]
CONVOLUTIONS
Output feature maps
Input feature map(s)
CONVOLUTIONS
Input feature maps
Output feature maps
CONVOLUTIONS
Direct Convolution- 膨大な組み合わせ
- それぞれ向けに最適化するのは困難
FFT- メモリ負荷が高い
- 柔軟性が低い
Matrix Multiply
Output feature maps
Input feature map(s)
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
InputFilter
O0 O1
O2 O3
Output
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3
F0 F1
F2 F3
F0 F1 F2 F3
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
Expanded input data
Output data
CONVOLUTIONS
I0 I1 I2
I3 I4 I5
I6 I7 I8
F0 F1
F2 F3
Input data
Filter data
F0 F1 F2 F3G0 G1 G2 G3
J0
J1
J3
J4
J1
J2
J4
J5
J3
J4
J6
J7
J4
J5
J7
J8
J0 J1 J2
J3 J4 J5
J6 J7 J8
I0
I1
I3
I4
I1
I2
I4
I5
I3
I4
I6
I7
I4
I5
I7
I8
G0 G1
G2 G3
F0 F1
F2 F3
G0 G1
G2 G3
F0 F1 F2 F3G0 G1 G2 G3
Output data
行列演算のサイズ (LENET5)
LeNet5 [LeCun et al.,1998]
OutputsFilter
(Expanded)Inputs
16
100 * batch size
150
150
行列演算のサイズ (GOOGLENET)
GoogLeNet [Szegedy et al.,2014]
OutputsFilter
(Expanded)Inputs
192
3136 * batch size
576
576
NVIDIA Deep Learning プラットフォーム
学習と推論プラットフォームワークステーション サーバー
NVIDIA Tesla NVIDIA TEGRA/JETSON TX1
学習
推論
NVIDIA Tesla/DGX-1
オンライン オフライン
X
GPUロードマップSG
EMM
/ W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla FermiKepler
Maxwell
Pascal
Volta
倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU
P100の技術革新
16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink
リニアなスケーリングを実現するNVLINK
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
AlexnetOWT
P100 NVLINK
P100 PCIE
Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
Incep-v3
P100 NVLINK
P100 PCIE
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
ResNet-50
P100 NVLINK
P100 PCIE
Speedup
2.3x
1.3x
1.5x
NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.
NVIDIA DGX-1世界初ディープラーニング スーパーコンピューター
ディープラーニング向けに設計170 TF FP16
8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速
0x
16x
32x
48x
64x
0 16 32 48 64
ストロングスケール1つのストロングノードは多くのウィークノードよりも高速
VASP 性能
2x P100
CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5
CAFFE ALEXNET 性能
4x P100
8x P100
Single P100 PCIe Node vs Lots of Weak Nodes
# of CPU Server Nodes
Spee
d-up
vs
1 CP
U S
erve
r N
ode
0x
2x
4x
6x
8x
10x
12x
0 4 8 12 16 20 24 28 32
2x P100
8x P100
Single P100 PCIe Node vs Lots of Weak Nodes
# of CPU Server NodesSp
eed-
up v
s 1
CPU
Ser
ver
Nod
e
4x P100
64 CPU Nodes
32 CPU Nodes
Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes
Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System
Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform
INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer
To speed advances in the fight against cancer, the Cancer Moonshot initiative unites the Department of Energy, the National Cancer Institute and other agencies with researchers at Oak Ridge, Lawrence Livermore, Argonne, and Los Alamos National Laboratories. NVIDIA is collaborating with the labs to help accelerate their AI framework called CANDLE as a common discovery platform, with the goal of achieving 10X annual increases in productivity for cancer researchers.
AI PLATFORM TO ACCELERATE CANCER RESEARCH
エヌビディア ディープラーニング プラットフォーム
COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation
Recommendation Engines Sentiment Analysis
DEEP LEARNING MATH LIBRARIES
cuBLAS cuSPARSE
GPU-INTERCONNECT
NCCLcuFFT
Mocha.jl
Image Classification
DEEP LEARNING SDK
FRAMEWORKS
APPLICATIONS
GPU PLATFORM
CLOUD GPU
Tesla P100
TeslaK80/M40/M4P100/P40/P4
Jetson TX1
SERVER
DGX-1
TensorRT
DRIVEPX2
68
DIGITS
69
DIGITSの医療画像への適用
DETECTION SEGMENTATION CLASSIFICATION
70
エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム
Test Image
学習過程の可視化モデルの作成学習データの作成 モデルのテスト
http://developer.nvidia.com/digits
71
DIGITS 5
• Image segmentation(領域分割)問題に対応!
• DetectNet+NVCaffeで物体検出の学習が可能に!
• 顔や人やその他のオブジェクトを検出するニューラルネットワークを学習する機能を提供
• ディープラーニング・モデルストア機能を追加!
• 様々なモデルのPre-trainedをダウンロード可能に
• DIGITSジョブのグループ機能など
•
物体検出タスクに対応した新しいDIGITS
72
イメージセグメンテーション(領域分割)
• Pascal-VOC形式の学習データとFCN(全畳込みニューラルネットワーク)を用いた領域分割のワークフローを実現。
• 領域分割のサンプルもDIGITSに付属(semantic-segmentation/medical-imaging)• https://github.com/NVIDIA/DIGITS/tree/master/examples/semantic-segmentation
DIGITS5
Pascal-VOCデータを用いた領域分割の例 Cardiac MR Left Ventricle Segmentation Challenge心臓の領域分割例
73
イメージセグメンテーション(領域分割)
• CNNの全結合層を畳込み層に置き換えたFCNを用いた領域分割• https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
DIGITS5