68
エヌビディア合同会社 ディープラーニング部 部長 井﨑 武士 ディープラーニングの最前線と 医療分野への応用 2017128

MII conference177 nvidia

Embed Size (px)

Citation preview

Page 1: MII conference177 nvidia

エヌビディア合同会社 ディープラーニング部部長 井﨑 武士

ディープラーニングの最前線と医療分野への応用

2017年1月28日

Page 2: MII conference177 nvidia

2

創業1993年

共同創立者兼CEO ジェンスン・フアン(Jen-Hsun Huang)

1999年 NASDAQに上場(NVDA)

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

Page 3: MII conference177 nvidia

3

自動車HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla

GRID

JETSON

DRIVE

インテリジェントマシン

Page 4: MII conference177 nvidia

4

AGENDA

Deep Learningとは

Deep Learning 事例

医療画像分野での実例

なぜGPUがDeep Learningに向いているのか

NVIDIA Deep Learningプラットフォーム

DIGITS

DIGITSデモ (時間があれば)

Page 5: MII conference177 nvidia

5

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化IMAGENET正答率

従来 CV 手法 ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

FANUCがピッキングロボットで8時間の学習で90%の取得率を達成

X線画像読影診断で肺がんの検出率が読影診断医の1.5倍

みずほ証券が株価のトレードにDeep Learningを導入

1秒間に600万人の顔認識を行える

Deep Face

Page 6: MII conference177 nvidia

生産性の向上 – 活用事例

Google: AIによりデータセンターの消費電力を数100億円規模で

低減

FANUC:40日前にロボットの故障を予測

選択的な給水や除草により化学薬品の使用を90%

低減

Page 7: MII conference177 nvidia

便利な生活 – 活用事例

Alibaba: スマートフォンで撮った写真から同一商品、類似商品を

検索

WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が

登場

Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで

掃除を開始

Page 8: MII conference177 nvidia

AI CO-PILOT (1)

Face Recognition Head Tracking

Page 9: MII conference177 nvidia

AI CO-PILOT (2)

Lip ReadingGaze Tracking

Page 10: MII conference177 nvidia
Page 11: MII conference177 nvidia

安心・安全な生活 – 活用事例

Paypal:不正決済の検出の誤報率が50%低減

herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上

vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防

Page 12: MII conference177 nvidia

13

DEEP LEARNING INSIGHT従来のアルゴリズム ディープラーニング

0%20%40%60%80%

100%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

70

75

80

85

90

95

100

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

Page 13: MII conference177 nvidia

医療分野での実例

Page 14: MII conference177 nvidia

子供の成長の問題をAI が検出Detecting growth-related problems in children requires calculating their bone age. But it’s an antiquated process that requires radiologists to match X-rays with images in a 1950s textbook. Massachusetts General Hospital, which conducts the largest hospital-based research program in the United States, developed an automated bone-age analyzer built on NVIDIA cuDNN and the NVIDIA DIGITS DevBox. The system is 99% accurate and delivers test results in seconds versus days.

Page 15: MII conference177 nvidia

Deep Learning for early detection of Age-related Macular Degeneration________________________________________

– UW developed a deep learning system to read OCT scans and automatically detect Age-related Macular Degeneration.

– There were 5.4 Million Scans in 2014

– In under one month of training, the system is over 90% accurate

80% of people above 80 have Age-related Macular Degeneration and it is treatable-Aaron Lee, Assistant Professor of Ophthalmology, University of Washington

Page 16: MII conference177 nvidia

乳がんの転移の検出• 腋下リンパ節の状態を検出• データセットはCamelyon16 Challengeのものを利用

https://camelyon16.grand-challenge.org/

• データには2つの独立したデータセットから合計400の歩哨リンパ節のWSI(Whole-slide-image)が含まれている

• トレーニングデータ

• テストデータオランダのラドバウド大学メディカルセンター/

ユトレヒト大学メディカルセンターから集めた130のWSI

Page 17: MII conference177 nvidia

TASK

スライドベースの評価

• 転移を含むスライドと正常なスライドの区別

• スライドレベルでのROC分析

• アルゴリズムの比較はROC曲線下面積(AUC)を用いる

病変ベースの評価

• 信頼スコアを伴う腫瘍領域の検出

• FROC曲線を使用

• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる1/4,1/2,1,2,4,8

Page 18: MII conference177 nvidia

FRAMEWORK

Page 19: MII conference177 nvidia

NNの詳細

ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用

Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコンテキストのキャプチャを可能とする

トレーニングはNVCAFFEを使用。パッチサイズは20xで512X512。ミニバッチサイズは10

ラーニングレートは2.5e-4から始め、0.9乗の多項式

重み減衰 0.0005 モーメンタム0.9

Tesla P100で40000イタレーション

約1日

Page 20: MII conference177 nvidia

性能比較

推論性能

8*p100: DGX-1

計算性能

Page 21: MII conference177 nvidia

結果

Page 22: MII conference177 nvidia

医療画像セグメンテーション磁気共鳴画像 (MRI)

神経画像ではデファクト

複雑で高価

優れた組織コントラスト、高いリアリティ、高いSN比

Page 23: MII conference177 nvidia

医療画像セグメンテーション超音波画像

非侵襲的、装置が小型、安価、リアルタイム、安全

ノイズ、リアルではない、影や低いコントラスト

早期のパーキンソン病の診断には有効

Page 24: MII conference177 nvidia

CNNを用いたセグメンテーションボクセルベースの分類

全領域に対するセグメンテーションマスクの予測

ローカリゼーションとセグメンテーションに対するベクトルの多数決

Page 25: MII conference177 nvidia

ハフ-CNN 学習

パッチと投票の学習セット

分類CNNの学習

前景パッチの特徴抽出

データベースの構築(特徴、ベクトル、セグメンテーションパッチ)

Page 26: MII conference177 nvidia

ハフ-CNN 推論CNNによる分類&特徴抽出

Page 27: MII conference177 nvidia

ハフ-CNN 推論CNNによる分類&特徴抽出

特徴を元にデータベースからベクトルを取り出す

Page 28: MII conference177 nvidia

ハフ-CNN 推論CNNによる分類&特徴抽出

特徴を元にデータベースからベクトルを取り出す

ベクトルを配置し、マップから基点の集中箇所を特定

Page 29: MII conference177 nvidia

ハフ-CNN 推論CNNによる分類&特徴抽出

特徴を元にデータベースからベクトルを取り出す

ベクトルを配置し、マップから基点の集中箇所を特定特定された基点を元に関連するセグメンテーションパッチを割り出す(データベースから)

Page 30: MII conference177 nvidia

結果

Page 31: MII conference177 nvidia

結果

0,76 0,77 0,85 0,85

Page 32: MII conference177 nvidia

なぜGPUがディープラーニングに向いているか

Page 33: MII conference177 nvidia

ディープラーニングを加速する3要因

DNN GPUビッグデータ

1分間に100 時間のビデオがアップロード

日々3.5億イメージがアップロード

1時間に2.5兆件の顧客データが発生

0.0

0.5

1.0

1.5

2.0

2.5

3.0

2008 2009 2010 2011 2012 2013 2014

NVIDIA GPU x86 CPU

TFLO

PS

TORCH

THEANO

CAFFE

MATCONVNET

PURINEMOCHA.JL

MINERVA MXNET*

Page 34: MII conference177 nvidia

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万~1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

Page 35: MII conference177 nvidia

CNN: CONVOLUTION NEURAL NETWORKLeNet5 [LeCun et al.,1998]

Page 36: MII conference177 nvidia

FULL CONNECTION

Forward

Layer 1 Layer 2 Layer 3 Layer 4

Page 37: MII conference177 nvidia

FULL CONNECTION

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

x[N] y[M]w[N][M]

Page 38: MII conference177 nvidia

FULL CONNECTION

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

メモリバンド幅で性能が決まる

Xeon E5-2690v3 Tesla M40

68GB/s 288 GB/s

Page 39: MII conference177 nvidia

FULL CONNECTION (MINI-BATCH)

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

Page 40: MII conference177 nvidia

FULL CONNECTION (MINI-BATCH)

x[K][N] y[K][M]w[N][M]

x =

w[N][M] x[K][N] y[K][M]

Matrix Matrix

高い演算能力を発揮できる

𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )Xeon E5-2690v3 Tesla M40

0.88 TFLOPS 7.0 TFLOPS

Page 41: MII conference177 nvidia

CNN: CONVOLUTION NEURAL NETWORK

LeNet5 [LeCun et al.,1998]

Page 42: MII conference177 nvidia

CONVOLUTIONS

Output feature maps

Input feature map(s)

Page 43: MII conference177 nvidia

CONVOLUTIONS

Input feature maps

Output feature maps

Page 44: MII conference177 nvidia

CONVOLUTIONS

Direct Convolution- 膨大な組み合わせ

- それぞれ向けに最適化するのは困難

FFT- メモリ負荷が高い

- 柔軟性が低い

Matrix Multiply

Output feature maps

Input feature map(s)

Page 45: MII conference177 nvidia

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

InputFilter

O0 O1

O2 O3

Output

Page 46: MII conference177 nvidia

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

Page 47: MII conference177 nvidia

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

F0 F1

F2 F3

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

Page 48: MII conference177 nvidia

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3G0 G1 G2 G3

J0

J1

J3

J4

J1

J2

J4

J5

J3

J4

J6

J7

J4

J5

J7

J8

J0 J1 J2

J3 J4 J5

J6 J7 J8

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

G0 G1

G2 G3

F0 F1

F2 F3

G0 G1

G2 G3

F0 F1 F2 F3G0 G1 G2 G3

Output data

Page 49: MII conference177 nvidia

行列演算のサイズ (LENET5)

LeNet5 [LeCun et al.,1998]

OutputsFilter

(Expanded)Inputs

16

100 * batch size

150

150

Page 50: MII conference177 nvidia

行列演算のサイズ (GOOGLENET)

GoogLeNet [Szegedy et al.,2014]

OutputsFilter

(Expanded)Inputs

192

3136 * batch size

576

576

Page 51: MII conference177 nvidia

NVIDIA Deep Learning プラットフォーム

Page 52: MII conference177 nvidia

学習と推論プラットフォームワークステーション サーバー

NVIDIA Tesla NVIDIA TEGRA/JETSON TX1

学習

推論

NVIDIA Tesla/DGX-1

オンライン オフライン

X

Page 53: MII conference177 nvidia

GPUロードマップSG

EMM

/ W

2012 20142008 2010 2016

48

36

12

0

24

60

2018

72

Tesla FermiKepler

Maxwell

Pascal

Volta

Page 54: MII conference177 nvidia

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

Page 55: MII conference177 nvidia

P100の技術革新

16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink

Page 56: MII conference177 nvidia

リニアなスケーリングを実現するNVLINK

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

AlexnetOWT

P100 NVLINK

P100 PCIE

Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

Incep-v3

P100 NVLINK

P100 PCIE

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

ResNet-50

P100 NVLINK

P100 PCIE

Speedup

2.3x

1.3x

1.5x

Page 57: MII conference177 nvidia

NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニング スーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

Page 58: MII conference177 nvidia

0x

16x

32x

48x

64x

0 16 32 48 64

ストロングスケール1つのストロングノードは多くのウィークノードよりも高速

VASP 性能

2x P100

CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5

CAFFE ALEXNET 性能

4x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server Nodes

Spee

d-up

vs

1 CP

U S

erve

r N

ode

0x

2x

4x

6x

8x

10x

12x

0 4 8 12 16 20 24 28 32

2x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server NodesSp

eed-

up v

s 1

CPU

Ser

ver

Nod

e

4x P100

64 CPU Nodes

32 CPU Nodes

Page 59: MII conference177 nvidia

Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes

Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System

Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform

INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer

Page 60: MII conference177 nvidia

To speed advances in the fight against cancer, the Cancer Moonshot initiative unites the Department of Energy, the National Cancer Institute and other agencies with researchers at Oak Ridge, Lawrence Livermore, Argonne, and Los Alamos National Laboratories. NVIDIA is collaborating with the labs to help accelerate their AI framework called CANDLE as a common discovery platform, with the goal of achieving 10X annual increases in productivity for cancer researchers.

AI PLATFORM TO ACCELERATE CANCER RESEARCH

Page 61: MII conference177 nvidia

エヌビディア ディープラーニング プラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING MATH LIBRARIES

cuBLAS cuSPARSE

GPU-INTERCONNECT

NCCLcuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4P100/P40/P4

Jetson TX1

SERVER

DGX-1

TensorRT

DRIVEPX2

Page 62: MII conference177 nvidia

68

DIGITS

Page 63: MII conference177 nvidia

69

DIGITSの医療画像への適用

DETECTION SEGMENTATION CLASSIFICATION

Page 64: MII conference177 nvidia

70

エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム

Test Image

学習過程の可視化モデルの作成学習データの作成 モデルのテスト

http://developer.nvidia.com/digits

Page 65: MII conference177 nvidia

71

DIGITS 5

• Image segmentation(領域分割)問題に対応!

• DetectNet+NVCaffeで物体検出の学習が可能に!

• 顔や人やその他のオブジェクトを検出するニューラルネットワークを学習する機能を提供

• ディープラーニング・モデルストア機能を追加!

• 様々なモデルのPre-trainedをダウンロード可能に

• DIGITSジョブのグループ機能など

物体検出タスクに対応した新しいDIGITS

Page 66: MII conference177 nvidia

72

イメージセグメンテーション(領域分割)

• Pascal-VOC形式の学習データとFCN(全畳込みニューラルネットワーク)を用いた領域分割のワークフローを実現。

• 領域分割のサンプルもDIGITSに付属(semantic-segmentation/medical-imaging)• https://github.com/NVIDIA/DIGITS/tree/master/examples/semantic-segmentation

DIGITS5

Pascal-VOCデータを用いた領域分割の例 Cardiac MR Left Ventricle Segmentation Challenge心臓の領域分割例

Page 67: MII conference177 nvidia

73

イメージセグメンテーション(領域分割)

• CNNの全結合層を畳込み層に置き換えたFCNを用いた領域分割• https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf

DIGITS5

Page 68: MII conference177 nvidia