MII conference177 nvidia

エヌビディア合同会社ディープラーニング部部長井﨑武士

ディープラーニングの最前線と医療分野への応用

2017年1月28日

2

創業1993年

共同創立者兼CEO ジェンスン・フアン（Jen-Hsun Huang）

1999年 NASDAQに上場（NVDA）

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

3

自動車HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla

GRID

JETSON

DRIVE

インテリジェントマシン

4

AGENDA

Deep Learningとは

Deep Learning 事例

医療画像分野での実例

なぜGPUがDeep Learningに向いているのか

NVIDIA Deep Learningプラットフォーム

DIGITS

DIGITSデモ (時間があれば)

5

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化IMAGENET正答率

従来 CV 手法ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

FANUCがピッキングロボットで8時間の学習で90%の取得率を達成

X線画像読影診断で肺がんの検出率が読影診断医の1.5倍

みずほ証券が株価のトレードにDeep Learningを導入

1秒間に600万人の顔認識を行える

Deep Face

生産性の向上 – 活用事例

Google: AIによりデータセンターの消費電力を数100億円規模で

低減

FANUC:40日前にロボットの故障を予測

選択的な給水や除草により化学薬品の使用を９０％

低減

便利な生活 – 活用事例

Alibaba: スマートフォンで撮った写真から同一商品、類似商品を

検索

WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が

登場

Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで

掃除を開始

AI CO-PILOT (1)

Face Recognition Head Tracking

AI CO-PILOT (2)

Lip ReadingGaze Tracking

安心・安全な生活 – 活用事例

Paypal:不正決済の検出の誤報率が50%低減

herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上

vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防

13

DEEP LEARNING INSIGHT従来のアルゴリズムディープラーニング

0%20%40%60%80%

100%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

70

75

80

85

90

95

100

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

医療分野での実例

子供の成長の問題をAI が検出Detecting growth-related problems in children requires calculating their bone age. But it’s an antiquated process that requires radiologists to match X-rays with images in a 1950s textbook. Massachusetts General Hospital, which conducts the largest hospital-based research program in the United States, developed an automated bone-age analyzer built on NVIDIA cuDNN and the NVIDIA DIGITS DevBox. The system is 99% accurate and delivers test results in seconds versus days.

Deep Learning for early detection of Age-related Macular Degeneration________________________________________

– UW developed a deep learning system to read OCT scans and automatically detect Age-related Macular Degeneration.

– There were 5.4 Million Scans in 2014

– In under one month of training, the system is over 90% accurate

80% of people above 80 have Age-related Macular Degeneration and it is treatable-Aaron Lee, Assistant Professor of Ophthalmology, University of Washington

乳がんの転移の検出• 腋下リンパ節の状態を検出• データセットはCamelyon16 Challengeのものを利用

https://camelyon16.grand-challenge.org/

• データには2つの独立したデータセットから合計400の歩哨リンパ節のWSI(Whole-slide-image)が含まれている

• トレーニングデータ

• テストデータオランダのラドバウド大学メディカルセンター/

ユトレヒト大学メディカルセンターから集めた130のWSI

https://camelyon16.grand-challenge.org/

TASK

スライドベースの評価

• 転移を含むスライドと正常なスライドの区別

• スライドレベルでのROC分析

• アルゴリズムの比較はROC曲線下面積（AUC）を用いる

病変ベースの評価

• 信頼スコアを伴う腫瘍領域の検出

• FROC曲線を使用

• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる1/4,1/2,1,2,4,8

FRAMEWORK

NNの詳細

ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用

Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコンテキストのキャプチャを可能とする

トレーニングはNVCAFFEを使用。パッチサイズは20xで512X512。ミニバッチサイズは10

ラーニングレートは2.5e-4から始め、0.9乗の多項式

重み減衰 0.0005 モーメンタム0.9

Tesla P100で40000イタレーション

約1日

性能比較

推論性能

8*p100: DGX-1

計算性能

結果

医療画像セグメンテーション磁気共鳴画像 (MRI)

神経画像ではデファクト

複雑で高価

優れた組織コントラスト、高いリアリティ、高いSN比

医療画像セグメンテーション超音波画像

非侵襲的、装置が小型、安価、リアルタイム、安全

ノイズ、リアルではない、影や低いコントラスト

早期のパーキンソン病の診断には有効

CNNを用いたセグメンテーションボクセルベースの分類

全領域に対するセグメンテーションマスクの予測

ローカリゼーションとセグメンテーションに対するベクトルの多数決

ハフ-CNN 学習

パッチと投票の学習セット

分類CNNの学習

前景パッチの特徴抽出

データベースの構築（特徴、ベクトル、セグメンテーションパッチ)

ハフ-CNN 推論CNNによる分類＆特徴抽出


特徴を元にデータベースからベクトルを取り出す



ベクトルを配置し、マップから基点の集中箇所を特定



ベクトルを配置し、マップから基点の集中箇所を特定特定された基点を元に関連するセグメンテーションパッチを割り出す（データベースから)

結果

結果

0,76 0,77 0,85 0,85

なぜGPUがディープラーニングに向いているか

ディープラーニングを加速する3要因

DNN GPUビッグデータ

1分間に100 時間のビデオがアップロード

日々3.5億イメージがアップロード

1時間に2.5兆件の顧客データが発生

0.0

0.5

1.0

1.5

2.0

2.5

3.0

2008 2009 2010 2011 2012 2013 2014

NVIDIA GPU x86 CPU

TFLO

PS

TORCH

THEANO

CAFFE

MATCONVNET

PURINEMOCHA.JL

MINERVA MXNET*

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万～1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

CNN: CONVOLUTION NEURAL NETWORKLeNet5 [LeCun et al.,1998]

FULL CONNECTION

Forward

Layer 1 Layer 2 Layer 3 Layer 4

FULL CONNECTION

𝑦𝑦 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥 𝑗𝑗 )

x[N] y[M]w[N][M]

FULL CONNECTION

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector



メモリバンド幅で性能が決まる

Xeon E5-2690v3 Tesla M40

68GB/s 288 GB/s

FULL CONNECTION (MINI-BATCH)

x[N] y[M]w[N][M]

x =

w[N][M] x[N] y[M]

Matrix Vector



FULL CONNECTION (MINI-BATCH)

x[K][N] y[K][M]w[N][M]

x =

w[N][M] x[K][N] y[K][M]

Matrix Matrix

高い演算能力を発揮できる

𝑦𝑦[𝑘𝑘] 𝑖𝑖 = 𝐹𝐹 �𝑗𝑗

(𝑤𝑤 𝑖𝑖 𝑗𝑗 × 𝑥𝑥[𝑘𝑘] 𝑗𝑗 )Xeon E5-2690v3 Tesla M40

0.88 TFLOPS 7.0 TFLOPS

CNN: CONVOLUTION NEURAL NETWORK

LeNet5 [LeCun et al.,1998]

CONVOLUTIONS

Output feature maps

Input feature map(s)

CONVOLUTIONS

Input feature maps

Output feature maps

CONVOLUTIONS

Direct Convolution- 膨大な組み合わせ

- それぞれ向けに最適化するのは困難

FFT- メモリ負荷が高い

- 柔軟性が低い

Matrix Multiply

Output feature maps

Input feature map(s)

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

InputFilter

O0 O1

O2 O3

Output

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3

F0 F1

F2 F3

F0 F1 F2 F3

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

Expanded input data

Output data

CONVOLUTIONS

I0 I1 I2

I3 I4 I5

I6 I7 I8

F0 F1

F2 F3

Input data

Filter data

F0 F1 F2 F3G0 G1 G2 G3

J0

J1

J3

J4

J1

J2

J4

J5

J3

J4

J6

J7

J4

J5

J7

J8

J0 J1 J2

J3 J4 J5

J6 J7 J8

I0

I1

I3

I4

I1

I2

I4

I5

I3

I4

I6

I7

I4

I5

I7

I8

G0 G1

G2 G3

F0 F1

F2 F3

G0 G1

G2 G3

F0 F1 F2 F3G0 G1 G2 G3

Output data

行列演算のサイズ (LENET5)

LeNet5 [LeCun et al.,1998]

OutputsFilter

(Expanded)Inputs

16

100 * batch size

150

150

行列演算のサイズ (GOOGLENET)

GoogLeNet [Szegedy et al.,2014]

OutputsFilter

(Expanded)Inputs

192

3136 * batch size

576

576

NVIDIA Deep Learning プラットフォーム

学習と推論プラットフォームワークステーションサーバー

NVIDIA Tesla NVIDIA TEGRA/JETSON TX1

学習

推論

NVIDIA Tesla/DGX-1

オンラインオフライン

X

GPUロードマップSG

EMM

/ W

2012 20142008 2010 2016

48

36

12

0

24

60

2018

72

Tesla FermiKepler

Maxwell

Pascal

Volta

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

P100の技術革新

16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink

リニアなスケーリングを実現するNVLINK

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

AlexnetOWT

P100 NVLINK

P100 PCIE

Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

Incep-v3

P100 NVLINK

P100 PCIE

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

ResNet-50

P100 NVLINK

P100 PCIE

Speedup

2.3x

1.3x

1.5x

NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニングスーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

0x

16x

32x

48x

64x

0 16 32 48 64

ストロングスケール1つのストロングノードは多くのウィークノードよりも高速

VASP 性能

2x P100

CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5

CAFFE ALEXNET 性能

4x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server Nodes

Spee

d-up

vs

1 CP

U S

erve

r N

ode

0x

2x

4x

6x

8x

10x

12x

0 4 8 12 16 20 24 28 32

2x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server NodesSp

eed-

up v

s 1

CPU

Ser

ver

Nod

e

4x P100

64 CPU Nodes

32 CPU Nodes

Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes

Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System

Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform

INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer

To speed advances in the fight against cancer, the Cancer Moonshot initiative unites the Department of Energy, the National Cancer Institute and other agencies with researchers at Oak Ridge, Lawrence Livermore, Argonne, and Los Alamos National Laboratories. NVIDIA is collaborating with the labs to help accelerate their AI framework called CANDLE as a common discovery platform, with the goal of achieving 10X annual increases in productivity for cancer researchers.

AI PLATFORM TO ACCELERATE CANCER RESEARCH

エヌビディアディープラーニングプラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING MATH LIBRARIES

cuBLAS cuSPARSE

GPU-INTERCONNECT

NCCLcuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4P100/P40/P4

Jetson TX1

SERVER

DGX-1

TensorRT

DRIVEPX2

68

DIGITS

69

DIGITSの医療画像への適用

DETECTION SEGMENTATION CLASSIFICATION

70

エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム

Test Image

学習過程の可視化モデルの作成学習データの作成モデルのテスト

http://developer.nvidia.com/digits

http://developer.nvidia.com/digits

71

DIGITS 5

• Image segmentation(領域分割)問題に対応!

• DetectNet+NVCaffeで物体検出の学習が可能に!

• 顔や人やその他のオブジェクトを検出するニューラルネットワークを学習する機能を提供

• ディープラーニング・モデルストア機能を追加!

• 様々なモデルのPre-trainedをダウンロード可能に

• DIGITSジョブのグループ機能など

•

物体検出タスクに対応した新しいDIGITS

72

イメージセグメンテーション(領域分割)

• Pascal-VOC形式の学習データとFCN(全畳込みニューラルネットワーク)を用いた領域分割のワークフローを実現。

• 領域分割のサンプルもDIGITSに付属(semantic-segmentation/medical-imaging)• https://github.com/NVIDIA/DIGITS/tree/master/examples/semantic-segmentation

DIGITS5

Pascal-VOCデータを用いた領域分割の例 Cardiac MR Left Ventricle Segmentation Challenge心臓の領域分割例

https://github.com/NVIDIA/DIGITS/tree/master/examples/semantic-segmentation

73

イメージセグメンテーション(領域分割)

• CNNの全結合層を畳込み層に置き換えたFCNを用いた領域分割• https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf

DIGITS5

Science

MII conference177 nvidia