NVIDIA deep learning最新情報in沖縄

エヌビディア合同会社ディープラーニング部部長井﨑武士

NVIDIA GPU ディープラーニング最新情報 IN 沖縄

2017年2月04日

2

創業1993年

共同創立者兼CEO ジェンスン・フアン（Jen-Hsun Huang）

1999年 NASDAQに上場（NVDA）

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

3

HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla JETSON

DRIVEDGX-1

インテリジェントマシン

4

AGENDA

Deep Learning とは？

なぜGPUがDeep Learningに向いているのか

NVIDIA Deep Learningプラットフォーム

最新研究事例(Deep Learning Institute 2016より)

5

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化IMAGENET正答率

従来 CV 手法ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

FANUCがピッキングロボットで8時間の学習で90%の取得率を達成

X線画像読影診断で肺がんの検出率が読影診断医の1.5倍

みずほ証券が株価のトレードにDeep Learningを導入

1秒間に600万人の顔認識を行える

Deep Face

6

人工ニューロン神経回路網をモデル化

スタンフォード大学cs231講義ノートより

神経回路網

w1 w2 w3

x1 x2 x3

y

y=F(w1x1+w2x2+w3x3)

F(x)=max(0,x)

人工ニューロン

7

人工ニューラルネットワーク単純で訓練可能な数学ユニットの集合体

ニューラルネットワーク全体で複雑な機能を学習

入力層出力層

隠れ層

十分なトレーニングデータを与えられた人工ニューラルネットワークは、入力データから判断を行う複雑な近似を行う事が出来る。

8

従来の手法画像認識（例）

入力画像特徴抽出（SIFT、HOGなど）

ベクトル表現（BoK、FVなど）

識別器（SVMなど）

教師データ/認識

“猫”

人間の手が介在

9

ディープラーニング画像認識（例）

入力画像

教師データ/認識

“猫”

ディープニューラルネットワーク (DNN)

特徴の抽出、識別をDNNが自動で行う

10

ディープラーニングのアプローチ

推論:

犬

猫

蜜穴熊

エラー

犬猫

アライグマ

犬

学習:

モデル

モデル

11

訓練データによる重みの更新

訓練データ

猫

犬

熊

訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す

猫

犬

狸

正解は犬

12

訓練データによる重みの更新

訓練データ

猫

犬

熊

訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す

猫

犬

狸

正解に近づくように、各層の重みを更新する

生産性の向上 – 活用事例

Google: AIによりデータセンターの消費電力を数100億円規模で

低減

FANUC:40日前にロボットの故障を予測

選択的な給水や除草により化学薬品の使用を９０％

低減

便利な生活 – 活用事例

Alibaba: スマートフォンで撮った写真から同一商品、類似商品を

検索

WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が

登場

Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで

掃除を開始

AI CO-PILOT (1)

Face Recognition Head Tracking

AI CO-PILOT (2)

Lip ReadingGaze Tracking

安心・安全な生活 – 活用事例

Paypal:不正決済の検出の誤報率が50%低減

herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上

vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防

20

DEEP LEARNING INSIGHT従来のアルゴリズムディープラーニング

0%20%40%60%80%

100%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

70

75

80

85

90

95

100

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

21

なぜGPUがディープラーニングに向いているか

22

ディープラーニングを加速する3要因

DNN GPUビッグデータ

1分間に100 時間のビデオがアップロード

日々3.5億イメージがアップロード

1時間に2.5兆件の顧客データが発生

0.0

0.5

1.0

1.5

2.0

2.5

3.0

2008 2009 2010 2011 2012 2013 2014

NVIDIA GPU x86 CPU

TFLO

PS

TORCH

THEANO

CAFFE

MATCONVNET

PURINEMOCHA.JL

MINERVA MXNET*

23

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万～1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

24

NVIDIA Deep Learning プラットフォーム

25

学習と推論プラットフォームワークステーションサーバー

NVIDIA Tesla NVIDIA TEGRA/JETSON TX1

学習

推論

NVIDIA Tesla/DGX-1

オンラインオフライン

X

26

GPUロードマップSG

EMM

/ W

2012 20142008 2010 2016

48

36

12

0

24

60

2018

72

Tesla FermiKepler

Maxwell

Pascal

Volta

27

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

28

P100の技術革新

16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink

29

リニアなスケーリングを実現するNVLINK

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

AlexnetOWT

P100 NVLINK

P100 PCIE

Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

Incep-v3

P100 NVLINK

P100 PCIE

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

ResNet-50

P100 NVLINK

P100 PCIE

Speedup

2.3x

1.3x

1.5x

30NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニングスーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

31

0x

16x

32x

48x

64x

0 16 32 48 64

ストロングスケール1つのストロングノードは多くのウィークノードよりも高速

VASP 性能

2x P100

CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5

CAFFE ALEXNET 性能

4x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server Nodes

Spee

d-up

vs

1 CP

U S

erve

r N

ode

0x

2x

4x

6x

8x

10x

12x

0 4 8 12 16 20 24 28 32

2x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server NodesSp

eed-

up v

s 1

CPU

Ser

ver

Nod

e

4x P100

64 CPU Nodes

32 CPU Nodes

32

Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes

Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System

Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform

INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer

33

K80 M40 M4 P100(SXM2)

P100(PCIE) P40 P4

GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104

PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NA

PEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5

PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NA

PEAK TIOPs NA NA NA NA NA 47 22

Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5

Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/s

Interconnect PCIe Gen3 PCIe Gen3 PCIe Gen3 NVLINK + PCIe Gen3 PCIe Gen3 PCIe Gen3 PCIe Gen3

ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5

Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LP

Power 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 W

TESLA 製品一覧

34

TEGRA JETSON TX1モジュール型スーパーコンピュー

ター

主なスペック

GPU 1 TFLOP/s 256コア Maxwell

CPU 64ビット ARM A57 CPU

メモリ 4 GB LPDDR4 | 25.6 GB/s

ストレージ 16 GB eMMC

Wifi/BT 802.11 2x2 ac / BT Ready

ネットワーク 1 Gigabit Ethernet

サイズ 50mm x 87mm

インターフェース 400ピンボード間接続コネクタ

消費電力最大10W

Under 10 W for typical use cases

35

NVIDIA DRIVE PX 212 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式

世界初自動運転向けAIスーパーコンピュータ

36

NVIDIA GPU スケーラブルアーキテクチャモバイルからスーパーコンピュータまで

TeslaIn Super Computers

QuadroIn Work Stations

GeForceIn PCs

Mobile GPU

In Tegra

Tegra

37

エヌビディアディープラーニングプラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING MATH LIBRARIES

cuBLAS cuSPARSE

GPU-INTERCONNECT

NCCLcuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4P100/P40/P4

Jetson TX1

SERVER

DGX-1

TensorRT

DRIVEPX2

38

エヌビディア DIGITS

DETECTION SEGMENTATION CLASSIFICATION

39

エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム

Test Image

学習過程の可視化モデルの作成学習データの作成モデルのテスト

http://developer.nvidia.com/digits

http://developer.nvidia.com/digits

最新の研究事例

Quanzheng Li Associate Professor, Massachusetts General Hospital

DEEP LEARNING ON METASTASIS DETECTION OF BREAST CANCER USING

DGX-1

SESSION 1

デジタルパソロジー

デジタルパソロジーはコンピュータテクノロジーにより可能となった画像を基にした情報環境で、デジタル標本から得られる情報の管理を可能とする

より良く、早く、より安価に癌やその他の病気の診断や予測を可能にする診療医学のもっとも有望な手段の一つ

研究の動機• リンパ節転移はほとんどの癌のタイプで発生する

（e.g. 胸部、前立腺、結腸)

• リンパ節は小さな免疫細胞の塊でリンパ系のフィルターとして動作する

• 脇の下のリンパ節（腋下リンパ節)は乳がんが広がりやすい最初の箇所である

• リンパ節の状態は予後に大きく関連する、癌がリンパ節に広がっていると予後が悪くなる

• 病理検査医の診断の手順は単調で時間がかかる作業で、誤った解釈を引き起こす場合がある

• データセットはCamelyon16 Challengeのものを利用https://camelyon16.grand-challenge.org/

• データには2つの独立したデータセットから合計400の歩哨リンパ節のWSI(Whole-slide-image)が含まれている

• トレーニングデータ

• テストデータオランダのラドバウド大学メディカルセンター/ユトレヒト大学メディカルセンターから集めた130のWSI

データセット

データセット

データセット

TASK

スライドベースの評価

• 転移を含むスライドと正常なスライドの区別

• スライドレベルでのROC分析

• アルゴリズムの比較はROC曲線下面積（AUC）を用いる

病変ベースの評価

• 信頼スコアを伴う腫瘍領域の検出

• FROC曲線を使用

• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる1/4,1/2,1,2,4,8

FRAMEWORK

学習データ

Preprocessing

NNの詳細

ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用

Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコンテキストのキャプチャを可能とする

トレーニングはNVCAFFEを使用。パッチサイズは20xで512X512。ミニバッチサイズは10

ラーニングレートは2.5e-4から始め、0.9乗の多項式

重み減衰 0.0005 モーメンタム0.9

Tesla P100で40000イタレーション

約1日

分類タスク

Tumor Probability mapからもっとも大きな腫瘍を取り出すために高次の特徴を抽出（skimageの”regionprops”で異なる閾値を用いる）

分類にはランダムフォレストを使用

検出タスク

Tumor Probability mapにおいてヒートマップの領域を結合する（Connectivity=2、Threshold=0.95)

性能比較

推論性能

8*p100: DGX-1

計算性能

結果

Joon Son Chung et al, Department of Engineering Science, University of Oxford. Google DeepMind

LIP READING SENTENCES IN THE WILD

SESSION 2

https://arxiv.org/pdf/1611.05358v1.pdf

LIP READING

CONVNET

学習

結果

WAS: Watch, Attend&SpellLAS: Listen, Attend & SpellWLAS: Watch, Listen, Attend & SpellCL: Curriculum LearningSS: Scheduled SamplingBS: Beam Search

Olexandr Isayev Research Assistant Professor, University of North Carolina at Chapel Hill

ACCURATE PREDICTION OF PROTEIN KINASE INHIBITORS WITH DEEP

CONVOLUTIONAL NEURAL NETWORKS

SESSION 3

Han Zhang et al, Department of Computer Science, Rutgers University et al.

STACKGAN: TEXT TO PHOTO-REALISTIC IMAGE SYNTHESIS WITH STACKED

GENERATIVE ADVERSARIAL NETWORKS

SESSION 4


GAN おさらい

GENERATIVE ADVERSARIAL TEXT TO IMAGE SYNTHESIS

文章から画像を生成するGAN

ψ：Text Encoder (今回128次元)


Scott Reed et al, University of Michigan

https://arxiv.org/pdf/1605.05396.pdf

STACKGAN

Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, and Pieter AbbeelDept. of Electrical Engineering and Computer Sciences, UC Berkeley

VALUE ITERATION NETWORKS

SESSION 5

アプリケーション例

従来の強化学習の問題

モデルベースの強化学習の場合、見ているものをダイナミックモデルにマップするシステム特定が必要となるが、実際のアプリケーションでは正確な特定は困難。

DQNの場合、試行錯誤で良かった行動を記憶していくが、環境が変わるとモデルの転用は出来ない

Imitation Learningなども同様である

モデルに依存せず計画を学習ベースで決定できる手法が必要

ネットワークモデル(VIN)

結果