82
エヌビディア合同会社 ディープラーニング部 部長 井﨑 武士 NVIDIA GPU ディープラーニング 最新情報 IN 沖縄 2017204

NVIDIA deep learning最新情報in沖縄

Embed Size (px)

Citation preview

Page 1: NVIDIA deep learning最新情報in沖縄

エヌビディア合同会社 ディープラーニング部部長 井﨑 武士

NVIDIA GPU ディープラーニング最新情報 IN 沖縄

2017年2月04日

Page 2: NVIDIA deep learning最新情報in沖縄

2

創業1993年

共同創立者兼CEO ジェンスン・フアン(Jen-Hsun Huang)

1999年 NASDAQに上場(NVDA)

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

Page 3: NVIDIA deep learning最新情報in沖縄

3

HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla JETSON

DRIVEDGX-1

インテリジェントマシン

Page 4: NVIDIA deep learning最新情報in沖縄

4

AGENDA

Deep Learning とは?

なぜGPUがDeep Learningに向いているのか

NVIDIA Deep Learningプラットフォーム

最新研究事例(Deep Learning Institute 2016より)

Page 5: NVIDIA deep learning最新情報in沖縄

5

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化IMAGENET正答率

従来 CV 手法 ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

FANUCがピッキングロボットで8時間の学習で90%の取得率を達成

X線画像読影診断で肺がんの検出率が読影診断医の1.5倍

みずほ証券が株価のトレードにDeep Learningを導入

1秒間に600万人の顔認識を行える

Deep Face

Page 6: NVIDIA deep learning最新情報in沖縄

6

人工ニューロン神経回路網をモデル化

スタンフォード大学cs231講義ノートより

神経回路網

w1 w2 w3

x1 x2 x3

y

y=F(w1x1+w2x2+w3x3)

F(x)=max(0,x)

人工ニューロン

Page 7: NVIDIA deep learning最新情報in沖縄

7

人工ニューラルネットワーク単純で訓練可能な数学ユニットの集合体

ニューラルネットワーク全体で複雑な機能を学習

入力層 出力層

隠れ層

十分なトレーニングデータを与えられた人工ニューラルネットワークは、入力データから判断を行う複雑な近似を行う事が出来る。

Page 8: NVIDIA deep learning最新情報in沖縄

8

従来の手法画像認識(例)

入力画像 特徴抽出(SIFT、HOGなど)

ベクトル表現(BoK、FVなど)

識別器(SVMなど)

教師データ/認識

“猫”

人間の手が介在

Page 9: NVIDIA deep learning最新情報in沖縄

9

ディープラーニング画像認識(例)

入力画像

教師データ/認識

“猫”

ディープ ニューラル ネットワーク (DNN)

特徴の抽出、識別をDNNが自動で行う

Page 10: NVIDIA deep learning最新情報in沖縄

10

ディープラーニングのアプローチ

推論:

蜜穴熊

エラー

犬猫

アライグマ

学習:

モデル

モデル

Page 11: NVIDIA deep learning最新情報in沖縄

11

訓練データによる重みの更新

訓練データ

訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す

正解は犬

Page 12: NVIDIA deep learning最新情報in沖縄

12

訓練データによる重みの更新

訓練データ

訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す

正解に近づくように、各層の重みを更新する

Page 13: NVIDIA deep learning最新情報in沖縄

生産性の向上 – 活用事例

Google: AIによりデータセンターの消費電力を数100億円規模で

低減

FANUC:40日前にロボットの故障を予測

選択的な給水や除草により化学薬品の使用を90%

低減

Page 14: NVIDIA deep learning最新情報in沖縄

便利な生活 – 活用事例

Alibaba: スマートフォンで撮った写真から同一商品、類似商品を

検索

WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が

登場

Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで

掃除を開始

Page 15: NVIDIA deep learning最新情報in沖縄

AI CO-PILOT (1)

Face Recognition Head Tracking

Page 16: NVIDIA deep learning最新情報in沖縄

AI CO-PILOT (2)

Lip ReadingGaze Tracking

Page 17: NVIDIA deep learning最新情報in沖縄
Page 18: NVIDIA deep learning最新情報in沖縄

安心・安全な生活 – 活用事例

Paypal:不正決済の検出の誤報率が50%低減

herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上

vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防

Page 19: NVIDIA deep learning最新情報in沖縄

20

DEEP LEARNING INSIGHT従来のアルゴリズム ディープラーニング

0%20%40%60%80%

100%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

70

75

80

85

90

95

100

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

Page 20: NVIDIA deep learning最新情報in沖縄

21

なぜGPUがディープラーニングに向いているか

Page 21: NVIDIA deep learning最新情報in沖縄

22

ディープラーニングを加速する3要因

DNN GPUビッグデータ

1分間に100 時間のビデオがアップロード

日々3.5億イメージがアップロード

1時間に2.5兆件の顧客データが発生

0.0

0.5

1.0

1.5

2.0

2.5

3.0

2008 2009 2010 2011 2012 2013 2014

NVIDIA GPU x86 CPU

TFLO

PS

TORCH

THEANO

CAFFE

MATCONVNET

PURINEMOCHA.JL

MINERVA MXNET*

Page 22: NVIDIA deep learning最新情報in沖縄

23

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万~1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

Page 23: NVIDIA deep learning最新情報in沖縄

24

NVIDIA Deep Learning プラットフォーム

Page 24: NVIDIA deep learning最新情報in沖縄

25

学習と推論プラットフォームワークステーション サーバー

NVIDIA Tesla NVIDIA TEGRA/JETSON TX1

学習

推論

NVIDIA Tesla/DGX-1

オンライン オフライン

X

Page 25: NVIDIA deep learning最新情報in沖縄

26

GPUロードマップSG

EMM

/ W

2012 20142008 2010 2016

48

36

12

0

24

60

2018

72

Tesla FermiKepler

Maxwell

Pascal

Volta

Page 26: NVIDIA deep learning最新情報in沖縄

27

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

Page 27: NVIDIA deep learning最新情報in沖縄

28

P100の技術革新

16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink

Page 28: NVIDIA deep learning最新情報in沖縄

29

リニアなスケーリングを実現するNVLINK

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

AlexnetOWT

P100 NVLINK

P100 PCIE

Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

Incep-v3

P100 NVLINK

P100 PCIE

1.0x

2.0x

3.0x

4.0x

5.0x

6.0x

7.0x

8.0x

1GPU 2GPU 4GPU 8GPU

ResNet-50

P100 NVLINK

P100 PCIE

Speedup

2.3x

1.3x

1.5x

Page 29: NVIDIA deep learning最新情報in沖縄

30NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニング スーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

Page 30: NVIDIA deep learning最新情報in沖縄

31

0x

16x

32x

48x

64x

0 16 32 48 64

ストロングスケール1つのストロングノードは多くのウィークノードよりも高速

VASP 性能

2x P100

CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5

CAFFE ALEXNET 性能

4x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server Nodes

Spee

d-up

vs

1 CP

U S

erve

r N

ode

0x

2x

4x

6x

8x

10x

12x

0 4 8 12 16 20 24 28 32

2x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server NodesSp

eed-

up v

s 1

CPU

Ser

ver

Nod

e

4x P100

64 CPU Nodes

32 CPU Nodes

Page 31: NVIDIA deep learning最新情報in沖縄

32

Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes

Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System

Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform

INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer

Page 32: NVIDIA deep learning最新情報in沖縄

33

K80 M40 M4 P100(SXM2)

P100(PCIE) P40 P4

GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104

PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NA

PEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5

PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NA

PEAK TIOPs NA NA NA NA NA 47 22

Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5

Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/s

Interconnect PCIe Gen3 PCIe Gen3 PCIe Gen3 NVLINK + PCIe Gen3 PCIe Gen3 PCIe Gen3 PCIe Gen3

ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5

Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LP

Power 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 W

TESLA 製品一覧

Page 33: NVIDIA deep learning最新情報in沖縄

34

TEGRA JETSON TX1モジュール型スーパーコンピュー

ター

主なスペック

GPU 1 TFLOP/s 256コア Maxwell

CPU 64ビット ARM A57 CPU

メモリ 4 GB LPDDR4 | 25.6 GB/s

ストレージ 16 GB eMMC

Wifi/BT 802.11 2x2 ac / BT Ready

ネットワーク 1 Gigabit Ethernet

サイズ 50mm x 87mm

インターフェース 400ピン ボード間接続コネクタ

消費電力 最大10W

Under 10 W for typical use cases

Page 34: NVIDIA deep learning最新情報in沖縄

35

NVIDIA DRIVE PX 212 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式

世界初自動運転向けAIスーパーコンピュータ

Page 35: NVIDIA deep learning最新情報in沖縄

36

NVIDIA GPU スケーラブル アーキテクチャモバイルからスーパーコンピュータまで

TeslaIn Super Computers

QuadroIn Work Stations

GeForceIn PCs

Mobile GPU

In Tegra

Tegra

Page 36: NVIDIA deep learning最新情報in沖縄

37

エヌビディア ディープラーニング プラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING MATH LIBRARIES

cuBLAS cuSPARSE

GPU-INTERCONNECT

NCCLcuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4P100/P40/P4

Jetson TX1

SERVER

DGX-1

TensorRT

DRIVEPX2

Page 37: NVIDIA deep learning最新情報in沖縄

38

エヌビディア DIGITS

DETECTION SEGMENTATION CLASSIFICATION

Page 38: NVIDIA deep learning最新情報in沖縄

39

エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム

Test Image

学習過程の可視化モデルの作成学習データの作成 モデルのテスト

http://developer.nvidia.com/digits

Page 39: NVIDIA deep learning最新情報in沖縄

最新の研究事例

Page 40: NVIDIA deep learning最新情報in沖縄

Quanzheng Li Associate Professor, Massachusetts General Hospital

DEEP LEARNING ON METASTASIS DETECTION OF BREAST CANCER USING

DGX-1

SESSION 1

Page 41: NVIDIA deep learning最新情報in沖縄

デジタルパソロジー

デジタルパソロジーはコンピュータテクノロジーにより可能となった画像を基にした情報環境で、デジタル標本から得られる情報の管理を可能とする

より良く、早く、より安価に癌やその他の病気の診断や予測を可能にする診療医学のもっとも有望な手段の一つ

Page 42: NVIDIA deep learning最新情報in沖縄

研究の動機• リンパ節転移はほとんどの癌のタイプで発生する

(e.g. 胸部、前立腺、結腸)

• リンパ節は小さな免疫細胞の塊でリンパ系のフィルターとして動作する

• 脇の下のリンパ節(腋下リンパ節)は乳がんが広がりやすい最初の箇所である

• リンパ節の状態は予後に大きく関連する、癌がリンパ節に広がっていると予後が悪くなる

• 病理検査医の診断の手順は単調で時間がかかる作業で、誤った解釈を引き起こす場合がある

Page 43: NVIDIA deep learning最新情報in沖縄

• データセットはCamelyon16 Challengeのものを利用https://camelyon16.grand-challenge.org/

• データには2つの独立したデータセットから合計400の歩哨リンパ節のWSI(Whole-slide-image)が含まれている

• トレーニングデータ

• テストデータオランダのラドバウド大学メディカルセンター/ユトレヒト大学メディカルセンターから集めた130のWSI

データセット

Page 44: NVIDIA deep learning最新情報in沖縄

データセット

Page 45: NVIDIA deep learning最新情報in沖縄

データセット

Page 46: NVIDIA deep learning最新情報in沖縄

TASK

スライドベースの評価

• 転移を含むスライドと正常なスライドの区別

• スライドレベルでのROC分析

• アルゴリズムの比較はROC曲線下面積(AUC)を用いる

病変ベースの評価

• 信頼スコアを伴う腫瘍領域の検出

• FROC曲線を使用

• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる1/4,1/2,1,2,4,8

Page 47: NVIDIA deep learning最新情報in沖縄

FRAMEWORK

Page 48: NVIDIA deep learning最新情報in沖縄

学習データ

Preprocessing

Page 49: NVIDIA deep learning最新情報in沖縄

NNの詳細

ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用

Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコンテキストのキャプチャを可能とする

トレーニングはNVCAFFEを使用。パッチサイズは20xで512X512。ミニバッチサイズは10

ラーニングレートは2.5e-4から始め、0.9乗の多項式

重み減衰 0.0005 モーメンタム0.9

Tesla P100で40000イタレーション

約1日

Page 50: NVIDIA deep learning最新情報in沖縄

分類タスク

Tumor Probability mapからもっとも大きな腫瘍を取り出すために高次の特徴を抽出(skimageの”regionprops”で異なる閾値を用いる)

分類にはランダムフォレストを使用

検出タスク

Tumor Probability mapにおいてヒートマップの領域を結合する(Connectivity=2、Threshold=0.95)

Page 51: NVIDIA deep learning最新情報in沖縄

性能比較

推論性能

8*p100: DGX-1

計算性能

Page 52: NVIDIA deep learning最新情報in沖縄

結果

Page 53: NVIDIA deep learning最新情報in沖縄

Joon Son Chung et al, Department of Engineering Science, University of Oxford. Google DeepMind

LIP READING SENTENCES IN THE WILD

SESSION 2

https://arxiv.org/pdf/1611.05358v1.pdf

Page 54: NVIDIA deep learning最新情報in沖縄

LIP READING

Page 55: NVIDIA deep learning最新情報in沖縄
Page 56: NVIDIA deep learning最新情報in沖縄

CONVNET

Page 57: NVIDIA deep learning最新情報in沖縄
Page 58: NVIDIA deep learning最新情報in沖縄

学習

Page 59: NVIDIA deep learning最新情報in沖縄

結果

WAS: Watch, Attend&SpellLAS: Listen, Attend & SpellWLAS: Watch, Listen, Attend & SpellCL: Curriculum LearningSS: Scheduled SamplingBS: Beam Search

Page 60: NVIDIA deep learning最新情報in沖縄

Olexandr Isayev Research Assistant Professor, University of North Carolina at Chapel Hill

ACCURATE PREDICTION OF PROTEIN KINASE INHIBITORS WITH DEEP

CONVOLUTIONAL NEURAL NETWORKS

SESSION 3

Page 61: NVIDIA deep learning最新情報in沖縄
Page 62: NVIDIA deep learning最新情報in沖縄
Page 63: NVIDIA deep learning最新情報in沖縄
Page 64: NVIDIA deep learning最新情報in沖縄
Page 65: NVIDIA deep learning最新情報in沖縄
Page 66: NVIDIA deep learning最新情報in沖縄
Page 67: NVIDIA deep learning最新情報in沖縄
Page 68: NVIDIA deep learning最新情報in沖縄
Page 69: NVIDIA deep learning最新情報in沖縄
Page 70: NVIDIA deep learning最新情報in沖縄
Page 71: NVIDIA deep learning最新情報in沖縄

Han Zhang et al, Department of Computer Science, Rutgers University et al.

STACKGAN: TEXT TO PHOTO-REALISTIC IMAGE SYNTHESIS WITH STACKED

GENERATIVE ADVERSARIAL NETWORKS

SESSION 4

https://arxiv.org/pdf/1612.03242v1.pdf

Page 72: NVIDIA deep learning最新情報in沖縄

GAN おさらい

Page 73: NVIDIA deep learning最新情報in沖縄

GENERATIVE ADVERSARIAL TEXT TO IMAGE SYNTHESIS

文章から画像を生成するGAN

ψ:Text Encoder (今回128次元)

https://arxiv.org/pdf/1605.05396v2.pdf

Scott Reed et al, University of Michigan

https://arxiv.org/pdf/1605.05396.pdf

Page 74: NVIDIA deep learning最新情報in沖縄
Page 75: NVIDIA deep learning最新情報in沖縄

STACKGAN

Page 76: NVIDIA deep learning最新情報in沖縄
Page 77: NVIDIA deep learning最新情報in沖縄

Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, and Pieter AbbeelDept. of Electrical Engineering and Computer Sciences, UC Berkeley

VALUE ITERATION NETWORKS

SESSION 5

Page 78: NVIDIA deep learning最新情報in沖縄

アプリケーション例

Page 79: NVIDIA deep learning最新情報in沖縄

従来の強化学習の問題

モデルベースの強化学習の場合、見ているものをダイナミックモデルにマップするシステム特定が必要となるが、実際のアプリケーションでは正確な特定は困難。

DQNの場合、試行錯誤で良かった行動を記憶していくが、環境が変わるとモデルの転用は出来ない

Imitation Learningなども同様である

モデルに依存せず計画を学習ベースで決定できる手法が必要

Page 80: NVIDIA deep learning最新情報in沖縄

ネットワークモデル(VIN)

Page 81: NVIDIA deep learning最新情報in沖縄

結果

Page 82: NVIDIA deep learning最新情報in沖縄