View
33
Download
4
Category
Preview:
Citation preview
エヌビディア合同会社 ディープラーニング部部長 井﨑 武士
NVIDIA GPU ディープラーニング最新情報 IN 沖縄
2017年2月04日
2
創業1993年
共同創立者兼CEO ジェンスン・フアン(Jen-Hsun Huang)
1999年 NASDAQに上場(NVDA)
1999年にGPUを発明その後の累計出荷台数は10億個以上
2015年度の売上高は46億8,000万ドル
社員は世界全体で9,100人
約7,300件の特許を保有
本社は米国カリフォルニア州サンタクララ
3
HPC&Cloudエンタープライズグラフィックスゲーミング
GEFORCE
SHIELDQUADRO
QUADRO VCA
Tesla JETSON
DRIVEDGX-1
インテリジェントマシン
4
AGENDA
Deep Learning とは?
なぜGPUがDeep Learningに向いているのか
NVIDIA Deep Learningプラットフォーム
最新研究事例(Deep Learning Institute 2016より)
5
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
ディープラーニングの目覚しい進化IMAGENET正答率
従来 CV 手法 ディープラーニング
DeepMindのAlphaGoが囲碁で世界チャンピオンを越える
Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発
FANUCがピッキングロボットで8時間の学習で90%の取得率を達成
X線画像読影診断で肺がんの検出率が読影診断医の1.5倍
みずほ証券が株価のトレードにDeep Learningを導入
1秒間に600万人の顔認識を行える
Deep Face
6
人工ニューロン神経回路網をモデル化
スタンフォード大学cs231講義ノートより
神経回路網
w1 w2 w3
x1 x2 x3
y
y=F(w1x1+w2x2+w3x3)
F(x)=max(0,x)
人工ニューロン
7
人工ニューラルネットワーク単純で訓練可能な数学ユニットの集合体
ニューラルネットワーク全体で複雑な機能を学習
入力層 出力層
隠れ層
十分なトレーニングデータを与えられた人工ニューラルネットワークは、入力データから判断を行う複雑な近似を行う事が出来る。
8
従来の手法画像認識(例)
入力画像 特徴抽出(SIFT、HOGなど)
ベクトル表現(BoK、FVなど)
識別器(SVMなど)
教師データ/認識
“猫”
人間の手が介在
9
ディープラーニング画像認識(例)
入力画像
教師データ/認識
“猫”
ディープ ニューラル ネットワーク (DNN)
特徴の抽出、識別をDNNが自動で行う
10
ディープラーニングのアプローチ
推論:
犬
猫
蜜穴熊
エラー
犬猫
アライグマ
犬
学習:
モデル
モデル
11
訓練データによる重みの更新
訓練データ
猫
犬
熊
訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す
猫
犬
狸
正解は犬
12
訓練データによる重みの更新
訓練データ
猫
犬
熊
訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す
猫
犬
狸
正解に近づくように、各層の重みを更新する
生産性の向上 – 活用事例
Google: AIによりデータセンターの消費電力を数100億円規模で
低減
FANUC:40日前にロボットの故障を予測
選択的な給水や除草により化学薬品の使用を90%
低減
便利な生活 – 活用事例
Alibaba: スマートフォンで撮った写真から同一商品、類似商品を
検索
WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が
登場
Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで
掃除を開始
AI CO-PILOT (1)
Face Recognition Head Tracking
AI CO-PILOT (2)
Lip ReadingGaze Tracking
安心・安全な生活 – 活用事例
Paypal:不正決済の検出の誤報率が50%低減
herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上
vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防
20
DEEP LEARNING INSIGHT従来のアルゴリズム ディープラーニング
0%20%40%60%80%
100%
overall passengerchannel
indoor public area sunny day rainny day winter summer
Pedestrian detection Recall rate
Traditional Deep learning
70
75
80
85
90
95
100
vehicle color brand model sun blade safe belt phone calling
Vehicle feature accuracy increased by Deep Learning
traditional algorithm deep learning
監視カメラ
21
なぜGPUがディープラーニングに向いているか
22
ディープラーニングを加速する3要因
DNN GPUビッグデータ
1分間に100 時間のビデオがアップロード
日々3.5億イメージがアップロード
1時間に2.5兆件の顧客データが発生
0.0
0.5
1.0
1.5
2.0
2.5
3.0
2008 2009 2010 2011 2012 2013 2014
NVIDIA GPU x86 CPU
TFLO
PS
TORCH
THEANO
CAFFE
MATCONVNET
PURINEMOCHA.JL
MINERVA MXNET*
23
典型的なネットワーク例多量なトレーニングデータと多数の行列演算
目的顔認識
トレーニングデータ1,000万~1億イメージ
ネットワークアーキテクチャ10 層10 億パラメータ
ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日
24
NVIDIA Deep Learning プラットフォーム
25
学習と推論プラットフォームワークステーション サーバー
NVIDIA Tesla NVIDIA TEGRA/JETSON TX1
学習
推論
NVIDIA Tesla/DGX-1
オンライン オフライン
X
26
GPUロードマップSG
EMM
/ W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla FermiKepler
Maxwell
Pascal
Volta
27
倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU
28
P100の技術革新
16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink
29
リニアなスケーリングを実現するNVLINK
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
AlexnetOWT
P100 NVLINK
P100 PCIE
Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
Incep-v3
P100 NVLINK
P100 PCIE
1.0x
2.0x
3.0x
4.0x
5.0x
6.0x
7.0x
8.0x
1GPU 2GPU 4GPU 8GPU
ResNet-50
P100 NVLINK
P100 PCIE
Speedup
2.3x
1.3x
1.5x
30NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.
NVIDIA DGX-1世界初ディープラーニング スーパーコンピューター
ディープラーニング向けに設計170 TF FP16
8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速
31
0x
16x
32x
48x
64x
0 16 32 48 64
ストロングスケール1つのストロングノードは多くのウィークノードよりも高速
VASP 性能
2x P100
CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5
CAFFE ALEXNET 性能
4x P100
8x P100
Single P100 PCIe Node vs Lots of Weak Nodes
# of CPU Server Nodes
Spee
d-up
vs
1 CP
U S
erve
r N
ode
0x
2x
4x
6x
8x
10x
12x
0 4 8 12 16 20 24 28 32
2x P100
8x P100
Single P100 PCIe Node vs Lots of Weak Nodes
# of CPU Server NodesSp
eed-
up v
s 1
CPU
Ser
ver
Nod
e
4x P100
64 CPU Nodes
32 CPU Nodes
32
Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes
Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System
Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform
INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer
33
K80 M40 M4 P100(SXM2)
P100(PCIE) P40 P4
GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104
PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NA
PEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5
PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NA
PEAK TIOPs NA NA NA NA NA 47 22
Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5
Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/s
Interconnect PCIe Gen3 PCIe Gen3 PCIe Gen3 NVLINK + PCIe Gen3 PCIe Gen3 PCIe Gen3 PCIe Gen3
ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5
Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LP
Power 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 W
TESLA 製品一覧
34
TEGRA JETSON TX1モジュール型スーパーコンピュー
ター
主なスペック
GPU 1 TFLOP/s 256コア Maxwell
CPU 64ビット ARM A57 CPU
メモリ 4 GB LPDDR4 | 25.6 GB/s
ストレージ 16 GB eMMC
Wifi/BT 802.11 2x2 ac / BT Ready
ネットワーク 1 Gigabit Ethernet
サイズ 50mm x 87mm
インターフェース 400ピン ボード間接続コネクタ
消費電力 最大10W
Under 10 W for typical use cases
35
NVIDIA DRIVE PX 212 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式
世界初自動運転向けAIスーパーコンピュータ
36
NVIDIA GPU スケーラブル アーキテクチャモバイルからスーパーコンピュータまで
TeslaIn Super Computers
QuadroIn Work Stations
GeForceIn PCs
Mobile GPU
In Tegra
Tegra
37
エヌビディア ディープラーニング プラットフォーム
COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation
Recommendation Engines Sentiment Analysis
DEEP LEARNING MATH LIBRARIES
cuBLAS cuSPARSE
GPU-INTERCONNECT
NCCLcuFFT
Mocha.jl
Image Classification
DEEP LEARNING SDK
FRAMEWORKS
APPLICATIONS
GPU PLATFORM
CLOUD GPU
Tesla P100
TeslaK80/M40/M4P100/P40/P4
Jetson TX1
SERVER
DGX-1
TensorRT
DRIVEPX2
38
エヌビディア DIGITS
DETECTION SEGMENTATION CLASSIFICATION
39
エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム
Test Image
学習過程の可視化モデルの作成学習データの作成 モデルのテスト
http://developer.nvidia.com/digits
最新の研究事例
Quanzheng Li Associate Professor, Massachusetts General Hospital
DEEP LEARNING ON METASTASIS DETECTION OF BREAST CANCER USING
DGX-1
SESSION 1
デジタルパソロジー
デジタルパソロジーはコンピュータテクノロジーにより可能となった画像を基にした情報環境で、デジタル標本から得られる情報の管理を可能とする
より良く、早く、より安価に癌やその他の病気の診断や予測を可能にする診療医学のもっとも有望な手段の一つ
研究の動機• リンパ節転移はほとんどの癌のタイプで発生する
(e.g. 胸部、前立腺、結腸)
• リンパ節は小さな免疫細胞の塊でリンパ系のフィルターとして動作する
• 脇の下のリンパ節(腋下リンパ節)は乳がんが広がりやすい最初の箇所である
• リンパ節の状態は予後に大きく関連する、癌がリンパ節に広がっていると予後が悪くなる
• 病理検査医の診断の手順は単調で時間がかかる作業で、誤った解釈を引き起こす場合がある
• データセットはCamelyon16 Challengeのものを利用https://camelyon16.grand-challenge.org/
• データには2つの独立したデータセットから合計400の歩哨リンパ節のWSI(Whole-slide-image)が含まれている
• トレーニングデータ
• テストデータオランダのラドバウド大学メディカルセンター/ユトレヒト大学メディカルセンターから集めた130のWSI
データセット
データセット
データセット
TASK
スライドベースの評価
• 転移を含むスライドと正常なスライドの区別
• スライドレベルでのROC分析
• アルゴリズムの比較はROC曲線下面積(AUC)を用いる
病変ベースの評価
• 信頼スコアを伴う腫瘍領域の検出
• FROC曲線を使用
• 最終スコアはあらかじめ決められたFalse-Positive率の感度として決められる1/4,1/2,1,2,4,8
FRAMEWORK
学習データ
Preprocessing
NNの詳細
ResNet101を用いて、Atrous畳み込み演算とAtrous Spatial pyramid pooling (ASPP)を使用
Atrous畳み込み演算とASPPは予測のための視野を拡大し、複数の倍率でオブジェクトとイメージコンテキストのキャプチャを可能とする
トレーニングはNVCAFFEを使用。パッチサイズは20xで512X512。ミニバッチサイズは10
ラーニングレートは2.5e-4から始め、0.9乗の多項式
重み減衰 0.0005 モーメンタム0.9
Tesla P100で40000イタレーション
約1日
分類タスク
Tumor Probability mapからもっとも大きな腫瘍を取り出すために高次の特徴を抽出(skimageの”regionprops”で異なる閾値を用いる)
分類にはランダムフォレストを使用
検出タスク
Tumor Probability mapにおいてヒートマップの領域を結合する(Connectivity=2、Threshold=0.95)
性能比較
推論性能
8*p100: DGX-1
計算性能
結果
Joon Son Chung et al, Department of Engineering Science, University of Oxford. Google DeepMind
LIP READING SENTENCES IN THE WILD
SESSION 2
https://arxiv.org/pdf/1611.05358v1.pdf
LIP READING
CONVNET
学習
結果
WAS: Watch, Attend&SpellLAS: Listen, Attend & SpellWLAS: Watch, Listen, Attend & SpellCL: Curriculum LearningSS: Scheduled SamplingBS: Beam Search
Olexandr Isayev Research Assistant Professor, University of North Carolina at Chapel Hill
ACCURATE PREDICTION OF PROTEIN KINASE INHIBITORS WITH DEEP
CONVOLUTIONAL NEURAL NETWORKS
SESSION 3
Han Zhang et al, Department of Computer Science, Rutgers University et al.
STACKGAN: TEXT TO PHOTO-REALISTIC IMAGE SYNTHESIS WITH STACKED
GENERATIVE ADVERSARIAL NETWORKS
SESSION 4
https://arxiv.org/pdf/1612.03242v1.pdf
GAN おさらい
GENERATIVE ADVERSARIAL TEXT TO IMAGE SYNTHESIS
文章から画像を生成するGAN
ψ:Text Encoder (今回128次元)
https://arxiv.org/pdf/1605.05396v2.pdf
Scott Reed et al, University of Michigan
https://arxiv.org/pdf/1605.05396.pdf
STACKGAN
Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, and Pieter AbbeelDept. of Electrical Engineering and Computer Sciences, UC Berkeley
VALUE ITERATION NETWORKS
SESSION 5
アプリケーション例
従来の強化学習の問題
モデルベースの強化学習の場合、見ているものをダイナミックモデルにマップするシステム特定が必要となるが、実際のアプリケーションでは正確な特定は困難。
DQNの場合、試行錯誤で良かった行動を記憶していくが、環境が変わるとモデルの転用は出来ない
Imitation Learningなども同様である
モデルに依存せず計画を学習ベースで決定できる手法が必要
ネットワークモデル(VIN)
結果
Recommended