NVIDIA deep learning最新情報in沖縄

エヌビディア合同会社ディープラーニング部部長井﨑武士

NVIDIA GPU ディープラーニング最新情報 IN 沖縄

2017年2月04日

創業1993年

共同創立者兼CEO ジェンスン・フアン（Jen-Hsun Huang）

1999年 NASDAQに上場（NVDA）

1999年にGPUを発明その後の累計出荷台数は10億個以上

2015年度の売上高は46億8,000万ドル

社員は世界全体で9,100人

約7,300件の特許を保有

本社は米国カリフォルニア州サンタクララ

HPC&Cloudエンタープライズグラフィックスゲーミング

GEFORCE

SHIELDQUADRO

QUADRO VCA

Tesla JETSON

DRIVEDGX-1

インテリジェントマシン

AGENDA

Deep Learning とは？

なぜGPUがDeep Learningに向いているのか

NVIDIA Deep Learningプラットフォーム

最新研究事例(Deep Learning Institute 2016より)

2009 2010 2011 2012 2013 2014 2015 2016

ディープラーニングの目覚しい進化IMAGENET正答率

従来 CV 手法ディープラーニング

DeepMindのAlphaGoが囲碁で世界チャンピオンを越える

Atomwiseがエボラウィルスの感染力を低減する可能性のある2つの新薬を開発

FANUCがピッキングロボットで8時間の学習で90%の取得率を達成

X線画像読影診断で肺がんの検出率が読影診断医の1.5倍

みずほ証券が株価のトレードにDeep Learningを導入

1秒間に600万人の顔認識を行える

Deep Face

人工ニューロン神経回路網をモデル化

スタンフォード大学cs231講義ノートより

神経回路網

w1 w2 w3

x1 x2 x3

y=F(w1x1+w2x2+w3x3)

F(x)=max(0,x)

人工ニューロン

人工ニューラルネットワーク単純で訓練可能な数学ユニットの集合体

ニューラルネットワーク全体で複雑な機能を学習

入力層出力層

隠れ層

十分なトレーニングデータを与えられた人工ニューラルネットワークは、入力データから判断を行う複雑な近似を行う事が出来る。

従来の手法画像認識（例）

入力画像特徴抽出（SIFT、HOGなど）

ベクトル表現（BoK、FVなど）

識別器（SVMなど）

教師データ/認識

“猫”

人間の手が介在

ディープラーニング画像認識（例）

入力画像

教師データ/認識

“猫”

ディープニューラルネットワーク (DNN)

特徴の抽出、識別をDNNが自動で行う

ディープラーニングのアプローチ

推論:

蜜穴熊

エラー

犬猫

アライグマ

学習:

モデル

訓練データによる重みの更新

訓練データ

訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す

正解は犬

訓練データによる重みの更新

訓練データ

訓練データをニューラルネットワークに与え、正解ラベルと出力結果の誤差が無くなるように重みWの更新を繰り返す

正解に近づくように、各層の重みを更新する

生産性の向上 – 活用事例

Google: AIによりデータセンターの消費電力を数100億円規模で

低減

FANUC:40日前にロボットの故障を予測

選択的な給水や除草により化学薬品の使用を９０％

低減

便利な生活 – 活用事例

Alibaba: スマートフォンで撮った写真から同一商品、類似商品を

検索

WEpod:大学と近隣の駅間を連絡する自動運転電気自動車が

登場

Sharp: お掃除ロボットに音声認識を搭載。ハンズフリーで

掃除を開始

AI CO-PILOT (1)

Face Recognition Head Tracking

AI CO-PILOT (2)

Lip ReadingGaze Tracking

安心・安全な生活 – 活用事例

Paypal:不正決済の検出の誤報率が50%低減

herta Security:スマート監視カメラにより空港やショッピングモールの公共安全を向上

vRad:CTスキャン画像により、潜在的に頭蓋内の出血の可能性が高い箇所を特定し、予防

DEEP LEARNING INSIGHT従来のアルゴリズムディープラーニング

0%20%40%60%80%

overall passengerchannel

indoor public area sunny day rainny day winter summer

Pedestrian detection Recall rate

Traditional Deep learning

vehicle color brand model sun blade safe belt phone calling

Vehicle feature accuracy increased by Deep Learning

traditional algorithm deep learning

監視カメラ

なぜGPUがディープラーニングに向いているか

ディープラーニングを加速する3要因

DNN GPUビッグデータ

1分間に100 時間のビデオがアップロード

日々3.5億イメージがアップロード

1時間に2.5兆件の顧客データが発生

2008 2009 2010 2011 2012 2013 2014

NVIDIA GPU x86 CPU

THEANO

MATCONVNET

PURINEMOCHA.JL

MINERVA MXNET*

典型的なネットワーク例多量なトレーニングデータと多数の行列演算

目的顔認識

トレーニングデータ1,000万～1億イメージ

ネットワークアーキテクチャ10 層10 億パラメータ

ラーニングアルゴリズム30 エクサフロップスの計算量GPU を利用して30日

NVIDIA Deep Learning プラットフォーム

学習と推論プラットフォームワークステーションサーバー

NVIDIA Tesla NVIDIA TEGRA/JETSON TX1

学習

推論

NVIDIA Tesla/DGX-1

オンラインオフライン

GPUロードマップSG

2012 20142008 2010 2016

Tesla FermiKepler

Maxwell

Pascal

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF

TESLA P100ハイパースケールデータセンターのための世界で最も先進的な GPU

P100の技術革新

16nm FinFETPascal アーキテクチャ CoWoS /HBM2 NVLink

リニアなスケーリングを実現するNVLINK

1GPU 2GPU 4GPU 8GPU

AlexnetOWT

P100 NVLINK

P100 PCIE

Deepmark test with NVCaffe. AlexnetOWT use batch 128, Incep-v3/ResNet-50 use batch 32, weak scaling, P100 and DGX-1 are measured, FP32 training, software optimization in progress, CUDA8/cuDNN5.1, Ubuntu 14.04

1GPU 2GPU 4GPU 8GPU

Incep-v3

P100 NVLINK

P100 PCIE

1GPU 2GPU 4GPU 8GPU

ResNet-50

P100 NVLINK

P100 PCIE

Speedup

30NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE.

NVIDIA DGX-1世界初ディープラーニングスーパーコンピューター

ディープラーニング向けに設計170 TF FP16

8個 Tesla P100 ハイブリッド・キューブメッシュ主要なAIフレームワークを加速

0 16 32 48 64

ストロングスケール1つのストロングノードは多くのウィークノードよりも高速

VASP 性能

2x P100

CPU: Dual Socket Intel E5-2680v3 12 cores, 128 GB DDR4 per node, FDR IBVASP 5.4.1_05Feb16, Si-Huge Dataset. 16, 32 Nodes are estimated based on same scaling from 4 to 8 nodesCaffe AlexNet scaling data: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5

CAFFE ALEXNET 性能

4x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server Nodes

0 4 8 12 16 20 24 28 32

2x P100

8x P100

Single P100 PCIe Node vs Lots of Weak Nodes

# of CPU Server NodesSp

4x P100

64 CPU Nodes

32 CPU Nodes

Fastest AI Supercomputer in TOP5004.9 Petaflops Peak FP64 Performance19.6 Petaflops DL FP16 Performance124 NVIDIA DGX-1 Server Nodes

Most Energy Efficient Supercomputer#1 on Green500 List9.5 GFLOPS per Watt2x More Efficient than Xeon Phi System

Rocket for Cancer MoonshotCANDLE Development Platform Optimized FrameworksDGX-1 as Single Common Platform

INTRODUCING DGX SATURNVWorld’s Most Efficient AI Supercomputer

K80 M40 M4 P100(SXM2)

P100(PCIE) P40 P4

GPU 2x GK210 GM200 GM206 GP100 GP100 GP102 GP104

PEAK FP64 (TFLOPs) 2.9 NA NA 5.3 4.7 NA NA

PEAK FP32 (TFLOPs) 8.7 7 2.2 10.6 9.3 12 5.5

PEAK FP16 (TFLOPs) NA NA NA 21.2 18.7 NA NA

PEAK TIOPs NA NA NA NA NA 47 22

Memory Size 2x 12GB GDDR5 24 GB GDDR5 4 GB GDDR5 16 GB HBM2 16/12 GB HBM2 24 GB GDDR5 8 GB GDDR5

Memory BW 480 GB/s 288 GB/s 80 GB/s 732 GB/s 732/549 GB/s 346 GB/s 192 GB/s

Interconnect PCIe Gen3 PCIe Gen3 PCIe Gen3 NVLINK + PCIe Gen3 PCIe Gen3 PCIe Gen3 PCIe Gen3

ECC Internal + GDDR5 GDDR5 GDDR5 Internal + HBM2 Internal + HBM2 GDDR5 GDDR5

Form Factor PCIE Dual Slot PCIE Dual Slot PCIE LP SXM2 PCIE Dual Slot PCIE Dual Slot PCIE LP

Power 300 W 250 W 50-75 W 300 W 250 W 250 W 50-75 W

TESLA 製品一覧

TEGRA JETSON TX1モジュール型スーパーコンピュー

ター

主なスペック

GPU 1 TFLOP/s 256コア Maxwell

CPU 64ビット ARM A57 CPU

メモリ 4 GB LPDDR4 | 25.6 GB/s

ストレージ 16 GB eMMC

Wifi/BT 802.11 2x2 ac / BT Ready

ネットワーク 1 Gigabit Ethernet

サイズ 50mm x 87mm

インターフェース 400ピンボード間接続コネクタ

消費電力最大10W

Under 10 W for typical use cases

世界初自動運転向けAIスーパーコンピュータ

NVIDIA GPU スケーラブルアーキテクチャモバイルからスーパーコンピュータまで

TeslaIn Super Computers

QuadroIn Work Stations

GeForceIn PCs

Mobile GPU

In Tegra

エヌビディアディープラーニングプラットフォーム

COMPUTER VISION SPEECH AND AUDIO BEHAVIORObject Detection Voice Recognition Translation

Recommendation Engines Sentiment Analysis

DEEP LEARNING MATH LIBRARIES

cuBLAS cuSPARSE

GPU-INTERCONNECT

NCCLcuFFT

Mocha.jl

Image Classification

DEEP LEARNING SDK

FRAMEWORKS

APPLICATIONS

GPU PLATFORM

CLOUD GPU

Tesla P100

TeslaK80/M40/M4P100/P40/P4

Jetson TX1

SERVER

TensorRT

DRIVEPX2

エヌビディア DIGITS

DETECTION SEGMENTATION CLASSIFICATION

エヌビディアDIGITSGPUで高速化されたディープラーニングトレーニング・システム

Test Image

学習過程の可視化モデルの作成学習データの作成モデルのテスト

http://developer.nvidia.com/digits

NVIDIA deep learning最新情報in沖縄

Science

沖縄の米軍基地の現状（新2）...沖縄の米軍基地の現状（新2） ...

沖縄次世代都市交通システム - cao.go.jp...沖縄総合事務局内閣府沖縄次世代都市交通システム（Okinawa-ART）沖縄総合事務局 1沖縄総合事務局

AWS Lambda のご紹介　2015 JAWS沖縄

Title 2015年発行沖縄関係文献沖縄史料編集紀要 ...okinawa-repo.lib.u-ryukyu.ac.jp/bitstream/20.500.12001/...- 195 - 沖縄史料編集紀要第40号（2017） 2015年発行沖縄関係文献

1．沖縄の山・川・海をとりまく特性5 1．沖縄の山・川・海をとりまく特性（1）地理的特性 1）沖縄の位置特性・沖縄県は、日本の南西端に位

沖縄県バイオマス総合利活用マスタープラン1 沖縄県バイオマス総合利活用マスタープラン都道府県名沖縄県第1 マスタープラン策定の目的

20141017 jawsug沖縄へようこそ

【公式】シェラトン沖縄サンマリーナリゾート | 沖縄リゾー …Created Date 20201102111838Z

Facebook基本操作編20110329 itc沖縄

“ゼロ”からの出発〜戦後沖縄放送史を生きる〜 - NHK2018/12/01 · ・沖縄テレビ・琉球放送がテレビ放送を開始，ラジオ沖縄開局

171026 MICE Q&A(最終2) - town.yonabaru.okinawa.jp · 1 MICEとは 4 沖縄県内では、沖縄コンベンションセンター（宜野湾市）や、九州・沖縄サミットでメイン会場となった

CoderDojo の始め方 ~沖縄編~

沖縄県告示第560号...沖縄県告示第560号平成26年10月31日

CODE FESTIVAL 2015 沖縄ツアー　解説

地学オリンピック - 沖縄県立球陽高等学校¼ˆ 2015年9月30日）沖縄県立球陽高等学校ホームページアドレス：発行：沖縄県立球陽高等

IoTデザインパターン 2015 JAWS沖縄

マッシュアップ沖縄版おまけ:OpenSocail

ちゅらマナープロジェクトハンドブック薬物中毒沖縄県沖縄県教育委員会・沖縄県警察ちゅらマナープロジェクトハンドブック

クラブメッド沖縄石垣島 - JCBトラベル...Title クラブメッド沖縄石垣島 Created Date 8/28/2019 10:25:07 AM

Vol.54 No.5 2018 沖縄県ドクターバンクからのお知らせ - Med沖縄医報 Vol.54 No.5 2018 沖縄県ドクタ沖縄県ドクターバンクからのお知らせーバンクからのお知らせ