NVIDIA Deep Learning SDK を利用した画像認識

森野慎也, シニア CUDA エンジニア,プラットフォームビジネス本部, エヌビディア合同会社

「NVIDIA Deep Learning SDK を利用した画像認識」

GPU INFERENCE ENGINE

高性能なフレームワークで、GPU上の推論エンジンを、容易に開発する。

ディープラーニングによる推論を用いた、製品展開のためのソリューション

トレーニング済みネットワーク、ターゲットGPUに対して、推論エンジンの性能を最適化

32-bit、16-bit 演算を用いた推論エンジン

Hyperscale, ADAS, Embedded 向け

HTTP (~10ms)

developer.nvidia.com/gpu-inference-engine

データセンターにおける GPU Inference Engine

画像分類オブジェクト検知

音声認識 ---

ディープラーニングにおける最高の推論パフォーマンス

GPU INFERENCE ENGINEディープラーニングにおける最高の推論パフォーマンス

自動運転におけるGPU Inference Engine

歩行者検知レーントラッキング

交通標識の認識

NVIDIA DRIVE PX 2

高性能なフレームワークで、GPU上の推論エンジンを、容易に開発する。

ディープラーニングによる推論を用いた、製品展開のためのソリューション

トレーニング済みネットワーク、ターゲットGPUに対して、推論エンジンの性能を最適化

32-bit、16-bit 演算を用いた推論エンジン

Hyperscale, ADAS, Embedded 向け

トレーニングと推論(inference)

トレーニング推論

モデル種々のモデルを試す必要がある

モデルは決定済み

演算処理Back propagationによる

係数の最適化演算はForwardのみ係数も決定済み

バッチサイズ学習データが大量であり、バッチサイズは大きい

バッチサイズは、認識対象数。一般にトレーニングより小さい

プラットフォームマルチGPU、マルチノードを活用。

ストロングスケーリング

単一の端末で実行。メモリバンド幅の制約が強い混合精度演算が有効

要件の比較

ニューラルネットワーク演算の高性能化～GIEの背景にある技法～

参考:

S6136 - NVIDIA™ GIE: High-Performance GPU Inference EngineMichael Andersch GPU Architect, NVIDIA

ニューラルネットワーク演算の高性能化

- コンボリューションアルゴリズムの選択

- グラフ最適化

- メタパラメータ

- テンソルレイアウト

- BLASのより有効な活用

アプローチ

最適なコンボリューションアルゴリズムは、コンボリューションレイヤの次元に依存する。

1.84 1.832.03 2.07

1.92 1.98

conv 1.1 conv 1.2 conv 2.1 conv 2.2 conv 3.1 conv 3.2 conv 4.1 conv 4.2 conv 5.0

Winogradによる実行性能向上 (GEMMを用いたコンボリューションと比較 VGG-E layers, N=1)

推論ソフトウエアの最適化課題 : 小さいバッチで、コンボリューションを高効率で演算する

Winogradに関する参考文献 : Andrew Lavin, Scott Gray, http://arxiv.org/abs/1509.09308

- 19 weight layers

- コンボリューションのサイズは、3x3。

- チャンネル数が変わる。

- 64 → 128 → 256 → 512

Karen Simonyan & Andrew Zisserman,

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE

RECOGNITION

http://arxiv.org/abs/1409.1556

最適なコンボリューションアルゴリズムは、コンボリューションレイヤの次元に依存する。

1.84 1.832.03 2.07

1.92 1.98

conv 1.1 conv 1.2 conv 2.1 conv 2.2 conv 3.1 conv 3.2 conv 4.1 conv 4.2 conv 5.0

Winogradによる実行性能向上 (GEMMを用いたコンボリューションと比較 VGG-E layers, N=1)

推論ソフトウエアの最適化課題 : 小さいバッチで、コンボリューションを高効率で演算する

Winogradに関する参考文献 : Andrew Lavin, Scott Gray, http://arxiv.org/abs/1509.09308

推論ソフトウエアの最適化課題 : グラフ最適化

tensor

concat

1x1 conv.3x3 conv. 5x5 conv. 1x1 conv.

1x1 conv. 1x1 conv. max pool

推論ソフトウエアの最適化課題 : グラフ最適化

concat

max pool

next input

3x3 conv.

1x1 conv.

3x3 conv.

concat

1x1 conv.

bias3x3 conv.

カーネル融合メモリアクセスを減らす

3x3 conv. relubiasGPU Kernel

GPU DRAMREAD WRITE READ WRITE READ WRITE

3x3 conv. + bias + reluGPU Kernel

GPU DRAMREAD WRITE

カーネル融合

(a) カーネル融合前

(b) カーネル融合後

推論ソフトウエアの最適化グラフ最適化 : 縦方向に処理を融合

concat

max pool

next input

concat

1x1 CBR 3x3 CBR 5x5 CBR 1x1 CBR

1x1 CBR 1x1 CBR

推論ソフトウエアの最適化グラフ最適化: 横方向に処理を融合

concat

max pool

next input

concat

3x3 CBR 5x5 CBR 1x1 CBR

1x1 CBR

推論ソフトウエアの最適化グラフ最適化: Concatenationを除去

max pool

next input

1x1 CBR

推論ソフトウエアの最適化グラフ最適化: 並行実行(コンカレンシ)

max pool

next input

1x1 CBR

推論ソフトウエアの最適化課題: cuBLAS関数をより効率的に活用

「GEMM」の代わりに「GEMV」を使う

バッチサイズが小さいと、B行列が狭くなる

GEMVのバッチ実行により性能向上

GEMM(行列積) : α*op(A) *op(B) + β*C

GEMV (行列・ベクタ積) : α*op(A)*x + β*y

op: 行列転置に関するオペレータ

データレイアウト・テクスチャ

- テンソルレイアウト

- 例) NHalf2

- GEMMによる行列演算で、事前に係数行列を転置

- NN/NT GEMMの利用( NT > NN > TN )

- テクスチャメモリをコンボリューションに使用

- 13% 推論性能向上 (GoogLeNet, バッチサイズ 1)

メタパラメータ

5/2/20

テンソルフォーマット

• テンソルの内部表現では、隣り合ったイメージの値を交互に配置するレイアウトを用いる。

• 推論を16 bit演算で行った場合、NCHW レイアウトより、非常に高速。

NHalf2

PASCAL世代での推論の高速化高速な混合精度演算のサポート

推論向けのGPU製品では、新しいベクタ演算命令をサポートしていく。

複数要素の内積演算 : 8-bit 整数入力、32-bit 加算

等価なFP32演算と比べ、4倍のスループット

高い精度が必要なレイヤでは、フルスピードのFP32演算処理を利用

だけど、誰が実装してくれるの？

5/2/2016

GPU INFERENCE ENGINEニューラルネットワークの最適化

• ネットワークレイヤの融合

• Concatenationレイヤの除去

• カーネル特殊化

• ターゲットプラットフォームに対する

オートチューニング

• 最適なテンソルレイアウトの選択

• バッチサイズのチューニング

トレーニング済みのニューラルネットワーク

最適化された推論エンジン

GPU Inference Engine ワークフロー

DIGITS TRAINING TOOLS

OPTIMIZATION ENGINE

EXECUTION ENGINE

STRATEGY

GPU INFERENCE ENGINEパフォーマンス

バッチサイズパフォーマンス電力効率

Tesla M4 128 1153 images/s 20 images/s/W

Jetson TX1 2 133 images/s 24 images/s/W

NVIDIA Deep Learning SDK を利用した画像認識

Technology

Development of a Deep Learning-Based Algorithm to Detect ......MATLAB software; we used a deep learning-optimized machine with an Nvidia Quadro P5000 graphics card (Nvidia Corporation,

NVIDIA GPU ディープラーニング最新情報images.nvidia.com/content/APAC/events/deep-learning...Edward Raff Lead Scientist, Booz Allen Hamilton Jared Sylvester Senior Consultant

3D VISION - Nvidia - Artificial Intelligence Computing … · 2011-05-053D VISION - Nvidia - Artificial Intelligence Computing Leadership from NVIDIA

NVIDIA Profiles

NVIDIA TESLA V100 GPU アクセラレーターimages.nvidia.com/content/technologies/deep-learning/pdf/NVIDIA-Tesla-V100-JPN.pdf · 最先端のデータセンター向けgpu nvidia

Nvidia analizi

NVIDIA SDK 在高教中的应用 · 6.1 - Recurrent Neural Network Basics 6.2 - Advanced Recurrent Neural Networks 6.3 - Sequences Modeling with Deep Learning 6.4 - Embedding Methods

Профессиональные видеокарты NVIDIA Quadro P4000 и P2000 ... · • NVIDIA Quadro M5000; • NVIDIA Quadro M4000; • NVIDIA Quadro M2000. Тестирование

NVIDIA Deep Learning Institute 2017 基調講演

SEOUL | Oct.7, 2016 IMPLEMENTATION OF DEEP LEARNING … · 2016-10-17 · NVIDIA CONFIDENTIAL. DO NOT DISTRIBUTE. 12 5. DEEP LEARNING FOR ALPR (2) C++ based library: good for integrating

NVIDIA GeForce Experienceinternational.download.nvidia.com/GFE/User-Guides/GeForce... · NVIDIA GeForce Experience DU-05620-001_v02 | 2 Bölüm 01 : NVIDIA GeForce Experience Kullanıcı

© NVIDIA Confidential – Não distribuir 1 NVIDIA GEFORCE GTX 560

NVIDIA NFORCE: CARACTERÍSTICAS Y VENTAJAS* para INTEL€¦ · NVIDIA, el logotipo de NVIDIA, NVIDIA nForce, GeForce, NVIDIA SLI, MediaShield, nTune, Forcewa re, FirstPacket y DualNet

ハンズオンラボ2 DIGITS による物体検出入門images.nvidia.com/content/APAC/events/deep-learning-institute-jp/2017/... · NVIDIA CUDA & Deep Learning Solution Architect

Nvidia Tegra

NVIDIA TESLA V100 GPU アクセラレーター - …dl.it-sol.jpn.panasonic.com/data/its/nvidia/tesla_v100.pdfTitle NVIDIA TESLA V100 GPU アクセラレーター Author パナソニック

Nike & Nvidia

Nvidia msi

NVIDIA RAID-Installationsanleitungasrock.pc.cdn.bitgravity.com/Manual/RAID/K10N78FullHD-hSLI R3.0/German.pdf · 2 1. NVIDIA BIOS RAID-Installationsanleitung Die NVIDIA BIOS RAID-Installationsanleitung

NVIDIA deep learning最新情報in沖縄