View
2.189
Download
0
Category
Preview:
Citation preview
顔、場所、物体認識
音声認識および翻訳
自然言語処理
ビデオ検索および分析
インデキシングおよび検索
レコメンデーション エンジン
コンピュータ ビジョン
自動運転
応用分野
幅広いディープラーニングの応用例
「検索の50%は音声か画像になるだろう」
Andrew Ng, Baidu
「ディープラーニングのおかげで、わずか一年で音声認識の誤認識率が23%から8%に下がりました。
自動写真整理 とインテリジェント写真検索 によって、まさに探していたイメージを見つけることができます。
文脈を理解し、自然言語処理、言語翻訳 によって、ユーザーに即座に返事ができるのです。」
スンダル・ピチャイグーグル上級副社長
Google now
Google I/O 2015 基調講演
パフォーマンスリーダー
0
500
1000
1500
2000
2500
3000
3500
2008 2009 2010 2011 2012 2013 2014
倍精度演算性能
NVIDIA GPU x86 CPU
M2090
M1060
K20
K80
WestmereSandy Bridge
Haswell
GFLOPS
0
100
200
300
400
500
600
2008 2009 2010 2011 2012 2013 2014
メモリバンド幅
NVIDIA GPU x86 CPU
GB/s
K20
K80
WestmereSandy Bridge
Haswell
Ivy Bridge
K40
Ivy Bridge
K40
M2090
M1060
TESLA K80ビッグデータ解析と科学技術計算のた
めの世界最速のアクセラレータ
Caffe Benchmark: AlexNet training throughput based on 20 iterations, CPU: E5-2697v2 @ 2.70GHz. 64GB System Memory, CentOS 6.2
最大性能アプリケーション毎に
ダイナミックに性能を最大化
メモリ倍増ビッグデータアプリに最適
24GB
オイル& ガス
ビッグデータ解析
HPC 可視化
K4012GB
2倍高速2.9 TF| 4,992 コア | 480 GB/s
0x
5x
10x
15x
20x
25x
1 2 3
ディープラーニング: Caffe
最高のスループットのためのデュアル
GPU アクセラレータ
GPU とソフトウェアの進化による性能向上
AlexNet [A. Krizhevsky et al.,2012]
2.5M
18M23M
43M
0
10
20
30
40
50
16 Core CPU GTX Titan Titan BlackcuDNN v1
Titan XcuDNN v2
Millions
of
Images
1日当りにトレーンングできる画像の数 (Caffe)
E5-2698 v3 @ 2.3GHz / 3.6GHz Turbo
GPU は CPU の17倍の性能
ディープラーニングの性能を倍増
DIGITS 2 cuDNN 3 CUDA 7.5
自動マルチ GPU スケーリングで2倍の学習スピードを実現
単一GPUで2倍の学習スピードを実現より大きなモデルのサポート
2倍のデータセットインストラクションレベルの
プロファイリング
DIGITS
ディープラーニング GPU
トレーニングシステム
GPU様々な GPU ハードウェア
GPUクラウド
GPU クラスタ
マルチ GPU
ユーザインターフェース
レイヤー可視化
DNN の構成
データ処理 トレーニング進捗管理
TheanoTorch
CaffecuDNN, cuBLAS
CUDA
クラスター運用での最高性能
堅牢性、信頼性
データセンターのために設計Tier1 OEMシステム
ストレステスト
NVIDIA GPUDirect RDMA
メモリエラー保護
高速な演算
エンタープライズレベルサポート
GPU モニタリングと管理
3 年保証Gaming Drivers
ゲーム
GeForce Tesla
データセンターワークロード
なぜ運用には Tesla か?
判断基準 GeForce Tesla
実効演算性能動作クロックが動的に変化し、
演算性能は状況により変動一定のクロックで安定した性能
メモリーエラー保護 なし全てのメモリがECC保護
動的ページリタイアメント
クラスター運用を
サポートする機能なし
GPUDirect RDMA
Tesla Compute Cluster ドライバ
クラスターモニタリング
および管理なし
GPU モニタリング・管理用のNVML
NVSMI
サードパーティ管理ツール
なぜ運用には Tesla か?
Tesla は予測可能な性能と運用管理性を提供
SG
EM
M /
W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla Fermi
Kepler
Maxwell
Pascal16 ビット演算3D メモリNVLink
Volta
GPU ロードマップPascal アーキテクチャで1ワット当りのSGEMM性能を2倍に
Recommended