GPU クラウドコンピューティング

エンタープライズマーケティング部佐々木邦暢 (@_ksasaki)

GPU クラウドコンピューティング

マネージド AI サービスと GPU IaaSクラウドで GPU が活きる二つの選択肢

Amazon AI

Google Cloud Vision API 等

IBM Watson

Microsoft Cognitive Services

Amazon EC2 – P2 インスタンス

Google Compute Engine

IBM Bluemix Infrastructure

Microsoft Azure – N シリーズ

IDCF - “GPU BOOST” タイプ

マネージド AI サービス GPU IaaS

Amazon AI開発者向け人工知能サービス (API 群)

Amazon PollyAmazon

RekognitionAmazon Lex

音声やテキストを使用した会話型インターフェイスを持つアプリケーションを構築

ディープラーニングを使用して文章をリアルな音声に変換

ディープラーニングに基づくイメージ認識サービス

P2 インスタンスTesla K80 を搭載する GPU インスタンス

インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数メモリ (GB)

p2.xlarge1

(K80 半分)12 2,496 4 61

p2.8xlarge8

(K80 4枚)96 19,968 32 488

p2.16xlarge16

(K80 8枚)192 39,936 64 732

GPU 対応の AMI 各種GPU ドライバや各種フレームワーク・アプリケーション導入済み

AWS 提供

NVIDIA提供

Deep Learning AMI

64-bit, Amazon Linux 2015.05.04

NVIDIA GPU ドライバMXNet, Caffe, TensorFlow, Theano, Torch

NVIDIA DIGITS 4 AMI

NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit)

NVIDIA CUDA Toolkit 7.5 AMI

CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit)

Windows AMI (NVIDIA GPU ドライバ付)

Windows Server 2012 R2

分散型ディープラーニングを簡単にCloudFormation で GPU クラスタを自動デプロイ

AWS は MXNet をデフォルトのディープラーニングフレームワークとして採用し、そのコードやドキュメンテーションに貢献しています。

その一環として、GPUクラスタを簡単に構築可能な、CloudFormation テンプレートが公開されています。

VPC の作成、セキュリティやオートスケーリングの設定から、GPU ドライバやフレームワークのインストールまで完全に自動化されます。

MXNet と CloudFormation

https://github.com/dmlc/mxnet/tree/master/tools/cfn

https://github.com/dmlc/mxnet/tree/master/tools/cfn

AWS パブリックデータセット無料でアクセス可能な大規模データ

データセット名内容

ランドサットランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション

SpaceNetコンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像とラベリングされたトレーニングデータを集めたデータベース

地勢タイル世界各地の地表の標高などの地勢を示すデータセット

NASA NEXNASA が保守管理する地球の科学的データセットのコレクション。気候変化予測や地表の衛星画像などが含まれる

TCGAがんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリプトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された研究者のみが利用可能

マルチメディアコモンズオーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション

Japan Census Data 日本の国勢調査、事業所･企業統計調査、経済センサス

※ 上記は一部の例。詳しくは: https://aws.amazon.com/jp/public-datasets

https://aws.amazon.com/jp/public-datasets

パブリックデータセットの利用例SpaceNet を NVIDIA DIGITS で解析

SpaceNet は NVIDIA もその立ち上げにかかわったオンライン衛星画像リポジトリです

ディープラーニングフレームワークの Web フロントエンドである NVIDIA DIGITS で DetectNet というオブジェクト検出ネットワークを使って、 SpaceNet の画像から建物を検出する方法を、 PARALLEL FORALL

ブログで解説しています

https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/

NVIDIA DIGITS による物体検出

“Exploring the SpaceNet Dataset Using DIGITS”

https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/

Microsoft Cognitive Servicesインテリジェンスアプリケーション

言語視覚

音声検索知識

Azure N シリーズ GPU インスタンス2 種類の NVIDIA GPUを搭載

名称コア数メモリ SSD RDMA GPU

NV6 6 56 GB 380 GB - M60 半分 (GPU 1基)

NV12 12 112 GB 680 GB - M60 1枚 (GPU 2基)

NV24 24 224 GB 1.5 TB - M60 2枚 (GPU 4基)

NC6 6 56 GB 380 GB - K80 半分 (GPU 1基)

NC12 12 112 GB 680 GB - K80 1枚 (GPU 2基)

NC24 24 224 GB 1.5 TB - K80 2枚 (GPU 4基)

NC24r 24 224 GB 1.5 TB InfiniBand K80 2枚 (GPU 4基)

Visualization の

NV 系

Tesla M60搭載

Compute の

NC 系

Tesla K80 搭載

NVIDIA と Microsoft の協業Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化

NVIDIA Tesla GPU

NVIDIA DGX-1 Azure Data Center

NVIDIA GPUDL Toolkit

Microsoft Cognitive Toolkit (旧称: CNTK)様々なマイクロソフト製品・サービスを支え AI を民主化

Cortanaパーソナルアシスタント

Skype多言語間翻訳

Bingサーチエンジン

HoloLens拡張現実

IBM Watson日本語に対応した様々な API

自然言語分類検索およびランク付け会話文書変換

性格分析画像認識音声認識音声合成

IBM Bluemix InfrastructureGPU 搭載のベアメタルサーバーを月単位 / 時間単位で

GPU 種別GPU メモリ

(GB)CUDA コア数 CPU

CPUコア数

メモリ(GB)

ディスク

Tesla K80 24 4,992

2 x E5-2620 v3 12

64 1TB SATA2 x E5-2650 v3 20

2 x E5-2690 v3 24

2 x E5-2620 v4 16 128 2x 800GB SSD

Tesla M60 16 4,096

2 x E5-2620 v3 12

64 1TB SATA2 x E5-2650 v3 20

2 x E5-2690 v3 24

Hourly

※ この他、 GRID K2 と Tesla K10 が選択可能

Google Cloud PlatformGoogle のコアとなるインフラストラクチャ、データ解析、機械学習を活用

Cloud Machine Learning Vision API

Speech API Natural Language API

Translation API

Jobs API

Google Compute EngineGoogle の IaaS に Tesla K80 と P100 がまもなく登場

Tesla K80 と Tesla P100 を利用可能

様々なインスタンスに GPU をアタッチ可能

分単位の課金で効率的に利用

近日登場予定！

GCE の GPU マシン

IDCF クラウドTesla M40 搭載 “GPU BOOST” 仮想マシン

インスタンス名 GPUGPU メモリ

(GB)CUDA コア数 vCPU 数メモリ (GB) SSD (GB)

gpu.7XLM40 1 x M40 24 3,072

56 256 2,100

gpu.7XLP100 1 x P100 16 3,584近日登場予定

第1回 AI チャレンジコンテスト人工知能技術戦略会議等主催

賞品は NVIDIA TITAN X画像データ提供: クックパッド株式会社

主催人工知能技術戦略会議、内閣府、文部科学省

応募受付期間平成29年1月10日（火）～平成29年3月9日（木）

参加費無料

テーマ料理画像を対象に、

(1) 「料理領域検出」、 (2) 「料理分類」の2 部門を実施

IDC フロンティア様からTesla M40 搭載

GPU サーバー提供（参加者間で共同利用）

Tesla in Datacenter

データセンターのために設計された Tesla

データセンター仕様24 時間 365 日の稼働時間

データセンターのスループットをブースト

スケーラブルパフォーマンス

信頼性の最大化システム運用管理を効率化

システム稼働時間のためのエンドツーエンド設計24時間365日の稼働時間


データセンター仕様

保証品質

システム出荷判定試験：熱、ストレス、空気流量、衝撃および振動

Tesla のみのシステム監視と管理

障害分析のための専任技術スタッフ

広範な出荷判定項目と試験

長時間の高温負荷テスト

1 件のエラーも許容しない厳格な基準

高信頼性のための技術を使用しても、 5% の GPU がスクリーニングアウト

信頼性を高めるための様々な技術

長期信頼性のための低動作電圧

品質を保証するため大きな設計マージンを確保

データ整合性を担保する ECC メモリ

稼働時間を最大化するダイナミックページリタイアメント24時間365日の稼働時間



GPU メモリ

訂正不可能なデータエラーがアプリケーションをクラッシュさせる

弱いメモリが使われなくなる

ダイナミックページリタイアメントのある Tesla

ダイナミックページリタイアメントのない GPU

弱いメモリが使われ続ける

1. ジョブがクラッシュすると生産性が低下します

2. IT 管理者は物理的にサーバーを開けて障害のあるGPU を取り外す必要があります

3. ダウンタイムの発生が顧客満足度を下げる危険があります

1. 不良メモリを GPU の再起動で取り除けます

2. IT 管理者のための物理的な作業は発生しません

3. リタイアするページの合計サイズは最大 256KB 程度性能へのインパクトは無視できる範囲です

サーバー OEM ベンダーによるデータセンター最適化24時間365日の稼働時間



Tesla GPU を搭載したサーバー

データセンタ用ではないGPU を搭載したサーバー

GPU 内エアフローを最大にする設計

前後双方向のエアフローをサポート

低い電力消費

LINPACK 実行時の GPU の温度: 54度

サーバーのエアフローに反した動作

大きな電力消費

低い信頼性

LINPACK 実行時の GPU の温度: 71度

エアフロー

温度: 54度

温度: 71度

データセンター GPU マネージメント

24時間365日の稼働時間


デバイスマネージメント

• デバイス認識

• ボードモニタリング

• クロックマネージメント

GPU 毎の構成及びモニタリング


データセンター運用のためのエンタープライズ向けマネージメントツール

アクティブヘルスモニタリング

診断及びシステム検証

ランタイムヘルスチェック

プロローグチェック

エピローグチェック

詳しいハードウェア診断

システム検証テスト

ポリシーとグループ構成管理

事前設定されたポリシー

ジョブ毎のモニタリング

ステートフル設定

電源及びクロック管理

ダイナミックパワーキャッピング

同期クロックブースト

データセンター GPU マネージャー (Tesla GPUのみ)

全てのエヌビディア GPU が対象

計画的な製品ライフサイクルとサポート24時間365日の稼働時間



www.nvidia.com/enterpriseservices

安定した製品供給

エンタープライズサービス

• 頻繁に EOL を迎えるコンシューマー用 GPU よりも、長い製品ライフサイクル

• サーバー利用では無保証のコンシューマー用 GPU と異なり、3 年間の保証

• 長期間サポート及びメンテナンス

• 技術専門家との直接のコミュニケーション

• 問題解決への迅速な対応

• 専任技術担当者、オンサイトコンサルテーション、トレーニング

GeForce で開発、Tesla で運用

GeForce開発者とゲーマーのために設計された GPU

どこでも入手可能

https://developer.nvidia.com/cuda-gpus

Teslaデータセンターのために設計された GPU

サーバー用に設計ダイナミックページリタイアメント

GPUDirect RDMA

NVLink

データセンター管理ツールエンタープライズサービス

GTC 2017 のご案内

GTC 2017 参加登録受付中2017/5/8 - 11 サンノゼで開催

http://www.gputechconf.com/

40 % のリピーター割引実施中 (1/18 まで)

#GTC17

基調講演テクニカルセッション

ポスター展示

ハンズオンラボ

専門家との交流スペシャルイベント

http://www.gputechconf.com/

Technology

GPU クラウド コンピューティング

GPU クラウドコンピューティング