インターコネクトでAIを加速 - PC Cluster · 2020. 12. 23. · Mellanox –The Artificial...

Mellanox – The Artificial Intelligence Interconnect Company

December 2017

インターコネクトでAIを加速

～最新インターコネクト製品技術のご紹介

2- Mellanox Confidential -2

• 広帯域、低レイテンシーインターコネクトのリーディングカンパニー

– EDR 100Gb/s InfiniBand、10/25/40/50/56/100ギガビットEthernet

– アプリケーションのデータ処理時間を大幅に削減

– データセンターサービス基盤のROIを劇的に向上

• 会社概要

– 本社：ヨークナム（イスラエル）、サニーベール（米国）

– 従業員数：全世界で2,900名（2017年1月末時点）

• 財務状況– 2013年度売上：$390.9M

– 2014年度売上：$463.6M

– 2015年度売上：$658.1M

– 2016年度売上：$857.5M

– 2016年度税前利益率：21.0%

– Cash + Investment ：$328.4M（2016年12月末時点）

Ticker: MLNX会社概要

StoreAnalyzeEnabling the Use of Data

ソフトウェアIC スイッチ/ゲートウェイアダプタカードケーブル/モジュール

InfiniBand、Ethernetエンドトゥエンドソリューションを実現する製品群

Metro / WANNPU、マルチコア

NPSTILE

超高速ネットワーク市場をリードするエンドトゥエンド製品群

AIとメラノックスの密接な関係

AIは幅広い分野での活用が期待されています

ヘルスケア, さまざまなビジネス上の経営判断知見の探求, セキュリティー, カスタマーサポートなどなど

AIは、自然科学やビジネス、そして社会においてより重要な判断をリアルタイムに行うために進化を続けています

より多くのデータより良いモデルより高速な通信

Storage

More Data → Faster Interconnect → Better Insight → Competitive Advantage

ただのビッグデータ? … それはとてもとてもビッグなデータ

▪ 自動運転自動車から発生するデータは、およそ8時間の運転で40TBにも達します。（フルサービスの自動運転自動車の場合）

▪ The Pratt & Whitney PC1000Gエンジンは、5000

ものセンサーが内蔵されており秒間およそ10GBものデータを発生させます。これは、12時間のフライトでおよそ844TBにもなります。

メラノックスは、このような大量のデータ通信を支えるインターコネクトを提供します

爆発的なデータの増加と求められるIn-Network Computing

CPU-Centric (Onload) Data-Centric (Offload)

In-Network Computingにより、効率的なデータ解析を実現

つねに大量のデータを「待つ」必要パフォーマンスのボトルネック

数十usのノード間通信遅延

データの流れに応じた解析が可能に

数usのノード間通信遅延

メラノックスの技術がマシンラーニングを加速します

CPUCPU

In-Network Computingにより、投資対効果を高めます

GPUDirect

NVMe over

Fabrics

Security

GPUDirect® RDMA and ASYNC技術のご紹介

GPUDirect™ とは

▪ ノードをまたいだGPU間のコミュニケーションに伴う遅延を劇的に削減

▪ Mellanox OFEDにてサポート

▪ Mellanoxアダプタとサードパーティデバイス間のP2P通信をサポート

▪ CPU負荷や、システムメモリへのコピーが不要

▪ InfiniBand および RoCEで使用可能

ChipsetVendor

Device

ChipsetVendor

Device0101001011

Deep Learning性能を効果的に加速

GPUDirect™ RDMA の概念

GPU間で直接的な通信を可能に

GPU-GPU Internode Latency

r is B

GPUDirect™ RDMA による効果

9.3X Better Latency

GPU-GPU Internode Bandwidth

10X Better Throughput

Source: Prof. DK Panda

2.18 usec

GPUDirect ASYNC

▪ GPUDirect RDMA (3.0) – GPUとメラノックスデバイス間で直接のデータ通信を可能に

• コントロールパスは従来通りCPUで処理

- CPUが、通信タスクをGPU上に準備し、キューする

- GPUが、Mellanox に対して通信タスクの開始をトリガー

- Mellanox が、GPUメモリを直接アクセスして通信を開始

▪ GPUDirect ASYNC (GPUDirect 4.0)

• コントロールパスも含めてMellanoxがGPUに対して直接アクセス

GPU Clustersに対して最大限の性能を発揮

Scalable Hierarchical Aggregation Reduction Protocol

Mellanox SHARP

Mellanox SHARP によりAI性能を加速

SHARPによってMellanox スイッチが勾配平均値を処理することで

パラメータサーバ不要でオーバヘッドを削減

AIにおいては、パラメータサーバのCPUがすぐにボトルネックに

(だいたい 4 nodes から)

AI/DLアプリケーションへの最適化 - コレクティブオフロード -

▪大規模分散処理における課題• ノード間通信の量が多い。その処理をホストプロセッサで処理している- Machine Learning における勾配平均値の計算やリデュース処理などなど

- ノードが増えるほど、これらの処理負担が増大し、思ったほどスケールしなくなる。

▪Mellanox のソリューション

• SHARP ※

- コレクティブオフローディングメカニズムの提供

▪ Barrier, Reduce, All-Reduce, Broadcast

▪ Sum, Min, Max, Min-loc, max-loc, OR, XOR, AND

▪ Integer and Floating-Point, 16 / 32 / 64 / 128 bit

12 9 1 6 7 5

28 = 12 + 9 + 1 + 6 12 = 7 + 5

40 = 28 + 12

40 40 40 40 40 40

スイッチ

サーバ

All Reduce のオフロードイメージ

※Scalable Hierarchical Aggregation and Reduction Protocol

SHARP使用によるMPI通信の最適化

Without SHARP

With SHARP

Without SHARP

With SHARP

Lower is Better Lower is Better

All Reduce 処理における遅延性能

SHARPを使用することで、75%の遅延削減を実現

In-Network Computing は将来技術ではなく、今使える技術

アプリケーション-セントリックコンピューティング

ストレージ内、ネットワークでの移動時も処理を行うことで、スケール・性能を同時に向上

アプリ

通信処理

集約

OS機能オフロード

可視化アプリケーション機能のオフロード

メモリアクセス

In Network Computing

リアルタイム(ストリーム)処理

最適化された分析処理

リアルタイム応答

高トランザクション処理

Mellanoxにより、AIシステムにおいて最大限のROIを実現

60% 高い投資対効果

2.5x の性能及び95% のスケールアウト効率

CapExおよびOpExの 50%削減

ディープラーニングおいて最大のパフォーマンス、スケーラビリティー、生産性を実現

Mellanoxは、AIの性能を加速させます

Chainer

Cognitive Toolkit

次世代製品のご紹介

世界初のHDR（200G）IB HCA

世界初のHDR（200G）InfiniBandスイッチ

Thank You

インターコネクトでAIを加速 - PC Cluster · 2020. 12. 23. · Mellanox –The Artificial...

Documents

加速器の基本概念 IV : 高周波加速の基礎 - KEK...加速器基本概念IV 高周波加速の基礎高電界と放電キルパトリック(Kilpatrick) の経験則 W

新加坡国立大学硅共振加速度计

8MeV陽子線形加速器を用いた加速器ベースBNCT …8MeV陽子線形加速器を用いた加速器ベースBNCT装置の開発の現状 KEK 加速器セミナー「BNCTの現状と展望」

ザイリンクス LogiCORE IP AXI インターコネクト …...DS768 2011 年 6 月 22 日 japan.xilinx.com 3Product 製品仕様 LogiCORE IP AXI インターコネクト (v1.03.a)•

Debora ver. 0 - KKE...Y-方向 Z-方向加速度時間加速度時間加速度時間ファイル内容グラフシュレッダーに3軸加速度センサーを設置裁断時の加速度データ(振動)を計測

快轉吧！加速簡報製作之秘技 ( PPT快速鍵篇)

高感度ICP®加速度計 - 東陽テクニカ...高感度加速度計インパクトハンマー加速度計・ 393A03 393B04, 393B05 高感度加速度計特長：＊高分解能、高感度

新奇加速器技術を用いた将来の加速器への夢 - Kyoto Uppp.ws/PPP2016/slides/yoshida.pdf新奇加速器技術を用いた将来の加速器への夢 2016/9/7 Mitsuhiro

加速世界06 淨火神子

暗黒加速器の X 線観測

J-PARC 加速器の現状と MR の課題･展望214 研究紹介 J-PARC 加速器の現状とMR の課題･展望高エネルギー加速器研究機構加速器研究施設小

超精密加工と高性能加速管への応用...36 ―462 ― 高エネルギー加速器研究機構 KEK High Energy Accelerator Research Organization 「加速器」Vol. 2, No

加速器の基本概念 I : 粒子加速器技術のあけぼの...バンデグラフ(Robert J. Van de Graaﬀ) 1.5 MV 加速器(1931) 加速器基本概念I 粒子加速器のあけぼの

Taipei – 加速、整合、自動化

「北海道新エネルギー導入加速化基金」 - Hokkaido...北海道新エネルギー導入加速化基金について新エネルギー導入加速化基金条例趣旨

第五节速度变化的快慢加速度

等速圓周運動速率-加速度-數學方程

Why Alteryx? 〜Alteryxで加速するAnalytics Process〜

云帆加速 CDN API 文档º‘帆加速CDNAPI文档.pdf · cdn_api 文档版权所有：深圳市云帆加速科技有限公司让所有企业享用cdn 1 云帆加速 cdn api

TP+ HIGHT TORQUE 最大加速トルク 40,000Nm