Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)

Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)

著者：Abhinav Bhatele (LLNL), et al. 発表者：高前田(山崎) 伸也　（東工大）

2013年1月26日 14:00 – 17:00 SC論文読み会 @東工大

この論文を選んだ理由

n 実はうちの研究室でもスパコン向けタスク配置をやっている l あのテーマをSCに通すにはどんな感じの論文にすればいいんだろう？と興味がわいた

n アプリには興味がないけど，スケジューリングとか配置とかで性能を高くするのは好き

n 絵がたくさん載っていて楽しそう

Shinya Takamaeda-Y. Tokyo Tech 2

概要

n スパコンにおける良いタスク配置を決定するためのツールに関する論文 l いくつかのシンプルなオペレーションでアプリケーションの配置を変更できる

n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用

l  Qbox: 第1原理分子動力学


Introduction: タスク配置 n 「どのタスク」を「どのノード」に割り当てるか

l 配置によってネットワークの使い方が変わる→性能が変わる

n 我々がやっているメニーコアの場合 (RMAP)


79775 68921

76587 68703

0

20000

40000

60000

80000

100000

Bitonic Sort Matrix Multiply

Elap

sed

cycl

e [K

cyc

le]�

Normal RMAP Bitonic Sort Matrix Multiply Idle Off-Chip Memory M M

(a) Normal Allocation (b) RMAP Allocation

M M M M M M M M M M

Introduction: 従来手法について

n 通信するタスク間のホップ数を小さくするように配置 l ネットワークリンクの共有や混雑を減らすため

n どんな時にこれは有効か？ l 各タスクが少数のノードとPoint-to-Pointで通信する，かつ

l  Global communicatorでcollective通信を行う場合


Introduction: 問題点

n スパコンのノード数とネットワークの直径は増加傾向 l  Global communicatorではなくsub-communicatorを用いて

collective通信を行うように

n  Sub-communicatorを用いる場合の最適なタスク配置 l  Sub-communicator単位のグループでノードをまとめれば，ホップ数は削減できる

l グループ境界のハードウェアリンクが未使用となり，ネットワークバンド幅の利用効率が制限される

l 例えば，ただまとめるのではなく，ちょっとずらしたりすると使えるリンク数が増えてネットワーク性能が上がりそう


Introduction: 本論文の貢献 n  N次元トーラスにおけるSub-communicatorを用いた

Collective通信，特にall-to-allとbroadcastの性能向上を目指す l 複数の次元にまたがってトーラスのリンクを包み込むようにコミュニケータを配置することで，実効バンド幅を増やすことができ，混雑を回避するための経路を提供することが可能になる

l 直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれよりもとても遅い

n 既存のライブラリはレイテンシを削減するためにホップ数を削減することにフォーカスしていたが，我々はより多くの次元のリンクを利用することによりバンド幅使用率を最大化する新しいツールRubikを提案する


リンク使用率とバンド幅の向上 (1)

n ネットワークの端から端へのパスの数はネットワークの次元が増えるにつれて増加 l うまく配置すればリンク共有と混雑は低減できるはず


リンク使用率とバンド幅の向上 (2) n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの性能 l リンク集中が少なくなると所要時間が短縮


リンク使用率とバンド幅の向上 (3) n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの性能 l リンク集中が少なくなると所要時間が短縮


リンク使用率とバンド幅の向上 (4)

n 戦略 l 通信するタスクはplane/boxまたはmeshの角に配置し，一直線上に配置しない

l 通信ペア間の距離を離してスペアのリンクの数を増やす

l 包み込むようなトーラスリンクを追加の経路として使う (?)


The Rubik Mapping Tool


Partitioning Operations (1) n  4つのオペレーションでタスク群を分割

l  div: 指定した個数に分割

l  tile: 指定した大きさに分割

l  mod: 指定した個数に分割し，インターリーブで交互に配置

l  cut: それぞれの次元に施すオペレーションを指定


Partitioning Operations (2)

n アプリケーションだけではなくネットワーク（ノード）も同じオペレーションで分割 l それぞれのグループのサイズがアプリケーションとネットワークで同じであれば，自動的にマップできる


Permuting Operations (1)

n  2つのオペレーションがで配置をずらすことができる l  tilt: 回転

l  zigzag: ジグザグにずらす






Mapping A Lazer-Plasma Interaction Code (1) n  2D-FFTの計算とMPI_Alltoallが多く含まれる

n ベースラインの性能 l デフォルトのタスク配置: TXYZ

•  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置


Mapping A Lazer-Plasma Interaction Code (2) n ベースライン性能

l  Weak-scalingで通信と計算の比率を比較

l ノード数の増加により通信オーバーヘッドが顕著化


Mapping A Lazer-Plasma Interaction Code (3)

n  2048コアにマッピング l こんな簡単なコードで！


Mapping A Lazer-Plasma Interaction Code (4) n いくつかの配置におけるネットワーク利用状況


Mapping A Lazer-Plasma Interaction Code (5) n 各配置におけるMPIにかかった時間

l  TXYZがベースライン


Mapping A Lazer-Plasma Interaction Code (6) n 各配置における性能

l 通信レートと１イタレーションの時間


Mapping A Lazer-Plasma Interaction Code (7)


Mapping A First-Principles MD Code (1) n 計算インテンシブ，でも通信も多い

n ベースラインの性能 l デフォルトのタスク配置: TXYZ

•  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置


Mapping A First-Principles MD Code (2)

n  2048コアにマッピング l こんな簡単なコードで！


Mapping A First-Principles MD Code (3)

n 性能の変化 l 原子数512で40.0% (tiltY) の実行時間短縮

l 原子数1728で16.2% (mod)の実行時間短縮


まとめ

n スパコンにおける良いタスク配置を決定するためのツールに関する論文 l いくつかのシンプルなオペレーションでアプリケーションの配置を変更できる

n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用

l  Qbox: 第1原理分子動力学


Technology

Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)