大規模システム評価環境 PSI-SIM 数千個のマルチコア・プロセッサを搭載したペタスケールコンピュータの性能予測

大規模システム評価環境 PSI-SIM数千個のマルチコア・プロセッサを搭載したペ

タスケールコンピュータの性能予測

○ 井上こうじ 1) 薄田竜太郎 2) 安藤壽茂 3) 石附茂 3)

小松秀実 3) 稲富雄一 1) 本田宏明 1) 山村周史 3)

柴村英智 4) 于雲青 1) 青柳睦 1) 木村康則 3) 村上和彰 1)

1) 九州大学 2) IST 3) 富士通株式会社 4) ISIT

お詫びとお断り

• 「アーキテクチャ」の話ではありません !

• 「集積回路」の話ではありません !• 文部科学省「次世代 IT 基盤構築のための

研究開発：将来のスーパーコンピューティングのための要素技術の研究開発」に関する成果報告です !

与えられたミッションとは ?「テラフロップスマシン」で「ペタフロッ

プスマシン」の性能を予測せよ！How are you, Mr. Tera?

I am fine!How about you, Mr. Peta?

性能予測対象マシンターゲットマシン性能予測実施マシン

ホストマシン

ペタスケールを「体感」する !?

0.1Flops

10Flops

1KFlops

100KFlops

10MFlops

1GFlops

100GFlops

10TFlops

1PFlops

小学 4 年： 0.8ops（正解率 100% ）

小学 2 年： 0.4ops（正解率 100% ）

九大准教授1.5ops井上こうじ ×66

億

ペタフロップス・スパコン

（実効）九大 PC クラスタ

（ピーク）（ Xeon 3GHz×32 ）

九大スパコン（ピーク）

（ Itanium2 1.6GHz×1K ）

Xeon@3GHz が 160 万台

発表内容• はじめに（「ペタスケール」を体感する ! ）• 従来のスパコン性能予測における限界• 大規模システム性能評価環境 PSI-SIM

– プログラムコードの抽象化（スケルトンコード）– 仮想超並列実行環境（ BSIM ）

• 「ギガ・フロップス・ホスト」で「テラ・フロップス・ターゲット」の性能を予測する !

• 「テラ・フロップス・ホスト」で「ペタ・フロップス・ターゲット」の性能を予測する !

• まとめと今後の展開






「ホスト / ターゲット間の性能差」による 3 つの限界

RealMachine

InterconnectSimulator

プログラム実行限界プログラム実行限界•ホスト 1 ノードでターゲット 100 ～ 1,000 ノード分の実行•特にメモリ不足が深刻に !

ログ採取限界ログ採取限界•HPL 実行 @4K ノード・ターゲットでも 1 テラ・バイト•ノード数や問題サイズ増大と共により深刻に !

シミュレーション限界シミュレーション限界•全対全通信 @4K ノード・ターゲットでも 9 時間 !•ノード数増加や問題サイズ増大と共により深刻に !

ペタスケール並列プログラム

通信ログ

性能レポート






PSI-SIM の性能予測フロー～「実行結果」は保証しない !

～

スケルトンコード

通信性能情報

通信遅延情報の事前採取

• インターコネクトシミュレーション

• 実機での測定• 仕様から見積り• など

最終システム性能レポート最終システム性能レポート

超並列化オリジナルコード演算実行時間情報

の事前採取の事前採取• プロセッサ

シミュレーション• 実機での測定• 仕様から見積り• など

演算性能情報

Real Machine

(BSIM)

ターゲット

スケルトン・コードの導入～性能評価専用プログラムコード

～• ポイント 1 ：演算部分を実行時間に置換え• ポイント 2 ：実行を模擬する通信機能• ポイント 3 ：プログラム作成者による使用メモリ容量の削減

…….MPI_Send(…);

for (i=0; i<1000; i++) s += a[i]

MPI_Recv(…)…….

…….LMPI_Send(…);/* コメント for (i=0; i<1000; i++) s += a[i] */BSIM_Add_time(203e-9)LMPI_Recv(…)…….

オリジナルコードスケルトンコード

仮想超並列実行を高速化する！～プログラム抽象化と疑似実行モードのサポート

～

11203e-9

・・・103.264767865 MPI_Send end103.264768068 MPI_Recv start

通信プロファイル

• プロセス毎に時刻を管理• BSIM_Add_Time 関数により時

刻を更新• 演算省略による実行時間削減• ペイロードを転送しない仮想通

信機能による実通信時間削減

・・・・・MPI_Send(…);/* コメント for (i=0; i<1000; i++) s += a[i];*/BSIM_Add_time(203e-9);MPI_Recv(…);・・・・・

スケルトンコードスケルトンコード

BSIM

・・・・・MPI イベント（ Send ）時刻の更新 (203e-9)MPI イベント（ Recv ）・・・・・

実行の様子

どの程度，高速かつ高精度なのか ?ERI (Electron Repulsion Integral) の場合

実行所

要時

間(s

ec) オリジナル

スケルトン

アプ

リ実

行時

間(s

ec) オリジナル

ゼロ通信レイテンシを仮定

FMO-ERI （スケルトンコード）

– 対象分子 (Gly)15、基底関数 6-31G* （ 108原子、 1009 関数）

– BSIM_Add_time に加える時間は実機測定結果に基づきモデル化

24GF/s ホスト（ 4 ノード）で 386GF/s （ 64 ノード）ターゲットの性能予測→ ×16

スケルトンでの予

測

通信プロファイルは正しいのか ?ERI (Electron Repulsion Integral) の場合

ゼロ通信レイテンシを仮定64 ノードを使用した実際の実行

4 ノードを使用した擬似実行

PSI-SIM のアプローチ～「実行結果」は保証しない！

～

Real Machine

(BSIM)

スケルトン

コード

RealMachine

InterconnectSimulator


通信ログ

性能レポート


性能レポート

演算実行時間に関する情報

Real Machine or

CPU Simulator

通信遅延時間に関する情報

Real Machine or

Net. Simulator

性能評価専用コードの導性能評価専用コードの導入入

•実行の振舞いを維持しつつ使用メモリ容量を削減

プログラム抽象化の導プログラム抽象化の導入入

•演算コード部分を「実行時間」で置換え

仮想超並列実行環境の構築仮想超並列実行環境の構築•スケルトンコードを実機で実行•通信ログが不要に !•大規模ネットワーク Sim. が不要に !•高速実行が可能に !






50 ～ 200GFlops マシンで6.5TFlops マシンの性能を予測す

る !6.5TFlops ターゲットマシン（ PRIMEQUEST1,024 コア）

プロセッサインテル Itanium2，動作周波数 1.6GHz，デュアルコア

計算ノード数 16(32 プロセッサ /ノード， 128GB メモリ /ノード ) ，全コア数は 1,024

インターコネクト

計算ノード内：クロスバ，計算ノード間：InfiniBand

200GFlops ホストマシン（正確には 192GFlops マシン）

プロセッサインテル Xeon，動作周波数 3GHz，シングルコア

計算ノード数 16 （ 2プロセッサ /ノード， 7GB メモリ /ノード）


InfiniBand， Gigabit Ethernet

50GFlops ホストマシン（正確には 51.2GFlops マシン）

プロセッサインテル Xeon ，動作周波数 1.6GHz，クアッドコア

計算ノード数 2（ 2プロセッサ /ノード， 10GB メモリ /ノード）


Gigabit Ethernet

性能予測フロー

• アプリケーション・プログラム–HPL–PHASE （固体第一原理計算）–Open-FMO （タンパク質第一原理計算）

–FMO-ERI （二電子積分計算）

BSIM(on Real Machine)


並列プログラム

性能レポート


Real Machine


Real Machine

・プログラムの超並列化・ QP1K にて実行 →実行時間測定

・スケルトンコード作成・通信遅延情報作成・ BSIM による実行 →性能予測

比較

超並列化スケルトン・コードの開発

～ FMO-ERI の場合～

スケルトンコード作成

計算カーネルの抽象化

（実行時間での置換え）

超並列化計算カーネ

ル抽出

実行時間見積り

使用メモリ / 通信の削減

オリジナルコードの計算カーネル


スケルトン化

for (ijcs=0; ijcs<NCS pair; ijcs++) { for (klcs=0; klcs<=ijcs; klcs++) { for (ijps=0; ijps<Nsurvive, ijcs; ijps++) { for (klps=0; klps<Nsurvive, klcs; klps++) { calculate_primitive_ERI(ijps, klps); calculate_contracted_ERI(ijcs, klcs); } } add_to_Fock_matrix(ijcs, klcs); }}

for (ijcs=0; ijcs<NCS pair; ijcs++) { for (klcs=0; klcs<=ijcs; klcs++) { /* for (ijps=0; ijps<Nsurvive, ij; ijps++) { 　　 for (klps=0; klps<Nsurvive, kl; klps++) { 　　 calculate_primitive_ERI(ijps, klps); 　　 calculate_contracted_ERI(ijcs, klcs); 　　 } 　　 } 　　 add_to_Fock_matrix(ijcs, klcs); */ BSIM_Add_time(BSIM_Add_time(TT00××NNsurvive, ijcssurvive, ijcs××NNsurvive, klcssurvive, klcs);); }}


原始積分 1 組あたりの計算時間（ T0)

通信レイテンシ情報の測定～ MPI-Allreduce の場合～

プロセス数

通信遅延時間の実測値

• 実機にてプロセス数とデータサイズを変更した際の遅延時間を測定

• これら以外の場合については実測値より近似

どの程度正しく予測できたのか ?

（ Open-FMO / FMO-ERI）

Open-FMO

•6.5TF/s を 50GF/s ホストで予測

•実行時間予測誤差（絶対値）• 全実行時間： 4%• 演算部分： 2%

Exe

. Tim

e (s

ec)

FMO-ERI

実測（演算）

予測（演算）


•実行時間予測誤差（絶対値）• 実機全実行時間と予測演算時

間を比較： 35 ～ 140%Exe

. Tim

e (s

ec)

492 984#of Fragments

実測（通信）

予測（通信）

実測（演算＋通信）

対象分子： Lysozyme （リゾチーム）基底関数 STO-3G （ 1961原子、 6005 関数）

対象分子： Aquaporin( アクアポリン )基底関数 STO-3G

予測（演算）

予測（通信）

どの程度正しく予測できたのか ?

（ HPL / PHASE）

160,000 240,000 320,000Problem Size

Exe

. Tim

e (s

ec) HPL

予測（演算）

実測（通信）

実測（演算）

•6.5TF/s を 200GF/s ホストで予測•実行時間予測誤差（問題サイズ320K ）• 全体： <10%• 演算部分： <1%

5.02TFlops

PHASE

4K 8K 16Kバンド数

Exe

. Tim

e (s

ec)

実測（通信）

実測（演算）


•実行時間予測誤差（バンド数16K ）• 全体：約 10%• 演算部分：約 1%

2.51TFlops

予測（通信）

予測（演算）

予測（通信）

性能予測にどの程度の時間が必要なのか ?

ERI Open-FMO(984)

HPL(320K) PHASE(16K)

ホストマシン性能

50GFlops 200GFlops 200GFlops 200GFlops

性能予測所要時間（秒）

505 12,120 2,520 2,400

6.5TFlops ターゲットマシンでのオリジナルコード実行時間との比

0.55 0.34 0.58 7.14






1.6TFlops マシンで2.1PFlops マシンの性能を予測す

る !2.1PFlops ターゲット– コア：スカラコア＋ 16PE

SIMD演算機構（ 2GHz， 64GFlops)

– 8 コア /計算ノード（ 512GFlops/計算ノード）

– 4,096 ノードを 3D トーラスネットワークで接続

• 合計 32,768 スカラコア

• ピーク浮動小数点演算性能 2.1PFlops

1.6TFlops ホスト– インテル Xeon3.06GHz

– 128 ノード（ 2 プロセッサ /ノード）

BSIM(on Real Machine)


並列プログラム

性能レポート


CPU Simulation


Estimation(From Spec.)

超高性能プロセッサ PSI-SIMD• 高 Flops，低消費電力アーキテクチャの追求• スカラ SPARC コア＋最大 32SIMD演算ユニット

– SPARC に SIMD命令を追加– メモリ階層： SIMD FP演算器－レジスタ－バッファメモリ（ SBM)－メイ

ンメモリ

9mm

10mm

PEPEPEPEPEPEPEPE

PEPEPEPEPEPEPEPE

ScalarCore

4MB L2$

45nm プロセスによる1 コアのイメージ

L1-DキャッシュL1- Iキャッシュ

L2キャッシュ

SBM

Transfer Unit

MAC

インターコネクトインタフェース

RSS

RSA

RSE

RSFデコ

ーダ

FPユニットINTユニット

RSBR

メモリアドレス処理（TLB）

GPR/ GUB

FPR/ FUB

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

FB- DIMM

プロセッサコア0プロセッサコア1

プロセッサコアNcore

SIMD処理部

スカラ処理部 CSE

SBMSIMD-PE 0SFPR/ SFUB

SBMSFPR/ SFUB SIMD-PE 1

SIMD-PE NPE

SIMD-PE 3

Odd SFPU

Even SFPU

マルチコア構成のイメージ[ 山村 SWoPP’07]


～ HPL の場合（ 1/3 ）～• 高負荷計算カーネル検出– updateTT ルーチン ∝ N3

– 全実行時間の 90%以上– 特に， dgemm/dtrsm 関数による行列計算

• 高負荷計算カーネル抽出→ dgemm/dtrsm– 実行処理フローを変えずにカーネル部以外を除去

– 演算用配列の削除– 転送の送受信先・メッセージサイズを再現

• PSI-SIMD コア向け dgemm/dtrsm の開発– SIMD向け計算アルゴリズム– PSIM/WCV による性能解析とチューニングスケルトンコード

作成

計算カーネルの抽象化（実行時間での置換

え）


ル抽出



PSIM


～ HPL の場合（ 2/3 ）～• PSIM （プロセッサシミュレータ）による実行サイクル数計測

• 8 コアのメモリアクセス競合効果を机上評価して 1 コア実行サイクル数を補正

• 小規模実行や部分実行により得た詳細データに基づき性能式を導出

スカラコア

SIMD

zgemm

dgemm



え）


ル抽出



PSIM

if( curr != 0 ) { HPL_dgemm( HplColumnMajor, HplNoTrans, HplTrans, mp, nn, jb, -HPL _rone, HPL_rone, L2ptr, ldl2, Uptr, LDU, HPL_rone,Mptr( Aptr, jb, 0, lda ), lda ); HPL_dlatcpy( jb, nn, Uptr, LDU, Aptr, lda );} else {

オリジナルコードの計算カーネル

スケルトンコードif( curr != 0 ) { mx=((mp-1)/32+1)*4;mx=((mp-1)/32+1)*4; nx=((nn-1)/4+1)*4;nx=((nn-1)/4+1)*4; jx=((jb-1)/2+1)*2;jx=((jb-1)/2+1)*2; estimate=3.14e-07+mx*(2.0e-09*jb +4.951e-09estimate=3.14e-07+mx*(2.0e-09*jb +4.951e-09**nn+nx*(0.977e-12nn+nx*(0.977e-12 *((jb-1)/32+1)*32+4.1760e-11*jx);*((jb-1)/32+1)*32+4.1760e-11*jx); BSIM_Add_time( estimate );BSIM_Add_time( estimate ); HPL_dlatcpy( jb, nn, Uptr, LDU, Aptr, lda );} else {

mx=((mp-1)/32+1)*4nx=((nn-1)/4+1)*4jx=((jb-1)/2+1)*2estimate=3.14e-07+mx*(2.0e-09*jb +4.951e-09*nn+nx*(0.977e-12 *((jb-1)/32+1)*32+4.1760e-11*jx)

実行時間見積り式•使用配列サイズの縮小 /削除

•仮想的な通信の実現


～ HPL の場合（ 1/3 ）～



え）


ル抽出



PSIM

1.6TFlops マシンで2.1PFlops マシンの性能を予測す

る !

• HPL– プロセス数： 4,096

(P=Q=64) – 問題サイズ： 131 万元– ブロックサイズ： 512

• PHASE– プロセス数： 4,096 – 問題サイズ： 65,536 （バン

ド数 )– ブロックサイズ： 512

通信遅延無し通信遅延有り（ 3D-Torus ）

実行時間性能 BSIM所要時間実行時間性能 BSIM

所要時間

HPL 1,397秒 1.07PFlops 約 6 時間 1,478秒 1.01PFlops 約 6 時間

PHASE 165秒 0.6PFlops 約 4.5 時間

--------- --------- ---------

3桁小規模なホスト（ 1.6TF ）でペタスケール・ターゲット性能（ 2.1PF ）を予測

HPL

3D-Torus: 1.02PFlops

Clos: 1.04PFlops






今後の展開

• スパコン向け SW 開発環境の構築 !!– 次世代スパコンの特徴とは ?

• 世界に 1 つだけの「コンピュータ・システム」• 無料では使えない !

–ソフトウェア開発者にとっては ?• 事前にプログラム実行時間を把握したい• 事前に十分なチューニングを行いたい

– 性能評価環境 PSI-SIM をベースとしたソフトウェア開発環境の構築

• メニーコア向け性能評価環境への発展 !!

世界 No1へのチャレンジ !!

• 如何にして，手元で「世界最高性能のスパコンを模擬するか ? 」– PSI-SIM を用いた仮想環境の構築

• 如何にして，手元での「ソフトウェア・チューニング」を可能にするか ? 」– PSI-SIM を用いた実行状況モニタリング–俯瞰ビューアを用いたボトルネック /改善効果解析

• 「ペタ」から「エクサ」へ– 井上こうじが 666,666,666,666,666,666人くらい

（ ? ）

お詫びとお断り

• 「アーキテクチャ」の話ではありません !

• 「集積回路」の話ではありません !

• 本日の発表は，現在進行中の「次世代スーパコンピュータ開発＠理研」とは全く関係がありません !

• 文部科学省「次世代 IT 基盤構築のための研究開発：将来のスーパーコンピューティングのための要素技術の研究開発」に関する成果報告です !

Documents

大規模システム評価環境 PSI-SIM 数千個のマルチコア・プロセッサを搭載したペタスケールコンピュータの性能予測