科学技術計算を対象とした大規模再構成可能データパスの性能評価

科学技術計算を対象とした大規模再構成可能データパスの

性能評価

片岡広志 a) ，本田宏明 b) ， Farhad Mehdipoura) ，

井上弘士 a) ，村上和彰 a)

a) 九州大学b) 九州先端科学技術研究所

背景• High Performance Computing (HPC) 分野では汎用プ

ロセッサ (GPP) を集積したスーパコンピュータが広く利用されている

• GPP の演算性能を補うための種々のアクセラレータ– PowerXcell, ClearSpeed, GPGPU, GRAPE-DR, etc.– 同性能の GPP と比べて、省スペース，低消費電力

http://www.clearspeed.com/

スーパーコンピュータ「 TSUBAME 」http://it.nikkei.co.jp/

アクセラレータボード「 CSX 600 」

http://www.top500.org/system/9485

PowerXcell を搭載したスーパーコンピュータ「 Roadrunner 」

大規模再構成可能データパスとその課題(LSRDP: Large Scale Reconfigurable Data Path)

• アクセラレータではメモリウォール問題が深刻化– 高い演算性能に比例した大きな要求メモリバンド

• 要求メモリバンド幅を抑え、かつ高い演算性能を実現するアクセラレータ (LSRDP) の提案　

• 　課題： LSRDP に対する性能評価

研究の目的

• ベンチマークとなるアプリケーションに対し， LSRDP の性能を定量的に評価する

– 3 種類のアプリケーションを対象

– 性能モデル式 + サイクルアキュレートなシミュレータでの実行時間の見積もり

– 汎用プロセッサ単体性能との比較

– 性能を決定するボトルネックの解析

• 背景• 大規模再構成可能データパス• 性能評価

– 評価対象アプリケーション– 評価実験

• おわりに

大規模再構成可能データパスの概要

主記憶

• 再構成可能なデータパス• 多数の FPU• 再構成可能なネットワーク

(ORN)• 入出力にストリームバッ

ファ (SB) を搭載

• 特徴• 計算コストの高い部分を

データフローグラフ (DFG)化して直接マッピング

• パイプライン処理によりDFG 部分を加速実行

• 主記憶上に整列されたデータをバースト転送により入力

汎用プロセッサ

(GPP ：General Purpose

Processor)

: : : :

ORN : Operand Routing Network

...FPU FPU FPUFPU

: : : ... :SB

SMAC入力データ 3

入力データ 2

入力データ 1

・・・・・・・

データ依存

A = B + C;

D = A － E;

データ依存

DFG の直接マッピングによる効果

プログラム

スカラープロセッサload R0, [B]load R1, [C]add R2, R0, R1store R2, [A]

load R3, [A]load R4, [E]sub R5, R3, R4store R5, [D]

・・・

・・・・

・・・・・

Read Mem.

Write Mem.

Read Mem.

Write Mem.

・・・メモリアクセス回数を削減可

Read Mem.

LSRDP を用いたプログラム実行の流れ

LSRDPGPP

主記憶

Loop 　　　　 Loop 　　 calculation　　 End Loop　　End Loop

オリジナル GPP コードLoop 　　　　データ整列　　 LSRDP 再構成　　計算開始信号（ GPP ->

LSRDP ）　　 Loop　　　　　　 LSRDP パイプライン

動作　　　　 End Loop 計算終了信号（ LSRDP ->

GPP ）　　データ整列

End Loop

LSRDP 向けコード

Loop 　　　　データ整列　　 LSRDP 再構成　　計算開始信号（ GPP ->

End Loop

LSRDPGPP

主記憶

LSRDPGPP

主記憶

End Loop

LSRDPGPP

主記憶

End Loop

LSRDPGPP

主記憶

End Loop

LSRDPGPP

主記憶

End Loop

LSRDPGPP

主記憶

End Loop

性能モデリング

ohLSRDPGPP ETETETET

GPP と LSRDP はオーバーラップ実行しないと仮定

＋主記憶アクセスに係わるストール時間

理想的な実行時間( 毎クロックサイクル入力データを投入可能 )

＋再構成時間通信時間( シグナル )

整列時間＋

LSRDP を利用する際のオーバーヘッド

LSRDP における実行時間

– 対象アプリケーション– 評価実験

• おわりに

対象アプリケーション

• 2 階の定数係数偏微分方程式– 差分方程式

• 1 次元の熱伝導方程式 (Heat)• 2 次元の Poisson 方程式 (Poisson)

• 量子化学分野– 2 電子積分計算（ ERI)

熱伝導方程式 (Heat)

• 1 次元の熱伝導方程式

• 差分方程式化

• DFG の接続– x 方向と t 方向に拡大可能

2 ),(),(

),(),(*),(*

jijiji

txTtxTBtxTD

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

（ D, B は定数）差分方程式に対応する DFG

熱伝導方程式のLSRDP システムへの実装

Loop j　　 Loop i T(xi,tj) End LoopEnd Loop

オリジナル GPP コード

LSRDP を再構成Loop j’ (DFG で計算する時間発展分毎 )　　データ整列 Loop N LSRDP パイプライン動作 ( 差分方程式の計算 ) End Loop　　データ整列End Loop

Poisson 方程式

),(),(),(

2D – Poisson 方程式

),(),(),(

),(),(4

),(*)1(

yxfhyxuyxu

yxuyxu

ω is const.

遂次過緩和 (SOR) 法

　　　　を求めるために、　　　　　　　　　　の 4点が必要

),( ji yx ),(),,( 11 jiji yxyx

赤と青の点を交互に求める

DFG の拡大による繰り返し回数の増加 (Poisson)

9+4ノードの入力

中心 1ノードの出力

SOR 式2 回の繰り返し

SOR 式1 回の計算

これに伴い必要な入力数も増加• DFG の拡大により 1度に計算可能な繰り返し回数が増加

Poisson 方程式のLSRDP システムへの実装

Loop Iter Loop i loop j u(xi,yj) End Loop　　 End LoopEnd Loop

オリジナル GPP コード

LSRDP を再構成Loop Iter’ (DFG で計算する繰り返し回数毎 )　　データ整列 Loop N LSRDP パイプライン動作 ( 差分方程式の計算 ) End Loop　　データ整列End Loop

２電子積分計算のLSRDP システムへの実装

Loop I,J,K,L　　 LSRDP 再構成　 Loop contraction 初期積分計算 End Loop　　データ整列　　 Loop N　　 LSRDP パイプライン動作　　　　　 (漸化式計算　　　部分フォック行列計算 )　 End Loop データ整列End Loop

Loop I,J,K,L　　 Loop contraction 初期積分計算漸化式計算 End Loop　　部分フォック行列計算End Loop

初期積分計算 :　開平逆数，指数，誤差関数計算が含まれる．　 => GPP による計算

漸化式計算，部分フォック行列計算：加減乗算のみ　 => LSRDP での計算

オリジナル GPP コード LSRDP 向けコード

評価実験• 実験目的

– GPP 単体と比較してどれほど実行時間が削減できるか• 性能に影響を与える要因の調査

– メモリバンド幅を変更した際の実行時間への影響– DFG サイズを変更した際の実行時間の変化

• 評価方法– サイクルアキュレートなシミュレータ＋性能モデル式

• 評価環境

LSRDPGPP

主記憶

3.2GHz 200MHz

メモリバンド幅12.8～ 102.4[GByte/sec]

再構成時間1cc

ベンチマーク DFG のサイズ

DFG 入力出力演算数Heat(M) 16 8 168

Heat(L) 32 16 728

Poisson(S) 18 1 33

Poisson(M) 38 1 90

Poisson(L) 66 1 190

ERI 最大 62 最大 18 最大 324

• Heat ， Poisson についてはサイズが異なる複数の DFG を準備

•ERI は 1 回の計算で用いる 6 種類の DFG のサイズが一定

4Heat(M) Heat(L)

0.6再構成通信整列ストール演算GPP

実験結果： Heat

主記憶のメモリバンド幅[GByte/sec]

正規化した実行時間

ベンチマークDFG

• 実行時間を最大で 20%まで削減• 整列時間が支配的• DFG サイズの拡大に従って実行時間が減少

4Poisson(S) Poisson(M) Poisson(L)

00.20.40.60.8

11.21.41.61.8

2再構成通信整列ストール演算GPP

実験結果： Poisson

• 全ての DFG で実行時間が増加• 整列時間が支配的• DFG サイズの拡大に従って実行時間が増加

12.8 25.6 51.2 102.4ERI

0.25 再構成通信整列ストール演算

実験結果： ERI

• 実行時間を最大で 16%まで削減

• 整列時間が支配的

DFG の特徴と整列時間との関係• DFG サイズの拡大につれて

– Heat ：性能向上– Poisson ：性能低下　　

• 整列時間　∝ #I/O （ DFG の入出力データ数） ×DFG使用回数

• 整列時間は #I/O と DFG使用回数の積に依存しており DFG サイズとの単純な比例関係にない

DFG #I/O DFG使用回数積

Heat(M) 24 34916 8.4*10^5

Heat(L) 48 8722 4.2*10^5

Poisson(S) 19 3.0*10^6 5.7*10^7

Poisson(M) 39 2.0*10^6 7.8*10^7

Poisson(L) 67 1.5*10^6 1.0*10^8

なぜ？

– 評価対象アプリケーション– 評価実験

• おわりに

おわりに

• まとめ– LSRDP を利用することで実行時間を最大で

16% 程度まで削減– メモリバンド幅の増加に従いストール時間は

低下– 実行時間の半分以上を整列時間に使用– ベンチマークによって DFG サイズによる実

行時間への影響は異なる• 今後

– 整列時におけるアルゴリズムの探索–新たなメモリ構成の検討

ご清聴ありがとうございました

backup

FPU FPU FPU FPU

FPU FPUFPUFPU

FPU FPU FPU FPU

データ

入力演算・・

・・演算データ

出力データ

入力演算・・

・・演算データ

出力

演算

データ

入力演算・・

・・演算演算

時間入力データ 4

入力データ 3

空データ入力データ 2

入力データ 1

データ

入力演算演算

パイプライン動作による演算の推移

CPSY 2008 10/31 34

　　分子軌道法計算のボトルネック：

電子反発積分 (ERI)

begin loop IJKL

　 (IJ,KL) を利用 ( 部分フォック計算 ) end: loop

量子力学的電子反発エネルギー計算

dcbadcba

222/5 expexp2 DCBA

+ 漸化計算（大量の積和計算）

ERI の初期項計算ERI: (IJ,KL)

電子反発積分計算表式　 ~(pp,pp) までの漸化計算のみの場合 ~

漸化計算のみの場合

入力：最大 28 個（計算依存）出力： 1 ~ 81 個（計算依存）

)1()0()1()1()1()0()0(

)1()1()1()0()0(

)1()0()1()0()0(

)1()1()0()0(

)1()0()0(

),(),(2

),(),()(2

1),(),(),(

),(),()(2

1),(),(),(

),(),(2

),(),(),(

),()(2

),(),(),(

ssppssppspspspspspppWQspppQDpppp

ssspssspssppWQssppQCsppp

ssssssssssspWPssspPBsspp

ssssssspWQssspQCspsp

ssssWPssssPAsssp

jijiij

kijlkjilkjilkjiklkji

ijkjikjikjikkji

ijijiiji

ikikikki

(ss,ss)(m) 　ならびに種々の係数は入力によって与える

(i,j,k,l = x,y,z): p 関数は 3 成分を持つ

),(),(*),(*),( 111 jijijiji txTtxTBtxTDtxT

DFG の生成 (Heat)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

N 入力

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

T(i,j+1)

T(i-1,j) T(i,j) T(i+1,j)

M 回時間発展

DFG の拡大による入力数の増加(Poisson)

SOR 式2 回の繰り返し

SOR 式1 回の計算

１ DFG で計算可能な繰り返し回数の増加に従って入力数が増加

科学技術計算を対象とした大規模再構成可能データパスの性能評価

Documents

Panasasストレージクラスタアーキテクチャ概要 - SSTC...Panasasが提供するストレージクラスタパラレルなデータパスバックアップ/ リストア

第六章再生能源（ Ⅱ ）

別表－ 41 －別表 1 再生可能エネルギー発電促進賦課金 ⑴ 再生可能エネルギー発電促進賦課金単価再生可能エネルギー発電促進賦課金単価は，再生可能エネルギー特別措置法第16条第2

第七章再生能源（ Ⅲ ）

再生可能エネルギー政策の再構築に向けた当面の対応再生可能エネルギー政策の再構築に向けた当面の対応. 2019. 年. 5月30日資源エネルギー庁

› material › dl › seminar › 20120905... 日本の再生可能エネルギー特別措置法とプロジェク …日本の再生可能エネルギー特別措置法とプロジェクトファイナンス

PAC系統功能再升級

農山漁村再生可能エネルギー法Q＆A（H28.09.27）...－ⅰ－農山漁村再生可能エネルギー法Q＆A（H28.09.27）（注）このQ＆Aは、農山漁村再生可能エネルギー法の内容について関係者の皆

諸外国の再生可能エネルギー熱政策 - env3 表 1-1 再生可能エネルギー熱の導入目標および導入実績ドイツイギリスフランス再生可能エネルギー導入目標

RE Equipment Suppliers Survey Returns Summary 可再生能源设备 …

データパスの構築Ⅰ ～シングルサイクル・データパス～ocw.kyushu-u.ac.jp/menu/faculty/09/4/14.pdf2009/04/14 · add, sub, and, or, slt lw sw beq データメモリ

カンボジア国再生可能エネルギー利用地方電化マスタープラ …カンボジア国再生可能エネルギー利用地方電化マスタープラン調査

再生能源 Renewable Energy

政治学方法論 I - 6. 再現可能な研究 - Yuki Yanaiyukiyanai.github.io/jp/classes/rm1/contents/slides/rm1... · 2019-12-30 · 再現可能な研究再現可能な研究をR

讀書會再貴也能賣到翻

2．再生可能エネルギー設備の特性把握 · 71 (2) 調査結果調査対象とした文献は、1）再生可能エネルギー設備導入による効果の評価、2）再生可能エネ

再生能源科技的前瞻遠景太陽能發電篇

中国的电力部门 - ANU Presspress-files.anu.edu.au/downloads/press/n2213/pdf/ch08.pdf除了这些挑战，可再生能源（风能和太阳能）和非可再生能源（核能）

再生能源技術簡報 - aceir.org · 再生能源技術簡報研發的 ... 的方式再製成環保再生油，其終端產品為無鉛汽油、高級柴油等。廢塑膠預先處理

EVA廠低階能源再利用節能改善 - fpg.com.t · eva廠低階能源再利用節能改善 ... 乙烯酯壓縮後，再與過氧化物一同進入反應器以自由基起始聚

科学技術計算を対象とした 大規模再構成可能データパスの 性能評価

科学技術計算を対象とした大規模再構成可能データパスの性能評価