HPC アプリケーションの OOP を用いたパフォーマンスチューニング

東京大学大学院創造情報学専攻

穂積俊平 * 　伊尾木将之　千葉滋

HPC アプリケーションのOOP を用いた

パフォーマンスチューニング

HPC の現状•C 言語や Fortran によって記述されている- 実行性能が重要

•手続きライブラリが広く利用されている- 関数単位での変更のみ可能

HPC の近年の傾向•実行環境に合わせたチューニングが必要- 実行環境のハードウェアが多様化

コンピュータクラスタ

マルチ CPUGPU

HPC の近年の傾向•実行環境に合わせたチューニングが必要- 実行環境のハードウェアが多様化

コンピュータクラスタ

マルチ CPUGPU

HPC の問題点•粒度の細かいチューニングができない- 手続きライブラリはブラックボックスであり、関数

より粒度の細かい変更が不可能。

入力出力

メモリ管理

データ転送

HPC の問題点•粒度の細かいチューニングができない- 手続きライブラリはブラックボックスであり、関数

入力出力

メモリ管理

データ転送

処理 ( 関心事 )ごとに実装を決めたい！

例：行列積

C コードfor (int i = 0; i < L; i++) {

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

①②

例：行列積

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

•素直な２重ループ• i と j を入れ替えた２重ループ•GPU で並列実行•MPI で並列実行

例：行列積

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

•素直なループ•展開したループ

例：行列積

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

}}}③

１次元配列

・・・

•１次元配列•２次元配列•シェアードメモリ•疎行列•対角行列

C 言語での実装•保守性のスケーラビリティが得られない- 関数ポインタ- ifdef

オブジェクト指向を用いたチューニング

•ユーザによる設定が可能な形で機能提供ができる

Matmul matmul = new Matmul();

matmul.setTraverse (new Traverse());

matmul.setReduction(new Reduction());

Mat A = new SingleArray(), B = ・・・ , C = ・・・ ;

matmul.calc(A, B, C);

Javaコード

matmul.setTraverse (new ParallelOnGPU());

matmul.setReduction(new Reduction());

Mat A = new SingleArray(), B = ・・・ , C = ・・・ ;

Javaコード

オートチューニングへの応用•実装の切り替えが容易

List<Traverse> traverses;

traverses.add(new Traverse());

traverses.add(new ParallelOnGPU());

for(Traverse tra : traverses) {

matmul.setTraverse(tra);

Javaコード

Cのたどり方の実装を変更して実行

HPC アプリケーションの特徴•カーネルコードが計算時間の大半を占める

各種設定

カーネルコード

実行時間実行過程

WootinJ•OOP と実行性能を両立する機構- カーネルコードを強力に JIT コンパイルする- ユーザに最適化の条件を満たしているかを提示

実行時コンパイラ

Javaバイトコード

機械語

最適化

コンパイル時チェッカー

Javaソースコード

警告！

通常の JIT との違い•OOP と実行性能を両立する機構- カーネルコードを強力に JIT コンパイルする

Java　バイトコード機械語

最適化

•静的型•動的型

一部をインライン化•オブジェクト•メソッド

通常の JIT との違い•OOP と実行性能を両立する機構- カーネルコードを強力に JIT コンパイルする

Java　バイトコード機械語

最適化

•静的型•動的型•strictfinal

全てをインライン化•オブジェクト•メソッド

•strictFinal : 静的に型が一意に決定できる型- プリミティブな型- strictFinal の配列- 自分と親クラスのフィールドが strictFinal であ

り、 final な型

Javaソースコード

strictFinal ?

警告！！

WootinJ•OOP と実行性能を両立する機構- カーネルコードを強力に JIT コンパイルする

class Calc { void run(A a){ a.hoge();　 }}

static void main(String[] args) { CUDARunner.invoke( new Calc(), “run”, new A() );}

最適化

実行

Java コードJava

バイトコード

Java抽象構文木

CUDAコード

機械語

メソッド情報

ユーザが指定したメソッド

WootinJ•OOP と実行性能を両立する機構- カーネルコードを強力に JIT コンパイルする

Java コード

メソッド情報

ユーザが指定したメソッド

メソッドのレシーバ、実引数の型は変換時に一意に決定できる

メソッドのレシーバ、実引数は自由に OOP の抽象化を利用できる

実験•目的- WootinJ の実行性能の測定

•実験環境- Tsubame2.0 : 東工大のスパコン

•プログラム- 行列積

実験結果

• 変換によるオーバーヘッドの分だけ WootinJ の方が遅かったが、 OOP の抽象化による差は見られなかった。

関連研究•Firepile [Nathaniel Nystrom ら・ 2011]- Scala から OpenCL への実行時変換器。動的束縛は

Switch 文を用いて表現

•Aparapi- Java から OpenCL への実行時変換器。オブジェクト

の利用はできない

まとめと今後の課題•まとめ- オブジェクト指向を利用する事で、実行環境に合わ

せたパフォーマンスチューニングができる事を述べた。

- オブジェクト指向と実行性能を両立する機構としてWootinJ を開発した。

•今後の課題- WootinJ を利用したフレームワークの作成- C++ との比較

C の要素のたどり方for (int i = 0; i < L; i++) {

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k]*B[k * N +

GPU を利用した並列実行dim3 grid(N/BS, L/BS),

block(BS,BS);

traverse<<<grid, block>>>(A, B, C);

_global_ void traverse(float *

A ・・ ){

int i = BS*blockIdx.y +

threadIdx.y;

int j = BS*blockIdx.x +

threadIdx.x;

　　　　　　　　　　：

i と j を入れ替えた２重ループ

for (int i = 0; i < L; i++) {

for (int j = 0; j < N; j++) {

　　　　　　　　　：

素直な２重ループ

for (int i = 0; i < L; i++) {

for (int j = 0; j < N; j++) {

　　　　　　　　　：

C の１要素の求め方

for (int k = 0; k < M; k++) {

C[i*N + j] += A[i*M + k]*B[k*N +

素直なループ

for (int i = 0; i < L; i++) {

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k]*B[k * N +

for (int k = 0; k < M; k+=2) {

C[i*N + j] += A[i*M + k] * B[k*N + j];

C[i*N + j] += A[i*M + k + 1] * B[(k+1)*N +

展開したループ

行列の表現方法•言語上の確保の仕方の違い- １次元配列- ２次元配列

•ハードウェア的な違い- シェアードメモリの利用

•行列の種類による違い- 疎行列- 対角行列

matmul.iterate = new LoopOnCPU();

matmul.reduction = new Reduction();

Matrix A = new SingleArray(),

B = ・・・ , C = ・・・ ;

Javaコード

matmul.iterate = new LoopOnCPU();

matmul.reduction = new

UnrollingReduction();

Matrix A = new SingleArray(),

B = ・・・ , C = ・・・ ;

Javaコード

実行環境に合わせたチューニング

•ユーザによる設定ができる形で機能提供すべき- C 言語や Fortran では難しい

•手続きライブラリはブラックボックス- ブラックボックス内の実装の変更が困難

入力出力

複数の処理( 関心事 ) が含まれる

メモリ管理

データ転送

•複数の関心事に分割できる

行列積に含まれる関心事

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

for (int j = 0; j < N; j++) {

for (int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N +

１次元配列

・・・

matmul.setTraverse(Traverse.factory(“simpleLoop”

matmul.setReduction(Reduction.factory(“unrolling

”));

Matrix A = new SingleArray(), B = ・・・ , C

= ・・・ ;

Javaコード

void calc(Mat A, Mat B, Mat C) { tra.calc(A, B, C, red);}

Matmulvoid calc(Mat A, Mat B, Mat C, Reduction red) { for(int i = 0; i < C.getRows(); i++) { for(int j = 0; j < C.getCols(); j++) { red.calc(A, B, C);}}}

Traverse

void calc(Mat A, Mat B, Mat C){ for(int k = 0; k < A.getCols(); k++) { C[i*C.getCols()+j] += A[i*A.getCols()+k] * B[k*B.getCols()+j];}}

Reduction

void calc(Mat A, Mat B, Mat C, Reduction red) {for(int j = 0; j < C.getCols(); j++) { for(int i = 0; i < C.getRows(); i++) { red.calc(A, B, C);}}}

ReverseTraverse

Matmul

void calc(Mat A, Mat B, Mat C, Reduction red) { for(int i = 0; i < C.getRows(); i++) { for(int j = 0; j < C.getCols(); j++) { red.calc(A, B, C);}}}

Traverse

ReverseTraverse

近年の傾向•実行環境に合わせたチューニングが必要- ハードウェアが複雑化している• GPU

• コンピュータ・クラスタ• マルチコア CPU

関数による分離

C コードvoid matmul(float *A, float *B, float *C) {

traverse(A, B, C);

void traverse(float *A, float *B, float *C) {

for(int i = 0; i < L; i++) {

for(int j = 0; j < N; j++) {

reduction(A, B, C, i, j);

void reduction(float *A, float *B, float *C, int i, int

for(int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N + j];

手続きライブラリの限界•粒度の細かいチューニングができない- 手続きライブラリはブラックボックスであり、関数

入力出力

メモリ管理

データ転送

他の実装へ変更

class Matmul { Traverse traverse; Reduction reduction;

void calc(Matrix A, Matrix B, Matrix C) { traverse.calc(A, B, C, reduction); }}

Javaコード

class SimpleDoubleLoop implements Traverse { void calc(Matrix A, Matrix B, Matrix C, Reduction red) { for(int i = 0; i < C.getRows(); i++) { for(int j = 0; j < C.getColumns(); j++) { reduction.calc(A, B, C); } } }}

Javaコード

class SimpleLoop implements Reduction { void calc(Matrix A, Matrix B, Matrix C){ for(int k = 0; k < A.getColumns(); k++) { C[i*C.getColumns()+j] += A[i*A.getColumns()+k] * B[k*B.getColumns()+j]; } }}

Javaコード

void calc(Matrix A, Matrix B, Matrix C) { traverse.calc(A, B, C, reduction);}

Matmul

void calc(Matrix A, Matrix B, Matrix C, Reduction red) { for(int i = 0; i < C.getRows(); i++) { for(int j = 0; j < C.getColumns(); j++) { reduction.calc(A, B, C);}}}

Traverse

void calc(Matrix A, Matrix B, Matrix C){ for(int k = 0; k < A.getColumns(); k++) { C[i*C.getColumns()+j] += A[i*A.getColumns()+k] * B[k*B.getColumns()+j];}}

Reduction

関数ポインタによる変更C コード

int (*traP)(float *A, float *B, float *C) = &traverse;

int (*redP)(float *A, float *B, float *C, int i, int j) = &reduction;

void matmul(float *A, float *B, float *C) {

(traP)(A, B, C);

for(int i = 0; i < L; i++) {

for(int j = 0; j < N; j++) {

(redP)(A, B, C, i, j);

void reduction(float *A, float *B, float *C, int i, int j) {

for(int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N + j];

for(int i = 0; i < L; i++) {

for(int j = 0; j < N; j++) {

void reverseTraverse(float *A, float *B, float

for(int i = 0; i < L; i++) {

for(int j = 0; j < N; j++) {

関数による分離

C コードvoid matmul(float *A, float *B, float *C) {

traverse(A, B, C);

for(int i = 0; i < L; i++) {

for(int j = 0; j < N; j++) {

reduction(A, B, C, i, j);

void reduction(float *A, float *B, float *C, int i, int

for(int k = 0; k < M; k++) {

C[i * N + j] += A[i * M + k] * B[k * N + j];

手続きライブラリの利用•実行環境に合ったライブラリを利用する事で、アプリケーションのチューニングができる。

• GotoBLAS

• cublas

• ・・・・

線形代数ライブラリCPU

関数ポインタによる変更int (*traP)(float *A, float *B, float *C);

int (*redP)(float *A, float *B, float *C, int i, int j);

void matmul(float *A, float *B, float *C) {

(traP)(A, B, C);

for(int i = 0; i < L; i++) {

for(int j = 0; j < N; j++) {

void reverseTraverse(float *A, float *B, float

for(int j = 0; j < N; j++) {

for(int i = 0; i < L; i++) {

C 言語による実装の限界•関数ポインタ- 安全でない

•フラグによる制御- ライブラリ作成者がすべての状況を想定できない

•安全に実装の変更が可能

Matmul

void calc(Mat A, Mat B, Mat C, Reduction red) { for(int i = 0; i < C.getRows(); i++) { for(int j = 0; j < C.getCols(); j++) { red.calc(A, B, C);}}}

Traverse

ReverseTraverse

モジュラリティと実行性能•WootinJ が生成するコードには Java の抽象化が含まれていない

• 動的束縛

• オブジェクト

どうする？？

• switch 文？

• 構造体？

Java のサブセットを提供

• 動的メソッド呼び出しの除去

実行時情報を利用した最適化

+hoge()

static void main(String[] args) { CUDARunner.invoke( new Calc(), “run”, new B() );}

Java コード

実行時情報 void run(A a) { B_hoge();}

void B_hoge() { :}

静的呼び出しに変換

+hoge()

• オブジェクトの除去

実行時情報を利用した最適化

int x;int y;

class Calc { void run(A a){ int sum = a.x + a.y　 }}

Java コード

実行時情報

void run(int a_x, int a_y) { int sum = a_x + a_y;}

プリミティブな値の利用に変換

•Java バイトコードから CUDA C への実行時変換器- 実行時情報を利用し、抽象化のオーバーヘッドを除去

WootinJ

static void main(String[] args) { CUDARunner.invoke( new Calc(), “run”, new A() );} 最適化

実行

Java コードJava

バイトコード

Java抽象構文木

CUDAコード

機械語

メソッド情報

WootinJ•OOP と実行性能を両立する機構- カーネルコードをアグレッシブに JIT コンパイルする- コンパイル時に条件 (strictFinal) を満たしているか確認

OOP の抽象化が含まれないコード

以下が含まれない•動的束縛•オブジェクト

実験結果• 変換によるオーバーヘッドの分だけ WootinJ の方が

遅かったが、 OOP の抽象化による差は見られなかった。

HPC アプリケーションの OOP を用いたパフォーマンスチューニング

Documents

Zabbixのパフォーマンスチューニング & インストール時の注意点

HPC-Systeme HPC und Storage

Pendahuluan OOP

katalog hpc

C++ ( Oop )

Applicazioni OOP con Net Framework - Roberto Manarobertomana.altervista.org/wp-content/...OOP-con-C.pdf · Applicazioni OOP con Net Framework pag 1 Applicazioni OOP con Net Framework

FlowVision HPC HPC ––инновационный HPC –инновационныйisicad.ru/ru/2008/presentations/d2/pdf/TESIS_Shchelyaev.pdf · November 2005 FlowVision HPC –инновационный

Summary OOP

Use SLURM job scheduling system on supercomputer - · PDF fileUse SLURM job scheduling system on π supercomputer SJTU HPC Center hpc@sjtu.edu.cn Jan 7th, 2016 SJTU HPC Center hpc@sjtu.edu.cn

REVISTA HPC

GURU маникюра€¦ · MaHL/lKtop Bpa3L4TlbcKHVl fir-10HcKvõ1 MaHL/lKOP P.Shine. GURU 500p oop oop . 150-700p 0T 50p 0T 1 OOP . oop 500p I oop 500p .250p 200p .400p

เรียนรู้ด้วยตนเอง OOP C# ASP · " สอนวิธีคิด-วิธีเขียนโปรแกรมตามหลัก OOP โดยใช้ภาษา

デルHPC NFS ストレージソリューション - Dellmarketing.dell.com/Global/FileLib/JP_Pub-Brochure/HPC...2011 年 4 月デルHPC NFS ストレージソリューション -

Javascript OOP

OOP skripta

Infographie hpc

pemograman oop

AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング

Oop LotusScript

5000g11s hpc

HPC アプリケーションの OOP を用いた パフォーマンスチューニング

HPC アプリケーションの OOP を用いたパフォーマンスチューニング