Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
スパコンプログラミング(1), (I)ガイダンス東京大学 情報基盤センター
准教授 塙 敏博
2020年9月29日(火)10:25 - 12:10
2020/9/29 スパコンプログラミング (1), (I) 1
ガイダンスの流れ
0. Zoomの使い方
1. 講義の目的
2. 講師紹介
3. 講義日程の確認
4. 成績の評価方法
5. イントロダクション(残り時間)
2020/9/29 スパコンプログラミング (1), (I) 2
Zoomの使い方• https://utelecon.github.io
• [email protected] でZoomにアカウントを登録してください。• しばらくはZoomへの登録なしでも接続可能にしておきます。• 何かあれば、「チャット」に書くか、「手を挙げ」てください。「反応」もwelcome!
2020/9/29 スパコンプログラミング (1), (I) 3
チャット 反応
手を挙げる
本講義の目的
•高性能計算の研究者として生き残るための、最低限の技術を習得する1. 情報基盤センターのスーパーコンピュータ利用法2. 並列化手法とMPIの使い方3. 高性能計算手法
•上記技術の習得により、受講生の分野の研究を格段に進めることを目的とする
•計算科学アライアンス認定講義(カテゴリーD)• http://www.compsci-alliance.jp• 是非アライアンスへの登録を!http://www.compsci-alliance.jp/学生募集/
• 要件を満たせば修了証を発行• 優先的な海外派遣、国際シンポジウムでの発表• 東京大学スパコンのアカウント発行
2020/9/29 スパコンプログラミング (1), (I) 4
本講義のシラバス上での位置付け
•スパコンプログラミング(1)• 工学部学生対象(共通科目)
•スパコンプログラミング(Ⅰ)• 工学系研究科大学院生対象(共通科目)
•他学部の学生、他大学院の大学院生も受講できます
•本科目は、夏学期、冬学期の通年科目です• 夏学期、冬学期ともに、同様の講義内容です
2020/9/29 スパコンプログラミング (1), (I) 5
講師紹介• 名前:塙 敏博(はなわ としひろ)
• 経歴:• 1993年3月 慶應義塾大学理工学部電気工学科卒業
• 1995年3月 慶應義塾大学大学院理工学研究科計算機科学専攻修士課程修了
• 1998年3月 慶應義塾大学大学院理工学研究科計算機科学専攻博士課程修了
• 1998年4月 東京工科大学工学部情報工学科 講師
• 2002年4月〜2007年3月 東京工科大学コンピュータサイエンス学部 講師
• 2007年4月〜2008年11月 筑波大学計算科学研究センター 研究員
• 2008年12月~2013年11月 筑波大学システム情報工学研究科准教授
• 2013年12月~2015年11月 東京大学 情報基盤センター 特任准教授
• 2015年12月~現在 情報基盤センター 准教授
• 2016年2月〜現在 (兼担)大学院工学系研究科電気系工学専攻
• 「GPUコンピューティング」「スパコン向けネットワーク」などの分野で活躍中!
• 詳しくは「塙敏博」でググるといろいろ出てきます
2020/9/29 スパコンプログラミング (1), (I) 6
講義日程(工学部共通科目)
1. 9月29日(今日): ガイダンス
2. 10月6日
l 並列数値処理の基本演算(座学)
3. 10月13日:スパコン利用開始
l ログイン作業、テストプログラム実行
4. 10月20日
l 高性能プログラミング技法の基礎1(階層メモリ、ループアンローリング)
5. 10月27日
l 高性能プログラミング技法の基礎2(キャッシュブロック化)
6. 11月10日
l 行列-ベクトル積の並列化
2020/9/29 スパコンプログラミング (1), (I)
7. 11月17日
l べき乗法の並列化
8. 11月24日
l 行列-行列積の並列化(1)9. 12月1日
l 行列-行列積の並列化(2)10. 12月8日
l LU分解法(1)l コンテスト課題発表
11. 12月15日
l LU分解法(2) 、非同期通信12. 12月22日
l RB-Hログイン、GPUプログラミング(1)
13. 1月5日l GPUプログラミング(2) 、研究紹介他
レポートおよびコンテスト課題(締切:
2021年2月1日(月)24時 厳守
7
評価方法
1. 実習で出題される課題を解きレポートにして提出l 加算方式
l 解けば解くほど評価が高まる
l すべての問題を解く必要はない(解けないほど多く出す)
2. コンテスト課題を解くl 入賞(1位~3位(予定))は、無条件に“優”(予定)
l ちゃんと動作するものをつくれば、実習レポート点に加点
• 1のみ、2のみ、1と2の両方、の選択がある。
• 1と2の両方を行った場合は、当然、加算方式で成績を決定する。
• 技術の習得が目的、積極的にトライしてほしい
2020/9/29 スパコンプログラミング (1), (I) 8
2016年度以降1. 2016(平成28)年度 S1S2
• 受講申し込み: 37名• レポート課題提出: 22名
• 優上:1名、優:13名、良:4名、可:3名、うち、コンテスト課題提出者:3名(3名は無条件で優)
2. 2016(平成28)年度 A1A2• 受講申し込み: 9名• レポート課題提出: 4名
• 優:4名、うち、コンテスト課題提出者:2名(2名は無条件で優)
3. 2017(平成29)年度 S1S2• 受講申し込み: 60名• レポート課題提出: 40名
• 優上: 3名、優:18名、良:13名、可:3名、うち、コンテスト課題提出者:5名(3名は無条件で優以上)
4. 2017(平成29)年度 A1A2• 受講申し込み: 21名• レポート課題提出: 11名
• 優:6名、良: 1名、可: 3名、うち、コンテスト課題提出者:1名(1名は無条件で優)
5. 2018(平成30)年度 S1S2• 受講申し込み: 37名• レポート課題提出: 15名
• 優上: 1名、優:5名、良: 8名、可: 0名、うち、コンテスト課題提出者:5名(2名は無条件で優)
6. 2018(平成30)年度 A1A2• 受講申し込み: 9名• レポート課題提出: 6名
• 優上: 1名、優:3名、良: 1名、可: 1名、うち、コンテスト課題提出者:5名(2名は無条件で優)
2020/9/29 スパコンプログラミング (1), (I) 9
2019年度以降7. 2019(平成31)年度 S1S2
• 受講申し込み: 35名• レポート課題提出: 15名
• 優上: 1名、優:11名、良: 3名、うち、コンテスト課題提出者:3名(2名は無条件で優以上)
8. 2019(令和元)年度 A1A2• 受講申し込み: 25名• レポート課題提出: 16名
• 優:11名、良: 5名、うち、コンテスト課題提出者:3名(1名は無条件で優以上)
9. 2020(令和2)年度 S1S2• 受講申し込み: 36名• レポート課題提出: 13名
• 優上:1名、優:9名、良: 2名、可:1名、うち、コンテスト課題提出者:2名(2名は無条件で優以上)
2020/9/29 スパコンプログラミング (1), (I) 10
講義の様子
•C言語(もしくはFortran言語)とMPIを用いて実習•ほとんどが、並列化の課題実行時で脱落
• UNIXの基本コマンド、及び、プログラムの基本がわかっていないと厳しい。
• なるべく脱落者を減らしたい
• UNIXの基本コマンドがわかっていない人、プログラムの基本がわかっていない人は、個別に、集中的に教えるよう配慮しますので、遠慮なく聞いてください。
• 出席を考慮(評価得点全体に対し20%程度)
• その結果:単位取得率は約50%前後、ほぼ全員が「優」。
2020/9/29 スパコンプログラミング (1), (I) 11
講義の流れ• 次次回から、情報基盤センタのスーパーコンピュータ(Oakforest-PACSスーパーコンピュータシステム)を利用します。
• 10月13日(火)の講義中に、アカウント名とパスワードをITC-LMSにより配布する予定です。必ず出席してください。
• 最終回にGPUクラスタ (Reedbush-H)も使います。
2020/9/29 スパコンプログラミング (1), (I) 12
講義資料について
•以下の資料を参照してください。
l 講義スライドのPDFファイルhttp://www.cspp.cc.u-tokyo.ac.jp/hanawa/class/l ITC-LMShttps://itc-lms.ecc.u-tokyo.ac.jp/lms/course?idnumber=2020FEN-CO4d11L10J01
2020/9/29 スパコンプログラミング (1), (I) 13
演習のための準備
1. 事前に登録をお願いします。• 履修登録、LMSの両方が必要(履修登録とLMSは連動している、はず)
2. LMSのアンケートに答えてください。
• 連絡先 (メール、電話番号)• 留学生かどうか
• 利用者番号、パスワードを渡すのにも使います。
↑は 10/6までに行っておくこと
3. スパコンを使うための準備 (別ファイル参照)
• Cygwinのインストール (Windowsユーザーのみ)• Mac, Linuxユーザーは 「ターミナル」 / “Terminal” を使用
↑は 10/12までに行っておくこと
2020/9/29 スパコンプログラミング (1), (I) 14
参考書• 「スパコンを知る: その基礎から最新の動向まで」
• 岩下武史、片桐孝洋、高橋大介 著
• 東大出版会、ISBN-10: 4130634550、ISBN-13: 978-4130634557、発売日:2015年2月18日、176頁
• 【本書の特徴】
• スパコンの解説書です。以下を分かりやすく解説しています。
• スパコンは何に使えるか
• スパコンはどんな仕組みで、なぜ速く計算できるのか
• 最新技術、今後の課題と将来展望、など
2020/9/29 スパコンプログラミング (1), (I) 15
教科書(演習書)• 「スパコンプログラミング入門-並列処理とMPIの学習-」
• 片桐 孝洋 著、
• 東大出版会、ISBN978-4-13-062453-4、発売日:2013年3月12日、判型:A5, 200頁
• 【本書の特徴】
• C言語で解説
• C言語、Fortran90言語のサンプルプログラムが付属
•数値アルゴリズムは、図でわかりやすく説明
• 本講義の内容を全てカバー
• 内容は初級。初めて並列数値計算を学ぶ人向けの入門書
2020/9/29 スパコンプログラミング (1), (I) 16
教科書(演習書)• 「並列プログラミング入門:サンプルプログラムで学ぶOpenMPとOpenACC」
• 片桐 孝洋 著
• 東大出版会、ISBN-10: 4130624563、ISBN-13: 978-4130624565、発売日: 2015年5月25日
• 【本書の特徴】
• C言語、Fortran90言語で解説
• C言語、Fortran90言語の複数のサンプルプログラムが入手可能(ダウンロード形式)
• 本講義の内容を全てカバー
• Windows PC演習可能(Cygwin利用)。スパコンでも演習可能。
• 内容は初級。初めて並列プログラミングを学ぶ人向けの入門書
2020/9/29 スパコンプログラミング (1), (I) 17
参考書• 「並列数値処理 - 高速化と性能向上のために -」
• 金田康正 東大教授 理博 編著、片桐孝洋 東大特任准教授 博士(理学) 著、黒田久泰 愛媛大准教授博士(理学) 著、山本有作 神戸大教授 博士(工学) 著、 五百木伸洋㈱日立製作所 著、
• コロナ社、発行年月日:2010/04/30 , 判 型: A5, ページ数:272頁、ISBN:978-4-339-02589-7, 定価:3,990円 (本体3,800円+税5%)
• 【本書の特徴】
• Fortran言語で解説
• 数値アルゴリズムは、数式などで厳密に説明
• 本講義の内容に加えて、固有値問題の解法、疎行列反復解法、FFT、ソート、など、主要な数値計算アルゴリズムをカバー
• 内容は中級~上級。専門として並列数値計算を学びたい人向き
2020/9/29 スパコンプログラミング (1), (I) 18
教科書(スパコンプログラミング入門)の利用方法
• 本講義の全内容、演習内容をカバーした資料
• 教科書というより、実機を用いた並列プログラミングの演習書として位置づけられている
• 使える並列計算機があることが前提
• 付属の演習プログラムの利用について
1. 東京大学情報基盤センターのFX10スーパーコンピュータシステムでそのまま利用する
2. 研究室のPCクラスタ(MPIが利用できるもの)で利用する3. 東大以外の大学等のスーパーコンピュータで利用する
• 各自のPCを用いて、(MPIではない)逐次プログラムで演習する(主に逐次プログラムの高速化の話題)
2020/9/29 スパコンプログラミング (1), (I) 19
イントロダクションスパコンとは何か?
2020/9/29 スパコンプログラミング (1), (I) 20
スーパーコンピュータとは• 人工知能搭載のコンピュータではない、量子コンピュータでもない• 明確な定義はない
• 現在の最高レベルの演算性能をもつ計算機のこと• 経験的には、PCの1000倍高速で、1000倍大容量なメモリをもつ計算機
• 法令では…• 「外国為替及び外国貿易法」=>「輸出貿易管理令」(政令)=>「輸出貿易管理令別表第一及び外国為替令別表の規定に基づき貨物又は技術を定める省令」(令和2年1月14日経済産業省令)の規制対象デジタル電子計算機• 第7条第三項ハ:デジタル電子計算機であって、加重最高性能が29実効テラ演算を超えるもの
• スーパーコンピュータ導入手続 (平成26年3月31日申し合わせ, 令和元年12月23日一部改正)• I 適用範囲 3. この手続は下記の理論的最高性能を有するスーパーコンピューターの導入に適用されるが、この対象範囲は必要に応じ見直すこととする。• 2.0 PFLOPS以上(2019年12月23日以降) • 2.4 PFLOPS以上(2020年12月23日以降) • 2.88 PFLOPS以上(2021年12月23日以降)
2020/9/29 スパコンプログラミング (1), (I) 21
これまで50TFだったのがようやくまともな数字に
(20%増 / 年)
スパコンの分類 (1)現在のすべてのスーパーコンピュータは並列計算機:多数のCPUを接続することで高性能化を実現
• MPP (Massively Parallel Processor)• スパコン専用機:富士通PRIMEHPC-FXシリーズ、Cray XCシリーズなど• 専用のノード間ネットワーク(インタコネクト): 富士通TOFU, Cray Aries, Cray
Slingshot (単独販売されない)
• クラスタ• 多数のサーバをネットワークで結合して1システム化したもの• ノード間ネットワーク:InfiniBand, Intel OmniPathなどコモディティ製品
• Ethernetはあまり使われない以下は(スパコンとしては)絶滅に近い:• ベクトル
• NEC SXシリーズ (SX-ACE以前): メモリシステム周辺のコストが大きすぎる=> SX-Aurora TSUBASAでアクセラレータへ
• SMP (Symmetric Multi Processor)• 共有メモリマシン:HP (旧SGI) UVシリーズ、256CPU程度まで,これ以上大きくできない
2020/9/29 スパコンプログラミング (1), (I) 22
• アクセラレータ搭載の有無
• GPU• NVIDIA Tesla• AMD Radeon Instinct
• NEC SX-Aurora TSUBASA
• PEZY-SC2• PCI Expressボード
=> 専用インタフェース
2020/9/29 スパコンプログラミング (1), (I) 23
東大ITCのGPU搭載スパコン、Reedbush-Lの構成
スパコンの分類 (2)
スーパーコンピュータで用いる単位• TFLOPS(テラ・フロップス、
Tera Floating Point Operations Per Second)• 1秒間に1回の演算能力(浮動小数点)が1FLOPS。• K(キロ)は1,000(千)、M(メガ)は1,000,000(百万)、G(ギガ)は1,000,000,000(十億)、T(テラ)は1,000,000,000,000(一兆)
• だから、一秒間に一兆回の浮動小数点演算の能力がある こと。
• PFLOPS(ぺタ・フロップス)• 1秒間に0.1京(けい)回の浮動小数点演算の能力がある。• 「京コンピュータ」(2012年9月共用開始〜2019年8月、11.2PFLOPS)
2020/9/29 スパコンプログラミング (1), (I)
l PCの演算能力は?l 2.3GHz(1秒間に23億回のクロック周波数)として、もし1クロックあたり1回の浮動小数点演算ができれば2.3 GFLOPS。
l Intel 第10世代 Core i7-10875H (Comet Lake)では、8コア、1クロックで16個の浮動小数計算ができるので、2.3 GHz * 16浮動小数点演算/Hz * 8コア = 294.4 GFLOPS
l Cray-1は160MFLOPS。 1970年代のスパコンより、PCの方が1840倍高速!
24
スーパーコンピュータの評価指標• 理論ピーク性能(Theoretical Peak Performance)
• ハードウェア性能からはじき出した性能。
• 1クロックに実行できる浮動小数点回数から算出したFLOPS値を使うことが多い。
• 実効性能(Effective Performance)• 何らかのベンチマークソフトウエアを実行して実行時間を計測。
• そのベンチマークプログラムに使われている浮動小数点演算を算出。
• 以上の値を基に算出したFLOPS値のこと。• 連立一次方程式の求解ベンチマークであるLINPACK、共役勾配法 (CG法)の求解ベンチマークであるHPCGが広く使われている。
• 浮動小数点以外のベンチマークも多数(後述)
2020/9/29 スパコンプログラミング (1), (I) 25
Linpack性能
1〜500位の合計
500位
1位
太湖之光 (TaihuLight)
天河2号(Tianhe-2)
京コンピュータ
SequoiaTitan
http://www.top500.org/ より
Summit
富岳
スーパーコンピュータの性能向上
スパコンプログラミング (1), (I) 262020/9/29
• LINPACKベンチマークでの500位までのランキング
• 連立一次方程式の求解(密行列)
• 大体4年で10倍• 性能向上が近
年は鈍化傾向
ムーアの法則• 米Intel社の設立者ゴードン・ムーアが提唱した、半導体技術の進歩に関する経験則。
「半導体チップの集積度は、およそ18ヵ月で2倍になる」
• これから転じて、
「マイクロプロセッサの性能は、およそ18ヵ月で2倍になる」
• 上記によると、約5年で10倍となる。• 正確には、デナード則
2020/9/29 スパコンプログラミング (1), (I) 27
スーパーコンピュータのランキング(1)
•TOP500(http://www.top500.org/)• LINPACKの値から実効性能を算出した値の500位までのランキング
•米国オークリッジ国立研究所/テネシー大学ノックスビル校の Jack Dongarra 教授が発案
•毎年 6月@ドイツの国際会議ISC、11月@米国の国際会議SCで更新(他にも〇〇500がいろいろある)
2020/9/29 スパコンプログラミング (1), (I) 28
スーパーコンピュータのランキング(2)
•Green500(http://www.green500.org/)• Top500に登録されたシステムのうち、電力当たり性能でのランキング
• Linpack実行中の電力を測定、性能/電力=FLOPS/W
•HPCG (http://www.hpcg-benchmark.org/)•共役勾配法(CG法)によるベンチマーク•疎行列なので密行列のLinpackよりメモリアクセスがボトルネックに、現実のアプリに近い
2020/9/29 スパコンプログラミング (1), (I) 29
スーパーコンピュータのランキング(3)•Graph500(http://graph500.org/)
•大規模グラフ探索を解き、TEPS (Traversed Edges Per Second)でランキング
•幅優先探索 (BFS)に加えて、2017/11からSSSP (Single Source Shortest Paths)も追加に
• Green Graph500 というのもある(過去形?)• IO500 (http://www.io500.org/)
•ストレージの性能(以下の幾何平均)• メタデータ性能 (IOPS)•バンド幅 (GB/sec)
• 2017/11から
2020/9/29 スパコンプログラミング (1), (I) 30
31
http://www.top500.org/
Site Computer/Year Vendor Cores Rmax(TFLOPS)
Rpeak(TFLOPS)
Power(kW)
1 Fugaku, 2020, JapanR-CCS, RIKEN
Fujitsu PRIMEHPC FX1000, Fujitsu A64FX 48C 2.2GHz, Tofu-D 7,299,072 415,530
(= 415.5 PF) 513,854.7 28,335
2 Summit, 2018, USADOE/SC/Oak Ridge National Laboratory
IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband
2,414,592 148,600 200,795 10,096
3 Sierra, 2018, USADOE/NNSA/LLNL
IBM Power System S922LC, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband
1,572,480 94,640 125,712 7,438
4 Sunway TaihuLight, 2016, ChinaNational Supercomputing Center in Wuxi
Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway 10,649,600 93,015 125,436 15,371
5Tianhe-2A, 2018, ChinaNational Super Computer Center in Guangzhou
TH-IVB-FEP Cluster, Intel Xeon E5-2692v2 12C 2.2GHz, TH Express-2, Matrix-2000 4,981,760 61,445 100,679 18,482
6 HPC5, 2020, ItalyEni S.p.A.
Dell C4140, Xeon Gold 6252 24c 2.1GHz, NVIDIA Volta GV100, Mellanox Infiniband HDR 669,760 35,450 51,720 2,252
7 Selene, 2020, USANVIDIA
NVIDIA DGX A100 SuperPOD, AMD EPYC 7742 64C 2.25GHz, NVIDIA GA100, Mellanox InfinibandHDR
277,760 27,580 34,568 1,344
8 Frontera, 2019, USATexas Advanced Computing Center
Dell C6420, Xeon Platinum 8280 28c 2.7GHz, Mellanox Infiniband HDR 448,448 23,516 38,746
9 Marconi-100, 2020, ItalyCineca
IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband
347,776 21,640 29,354 1,476
10Piz Daint, 2017, SwitzerlandSwiss National Supercomputing Centre (CSCS)
Cray XC50, Xeon E5-2690v3 12C 2.6GHz, Aries interconnect , NVIDIA Tesla P100 387,872 21,230 27,154 2,384
18 Oakforest-PACS, 2016, JapanJoint Center for Advanced HPC
PRIMERGY CX1640 M1, Intel Xeon Phi 7250 68C 1.4GHz, Intel Omni-Path 556,104 13,556 24,913 2,719
55th TOP500 List (Jun., 2020) Rmax: Performance of Linpack (TFLOPS)Rpeak: Peak Performance (TFLOPS), Power: kW
2020/6/23
スパコンプログラミング(1)、(Ⅰ)
32
http://www.hpcg-benchmark.org/
HPCG Ranking (Jun., 2020)Computer Cores HPL Rmax
(Pflop/s)TOP500
RankHPCG
(Pflop/s)1 Fugaku 7,299,072 415.530 1 13.4002 Summit 2,414,592 148.600 2 2.926
3 Sierra 1,572,480 94.640 3 1.796
4 HPC5 669,760 35,450 6 0.860
5 Trinity 979,072 20.159 11 0.546
6 Selene 277,760 27.580 7 0.509
7 ABCI 391,680 19.880 12 0.509
8 Piz Daint 387,872 21.230 10 0.497
9 Sunway TaihuLight 10,649,600 93.015 4 0.481
10 Nurion (KISTI, Korea) 570,020 13.929 18 0.391
11 Oakforest-PACS 556,104 13.555 19 0.3852020/6/23
スパコンプログラミング(1)、(Ⅰ)
33
Green 500 Ranking (Jun., 2020)TOP 500
RankSystem Accelerator Cores HPL Rmax
(Pflop/s)Power(kW)
GFLOPS/W
1 394 MN-3, Preferred Networks, Japan MN-Core 2,080 1.621 77 21.108
2 7 Selena, NVIDIA, USA NVIDIA A100 277,760 27.580 1,344 20.518
3 469 NA-1, PEZY, Japan PEZY-SC2 1,271,040 1.303 80 *18.433
4 205 A64FX Prototype, Fujitsu, Japan 36,864 1.999 118 16.876
5 27 AiMOS, USA NVIDIA V100 130,000 8.339 512 16.285
6 6 HPC5, Italy NVIDIA V100 669,760 35.450 2,252 15.740
7 422 Satori, USA NVIDIA V100 34,040 1.464 94 15.574
8 2 Summit, USA NVIDIA V100 2,414,592 148.6 10,096 14.719
9 1 Fugaku, Fujitsu, Japan 7,299,072 415.53 28,335 14.665
10 9 Marconi-100, Italy NVIDIA V100 347,776 21.64 1,476 14.671
(13)
Nov.’17Reedbush-L, U.Tokyo, Japan NVIDIA P100 16,640 806 79 10.167
(19) Reedbush-H, U.Tokyo, Japan NVIDIA P100 17,760 802 94 8.576
http://www.top500.org/
2020/6/23
スパコンプログラミング(1)、(Ⅰ)
34
IO 500 Ranking (Jun, 2020)Site Computer File system Client nodes/
procsIO500 Score BW
(GiB/s)MD
(kIOP/s)
1 Intel Wolf IntelDAOS
521664 1792.98 371.67 8649.57
2 WekaIO WekaIO on AWS WekaIOWekaIO Matrix
3458625 938.95 174.74 5045.33
3 TACC, US Frontera IntelDAOS
601440 763.80 78.31 7449.56
4 ANL, US Presque ANLDAOS
16544 537.31 108.19 2668.57
5 NSC Changsha, China Tianhe-2E NUDT
Lustre4805280 453.68 209.43 982.78
6 KISTI, Korea NURION DDN IME 20482048 282.45 515.59 154.74
7 Oracle Cloud Infrastructure
BeeGFS on Oracle Cloud
Oracle Cloud InfrastructureBeeGFS
2703240 267.25 293.05 243.73
8 NVIDIA, US DGX-2H SuperPod DDN Lustre 10400 249.50 86.97 715.76
9 University of Cambridge, UK Data Accelerator Dell EMC Lustre 128
2048 229.45 131.25 401.13
10 CEA, France Tera-1000 DDNLustre
1284096 210.26 81.01 545.74
11 JCAHPC, Japan Oakforest-PACS DDN IME 5124096 175.85 348.95 88.62
http://www.io500.org/
2020/9/29
スパコンプログラミング (1), (I)
Top500 ランキング (2020年6月現在)その他日本のマシン 100位以内
l 12位産総研: AI Bridging Cloud19.88 PFLOPS
l 27位東工大: TSUBAME3.08.12 PFLOPS
l 36位名古屋大: 不老 (FX1000)6.61 PFLOPS
l 41,42位気象庁5.73 PFLOPS x2
l 53位 九州大:ITO4.54 PFLOPS
l 59位 東京大:Oakbridge-CX4.29 PFLOPS
l 60位 ?? どこかの研究所4.13 PFLOPS
l 67位 さくらインターネット3.71 PFLOPS
l 83位 JAXA: SORA-MA3.15 PFLOPS
l 87位 NIMS: Numerical Materials Simulator
3.08 PFLOPSl 89位京都大: Camphor2
3.05 PFLOPS…
• 東京大学内のマシンl 59位 情報基盤センター:Oakbridge-CX
4.29 PFLOPSl 477位 物性研: Sekirei
1.178 PFLOPSl 436位 物性研: Sekirei-ACC
0.864 PFLOPSl 411位 情報基盤センター:
Reedbush-L0.805 PFLOPS
l 414位 情報基盤センター: Reedbush-H
0.802 PFLOPS
2020/9/29 スパコンプログラミング (1), (I) 35
スーパーコンピュータ「富岳」(Fugaku)@理研R-CCS• 理研計算科学研究センター(神戸ポートアイランド)• 2021年4月共用開始予定• CPU: A64FX (3.3792 TFLOPS)• 2020年6月 Top500
• 理論性能: 513.8 PFLOPS ( = 0.5 EFLOPS)• 実効性能: 415.5 PFLOPS (効率80%、調整中)• HPL-AI: 1.421 EFLOPS (全体の79.7%使用、倍+単+半精度)
2020/9/29 スパコンプログラミング (1), (I) 36
https://www.riken.jp/pr/news/2020/20200623_3/https://www.riken.jp/pr/news/2020/20200623_2/
スーパーコンピュータ「富岳」概要システム全体• ラック数 432• ノード数 158,976
• 384ノード x 396ラック• 192ノード x 36ラック
• 総演算性能: 537 PFLOPS (倍精度)1.07 EFLOPS (単精度)2.15 EFLOPS (半精度)4.30 EFLOPS (整数8bit)
• 総メモリ容量: 4.85 PiB• 総メモリバンド幅: 163 PB/s• インタコネクト: Tofu-D
• 6次元トーラス• ストレージ
• 1st一時ファイルシステム: SSD搭載• 2nd FEFS (Lustreベース)• 3rd商用クラウドストレージ (Oracle
Cloud Infrastructure)
ノード単体• 命令セット: Arm v8.2-A SVE 512bit (+富士通拡張)
• コア数: 48 + 2 or 4アシスタントコア• 4 CMG (Core Memory Group)
• クロック周波数: 2GHz-2.2GHz (ブーストモード)
• 性能:3.072 – 3.3792TFLOPS (倍精度)• 単精度 x2倍, 半精度 x4倍, int8 x8倍
• メモリ: HBM2 32 GB, 1024GB/s• ネットワーク インタフェース: Tofu-D
• 28 Gbps x 2 lane x 10 port
2020/9/29 スパコンプログラミング (1), (I) 37
https://www.fujitsu.com/jp/Images/the-tofu-interconnect-d.pdf
https://www.r-ccs.riken.jp/jp/fugaku/overview.html
Summit @ ORNL• 米国エネルギー省(DoE) オークリッジ国立研究所• ピーク >200 PF, Linpack 148.6 PF• 4,608ノード (ノード当たり:V100 x6基 + Power 9 x2ソケット)
• IBM AC922• Sierra, Lassenは V100 x4基
• InfiniBand EDR (100 G)x 2port
2020/9/29 スパコンプログラミング (1), (I) 38
参考:https://www.olcf.ornl.gov/olcf-resources/compute-systems/summit/
Sunway Taihulight神威太湖之光• 中国・無錫(Wuxi) 国立スパコンセンター (NRCPC)• ピーク 125.4 PF, Linpack 93.0 PF, 40960ノード• Sunway製 SW26010
• 260コアのメニーコアプロセッサ(1+64コア)*4クラスタ, 1.45GHz
• ピーク性能:3.06TF• メモリバンド幅:136.5 GB/s
• インタコネクト:InfiniBand FDR (56 Gbps)
2020/9/29 スパコンプログラミング (1), (I) 39
参考:Top500, HPCWire Japan, PCwatch
Piz Daint @ CSCS• スイス ETH Zurich内の国立スパコンセンター• ピーク 33.8 PF, Linpack 19.5 PF (2017 upgrade)• 5,320 (P100 + Xeon Haswell) + 1,431 Xeon Broadwell
• Cray XC50 + XC40
2020/9/29 スパコンプログラミング (1), (I) 40
参考:https://www.cscs.ch/publications/news/piz-daint-one-of-the-most-powerful-supercomputers-in-the-world/
Cori @ NERSC• NERSC: 米国エネルギー省(DoE)ローレンスバークレー国立研究所(LBNL)の1組織• National Energy Research Scientific Computing Center
• 9,688 Intel Xeon Phi (KNL), ピーク性能 30 PF + 2,388 Intel Xeon (Haswell)• Cray XC40 システム
• Gerty Cori: 生化学者、アメリカ女性最初のノーベル賞受賞者
2020/9/29 スパコンプログラミング (1), (I) 41
東京工業大学 TSUBAME3.0• HPE ICE-XA
• CPU: Intel Xeon E5-2680v4 2.4 GHz (14 cores) x 2(Hyperthreading enabled)
• GPU: NVIDIA Tesla P100 x 4
• Intel OmniPath x4 (400G)• Memory: 256GB• 540台
スパコンプログラミング (1), (I)
参考:http://www.t3.gsic.titech.ac.jp/sites/default/files/guidance.pdf
2020/9/29 42
今後登場するエクサスケールシステム• 2021春? Perlmutter @ NERSC, 米国Lawrence Berkeley国立研究所
• AMD EPYC CPU+NVIDIA Tesla A100 GPU• 現在の3倍=100 PF を超える (pre-Exa)• https://www.nersc.gov/systems/perlmutter/
• 2021秋 Aurora @ 米国Argonne国立研究所• Intel Xeon CPU (Sapphire Rapids) + Intel GPU Xe (Ponte Vecchio)• 1 Exa Flopsを超える• https://press3.mcs.anl.gov/aurora/
• 2021秋 Frontier @ 米国Oak Ridge国立研究所• AMD EPYC CPU + AMD Radeon Instinct GPU• 1.5 Exa Flopsを超える• https://www.olcf.ornl.gov/frontier/
• 2022秋 El Capitan @ 米国Lawrence Livermore国立研究所• AMD EPYC CPU Zen4 ”Genoa”+ AMD Radeon Instinct GPU• 2 Exa Flopsを超える• https://www.llnl.gov/news/llnl-and-hpe-partner-amd-el-capitan-projected-worlds-
fastest-supercomputer• 中国(Exascaleを3機種開発中?詳細不明) : NUDT, Sugon, NRCPC• EUも計画あり
2020/9/29 スパコンプログラミング (1), (I) 43
革新的ハイパフォーマンス・コンピューティングインフラ ・(HPCI)
文部科学省委託事業http://www.hpci-office.jp/
• 使命:我が国における– 計算資源(スパコン,大規模ストレージ(東西拠点))
– 計算科学推進(HPCI戦略プログラム⇒ポスト京重点課題)
• HPCIコンソーシアム(2012~)– HPCI計算資源運用– 産官学– 資源提供者・利用者によるコミュニティ– 2012年度発足
44
一般社団法人日本流体力学会
財団法人計算科学振興財団
特定非営利活動法人バイオグリッドセンター関西
自然科学研究機構核融合科学研究所
スーパーコンピューティング技術産業応用協議会
神戸大学
東京大学物性研究所計算物質科学研究センター計算物質科学イニシアティブ(分野2「新物質・エネルギー創成」)
東京大学生産技術研究所(分野4「次世代ものづくり」)
計算基礎科学連携拠点(分野5「物質と宇宙の起源と構造」)
名古屋大学 太陽地球環境研究所
独立行政法人宇宙航空研究開発機構宇宙科学研究所
独立行政法人海洋研究開発機構
一般社団法人日本計算工学会
計算生命科学ネットワーク
情報基盤センター群以外の会員リスト
国立研究開発法人理化学研究所計算科学研究機構
高エネルギー加速器研究機構共通基盤研究施設・計算科学センター
情報・システム研究機構 国立情報学研究所
一般財団法人高度情報科学技術研究機構
筑波大学 計算科学研究センター
大阪大学 核物理研究センター
国立研究開発法人産業技術総合研究所情報技術研究部門
東京大学 物性研究所
東北大学 金属材料研究所
情報・システム研究機構 統計数理研究所
自然科学研究機構分子科学研究所 計算科学研究センター
独立行政法人宇宙航空研究開発機構 情報計算工学センター2020/9/29
スパコンプログラミング (1), (I)
HPCI第2階層システム運用&整備計画 (2019年9月時点)東大のみ2020年8月末時点
2020/9/29
スパコンプログラミング (1), (I)
45
BDEC 40+PF
学際大規模情報基盤共同利用共同研究拠点(JHPCN)
• https://jhpcn-kyoten.itc.u-tokyo.ac.jp/ja/• 北大・東北大・東大・東工大・名大・京大・阪大・九大の各大型計算機センター
• 公募型共同研究によって,OFP,Reedbush-H/L, OBCXを無料で使用可能
• 計算科学・計算機科学の分野型横断研究• 各センター教員との共同研究が多い• 国際共同研究,企業共同研究等の制度もあり
46
2020/9/29 スパコンプログラミング (1), (I) 46
47
• 文科省委託費• 東拠点(東京大学柏キャンパス)50PB
• 西拠点(理研R-CCS)50PB
ストレージ
HPCI共用ストレージ
HPCI共⽤ストレージ東拠点東京⼤学・柏キャンパス
・データストレージ(総容量 50 PB)・メタデータサーバ 2 台・⼤容量メモリサーバ、GPUサーバ等
HPCI共⽤ストレージ⻄拠点理研R-CCS・神⼾
・データストレージ(総容量 50 PB)・メタデータサーバ 2 台・メタデータサーバ 2 台
2020/9/29
スパコンプログラミング (1), (I)
新型コロナウィルス (COVID-19)感染症対応• スパコンで早期解決の一助に
• 創薬:治療薬候補の探索
• ウィルスのタンパク質構造予測• ゲノム解析
• パンデミック対策
• 米国• https://covid19-hpc-consortium.org
• 日本• 「富岳」試行利用 (正式稼働前)
https://www.riken.jp/pr/news/2020/20200407_1/• HPCI(12機関、国立大学+JAMSTEC+産総研)
https://www.hpci-office.jp/pages/hpci_covid19
482020/9/29 スパコンプログラミング (1), (I)
49
FY11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Yayoi: Hitachi SR16000/M1IBM Power-7
54.9 TFLOPS, 11.2 TB
T2K Tokyo140TF, 31.3TB
Oakforest-PACSFujitsu, Intel KNL25PFLOPS, 919.3TB
BDEC System (tentative)30+ PFLOPS
Oakleaf-FX: Fujitsu PRIMEHPC FX10, SPARC64 IXfx1.13 PFLOPS, 150 TB
Oakbridge-FX136.2 TFLOPS, 18.4 TB
Reedbush-L HPE1.43 PFLOPS
「計算・データ・学習」融合スーパーコンピュータ
Oakbridge-CXIntel Xeon CascadeLake
6.61 PFLOPS 大規模超並列スーパーコンピュータ
メニーコア型大規模スーパーコンピュータ(JCAHPC:筑波大・東大)
データ解析・シミュレーション融合スーパーコンピュータ
長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ
東大センターのスパコン2基の大型システム,6年サイクル(?)
2020/9/29
RB-H
スパコンプログラミング (1), (I)
Reedbush, HPEBroadwell + Pascal
1.93 PFLOPS
3システム:利用者2,600+,学外55+%• Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal))
• 東大ITC初のGPUシステム, DDN IME (Burst Buffer)• データ解析・シミュレーション融合スーパーコンピュータ
• Reedbush-U: CPU only, 420 nodes, 508 TF (2016年7月~2020年6月退役)• Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017年3月~2021年?)
• 長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ• Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017年10月~2021年?)
• Oakforest-PACS (OFP) (富士通、Intel Xeon Phi (KNL))• JCAHPC (筑波大CCS&東大ITC)• 25 PF, TOP 500で9位 (2017年11月) (日本で2位)• Omni-Path アーキテクチャ, DDN IME (Burst Buffer)• 2016年12月〜
• Oakbridge-CX (OBCX) (富士通、Intel Xeon Scalable (CascadeLake-SP))• 6.61 PF, 1368ノード、うち128ノードにSSD内蔵、Omni-Path• 2019年7月~
502020/9/29 スパコンプログラミング (1), (I)
EngineeringEarth/SpaceMaterialEnergy/PhysicsInfo. Sci. : SystemInfo. Sci. : AlgrorithmsInfo. Sci. : AIEducationIndustryBioBioinformaticsSocial Sci. & EconomicsData
EngineeringEarth/SpaceMaterialEnergy/PhysicsInfo. Sci. : SystemInfo. Sci. : AlgrorithmsInfo. Sci. : AIEducationIndustryBioBioinformaticsSocial Sci. & EconomicsData
研究分野別利用CPU時間割合(2019年度)51
マルチコアクラスタIntel BDW Only(Reedbush-U)
GPUクラスタIntel BDW + NVIDIA P100(Reedbush-H)
工学・ものづくり
地球科学・宇宙科学
材料科学エネルギー・物理学
生物科学生体力学
情報科学:AI
工学・ものづくり
バイオインフォマティクス・医療画像処理・ゲノム解析
情報科学:アルゴリズム.
材料科学
工学・ものつくり地球科学・宇宙科学材料科学エネルギー・物理学
情報科学:システム情報科学:アルゴリズム情報科学:AI教育産業利用
生物科学・生体力学バイオインフォマティクス社会科学・経済学データ科学・データ同化
社会科学経済学
EngineeringEarth/SpaceMaterialEnergy/PhysicsInfo. Sci. : SystemInfo. Sci. : AlgrorithmsInfo. Sci. : AIEducationIndustryBioBioinformaticsSocial Sci. & EconomicsData
EngineeringEarth/SpaceMaterialEnergy/PhysicsInfo. Sci. : SystemInfo. Sci. : AlgrorithmsInfo. Sci. : AIEducationIndustryBioBioinformaticsSocial Sci. & EconomicsData
研究分野別利用CPU時間割合(2019年度)OBCXは2019年10月~2020年6月末(9ヶ月)
52
マルチコアクラスタIntel CLX(Oakbridge-CX)
メニィコアクラスタIntel Xeon Phi(Oakforest-PACS)
工学・ものつくり地球科学・宇宙科学材料科学エネルギー・物理学
情報科学:システム情報科学:アルゴリズム情報科学:AI教育産業利用
生物科学・生体力学バイオインフォマティクス社会科学・経済学データ科学・データ同化
地球科学・宇宙科学
エネルギー・物理学
材料科学
バイオインフォマティクス・ゲノム解析
生物科学生体力学
データ科学
バイオインフォマティクス・ゲノム解析
エネルギー・物理学
工学・ものづくり
地球科学・宇宙科学
材料科学
生物科学生体力学
Reedbushシステム Reedbush-U2016年7月1日 試験運転開始2016年9月1日 正式運用開始2020年6月30日 運用終了
Reedbush-H2017年3月1日 試験運転開始2017年4月3日 正式運用開始
Reedbush-L2017年10月2日 試験運転開始2017年11月1日 正式運用開始
53
Top500: RB-L 291位@Nov. 2017RB-H 203位@Jun. 2017RB-U 361位@Nov. 2016
Green500: RB-L 11位@Nov. 2017RB-H 11位@Jun. 2017
2020/9/29 スパコンプログラミング (1), (I)
2020/9/29 スパコンプログラミング (1), (I) 54
外部接続ルータ 1Gigabit/10Gigabit Ethernet Network
InterConnect( 4x EDR InfiniBand) InterConnect( 4x EDR InfiniBand)
ログインノード群SGI Rackable C1110-GP2
6nodes
NFS Filesystem16TB
Lustre FilesystemDDN SFA14KE x3set
5.04PB
高速キャッシュDDN IME14K x6set
209TB
NAS Storage24TB
E5-2680v4 2.4GHz 14core,256GiB Mem
管理サーバ群SGI Rackable C1110-GP2
9nodes
GbE SW
x6
x6 x2x2(for PBS)
Reedbush-Hx240 (FDRx2/node)
Reebush-Ux420
x36(IME:6x6) x24(OSS(VM):x 12 x2)
x4(MDS:x 2)
x12
高速キャッシュDDN IME240 x8set
153.6 TB
管理用補助サーバ
SGI RackableC1110-GP2 x2
x16(IME:8x2) x2x12
x8 x2x10(Ctrl:8,MDS:2)
Reedbush-Lx128( EDR x2/node) x4
x6 x9x4
x9
x64
x120
x420
x9
Management port
管理コンソールMac Pro
電力管理サーバ
電力計器
Reedbush-USGI Rackable C2112-4GP3420 nodes, 508.03TFLOPS・CPU : E5-2695v4 2.1GHz 18core
Reedbush-HSGI Rackable C1102-GP8120 nodes, 240GPUs, 1.418PFLOPS・CPU : E5-2695v4 2.1GHz 18core ・GPU : NVIDIA Tesla P100 SXM2 x2/node
Reedbush-LSGI Rackable C1102-GP864 nodes, 256GPUs, 1.434PFLOPS・CPU : E5-2695v4 2.1GHz 18core ・GPU : NVIDIA Tesla P100 SXM2 x4/node
E5-2680v4 2.4GHz 14core,128GiB Mem
ライフ/管理ネットワーク 1Gigabit/10Gigabit Ethernet Network
Reedbushのサブシステム
55
Reedbush-U Reedbush-H Reedbush-L
CPU/node Intel Xeon E5-2695v4 (Broadwell-EP, 2.1GHz, 18core) x 2sockets (1.210 TF), 256 GiB (153.6GB/sec)
GPU - NVIDIA Tesla P100 (Pascal, 5.3TF, 720GB/sec, 16GiB)
Infiniband EDR (100G) FDR (56G)×2ch EDR (100G)×2chノード数 420 120 64GPU数 - 240 (=120×2) 256 (=64×4)ピーク性能(TFLOPS) 509 1,417
(145 + 1,272)1,433
(76.8 + 1,358)メモリバンド幅(TB/sec) 64.5 191.2
(18.4+172.8)194.2
(9.83+184.3)
運用 2016.07– 2020.06 2017.03 –2021.11?
2017.10 –2021.11?
2020/9/29 スパコンプログラミング (1), (I)
Oakforest-PACS (OFP)• 2016年12月1日稼働開始• 8,208 Intel Xeon/Phi (KNL)、ピーク性能25PFLOPS
• 富士通が構築
• TOP 500 18位(国内2位),HPCG 11位(国内2位)(2020年6月)
•最先端共同HPC 基盤施設(JCAHPC: Joint Center for Advanced High Performance Computing)• 筑波大学計算科学研究センター• 東京大学情報基盤センター
• 東京大学柏キャンパスの東京大学情報基盤センター内に、両機関の教職員が中心となって設計するスーパーコンピュータシステムを設置し,最先端の大規模高性能計算基盤を構築・運営するための組織
• http://jcahpc.jp
562020/9/29 スパコンプログラミング (1), (I)
Oakforest-PACS 全景
国内最高性能の新スパコン「オークフォレスト・パックス」の前で握手する東大の中村宏情報基盤センター長(左)と筑波大の梅村雅之計算科学研究センター長=1日午後、千葉県柏市の東大柏キャンパス
時事通信www.jiji.com
572020/9/29 スパコンプログラミング (1), (I) 57
Oakforest-PACSの特徴 (1/2)• 計算ノード
• 1ノード 68コア,3TFLOPS×8,208ノード= 25 PFLOPS
• メモリ(MCDRAM(高速,16GB)+DDR4(低速,96GB))
• ノード間通信• フルバイセクションバンド幅を持つ
Fat-Treeネットワーク• 全系運用時のアプリケーション性能に効果,多ジョブ運用
• Intel Omni-Path Architecture
582020/9/29 スパコンプログラミング (1), (I) 58
Oakforest-PACS の仕様59スパコンプログラミング (1), (I)2020/9/29
総ピーク演算性能 25 PFLOPSノード数 8,208計算ノード
Product 富士通 PRIMERGY CX600 M1 (2U) + CX1640 M1 x 8node
プロセッサ Intel® Xeon Phi™ 7250(開発コード: Knights Landing)68 コア、1.4 GHz
メモリ 高バンド幅 16 GB, MCDRAM,実効 490 GB/sec低バンド幅 96 GB, DDR4-2400, ピーク 115.2
GB/sec相互結合網
Product Intel® Omni-Path Architectureリンク速度 100 Gbpsトポロジ フルバイセクションバンド幅Fat-tree網
59
Oakforest-PACS の特徴(2 / 2)• ファイルI/O
• 並列ファイルシステム:Lustre 26PB
• ファイルキャッシュシステム(DDN IME):1TB/secを超える実効性能,約1PB• 計算科学・ビッグデータ解析・機械学習にも貢献
• 消費電力• Green 500でも世界6位
(2016/11)• Linpack: 2.72 MW
• 4,986 MFLOPS/W(OFP)• 830 MFLOPS/W(京)
並列ファイルシステム
ファイルキャッシュシステム
ラック当たり120ノードの高密度実装
602020/9/29 スパコンプログラミング (1), (I) 60
Oakforest-PACS の仕様(続き)並列ファイルシステム
Type Lustre File System総容量 26.2 PBProduct DataDirect Networks SFA14KE総バンド幅 500 GB/sec
高速ファイルキャッシュシステム
Type Burst Buffer, Infinite Memory Engine (by DDN)
総容量 940 TB (NVMe SSD,パリティを含む)Product DataDirect Networks IME14K総バンド幅 1,560 GB/sec
総消費電力 4.2MW(冷却を含む)総ラック数 102
612020/9/29 スパコンプログラミング (1), (I) 61
Oakforest-PACS のソフトウェア• OS: Red Hat Enterprise Linux (ログインノード)、
CentOS および McKernel (計算ノード、切替可能)• McKernel: 理研AICSで開発中のメニーコア向けOS
• Linux互換、Linuxに比べ軽量、ユーザプログラムに与える影響なし
•ポスト京コンピュータにも搭載される予定。• コンパイラ:GCC, Intel Compiler, XcalableMP
• XcalableMP: 理研AICSと筑波大で共同開発中の並列プログラミング言語
• CやFortranで記述されたコードに指示文を加えることで、性能の高い並列アプリケーションを簡易に開発することができる。
• ライブラリ・アプリケーション: オープンソースソフトウェア• ppOpen-HPC, OpenFOAM, ABINIT-MP, PHASE system, FrontFlow/blue,
LAPACK, ScaLAPACK, PETSc, METIS, SuperLU etc.
622020/9/29 スパコンプログラミング (1), (I) 62
Oakbridge-CX (OBCX)
63
2020/9/29 スパコンプログラミング (1), (I)
全体構成64
項目 仕様
総理論演算性能 6.61 PFLOPS総ノード数 1,368=1,240+112+16総主記憶容量 256.5 TiB
ネットワークトポロジーFull-bisection
Fat Tree
並列ファイルシステム
システム名Lustreファイルシステム
サーバ(OSS) DDN ES18Kサーバ(OSS)数 8ストレージ容量 12.4 PBストレージデータ転送速度
193.9 GB/s2020/9/29 スパコンプログラミング (1), (I)
ノードの構成65
項目 仕様
製品名FujitsuPRIMERGYCX2550 M5
Fujitsu PRIMERGY CX2560 M5
ノード数 1240 112+16
CPU
プロセッサ名Intel® Xeon® Platinum 8280 (開発コード名:CascadeLake)
プロセッサ数(コア数) 2 (28+28)
周波数 2.7 GHz理論演算性能 4.8384 TFLOPS
Memory 192 GiB(DDR4)
インターコネクトIntel ® Omni-Path ネットワーク
(100 Gbps)
SSD容量
-1.6 TB(NVMe)
読み出し性能 3.20 GB/s 書き込み性能 1.32 GB/s2020/9/29 スパコンプログラミング (1), (I)
東大情報基盤センターReedbushスーパーコンピュータシステムの料金表(2019年4月1日)
• パーソナルコース(年間)• 75,000円: 8,640ノード時間 (RB-U 1ノードx360日相当)、2セットまで
• グループコース• 75,000円: 8,640ノード時間 (RB-U 1ノードx360日相当) 、複数セット可• RB-Uのみ企業 90,000円: 8,640ノード時間• RB-Hのみ企業 216,000円: 21,600ノード時間 (8,640*2.5)• RB-Lのみ企業 360,000円: 34,560ノード時間 (8,640*4.0)
• 以上は、「トークン制」で運営• 「トークン」が与えられ、使ったノード時間分だけ消費• トークン消費係数が RB-Uは1.0, RB-Hは2.5, RB-Lは 4.0• 最大128ノード (RB-U), 32ノード (RB-H), 16ノード (RB-L)• 大学等のユーザはOakforest-PACS, Oakbridge-CXとの相互トークン移行も可能
• ノード固定もあり
2020/9/29 スパコンプログラミング (1), (I) 66
東大情報基盤センターOakforest-PACSスーパーコンピュータシステムの料金表(2019年4月1日〜)
• パーソナルコース(年間)• 50,000円 : 8,640ノード時間、6セットまで
• グループコース• 50,000円 (企業 60,000円) : 8,640ノード時間、複数セット可
• 以上は、「トークン制」で運営• 「トークン」が与えられ、使ったノード時間分だけ消費
•最大2048ノードまで実行可能• 大学等のユーザはReedbush, Oakbridge-CXとの相互トークン移行も可能
2020/9/29 スパコンプログラミング (1), (I) 67
東大情報基盤センターOakbridge-CXスーパーコンピュータシステムの料金表(2019年10月1日〜)
• パーソナルコース(年間)• 100,000円 : 8,640ノード時間、3セットまで
• グループコース• 100,000円 (企業 120,000円) : 8,640ノード時間、複数セット可
• 以上は、「トークン制」で運営• 「トークン」が与えられ、使ったノード時間分だけ消費• 大学等のユーザはReedbush, Oakforest-PACSとの相互トークン移行も可能
• ノード固定もあり
2020/9/29 スパコンプログラミング (1), (I) 68
GFLOPS(ピーク性能換算)あたり負担金(~W)
69
System JPY/GFLOPSReedbush-U (HPE)(Intel BDW) 61.9
Reedbush-H (HPE)(Intel BDW+NVIDIA P100x2/node) 15.9
Reedbush-L (HPE)(Intel BDW+NVIDIA P100x4/node) 13.4
Oakforest-PACS (Fujitsu)(Intel Xeon Phi/Knights Landing) 16.5
Oakbridge-CX (Fujitsu)(Intel Cascade Lake (CLX)) 20.7
2020/9/29 スパコンプログラミング (1), (I)
BDEC: 「計算・データ・学習」融合スパコン
• BDEC: Big Data & Extreme Computing• 2021年5月(以降)運用開始予定• (D+L)による(S)の高度化 AI for HPC
• 「シミュレーション・データ・学習(S+D+L)」融合,2種類のノード群• シミュレーションノード群(S, SIM)
• 従来のスパコン• CPU only
• データ・学習ノード群(D/L, DL)• データ解析,機械学習• GPU Cluster• データ・学習ノード群の一部は外部リソース(ストレージ,サーバー,センサーネットワーク他)に直接接続
• Hierarchical, Hybrid, Heterogeneous (h3)• ファイルシステム:共有(大容量)+高速
70
BDEC: S + D + L
Fast File System高速ファイルシステム(FFS)
External Network外部ネットワーク
Simulationシミュレーションノード群
(S, SIM)Shared File
System共有ファイルシステム(SFS)
Data/Learningデータ・学習ノード群(D/L,DL)
スパコンプログラミングの意義
ユーザにとって:
• 必要な計算をより短時間に終わらせる
• 計算にかかるコストをより安くできる
• 同じ時間、予算でより多くの計算ができる
• スパコンのシステム特性を理解し、特性に合わせたプログラミング
• 多レベルの並列性を引き出す、アルゴリズムの工夫
運用側にとっても:
• 貴重なリソースなので、有効に使ってほしい• RB-Uは現時点で90%近くの利用率(現実的にはほぼ満杯)
• 100億円のマシンの利用効率を10%上げれば10億円得したことに
2020/9/29 スパコンプログラミング (1), (I)
• OFPの場合• 借料:月額1.1億円、
5年半総額で72.2億円、筑波大と折半
• 電気代:年間約4億円(空調、水冷込み)、3.2 MWくらい
71
並列プログラミングとは?• 逐次実行のプログラム(実行時間T )を、p台の計算機を使って、T / pにすること。
• 素人考えでは自明。• 実際は、できるかどうかは、対象処理の内容(アルゴリズム)で 大きく 難しさが違う• アルゴリズム上、絶対に並列化できない部分の存在• 通信のためのオーバヘッドの存在
• 通信立ち上がり時間• データ転送時間
スパコンプログラミング (1), (I) 72
T
T / p
2020/9/29
MPIとは• Message Passing Interface
• メッセージ通信用のライブラリ規格
• TCP/IPのソケット通信などに相当,ずっと記述は容易• 大規模計算が可能
• プロセス数の多い並列システム(Massively Parallel Processing (MPP)システム)に使える
• 数万〜百万プロセスまで対象に考えられている
• 移植が容易• API(Application Programming Interface)の標準化
• スケーラビリティ、性能が高い• 通信処理をユーザが記述することによるアルゴリズムの最適化が可能
2020/9/29 スパコンプログラミング (1), (I) 73
Oakforest-PACS 設置の動画
2020/9/29 スパコンプログラミング (1), (I) 74
富岳紹介ビデオ
理研R-CCS• https://www.youtube.com/watch?v=K-UIrgwAtaI富士通
• https://www.youtube.com/watch?v=tEKc-iIMhpg
2020/9/29 スパコンプログラミング (1), (I) 75
来週へつづく並列数値計算の基礎
2020/9/29 スパコンプログラミング (1), (I) 76