24
TECH GUIDE Abaqus ® ユーザのための SGI ® Technology Guide Authors Scott Shaw†, Dr. Olivier Schreiber†, Tony DeVarco†† †Senior CAE Applications Engineer, SGI Applications Engineering ††Director of SGI Virtual Product Development Solutions Published in cooperation with Dassault Systèmes SIMULIA September, 2014

Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

  • Upload
    vanhanh

  • View
    230

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

Abaqus®ユーザのための SGI® Technology Guide

AuthorsScott Shaw†, Dr. Olivier Schreiber†, Tony DeVarco††

†Senior CAE Applications Engineer, SGI Applications Engineering††Director of SGI Virtual Product Development Solutions

Published in cooperation with Dassault Systèmes SIMULIA

September, 2014

Page 2: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 2

T A B L E O F C O N T E N T S

1.0 目的 32.0 Abaqus® ポートフォリオ 33.0 Abaqusのプリプロセッサとポストプロセッサ 34.0 Abaqusの並列処理能力 3

4.1 コンピューティング関連用語 34.2 並列性(Parallelism) 3

5.0 Abaqus の問題の種類 46.0 バッチスケジューラによるAbaqusの実行 47.0 ベンチマークに使用するSGIハードウェア 58.0 ソフトウェア環境 59.0 ベンチマークモデル 510.0 結果と考察 511.0 Abaqus/Standard S4B 612.0 S4BデータセットのGPUコンピューティングによる加速 713.0 Abaqus GPU スレッドの配置 7 13.1 S4Bに関するGPU性能 814.0 Abaqus/Explicit E6 データセットおよびMPI通信 8

14.1 MPInside データ収集 914.2 24コアを用いたE6データセットのプロファイル 1014.3 E6 データセット MPI メッセージサイズのプロファイル 1114.4 Abaqus ファイル I/O 11

15.0 Abaqus/Standard S6: タイヤフットプリント 1216.0 S6データセットのネットワークインターコネクト性能 1217.0 SGI PerfBoost™ によるSGI MPI Libraryの利点 13–14

17.1 ハイパースレッディングの効果 1517.2 コア周波数の効果およびインテル® ターボブースとテクノロジー 16

18.0 Abaqusについてのサイジング指針 1718.1 陰解法 1718.2 陽解法 1718.3 Abaqus のストレージ考慮事項 18

19.0 SGI システムについて 1819.1 SGI Rackable® クラスタ 1819.2 SGI® ICE™ X システム 1919.3 SGI® UV™ 2000 1919.4 SGI Performance Tools 2019.5 SGI System Management Tools 2019.6 リソースおよびワークロードのスケジューリング 21

20.0 まとめ 2121.0 References 2222.0 SGIについて 2223.0 Dassault Systèmes SIMULIA について 22

Page 3: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 3

1.0 目的本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性能計算(HPC)機の選択に関して、お客様がより良い選択ができるように支援することを目的にしています。本ガイドでは、3種類のSGIプラットフォーム、SGI® Rackable™クラスタ、SGI® ICE™ Xクラスタ、およびSGI® UV™ 2000 Shared Memory Parallel(SMP)プラットフォームにおいて実行されるAbaqusの性能を考察します。これら3つのコンピュータプラットフォームに関する性能結果を示すとともに、マルチコアIntel®プロセッサを使用することの利点、異なるネットワークトポロジー間のトレードオフ、NVIDIA®Compute GPUデバイスの性能、およびSGI® MPI PerfBoostの使用に関して議論します。Abaqusを実行するHPCコンピューティングプラットフォームについてのサイジング指針および推奨事項も含みます。

本ガイド用に選択したAbaqusモデルは、各Abaqusリリースに添付されています。共通のデータセットを使用することにより、さまざまなプラットフォームに関するシステム性能の特徴が得られ、全般的な性能比較が可能になります。

2.0 Abaqus ポートフォリオリアルスティックシミュレーション用のダッソー・システムズブランドSIMULIAのAbaqusは、業界最高水準の製品群であり、広範囲の線形および非線形のモデルをシミュレーションするための包括的でスケーラブルな有限要素解析(FEA)、マルチフィジックスソルバ、およびモデリングツールのセットを提供することができます。Abaqusは、力学、構造、航空宇宙、自動車、バイオメディカル、土木、エネルギー、および関連工学ならびに研究応用において、応力、伝熱、クラック発生、破壊その他の解析に使用できます。Abaqusには、以下の4つの中核製品があります。Abaqus/CAE、Abaqus/Standard、Abaqus/Explicit、およびAbaqus/CFDです。本ガイドでは、SGIシステムで実行するAbaqus/StandardおよびAbaqus/Explicitを重点的に扱います。

3.0 AbaqusのプリプロセッサとポストプロセッサAbaqus/CAEは、Abaqus解析用のモデリングおよび可視化環境をユーザに提供します。CADモデル、先進的なメッシング、および可視化に直接アクセスすることができ、Abaqus/CAEはAbaqusユーザのために最適なモデリング環境です。いったんモデルが作製され、メッシュが生成されると、モデルデータと履歴データを含む入力ファイルが作成されます。モデルデータには、要素、要素プロパティ、マテリアル定義などが含まれます。通常Abaqus/CAEは、ファイル入力の前処理、解析ジョブ投入、および解析モデルの後処理に使用します。

4.0 Abaqusの並列処理能力

4.1 コンピューティング関連用語

コンピューティング・ノードとは、1つのホスト、1つのブレード、1つのシャーシなどと同義語であり、1つのMACアドレスおよび1つのIPアドレスにより識別されます。コンピューティング・ノードは、それぞれに4個(クアッドコア)、6個(ヘキサコア)、8個、12個またはそれ以上のコアを有するプロセッサを搭載可能な2つのソケット(最も一般的)、またはそれより多くのソケットを備えています。

4.2 並列性(Parallelism)

共有メモリ並列計算(SMP)は、DOループ処理またはサブルーチン生成を中心に1980年台に出現し、Open Multi-Processingアプリケーションプログラミング・インタフェース(OpenMP)およびPOSIX Pthread規格にまとまりました。並列効率は、算術浮動小数点演算対データアクセスの比率により影響を受けます。

分散メモリ並列計算 (DMP)は、物理または数学的ドメイン分割を中心に1990年台末に出現し、MPIアプリケーションプログラミング・インタフェースに集約されました。並列効率は、分割により生成される境界により影響を受けます。

• SMPは、すべてのコアで共有されたメモリを使用するノード内通信に基づきます。クラスタは、SMP計算ノードで構成されますが、各ノードは互いに通信できないので、スケーリングは単一の計算ノードに制限されます。

Page 4: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 4

• DMPプログラミングモデルは、すべてのアプリケーションスレッドが他の計算ノードと通信が可能なMPI通信に基づいています。

• MPI+OpenMPのハイブリッドでは、計算ノード間のギャップが埋められ、クラスタ内のノードは互いに通信でき、ループ処理のためにOpenMPまたはPthreadが生成されます。この組み合わせプログラミングモデルでは、ネットワークインターコネクトのメッセージトラフィックが軽減され、大抵の場合、性能が改善されます。

DMPは、SMPよりも粒度が粗いので、可能な場合には共有メモリシステム内でDMPを実行することが好ましいです。解析の種類に応じて、Abaqus/StandardではMPI(DMP)、OpenMP(SMP)、またはその組み合わせであるハイブリッドMPI+ OpenMPアプローチに基づく並列性が利用されますが、Abaqus/Explicitは、純粋なMPI実装です。

以下は、Abaqusプログラミングモデルの内訳です。

• 陽解法処理はMPIを用いて行われます

• 要素処理はMPIおよびスレッド並列を用いて行われます

• 反復解法ソルバはMPIを使用します

• ダイレクトスパースソルバはMPIおよびスレッド並列を使用します

• AMSとランチョスソルバはスレッド並列を使用します

5.0 Abaqusの問題の種類Abaqusの実行時間は、以下の要因に影響されます。図1は、モデルサイズが大きくなるときのジョブ実行時間に基づくチャートを示しています。

• Abaqus/Standard線形および非線形の陰解法ソルバは、自由度(DOF)とイテレーション数に基づきます。DOF、要素、およびシミュレーションのイテレーション数を増すと、モデル実行時間に影響します。

• Abaqus/Explicitは、要素の数および事象の継続時間に基づきます。要素の数またはシミュレーションの継続時間を増すと、モデル実行時間に影響します。

6.0 バッチスケジューラによるAbaqusの実行バッチスケジューラのジョブスクリプトは、各Abaqus解析の実行に要求される必要なコンピューティングリソースを定義する役割を担っています。定義する重要なリソースは以下のとおりです。

• 解析に使用する計算ノードの範囲およびノード当たりのMPIタスク数

• ノードおよび隣接ノードの内部のソケットを横断するアプリケーションスレッドの配置

• ノード容量に割り当てが収まるプロセスメモリ管理

• スクラッチファイルと解析結果ファイルの解析前後のステージング

バッチスケジューラ/リソースマネージャは、フロントエンドログインから、またはWeb GUIポータルにより、1つまたは複数の計算ノードで実行するジョブをディスパッチします。バッチ環境下で最良の実行時間を達成するために、入出力ファイルへのディスクアクセスは、高性能共有並列ファイルシステムに配置する必要があります。

高性能ファイルシステムは、イン・メモリ(RAM)、ローカルドライブ、並列またはネットワーク接続ストレージなどのファイルシステムのいずれかを使用することができます。ディスクレスコンピューティング環境では、一般に使用される2つの選択肢は、並列ファイルシステムとネットワーク接続ストレージです。

Figure 1: Abaqus Runtime Factors

Page 5: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 5

7.0 SGI Hardware Used For Benchmarksベンチマークに使用するSGIハードウェア

SGI Platform SGI® Rackable® Cluster SGI® ICE™ X SGI® UV™ 2000

Processors Type & Clock Speed Intel® Xeon® E5-2697 v2 2.70 GHz Intel® Xeon® E5-2690 v2 3.00 GHz Intel® Xeon® CPU E5-4627 3.30 GHz

Total Cores/Node 24 20 16 (total 512 cores)

Memory per Node 128GB 64GB 4TB

Local Storage 3x SATA 1TB 7.2 RPM 3Gb/s Drive Diskless & Lustre PFS Storage IS5600 RAID6 Storage

Network Interconnect IB FDR 4x IB FDR 4x NUMALink 6

Number of Nodes 32 Compute Nodes 144 Compute Blades 32 Compute Blades (SMP)

Operating System SLES11 SP3 SLES11 SP3 SLES11 SP3

8.0 ソフトウェア環境• SGI® Performance Suite

• Abaqus 製品スイート 6.13 以上

• インテル® Parallel/Cluster Studio XE (インテル® Math Kernel Library (Intel® MKL)に付属)

• Altair PBS Professional® Batch Scheduler バージョン12 以降

9.0 ベンチマークモデルさまざまなSGIプラットフォームの性能をとらえるために、3つのAbaqusモデルを使用し、プロセッサ性能、メモリ帯域幅、ディスク性能、および通信について検証しました。

• Abaqus/Standard S4B シリンダヘッドのボルトアップ、5Mの自由度(DOF)、5イテレーション。このベンチマークは、エンジンブロック上へのシリンダヘッドのボルト留めをシミュレートする、緩やかな非線形がある静的解析です。S4Bモデルは、1回のイテレーション当たりの大規模な浮動小数点演算(1.03E+13) が大部分を占める、計算依存およびメモリ帯域幅に制限される例です。計算時間の大部分は、ソルバで費やされます。

• Abaqus/Standard S6 タイヤのフットプリント、730K DOF、177イテレーション。このベンチマークは、自動車タイヤのフットプリントを決定する強い非線形の静的解析です。S6モデルは、1回のイテレーション当たりの浮動小数点演算(4.99E+10)が少ないために、計算と比較して計算と比較して通信に依存します。

• Abaqus/Explicit E6 このベンチマークは、各球の間に隙間がある多数の同心球から成ります。球はすべてが単一の一般接触領域を持つように配置され、外側の球は激しく振り動かされ、その結果含まれている球の間に複雑な接触相互作用が生じます。E6モデルは、メモリ帯域幅依存の問題の例です。

10.0 結果と考察

各データセットの総実行時間を測定する際に、入力ファイルプリプロセッサ、ソルバ、およびポストプロセッサの段階における各ステップについて、秒単位で時間を積算しています。次に総実行時間を求め、「一日あたりのジョブ数」として定義する24時間の間の解析実行数に基づいた評価値に変換しています。「一日あたりのジョブ数」レーティングシステムを使用することにより、類似のシステムアーキテクチャを比較する場合に、マルチコアおよびマルチノードのより優れたスケーリングの指針を提供できます。

Page 6: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 6

Abaqusデータセットの解析を行う際に、解析が計算、メモリ、通信、またはI/Oなどに依存するかどうかをよりよく理解するために、出力ファイルを確認することは良いことです。この情報は、主に解析により、またはデータチェックオプションを使用することにより生成される出力ファイルで見つけることができます。まず確認すべき場所は、出力*.datファイルのMemory EstimateおよびProblem Sizeを考察することです。もう1つのベストプラクティスは、各ステップのイテレーションあたりのソルバ実行時間をチェックし、各ステップのイテレーション間の時間変化量が60秒を超えて変化していないことを確認することです。一般的には、システムリソースが効率的に活用されていることを確認するためにソルバ実行時間を確認します。変化が大きく、予測の範囲を外れた高い値になる場合には、メモリ使用量、Linux®ページキャッシュ使用量、ディスク動作、エンタープライズ向けシステム監視デーモンプロセスなど、システムリソースを監視することを推奨します。時々、大掛かりなシステムリソースモニタリングを行っている顧客サイトが見られますが、それは高性能の計算アプリケーションのシステムリソースを不足させ、その結果所要時間が増加しています。エンタープライズシステムモニタリングパッケージは、細かい間隔で使用することが推奨されていますが、システムを運用するにあたり考慮すべき事項として、システムリソースをチェックする最低間隔を推奨します。

11.0 Abaqus/Standard S4B

前に述べたようにS4Bモデルは5M DOFで、イテレーション当たりの浮動小数点演算が大部分を占める計算依存の解析です。ソルバが1E+12より大きな浮動小数点演算を伴う計算処理が大部分を占める場合には、これらのタイプのモデルでは、Abaqus S6データセットのような通信依存解析よりもうまくスケーリングを行えることがわかっています。Abaqus S6データセットではソルバで費やされる時間に対して、メッセージ通信により多くの時間が費やされます。

図2は、SGI ICE X、SGI Rackable、およびSGI UV 2000 (SMP)サーバのS4Bモデル実行性能の評価結果です。Y軸は「一日あたりのジョブ数」(jobs/day)率、X軸は使用されたコア数で、チャートにおいてシステムを比較することができます。歴史的には、大きなSMPシステムは、計算プロセッサ能力およびメモリ帯域幅の性能が低いために、クラスタより遅くなっています。しかしXeon® E5-4000 v2シリーズプロセッサを搭載するUV 2000サーバについては、コア数が32を超えるとUV 2000は他の2つのサーバプラットフォームの性能を凌駕しました。再び下のチャートを見ると、SGI UV 2000サーバは、コア数が少ないとjob/dayレーティングも小さいですが、Turbo Boostを有効にしてプロセッサ周波数を高め、使用するソケットにつき8コアプロセッサを用いることでメモリ帯域幅を広げることにより、job/dayレーティングはシミュレーションのスケール変更に応じて改善されることがわかります。実際に全体的なUV 2000の性能増加は、プロセッサ当たりコア数の多い他の2つのSGIシステムと比較した場合、6~10%でした。

Figure 2: System Comparisons and Job/Day Performance Rating

Page 7: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 7

図2のSGI ICE XとSGI Rackableを比較する「コア数」チャートを考察する際に、2つのプラットフォーム間でレーティングはかなり近いことが分かります。計測を行った結果、ソケット当たり8~10のコアであり、Abaqus/Standardの計算にとって良好であるということが分かりました。インフィニバンドレイテンシは、 QDRとFDR IBファブリック間で同じままですが、インフィニバンド帯域幅はQDR 4xファブリックと比較して約30%高速です。

最新リリースAbaqus 6.13は、Intel Xeon® E5 v2シリーズAVX2拡張機能をサポートする新しいIntel® MKLライブラリを含んでいます[1]。新しいAVX2拡張256ビットパイプラインは、先代のIntel Xeon® E5 v1シリーズプロセッサキテクチャーと比較して倍精度浮動小数点演算が2倍改善されています。

12.0 S4BデータセットのGPUコンピューティングによる加速GPUコンピューティングは、高性能コンピューティングにおける最近のトレンドであり、400~500の浮動小数点処理コアをサポートするGPUデバイスに計算タスクを分担させることにより行います。Abaqus 6.11は、Abaqus/Standardにおいて計算タスクをGPUデバイスで同時に実行可能な小さいタスクに分割することにより、計算依存解析を劇的に改善可能なGPUデバイスをサポートします。メインCPUにより通常扱われる計算タスクは、こうしてより効率的に稼働することができ、計算ノード内部でより多くのメモリ帯域幅にアクセスすることができます。場合によっては、1つのGPUデバイスを有する1つの計算ノードで、それぞれ12のコアを有する2~3の計算ノードと同等の速さを実現できます。Abaqus/Standardの最近のリリース(6.12)では、計算ノードの複数のGPUをサポートし、クラスタ内で複数のGPU計算ノードに対してスケールします。

13.0 Abaqus GPUスレッドの配置考慮すべき事項の1つは、NVIDIA GPUカードがインストールされているPCIeバスにアクセスするために、NUMAノードとGPUソルバスレッド間の距離がしきい値を超えた場合には、NVIDIA® GPU PCIe帯域幅は、性能低下を生じるおそれがあることです。GPUデバイスまで、およびGPUデバイスからのPCIe性能を測定するために、性能をとらえるSHOC[4]ベンチマークを実行しました。

SHOC PCIeベンチマーク調査は、SGI Rackable計算ノードに関して実施しています。NUMAローカリティが前に議論したように懸念事項であるかどうかを見極めました。SHOCテストを実行し、結果を図3に示しました。Intel®アーキテクチャに関するSHOCテストに基づいて、NUMA局所性による性能への悪影響は観察できませんでした。Nvidia Tesla K40mまたはTesla K20mとPCIeバスをテストしました。

Figure 3: Nvidia GPU NUMA Locality and PCIe Bus Performance

Page 8: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 8

13.1 S4Bに関するGPU性能

これまで見出した経験則では、ダイレクトスパースソルバが計算処理により支配される場合、1テラフロップ(1E+12)より大規模な浮動小数点演算に関して、GPUダイレクトスパースソルバの性能は向上します。明らかに、GPUを用いたダイレクトスパースソルバの性能を向上させられる条件が他にもある可能性がありますが、簡単に確認できる重要な指標として、イテレーション当たりの浮動小数点演算があることが分かった。Abaqusデータセットs2a(1.86E+12 フロップス/イテレーション、475K DOF)とS4B(1.02E+13 フロップス/イテレーション、5M DOF)は、GPU処理の恩恵を受ける計算依存型の問題の好例です。図4は、ノード当たり1つのGPUを有するノード当たりのJobs/dayレーティングを示すグラフです。

Figure 4: Relative GPU Performance & Comparisons

14.0 Abaqus/Explicit E6データセットおよびMPI通信Abaqus/Explicit E6データセットについては、アプリケーションからのMPIコールを調べるSGIのMPInside[5]プロファイルツールを用いて、MPI通信特性を調べています。MPInsideプロファイルツールは、一切のコード変更を行わずにIntel® MPI、HP-MPI™、Platform MPI™、OpenMPI、SGI® MPIなどの複数のMPI実装をサポートします。MPInsideは、AbaqusシミュレーションのファイルI/Oパターンをよりよく理解するために、各ランクからのPOSIXファイルI/Oシステムコールのプロファイルもできます。アプリケーションのファイルI/Oパターンをよりよく理解でき、Lustre™、NFSなどの適切なファイルシステムタイプ、またはローカルストレージ、ローカルファイルシステムとリモートファイルシステムの組み合わせを選択する際に役立ちます。

Page 9: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 9

14.1 MPInside データ収集Abaqus/Explicit E6モデルを用いて実験を行い、図5に示したように2つの主要なMPIコール、MPI_IprobeとComputeを詳しく観察しています。MPI_Iprobe MPI通信コール(MPI_Iprobe MPI communication call)は、MPIメッセージが届いた際に通知のために使用され、computeは、コードの計算部分です。図5に示す最初の積重ね棒は、「12コア/1ノード」を用いた実験で、2番目の実験は、「1コア/12ノード」を用いています。

これら2つのテストの目的は、計算ノードがCPU、L3キャッシュ、およびメモリ帯域幅にストレスを加えている12のコアと共に実行している際のシステムリソースの利用を見極めるためです。12のノードとノード当たり1つのコアを用いて同じテストを実行した際には、アプリケーションMPIランクは、L3キャッシュ全体と各計算ノードのメモリ帯域幅に最大限のアクセスを行っています。「1コア/12ノード」テストの場合には、どのようなシステムリソースが利用されているかということと、各MPIランクのファイルシステムアクセスパターンを調査しました。さまざまなテストに基づいて、Abaqus/Explicit E6データセットは、計算において1.4倍速く、通信では1.08倍速いに過ぎません。2つの実験の結果を考察すると、Abaqus/Explicit E6モデルは、キャッシュおよびメモリ帯域幅の性能に影響されやすいと結論付けることができます。

Figure 5: MPInside Profiling Results with E6 Dataset

Page 10: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 10

14.2 24コアを用いたE6データセットのプロファイル

図6に2つの12コア計算ノードを用いてAbaqus/Explicit E6モデルを実行した際のMPIコールの内訳を示しています。チャートは、Y軸に累積時間を示し、X軸は0~23までのプロセッサコアIDです。記号の説明には、時間経過と共に累積したMPIコールをすべて記載しています。図6をよく観察すると、85%の時間が計算に占められ、次にMPI_IprobeコールにおけるMPIメッセージの監視により15%の時間が占められていることに気が付きます。

Figure 6: MPInside Profiling Results with E6 Dataset

Page 11: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 11

14.3 E6データセットMPIメッセージサイズのプロファイル

調査したMPInsideプロファイルサンプルには、図7に示したようなMPIメッセージサイズ分布が含まれていました。MPIメッセージのうち47%は0~128バイト範囲に分布し、MPIメッセージサイズ全体は、小さいメッセージサイズである0~64KB範囲に分布することがわかりました。

すべてのMPIランクから655秒間にわたり収集された全体のMPI通信は約32GBでした。収集されたこのデータに基づいて、約50MB/secはMPIトラフィックのみであることがわかります。この量のMPIトラフィックは、インフィニバンドがQDR 4xスループットを用いて約3.2GB/secを処理することができるので少ない量です。ギガビットイーサネット(GigE)を用いると、複数のE6データセットを実行する場合には、簡単にネットワークを飽和させる可能性があります。1つの解析でGigEネットワークの全帯域幅の約57%を消費するからです。MPIメッセージサイズを知っていると、新しいインターコネクト技術を評価する際に役立つ可能性があります。

Figure 7: MPI Message Sizes

14.4 Abaqus ファイルI/O

アプリケーション性能を調査する際に、I/Oがどのように全体の実行時間に影響を与える可能性があるかということ、およびI/Oサブシステムが実行時間の遅さのボトルネックである可能性があるかどうかということを知ることは良いことです。E6データセットのMPInsideプロファイルデータを調査する際に、図8に示したように、ファイル操作の約84~92%が1~8KB範囲で生じることに気づきました。大部分のローカル付属ストレージデバイスでは、1~8KBの転送サイズは問題にはならないはずですが、Lustre™のように大きな1MB I/O転送用に設計されている並列ファイルシステムでは、スクラッチデータ用の並列ファイルシステムを選択する際には留意すべき点です。

Figure 8: MPI I/O Patterns

Page 12: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 12

15.0 Abaqus/Standard S6: タイヤフットプリントデータセット説明セクションで前述したように、S6データセットは、解析内での衝突回数が多いためネットワーク通信に依存しました。データセットが計算依存かどうかを明らかにするために網羅的にテストセットを実行することなく、S6 *.datファイルを調べ、「Memory Estimate」部分を捜すことで、4.4E+10フロップス、すなわち44ギガフロップス程度の浮動小数点演算数だと決定することが出来ます。一般に計算依存解析は、テラフロップ以上の範囲で発生します。

16.0 S6データセットのネットワークインターコネクト性能クラスタベースソリューションの構成を設計する段階では、しばしば次のような疑問が湧いてきます。どのようなネットワーク技術が最良だろうか?結局は通常、次の2種類のネットワーク技術になります。インフィニバンド(IB)またはギガビットイーサネット(GigE)です。インフィニバンドは速いけれども比較的高価で、GigEは安価だけれども遅いことが知られています。そのため選択はかなり複雑で、結論は特定のネットワークタイプのアプリケーション性能によってしばしば決まります。

さまざまなネットワークインターコネクトの性能差に焦点を当て、図9に高性能低レイテンシのInfiniBand FDR 4x HCAと、中性能高レイテンシのGigEインターコネクトを使用した場合の性能差を示しました。複数のノードにまたがるさまざまなコア数について時間を解析する場合には、コア数が増加するにつれてGigEで記録される時間に比べてIB時間が高速で減少することに気づくことができます。2~4ノードインフィニバンドでは、MPI通信はGigEに比べて2~3倍高速になり得ます。制御環境下でこれらのテストを実行する場合には、GigEネットワークをMPIメッセージパッシング用にのみ使用していたので、GigE性能についてはこれが最良の条件でした。GigEが唯一のインターコネクトであるようなクラスタでは、GigEネットワークは、クラスタモニタリングツール、ユーザアクセス、入出力ファイルの転送、NFSトラフィック、およびMPIメッセージパッシングトラフィックと共有されるので、この比率は異なる値になります。GigEネットワークインターコネクトは、29~100 usecレイテンシで約120 MB/sec処理し、FDR 4x InfiniBand ConnectX3 HCAインターコネクトは、1 usecレイテンシで約6.8GB/sec処理することができます。IPoIB (IP over InfiniBand) TCP/IP層を活用すると、性能は約640 MB/secで頭打ちになります。RackableおよびICE XクラスタについてのSGIのGlobal Benchmark Centerでは、4つのインフィニバンドネットワークポートにまたがるNFSトラフィックに、IPoIB TCP/IP層を使用しています。複数のネットワークポートを使用することにより、NFSトラフィックの分布が改善され、全体性能は、4つのインフィニバンドポートを用いることにより約2.5GB/secに達します。

Figure 9: Network Interconnect Performance

クラスタにおいて複数の解析を同時実行している場合には、GigE性能は著しく低下し、予想を超えた所要時間になる可能性があり、混在HPCコンピューティング環境には非効率なプラットフォームとなります。

Page 13: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 13

17.0 SGI PerfBoostによるSGI MPI Libraryの利点MPI実装の重要な特長は、MPI/OpenMPアプリケーションのプロセススレッドをプロセッサコアに結びつける機能です。これはアプリケーションプロセスのマイグレーションを防止することが望ましいからです。アプリケーションプロセスが計算ノード中でマイグレーションを起こすと、メモリ参照が分散し、メモリ参照のリードバックにより多くの時間が費やされる可能性があります。現在Platform MPI™に置き換えられているHP-MPI™は、CPU指定、およびMPIランクのために限定的なコア配置サポートを提供しますが、MPIランクにより生成されたSMPスレッドのためのコア配置サポートは提供していません。

SGI PerfBoostおよびSGI MPIの組み合わせを用いて、omplaceコマンドは、各ノード内部でハイブリッドMPI/OpenMPプロセスの便利な配置を独自に実現しています。MPIライブラリはリンクレスで、SGI Performance SuiteにバンドルされているPerfBoost機能を介して利用することができます。Perfboost shimライブラリは、MPIコールをインターセプトし、最適化するのみで、他のアプリケーションルーチンは介入されることなく実行されます。サポートされるMPI実装は、Platform MPI (HP-MPI)、IntelMPI、OpenMPI、およびMPICHです。

 

 

SGI  Message  Passing  Toolkit  MPI  library  

3rd  Party  MPI  Platform  MPI,  Intel  MPI,  

OpenMPI,  MPICH  

SGI  MPI  PerfBoost  Shim  

Library  

Abaqus  abq6.x  Binary

MPI  PerfBoost  interception

Application  Link  Time

SGI®  MPI  PerfBoost

Figure 10: SGI PerfBoost Messaging Flow to SGI MPI

図11は、SGI PerfBoostがMPI+OpenMPハイブリッドサポートを行い、使用しようとするコアそれぞれに対してアプリケーションスレッドの分配を効率的に行える一例です。SGI PerfBoost環境内部で、方針に基づいてMPIランクとOpenMPスレッドのバインディングを制御します。SGI PerfBoostを使用することにより、Abaqusに標準添付のPlatform MPIを使用するよりも2倍高速になる可能性があります。Platform MPIは、SGI PerfBoost環境がSMPシステムに行うような厳格なプロセス配置制御は行いません。

Page 14: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 14

Figure 11: SGI PerfBoost/MPI Performance

Abaqus開始プロセスでは、Abaqus実行環境を定義するためにいくつかのpythonスクリプトが実行される前処理段階を再現するために、一連のスクリプトを実行します。SGIアプリケーションエンジニアリングチームは、SIMULIAエンジニアリンググループと緊密に協力し、共通のグローバル環境を開発してMPI環境が初期化される前にSGI PerfBoostライブラリのプレローディングを可能にしました。この環境では、SGI PerfBoostはPlatform MPIにより、ネイティブのMPIコールをインターセプトすることが可能で、共通のグローバル環境ファイルを用いてネイティブのMPIコールをSGI MPIコールに変換します。PerfBoostディレクティブを使用することにより、ユーザインタラクションがなくなり、ユーザは各解析用のカスタムPerfBoost環境ファイルのセットアップではなく、エンジニアリング解析に集中することができます。

SGI PerfBoostを支持するもう一つの説得力のある所見は、バッチシステムと共にSMPシステムでPlatform MPIを使用すると、Platform MPIはCPUSETをサポートしていないので、想定外のスレッドプロセス配置に到達する可能性があることです。CPUSET[6]は、タスクのCPUおよびメモリ配置を、タスクの現在のCPUSET内のリソースのみに束縛します。CPUSETは、大規模システムで動的ジョブ配置を管理するために不可欠な枠組みを提供します。CPUSETが無ければ、アプリケーションスレッドはSMPシステム中に分散し、制御をカーネルスケジューラに渡し、想定外の実行時間に至る可能性があります。

他にもSGI MPIには、SMPシステムで実現可能な興味深い特長があります。この特長は、MPI-2の拡張機能で、いわゆる一方向MPIプリミティブ(put/get)です。一方向プリミティブの使用は、従来の双方向通信プリミティブ(send、receiveなど)と比較して通信コストがかなり低いため、大幅な性能向上が得られる可能性があります。この改善は、2つの原因、著しく低い通信レイテンシおよび同期バリア数の減少に由来します。

Page 15: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 15

17.1 ハイパースレッディングの効果

Intelが初めてIntel® Xeon® 5500シリーズプロセッサを導入した時、このプロセッサは、1つのコアを物理および論理コアとして2つの実行ユニットのように見せるハイパースレッディング(HT)と呼ばれる新技術を搭載しました。HTが有効になっている場合、OSの観点からは、/proc/cpuinfo出力を問い合わせたとき、2倍の数のコアが利用できることに気づきます。SGIのプラットフォームで利用可能なもう一つのツールは、「cpumap」コマンドです。「cpumap」コマンドは、プロセッサの情報、およびHTコアなどのコアIDを出力します。下図12は、「cpumap」コマンドの出力の一例です。

r1i7n0 /store/sshaw> cpumapWed Jul 9 23:27:32 CDT 2014r1i7n0.ice.americas.sgi.com

model name : Intel(R) Xeon(R) CPU E5-2690 v2 @ 3.00GHzArchitecture : x86_64cpu MHz : 3000.000cache size : 25600 KB (Last Level)

Total Number of Sockets : 2Total Number of Cores : 20 (10 per socket)Hyperthreading : ONTotal Number of Physical Processors : 20Total Number of Logical Processors : 40 (2 per Phys Processor)

==================================================================================

Processor Numbering on Node(s)

Node (Logical) Processors------ -------------------------0 0 1 2 3 4 5 6 7 8 9 20 21 22 23 24 25 26 27 28 291 10 11 12 13 14 15 16 17 18 19 30 31 32 33 34 35 36 37 38 39

Figure 12: The SGI cpumap command output

ハイパースレッディングによる性能向上を測定するために、2つのXeon® E5-2600 v2シリーズプロセッサを用いて計算ノードのテストをいくつか実行しました。第1のテストは、実行時間970秒で、各プロセッサの物理コアのみを用いた16コアでした。第2のテストは、16の物理コアと16のHTコアの合計32コアを用いて解析しました。実行時間は、858秒でした。再度、同じ32コアでも2つの16コア計算ノードを用いた解析を行ったところ(HTは有効にせず)、解析は582秒で完了し、図13に示すように、16コア単一ノードテストに比べ40%性能が向上しています。

Figure 13: Effects of Intel’s Hyper-Threading Feature

Page 16: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 16

17.2 コア周波数の効果およびインテル® ターボブーストテクノロジー

ターボブーストは、ソケット熱設計枠に依存する制御限界範囲内で、コア動作周波数を上げることにより性能を向上させるための機能で、これもIntel® Xeon® 5500シリーズで初めて導入されています。このモードの起動は、任意の瞬間におけるアクティブなコア数により機能します。これはOpenMPスレッドまたはMPIプロセスが親プロセスの下でアイドルである可能性があるため生じます。例えばIntel® E5-2667 v2のベース周波数3.30GHzについては、1つないし2つのコアが活動中、8コアプロセッサは、約4.0GHzまで周波数を上げることができますが、3つないし4つのコアが活動中の場合では、約3.8GHzまでしか周波数を上げることができません。活動中のコアに基づく可能なターボブースト周波数を下表2に示しています。図14は、ノード当たり16コアを使用しているS4Bデータセットを用いた解析中の活動中コアのターボブースト性能です。

Max Core Frequency E5-2667 3.30 GHz

Turbo per Active Cores 1c 2c 3c 4c 5c 6c 7c 8c

Max Turbo Frequency (GHz) 4.00 3.90 3.80 3.70 3.60 3.60 3.60 3.60

Table 2: Turbo Boost Frequencies Based on Active Cores

Figure 14: Intel® Turbo Boost on E5 Series Processors

大規模な計算には、インテルのターボブーストテクノロジーを活用することにより、実行時間が改善される可能性があります。第1世代のインテルターボブースト機能では、周波数インクリメントは3つに限られていました。新しいIntel® E5シリーズプロセッサは第2世代のインテルターボブースト機能であり、周波数インクリメントは、プロセッサコアの活動状態に応じて8段階の100MHz単位のインクリメントが可能です。システムBIOSでインテルターボブースト機能を有効にし、インテルスピードステップLinuxカーネルモジュールをロードし、Intel® E5シリーズプロセッサからその性能の恩恵を十分に受けることを推奨します。

Abaqus処理量についてIntel® E5シリーズプロセッサを評価する際に、価格性能比のスイートスポットは、RackableおよびICE XクラスタについてはE5-2680 v2 2.80GHzプロセッサであることが分かっています。電力消費量が少なく、ターボブーストの最大周波数が3.60GHzだからです。SGI UV 2000サーバについては、ターボブースト最大周波数がE5-2680 v2プロセッサの性能に近いので、Intel® Xeon® CPU E5-4627 v2 3.30 GHzプロセッサを推奨します。次の表3には、比較のためにさまざまなプロセッサモデル、周波数、およびワット数を示しています。

Page 17: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 17

Intel® Ivy Bridge-EP & EX Processors

Model E5-2670 v2 (10c) E5-2680 v2 (10c) E5-2690 v2 (10c) E5-4627 v2 (8c)

Core Freq 2.50 GHz 2.80 GHz 2.90 GHz 3.30 GHz

Peak TB/1C Active 3.30 GHz 3.60 GHz 3.80 GHz 3.80 GHz

TB 8C Active 2.90 GHz 3.10 GHz 3.30 GHz 3.60 GHz

TDP 115W 130W 135W 130W

Table 3: Intel® Processor Model, Frequencies and Wattage for Comparison

18.0 Abaqusについてのサイジング指針Abaqus用のHPCプラットフォームを構築する場合には、陰解法および陽解法の組み合わせによって、それぞれの設定は異なる可能性があります。従来のスケーリング方法を用いて、陰解法の処理量の自由度または陽解法の処理量の要素数に基づいて、設定を3種類のグループに分解することができます。3種類のコンピューティングプラットフォームは、小規模グループクラスタ、中規模部門クラスタもしくはUV/SMPシステム、または大規模エンタープライズクラスタもしくはUV/SMPシステムです。以下は、陰解法及び陽解法のための指針です。下に示したチャートは、2008年のSIMULIA Community Conferenceから引用したものです[7]。

18.1 陰解法

線形の静的解析• 線形ジョブは、単一ノードで外部にスケーリングしな

いSMPベースの固有値ソルバを使用します。そのためこの場合には、SGI UVまたは12以上のコアを有する「ファット」ノードにより所要時間が改善されます。

• 固有振動数および振動モードの形の抽出には、スクラッチデータ用の高性能ストレージファイルシステムが必要です。

• メモリ推奨は、4~8GB/コアです。

非線形の静的解析• 500K~2M DOFの小規模ないし中規模ジョブにつ

いては、2~4GBメモリ/コアを推奨します

• 2M DOFを超える大規模ジョブについては、4~8GBメモリ/コアを推奨します

18.2 陽解法

• 100K~400Kの要素の小規模ないし中規模ジョブについては、2GBメモリ/コアが一般的です。

• 400K以上の要素の大規模ジョブについては、4GBメモリ/コアを推奨します。さらに多くのメモリが利用できれば、ファイルI/OをLinuxのバッファキャッシュにキャッシュし、I/O性能を改善できます。

• 複雑なモデルタイプについては、Abaqus/Explicitの性能は、64~128コアにおけるスケーラビリティの限界およびノード間メッセージングのため、高コア数での実行では影響を受けます。

Page 18: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 18

18.3 Abaqus のストレージ考慮事項

計算構造の力学のAbaqus陰解法ソルバは大規模な結果とリスタートファイルを生成し、解析、および周波数時間ステップ情報を*.odb、*.stt、*.res、*.mdlファイルに出力します。Abaqusプロファイルセクションで前述したように、Abaqusのディスクへの、およびディスクからのI/O転送は1~8Kの範囲で行われることを確認しましたが、解析は書き込みI/O操作が支配的です。ダイレクトスパースソルバによる陰解法解析は、LanczosまたはAMLSソルバによる解析と比較して、I/Oパターンが非常に異なる可能性があります。Lanczosソルバでは、固有振動数の固有値抽出およびディスクサブシステムへの頻繁なアクセスのために、I/O要求が一層求められます。以下は、ソルバおよびワークフローに基づくローカルスクラッチストレージの考慮事項です。

NFS, CIFS, pNFS, GPFSIn�niteStorage™ Cluster NAS

19.0 SGIシステムについて19.1 SGI Rackable® クラスタ

SGI Rackable standard-depthラックマウント式C2112-4RP4サーバは、56 Gb/sまでサポートする2U当たり最高96コアを有する高密度アーキテクチャにおいて、ノード当たり512GBメモリまでサポートしています。FDRおよびQDR InfiniBand、SUSE® Linux® Enterprise ServerまたはRed Hat® Enterprise Linux Serverを稼働する12コアIntel® Xeon®プロセッサE5-2600 v2シリーズおよびDDR3メモリによりTCOを削減します。

Figure 15: Overhead View of Server with the Top Cover Removed and Actual Server

Page 19: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 19

19.2 SGI® ICE™ X システム

SGI ICE Xは、4年以上にわたり世界最速の分散メモリ型スーパーコンピュータです。その性能の優位性は、研究室においてのみならず、お客様のサイトにおいても実証されており、その中には世界最大かつ最速のInfiniBand計算クラスタシステムを持つサイトもあります。システムは、Intel® Xeon®プロセッサE5-2600 v2シリーズのみから成る計算ノードで構成することも、Intel® Xeon®プロセッサとIntel® Xeon Phi™ コプロセッサの両方、またはNvidia®計算GPUから成る計算ノードで構成することも可能です。SUSE® Linux® Enterprise ServerやRed Hat® Enterprise Linux上で実行すると、SGI ICE Xはラックあたり172テラフロップスを超える性能を有し、ノード数を36から数万まで拡張できます。

SGI ICE Xは、スイッチおよびシングルプレーンまたはデュアルプレーンのFDR InfiniBandインターコネクトトポロジーを選択することにより、さまざまなトポロジー設計が可能です。統合されたブレード設計により、ラックレベルの冗長電源や、空冷、もしくは温水か冷水による冷却機能が備わり、ストレージや可視化のオプションもご利用できます。

Figure 16: SGI ICE X Cluster with Blade Enclosure Pair

19.3 SGI® UV™ 2000

SGI UV 2000は、スケーラブルでキャッシュコヒーレントな共有メモリアーキテクチャです。SGI UV 2の製品ファミリーは、ブレードベースのアーキテクチャであるNUMAflex®により、シングル・システム・イメージ(SSI) を最大2,048コア(4,096スレッド)まで拡張可能です。SGI UV 2には、Intel® Xeon®プロセッサE5-4600や最新のIntel® Xeon®プロセッサE5-4600 v2製品ファミリーが搭載されています。このシステムでは、SUSE Linux Enterprise ServerやRed Hat® Enterprise Linuxなど、変更を加えていないバージョンのLinuxを実行できます。SGI UVでは、NVIDIA® Quadro®、NVIDIA® Tesla® K40 GPUコンピューティングアクセラレーター、Intel® Xeon Phi™など、スケーラブルなグラフィックスアクセラレータカードもサポートします。メモリは、コアアロケーションにかかわらず最大マルチユーザ、異機種混合のワークロード環境の柔軟性に割り当てられます。クラスタ上では問題を分解しなければならず、利用可能な多数のノードが必要であるのに対して、SGI UVは、クラスタプラットフォームの制限に比べてメモリリソース不足のためにジョブが中断される懸念がより少なく、メモリを多く必要とする問題を任意の数のコアおよびアプリケーションライセンス利用で実行することができます。

Figure 17: SGI UV 2000 SMP and Compute and Base I/O blades

Page 20: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 20

19.4 SGI Performance Tools

SGI Performance Suiteを用いることでさらに高レベルなLinux performanceを提供します。ハードウェアおよびプロセッサテクノロジーがスケーリングを継続している間に、管理ソフトウェアの性能はますます複雑化しています。SGIは、大規模なサーバおよびクラスタにおいて、テクニカルコンピューティングの性能向上を続けています。SGI Performance Suiteでは、SGI ProPack™ 7の強力な装備や機能を新規ツールや拡張機能と共に取り入れ、お客様が必要なコンポーネントに絞ってご購入頂ける、新しくより柔軟性のある製品パッケージを提供します。

Figure 18: SGI Performance Suite Components

19.5 SGI System Management Tools

SGI Management Centerでは、すべてのSGIシステムの管理に関する機能を起動でき、きわめて重要なシステムの評価指標のモニタリングを行うことができる、強力でありながら柔軟なインターフェイスを提供します。またソフトウェアメンテナンス手順を改善し、繰り返しタスクを極限まで自動化することによりシステム管理に費やす時間とリソースを削減します。その結果、総所有コストが下がり、生産性が向上し、お客様の技術投資利益率が改善されます。SGI Management Centerは、機能および性能をさまざまな管理者のニーズに合わせた複数のエディションが利用可能で、システム管理性能をさらに拡張するオプション機能も利用できます。

Figure 19: SGI Management Center Web Interface

Page 21: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 21

19.6 リソースおよびワークロードのスケジューリング

リソースおよびワークロードのスケジューリングにより、大規模で複雑なアプリケーション、ダイナミックで予測できないワークロードを管理し、限られたコンピューティングリソースを最適化することができます。SGIは、選択可能な複数のソリューションを提供し、お客様のニーズに的確に応えます。

Altair Engineering PBS Professional®

Altair PBS Professional®は、SGIのクラスタおよびサーバすべてのテクニカルコンピューティングスケジューリング用のSGI推奨ワークロード管理ツールです。PBS Professionalは、SGIが販売し、Altair EngineeringとSGIがサポートを行います。

特長:

• ポリシー主導型のワークロード管理。生産性を向上し、サービスレベルを満たし、ハードウェアとソフトウェアのコストを最小限に抑えます。

• ワークロード主導自動ダイナミックプロビジョニングのような機能についてSGI Management Centerとの統合業務

Adaptive Computing Moab® HPC Suite Basic EditionAdaptive Computing Moab® HPC Suiteは、スケーラブルシステムのワークロードのためのインテリジェントな予測的スケジューリングを可能にします。

特長:• ポリシー主導型のワークロード管理。生産性を向上し、サービスレベルを満たし、ハードウェアとソフトウェアのコ

ストを最小限に抑えます。

• TORQUE resource manager同梱

20.0 まとめ本書では、Nvidia® Tesla™ K40 GPUを含め、3つのSGIプラットフォームでのAbaqus/StandardとAbaqus/Explicitの性能の紹介と分析を行いました。用いた3つのデータセットに基づいて、ベンチマークを実施する際に通常用いる解析技術を用いて、問題について計算、メモリ帯域幅、および通信への依存性も確認しました。

長年にわたりCAE関連のお客様の意見に耳を傾け、共に働き、SGIは全体的なシステム管理要件とコスト、および単純化したデータ管理と保管ニーズを削減する統合された計算・ストレージソリューションを提供しています。SGIのフレキシブルx86ベースサーバのポートフォリオでは、簡単にスケーリングを行え、変化していくお客様の計算およびI/O要件を満たすことができます。SGI UV製品ファミリーでは、小規模で始め、お客様のニーズの展開とともに連続的に強化することができる、唯一の単一ノード、キャッシュコヒーレントな共有メモリプラットフォームを提供しています。SGIのUV 2000は、Intel® Xeon®プロセッサE5ファミリーを用いて作成して、Abaqus/ StandardとAbaqus/Explicitを含む全CAEワークフローを単一プラットフォーム上に集約することができます。SGI ICE XおよびSGI Rackableサーバは、最高品質の工場組み込み・試験済みクラスタコンピューティング環境です。そして最後に、SGI Modular InfiniteStorageはこうしたCAE帯域幅依存アプリケーションにより生成した莫大な量の技術データを保存し、アクセスできる能力を提供します。

Page 22: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 22

21.0 References[1] Intel Corporation, Intel® AVX Optimization on 2nd generation Intel® Core™ Processors,

May 9th, 2011

[2] Intel Corporation, www.intel.com Intel® Xeon® Processor E5 Family

[3] Intel Corporation, www.intel.com Intel® Xeon® Processor X5600 Family

[4] Oak Ridge National Lab, Future Technologies Group, https://github.com/spaffy/shoc/wiki

[5] D. Thomas, J.P Panziera, J. Baron, MPInside: a Performance Analysis and Diagnostic Tool for MPI Applications, Proceedings of the first joint WOSP/SIPEW international conference on Performance engineering, 79-86, 2010.

[6] CPUSET, Linux Programmer’s Manual, www.kernel.org

[7] 2008 SIMULIA Community Conference proceedings

22.0 SGIについてSGIは、お客様が発見、革新、収益力を手にするための時間を加速できる計算、データ解析、データ管理のための高性能ソリューションにおけるグローバルリーダーです。詳細につきましてはsgi.comをご覧ください。

23.0 About Dassault Systèmes SIMULIA Dassault Systemes SIMULIAアプリケーションには、Abaqus、fe-safe、Isight、Tosca、Simulation Lifecycle Managementなどがあり、ユーザが物理ベースシミュレーションおよび高性能コンピューティングを強化し、実世界での製品、自然、生命などの振る舞いを考察することを可能にします。Dassault Systemes 3DEXPERIENCE®プラットフォームの不可欠な部分として、SIMULIAの写実的なシミュレーションアプリケーションにより、高価で時間のかかる実際の試作品に本腰を入れて取り組む前に、高度な情報を備えたミッションクリティカルな設計・技術判断を行うプロセスが加速されます。詳細につきましてはhttp://www.3ds.com/simuliaをご覧ください。

Global Sales and Support: sgi.com/global

© 2012-2014 Silicon Graphics International Corp. All rights reserved. SGI, UV, ICE, InfiniteStorage, Rackable and the SGI logo are registered trademarks or trademarks of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries. Intel and Xeon are trademarks of Intel Corporation. All other trademarks are property of their respective holders 10102012 4395 18092015

Page 23: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性

T E C H G U I D E

SGI® Technology Guide for Abaqus® 23

〒 150-6031  東京都渋谷区恵比寿 4-20-3 恵比寿ガーデンプレイスタワー 31F

本 社西 日 本 支 社中 部 支 社つ く ば 営 業 所東 北 営 業 所北 海 道 営 業 所

TEL: 03-5488-1811(大代表)  FAX: 03-5420-7201TEL: 06-6479-3918(代表)   FAX: 06-6479-3919TEL: 0565-35-2561(代表)   FAX: 0565-35-2189TEL: 029-858-1551(代表)   FAX: 029-858-1071TEL: 022-221-2301(代表)   FAX: 022-221-2304TEL: 011-806-3570(代表)   FAX: 011-806-3501

©2014 SGI Japan, Ltd. All Rights Reserved. SGI、SGI のロゴマークは日本 SGI 株式会社の登録商標です。インテル、Intel、Xeon は、米国およびその他の国におけるインテル コーポレーションまたはその子会社の商標または登録商標です。 その他の会社名、製品名は、各社の登録商標または商標です。(12/2014)

http://www.sgi.co.jp

Page 24: Abaqusユーザのための SGI Technology Guide ® Technology Guide for Abaqus 3 1.0 目的 本SGI技術ガイドでは、ダッソー・システムズのSIMULIAブランドのAbaqusソフトウェアを最適に実行するための高性