Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
「T2Kオープンスパコン(東大)」 概要
東京大学情報基盤センター
T2K overview 2
T2Kオープンスパコン(東大),T2K(東大)(東大), (東大)
• 2008年6月稼動開始• 2008年6月稼動開始
• T2Kオープンスパコン仕様(筑波大,東大,京大)
• 日立製作所製• 日立製作所製– 952ノード,15,232コア
– ピーク性能140.1 TFLOPSピ ク性能140.1 TFLOPS– HA8000クラスタシステム
2
T2K overview 33
T2K Open Supercomputer Alliance http://www.open-supercomputer.org/
T2K(東大): Hitachi HA80000
• AMD Quad Core Opteron 2.3GHz (9.2GFLOPS)• Quad Core×4 ⇒ 1node(16cores)• cc-NUMA
Socket #0: Memory Socket #1: Memory
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3L3 L3
BridgeMyrinet
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1 gMyrinet
Core Core Core Core Core Core Core CoreCore Core Core Core
L1 L1 L1 L1L2 L2 L2 L2
L3
Core Core Core Core
L1 L1 L1 L1L2 L2 L2 L2
L3L3 L3
BridgeMyrinet
Myrinet
T2K overview 44
Socket #2: Memory Socket #3: MemoryGbE
RAID
T2K overview 55
T2Kオープンスパコン達手前から筑波 東大 京大手前から筑波,東大,京大
T2K overview 66
T2Kオープンスパコン(東大)
T2K overview 77
T2K Open Supercomputer(Todai Combined Cluster)
Hi hi HA8000Hitachi HA8000
952 nodes 15 232 cores
Storage1PB
952 nodes, 15,232 cores140TFLOS, 32TB
T2K overview 88
T2K Open Supercomputer(Todai Combined Cluster)
36nodes16 nodes
4 login nodes
■ Type-B2.5GB/sec2x Myrinet-10G
Type-B16 nodesType-B
512 nodesType-A
256 nodesType-B
Storage1PB
Type AType B
128 nodesType-A
■ T A■ Type-A5.0GB/sec4x Myrinet-10G
T2K overview 99
T2K Open Supercomputer(Todai Combined Cluster)
36nodesType-B16 nodes
Type-B
4 login nodes■ Type-B2.5GB/sec2x Myrinet-10G
Type B
512 nodesType-A256 nodes
Type-B
Storage1PB
Type B
Gbit/10Gbit
128 nodes■ T AMyrinet
128 nodesType-A
■ Type-A5.0GB/sec4x Myrinet-10G
T2K overviewKrylov Kyoto 2008 10
東大センタースパコンの歴史10
SR2201(ピーク性能300GFLOPS)を1
1.E+03core #FLOPS
1.E+02
ale
FLOPSMemory
1.E+01
lativ
e Sc
a
1.E+00
Rel
1.E-01SR2201 SR8000 SR8000/MPP SR11000/J1 SR11000/J2 HA8000(T2K)SR2201 SR8000 SR8000/MPP SR11000/J1 SR11000/J2 HA8000(T2K)
1996-2001 1999-2005 2001-2006 2005- 2007- 2008-
東京大学情報基盤センター スパコン11
http://www.cc.u-tokyo.ac.jp/
• 2つのシステム
– Hitachi SR11000 (~2011 9)Hitachi SR11000 ( 2011.9)– Hitachi HA8000
• 1 600人のユーザー(学外が半分)• 1,600人のユーザー(学外が半分)
– SR11000: 450名HA8000 1150名– HA8000: 1150名
– 大学(研究,教育),研究機関,企業
東京大学情報基盤センター スパコン1システム 6年 3年周期でリプレ ス1システム~6年,3年周期でリプレース
HITACHI SR11000 model J2 T2K(東大)(HA8000クラスタシステム)
Total Peak performance : 18.8 TFLOPSTotal number of nodes : 128Total memory : 16384 GBPeak performance per node : 147 2 GFLOPS
Total Peak performance : 140 TFLOPSTotal number of nodes : 952Total memory : 32000 GBPeak performance per node : 147 2 GFLOPSPeak performance per node : 147.2 GFLOPS
Main memory per node : 128 GBDisk capacity : 94.2 TBIBM POWER5+ 2.3GHz
Peak performance per node : 147.2 GFLOPSMain memory per node : 32 GB, 128 GBDisk capacity : 1 PBAMD Quad Core Opteron 2.3GHz
ノード製品名:HITACHI HA8000-tc/RS425
2011年10月より新機種稼働
1212
2011年10月より新機種稼働
Hitachi SR11000 model J2
• IBM POWER5+ 2.3GHz (9.2GFLOPS)• Dual Core×4 ⇒ 「MCM(Multi Core Module)」×2 ⇒ 1node(16cores)Dual Core 4 MCM(Multi Core Module)」 2 1node(16cores)• based on NUMA architectures, but small latency of memory, huge cache
青木,中村,助川,齋藤,深川,中川,五百木(2005)スーパーテクニカルサーバーSR11000 モデルJ1のノードアーキテクチュアと性能評価情報処理学会論文誌:コンピュ ティングシステム 45 SIG12(ACS11) 27 36 より作成
C
Memory
L3 C C
Memory
L3 C C
Memory
L3 C C
Memory
L3 CC
Memory
L3 CC
Memory
L3 C C
Memory
L3 CC
Memory
L3 C C
Memory
L3 CC
Memory
L3 C C
Memory
L3 CC
Memory
L3 C
情報処理学会論文誌:コンピューティングシステム 45-SIG12(ACS11),27-36 より作成
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
Core
L1L2
L3 Core
L1
C
L1L2
L3 CPU
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 CPU
L1
C
L1L2
L3 CPU
L1
C
L1L2
L3 CPU
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
C
L1L2
L3 C
L1
T2K overview 1313Memory
CoreL3 CPU
Memory
CoreL3 Core
Memory
CoreL3 Core
Memory
CoreL3 Core
Memory
CoreL3 CPU
Memory
CoreL3 CPUCoreL3 CPU
Memory
CoreL3 Core
Memory
CoreL3 CoreCoreL3 Core
Memory
CoreL3 Core
Memory
CoreL3 CoreCoreL3 Core
Memory
CoreL3 Core
Memory
CoreL3 CoreCoreL3 Core
T2K(東大): Hitachi HA80000
• AMD Quad Core Opteron 2.3GHz (9.2GFLOPS)• Quad Core×4 ⇒ 1node(16cores)
NUMA• ccNUMA• Careful control of core-memory-data configuration required: numactl
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
L2 L2 L2 L2L3
Memory
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core
L1
Core Core Core Core Core Core Core CoreCore Core Core CoreCore Core Core CoreCore Core Core Core Core Core Core CoreCore Core Core CoreCore Core Core Core
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
L1 L1 L1 L1L2 L2 L2 L2
L3
T2K overview 1414
Memory MemoryMemoryMemoryMemory MemoryMemoryMemory
GeoFEM Benchmark 1-node with 16-cores: ICCG
Hitachi SR11000/J2Power 5+ 2.3GHz x 16
T2K/TokyoOpteron 2.3GHz x 16
147.2 GFLOPS/node100 GB/s for STREAM/Triadd
147.2 GFLOPS/node20 GB/s for STREAM/Triadd
20.0 20.0
15.0
tio (%
)
15.0
tio (%
)
Flat MPI.HB 4x4HB 8x2HB 16x1
10.0
man
ce R
at
10.0
man
ce R
at HB 16x1
5.0
Perfo
rm Flat MPI.HB 4x4HB 8x2HB 16x1
5.0
Perfo
rm0.0
1.E+04 1.E+05 1.E+06 1.E+07
DOF
0.01.E+04 1.E+05 1.E+06 1.E+07
DOF
T2K overview 1515
OpenMP/MPI Hybrid
FEM Applications32 nodes, 512 cores
CASE-1: NUMA controlCASE-2: + F.T.CASE 3: + Further Reordering
1.50
ce
InitialCASE-1CASE-2CASE 3
CASE-3: + Further Reordering
1.00
Perfo
rman
c CASE-3 0 1 2 3Flat MPI
H b id 0 1 2 3
0.50
Rel
ativ
e P Hybrid
4x4
Hybrid
0 1 2 3
0 1 2 3
0.00Flat MPI HB 4x4 HB 8x2 HB 16x1
Hybrid8x2
Hybrid 0 1 2 3
T2K overview 1616
Parallel Programming Models 16x1
稼働率変遷(ノード固定除く)17
90
100SR11000 HA8000(T2K)
70
80
60
70
40
50%
20
30
10
20
0
08-0
408
-05
08-0
608
-07
08-0
808
-09
08-1
008
-11
08-1
209
-01
09-0
209
-03
09-0
409
-05
09-0
609
-07
09-0
809
-09
09-1
009
-11
09-1
210
-01
10-0
210
-03
10-0
410
-05
10-0
610
-07
10-0
810
-09
10-1
010
-11
10-1
211
-01
11-0
211
-03
利用ノード時間積による利用分野18
T2K (FY.2009)専用キュ +教育+企業・イノベ ション(全体の約40%)専用キュー+教育+企業・イノベーション(全体の約40%)
エンジニアリング
地球科学 宇宙物理地球科学・宇宙物理
物質科学・量子系
エネルギー
情報科学
教育
企業企業