42
次世代MD専用計算機 MDGRAPE4開発と今後の展開 泰地 真弘人 理化学研究所 生命システム研究センター 副センター長 主任研究員 [email protected]

次世代MD専用計算機 - bscrc.jp

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 次世代MD専用計算機 - bscrc.jp

次世代MD専用計算機  MDGRAPE-­‐4開発と今後の展開

泰地 真弘人    理化学研究所          生命システム研究センター 副センター長          主任研究員    [email protected]  

Page 2: 次世代MD専用計算機 - bscrc.jp

Challenges  in  Molecular  Dynamics  simula@ons  of  biomolecules

n Timestep    〜fsec  

n Target  @mescale    μsec〜sec  

 To  cover  109〜1015  @mescale  difference  

Size

Time

nm μm mm

fs

ps

ns

μs

ms

s

Molecular

Vibration

Local Structural Changes

Large Structural Changes

Cell

K computer

Page 3: 次世代MD専用計算機 - bscrc.jp

Scaling  challenges  in  MD

n 〜50,000  FLOP/par@cle/step  n Typical  system  size  :  N=105  n 5  GFLOP/step  n 5TFLOPS  effec@ve  performance    1msec/step  =  170nsec/day    Rather  Easy  

n 5PFLOPS  effec@ve  performance    1μsec/step  =  200μsec/day???    Difficult,  but  important    

Page 4: 次世代MD専用計算機 - bscrc.jp

Scaling of MD on K Computer

Strong scaling 〜50 atoms/core ~3M atoms/Pflops

4

1,674,828 atoms

Page 5: 次世代MD専用計算機 - bscrc.jp

What  is  GRAPE?  

n GRAvity  PipE  n Special-­‐purpose  accelerator  for  classical  par@cle  simula@ons  ▷ Astrophysical  N-­‐body  simula@ons  ▷ Molecular  Dynamics  Simula@ons  

 

J. Makino & M. Taiji, Scientific Simulations with Special-Purpose Computers, John Wiley & Sons, 1997.

Page 6: 次世代MD専用計算機 - bscrc.jp

History  of  GRAPE  computers  

Eight Gordon Bell Prizes `95, `96, `99, `00 (double), `01, `03, `06

Page 7: 次世代MD専用計算機 - bscrc.jp

GRAPE  as  Accelerator  

n Accelerator  to  calculate  forces    by  dedicated  pipelines  

 Host  Computer  

GRAPE  

Most  of  Calcula>on  →  GRAPE  Others                                        →  Host  computer  

Par>cle  Data  

Results  

• Communica>on  =  O  (N)  <<  Calcula>on  =  O  (N2)  • Easy  to  build,  Easy  to  use  • Cost  Effec>ve  

Page 8: 次世代MD専用計算機 - bscrc.jp

GRAPE  in  1990s

n GRAPE-­‐4(1995):  The  first  Teraflops  machine

Host CPU ~ 0.6 Gflops Accelerator PU ~ 0.6 Gflops Host: Single or SMP

Page 9: 次世代MD専用計算機 - bscrc.jp

GRAPE  in  2000s  

n MDGRAPE-­‐3:  The  first  petaflops  machine

Host  CPU    ~  20  Gflops    Accelerator  PU    ~  200  Gflops    Host:  Cluster  

Scientists not shown but exist

Page 10: 次世代MD専用計算機 - bscrc.jp

Sustained  Performance  of  Parallel  System  (MDGRAPE-­‐3)  

n  Gordon  Bell  2006  Honorable  Men@on,  Peak  Performance  n  Amyloid  forming  process  of  Yeast  Sup  35  pep@des  n  Systems  with  17  million  atoms  n  Cutoff  simula@ons  (Rcut  =  45  Å)  n  0.55sec/step  n  Sustained  performance:      185  Tflops  

n  Efficiency  ~  45  %  n  ~million  atoms  necessary  

 for  petascale  

Page 11: 次世代MD専用計算機 - bscrc.jp

Problem  in  Heterogeneous  System  -­‐  GRAPE/GPUs n In  small  system  ▷ Good  accelera@on,  High  performance/cost  

n In  massively-­‐parallel  system  ▷ Scaling  is  olen  limited  by  host-­‐host  network,  host-­‐accelerator  interface

HostComputer

Accelerator

HostComputer

Accelerator

Host Network

High-Latency

Low-Bandwidth

HostComputer

Accelerator

General-purpose core

Embeddedmemories

Accelerator

General-purpose core

Embeddedmemories

Low-Latency

High-BandwidthLow-Latency

System-on-Chip

Low-BandwidthHigh-LatencyNetwork

Typical Accelerator System SoC-based System

Page 12: 次世代MD専用計算機 - bscrc.jp

Anton

n  D.  E.  Shaw  Research  n  Special-­‐purpose  pipeline    +  General-­‐purpose  CPU  core      +  Specialized  network  

n  Anton  showed  the  importance  of  the  op@miza@on  in  communica@on  system

R. O. Dror et al., Proc. Supercomputing 2009, in USB memory.

Page 13: 次世代MD専用計算機 - bscrc.jp

MDGRAPE-­‐4 n  Special-­‐purpose  computer  for  MD  simula@on  n  Test  planorm  for  special-­‐purpose  machine  n  Target  performance  ▷ 20μsec/step  for  100K  atom  system  ▷ 8.6μsec/day  (2fsec/step)  

n  Target  applica@on  :  GROMACS  n  Comple@on:    1Q  2014  n  Enhancement  from  MDGRAPE-­‐3  ▷ 130nm  →  40nm  process  ▷ SoC  Integra,on  of  Network  /  CPU  ▷ Keep  system  as  simple  as  possible  

Page 14: 次世代MD専用計算機 - bscrc.jp

MDGRAPE-­‐4  System

48 Optical Fibers

12 lane 6Gbps Optical

12 lane 6Gbps Electric = 7.2GB/s (after 8B10B encoding)

Node (2U Box) Total 64 Nodes (4x4x4) =4 pedestals

MDGRAPE-4 SoC Total 512 chips (8x8x8)

Page 15: 次世代MD専用計算機 - bscrc.jp

MDGRAPE-­‐4  Node

Page 16: 次世代MD専用計算機 - bscrc.jp

MDGRAPE-­‐4  System-­‐on-­‐Chip

n 40  nm  (Hitachi),  ~  230mm2  

n 64  force  calcula@on  pipelines    @  0.8GHz  

n 64  general-­‐purpose  processors    Tensilica  Extensa  LX4    @0.6GHz  

n 72  lane  SERDES  @6GHz  

Page 17: 次世代MD専用計算機 - bscrc.jp

SoC  Block  Diagram

Network Unit FPGA IF

Global Memory

x y z 6Gbps x 12 x 6 100MHz x 128

Bus Arbiter/DMAC

IMem

DMemCore

IMem

DMemCore

8 Pipelines

8 Pipelines

8 Pipelines

Bus Arbiter/DMAC

IMem

DMemCore

IMem

DMemCore

IMem

DMemCore

InstructionMemory (1)

InstructionMemory (2)

InstructionMemory (CGP)

Pipeline Blocks GP BlocksControl GP

MessageQueue

Page 18: 次世代MD専用計算機 - bscrc.jp

SoC  Physical  Image SerDes & Network IFs

SerDes & Network IFs

Ser

Des

& N

etw

ork

IFs

Pipelines

Pipelines

GP Cores

GP Cores

Global Memory

Control GP

FPG

A In

terfa

ce

Inst. Mem.

Inst. Mem.

Page 19: 次世代MD専用計算機 - bscrc.jp

Embedded  Global  Memories  in  SoC

n ~1.8MB  n 4  Block  n For  Each  Block  ▷ 128bit  X  2  for  General-­‐purpose  core  ▷ 192bit  X  2  for  Pipeline  ▷ 64  bit  X  6  for  Network  ▷ 256bit  X  2  for  Inter-­‐block    

   

GM4 Block 460KB

GM4 Block 460KB

GM4 Block 460KB

GM4 Block 460KB

Network 2 Pipeline

Blocks

2 GP Blocks

Page 20: 次世代MD専用計算機 - bscrc.jp

Paralleliza@on  of  Force  Calcula@on

n in  small  number  of  par@cles  n We  have  to  explore  many  ways  of  paralleliza@on  

1.  Index  i GRAPE-­‐3 2.  Index  j MDGRAPE-­‐3 3.  Calcula@ons  of  f GRAPE-­‐1    

Fi = f (ri, rj )j∑

Page 21: 次世代MD専用計算機 - bscrc.jp

i-­‐Paralleliza@on

n Parallel  Calcula@on  of  Fi  n O(N)  Reads  →  O(NNc)  calc  →  O(N)  writes  n Use  of  Ac@on-­‐Reac@on  Symmetry:    O(NNc)  writes  with  possible  conflicts.    Most  of  GPU  implementa@on  avoid  this.  

n Nproc  ≳  N  ~  105-­‐6  

 Not  enough!  

 

Fi = f (ri, rj )j∑

Page 22: 次世代MD専用計算機 - bscrc.jp

Broadcast  Paralleliza@on  

n  In  par@cle  simula@ons    n Two-­‐body  forces  

n For  parallel  calcula@on  of  Fi,      we  can  use  the  same    

n Broadcast  Paralleliza@on    -­‐  relax  Bandwidth  Problem  

 

Pipeline 1

Pipeline 2

Pipeline i

Page 23: 次世代MD専用計算機 - bscrc.jp

j-­‐Paralleliza@on

n Parallel  Calcula@on  of    

n Reduc@on  of  Fi(k)  is  necessary  ▷ Fast  reduc@on  /  synchroniza@on  is  required  ▷ This  kind  of  paralleliza@on  will  be  important    

   

Fi(k ) = fij

j= j0(k )

j1(k )

Fi = fijj= j0(k )

j1(k )

∑k∑

Page 24: 次世代MD専用計算機 - bscrc.jp

Pipeline  Block  Diagram

xixj

yiyj

zizj

Sqr

Sqr

Sqr

log

¡2

Fused calculation of r2

ci

cj

van der Waals combination rule

-x3

-x6

Coulombcutoff function

1/Rc,Coulomb

-x0.5

-x1.5

exp

log qilog qj

Yijexp

Yi

Yi

YiYj

Yj

Yj

Yij

Group-basedCoulomb Cutoff

Group-basedvdW Cutoff

Exclusion atoms

exp

exp

x0/x1

exp

exp

x0/x1

x0/x1

x0/x1

x0/x1

x0/x1

van der Waals coefficients

Atom typeSoftcore

mi

mj

mij

¡ij

¡i

¡j

Y

Y

Y

Y

~28 stages

Page 25: 次世代MD専用計算機 - bscrc.jp

Pipeline  Func@ons n Nonbond  forces  

 n and  poten@als  

n Gaussian  charge  assignment  &  back  interpola@on  n Sol-­‐core  n ~50G  interac@ons/sec/chip  

Page 26: 次世代MD専用計算機 - bscrc.jp

Pipeline  speed

n Tenta@ve  performance  ▷ 8x8  pipelines  @0.8GHz(worst  case)  

 64x0.8=51.2  G  interac@ons/sec    512  chips  =  26  T  interac@ons/sec    Lcell=Rc=12A,  Half-­‐shell  ..2400  atoms    105  X  2400/  26T  ~  9.2  μsec  

▷ Flops  count  ~50  opera@ons  /  pipeline    2.56  Tflops/chip  

Page 27: 次世代MD専用計算機 - bscrc.jp

General-­‐Purpose  Core n Tensilica  LX  @  0.6  GHz  n 32bit  integer  /  32bit  Floa@ng  n 4KB  I-­‐cache  /  4KB  D-­‐cache  n 8KB  Local  Memory  ▷ DMA  or  PIF  access  

n 8KB  Local  Instruc@on  Memory  ▷ DMA  read  from  512KB  Instruc@on  memory  

Core        

4KB  Dcache

8KB  D-­‐ram

4KB  Icache

8KB  I-­‐ram

Core

Core Core

Core Core

Core Core

Core Core

DMAC

Queue  IF

Integer

Floa>ng Queue

PIF

Inst-­‐ruc>on  DMAC  

GP Block

Barrier  

Global Memory

Control Processor

Instruction Memory

Page 28: 次世代MD専用計算機 - bscrc.jp

Solware  /  Programming  Environment

n Por@ng  GROMACS  n C  (C++)Language  for  GP  core  n Minimal  library  support  ▷ No  external  memory  ▷ No  VM  

n Manual  Load  to  local  instruc@on  memory  ▷ 8kB  (4kB+4kB  double  buffer)  ▷   for  performance

Page 29: 次世代MD専用計算機 - bscrc.jp

Synchroniza@on

n 8-­‐core  synchroniza@on  unit  n Tensilica  Queue-­‐based  synchroniza@on    send  messages    ▷ Pipeline  →  Control  GP  ▷ Network  IF  →  Control  GP  ▷ GP  Block  →  Control  GP  

n Synchroniza@on  at  memory      –  accumula@on  at  memory

Page 30: 次世代MD専用計算機 - bscrc.jp

Power  Dissipa@on  (Tenta@ve)

n Dynamic  Power  (Worst)  <  40W  ▷ Pipeline            ~  50%            ▷ General-­‐purpose  core    ~  17%  ▷ Others              ~  33%  

n Sta@c  (Leakage)  Power    ▷ Typical  ~5W,  Worst  ~30W  

n ~  50  Gflops/W  ▷ Low  precision  ▷ Highly-­‐parallel  opera@on  at  modest  speed  ▷ Energy  for  data  movement  is  small  in  pipeline  

Page 31: 次世代MD専用計算機 - bscrc.jp

MD  Simula@ons  enabled  by  MDGRAPE-­‐4

n Protein  structure  predic@on  ~  100  residues  

n Structure  op@miza@on  ▷ fluctua@ons    ▷ muta@ons

Enhances biological applications of MD simulations

Size

Time

nm μm mm

fs

ps

ns

μs

ms

s

Molecular

Vibration

Local Structural Changes

Large Structural Changes

Cell

K computer

MDGRAPE-4 Anton

Page 32: 次世代MD専用計算機 - bscrc.jp

Current  status  of  MDGRAPE-­‐4

n Board  evalua@on  ▷ Force  calcula@on  pipelines  …  mostly  confirmed  ▷ General-­‐purpose  cores  …  mostly  confirmed  ▷ Network  …  under  evalua@on  

n System  comple@on  ▷ Within  FY2013  

Page 33: 次世代MD専用計算機 - bscrc.jp

Reflec@on

Though  the  design  is  not  finished  yet…  n Latency  in  Memory  Subsystem  ▷ More  distribu@on  inside  SoC  

n Latency  in  Network  ▷ More  intelligent  Network  controller  

n Pipeline  /  General-­‐purpose  balance  ▷ Shil  for  general-­‐purpose?  ▷ #  of  Control  GP  

Page 34: 次世代MD専用計算機 - bscrc.jp

Shared  Use  of  MDGRAPE-­‐4

n 2014  1Q  :  Hardware  comple@on  n 2014  3Q  :  Solware  ready  n 2014  3Q  –  2016  1Q  :    Use  under  research  collabora@on  agreement  

n 2016  2Q  –    Shared  use  

n ~6  research  subject  /  year  ▷ 3  QBiC  /  Research  collabora@on  

Page 35: 次世代MD専用計算機 - bscrc.jp

Future  Perspec@ves    

For  Molecular  Dynamics  n Single-­‐chip  system  ▷ >1/10  of  the  MDGRAPE-­‐4  system  can  be  embedded  with  11nm  process  ▷ For  typical  simula@on  system  it  will  be  the  most  convenient  ▷ S@ll  network  is  necessary  inside  SoC  

n For  further  performance  improvement  ▷ #  of  opera@ons  /  step  /  20Katom  ~  109    ▷ #  of  arithme@c  units  in  system  ~  106  /Pflops  

 Exascale  means  “Flash”  (one-­‐path)  calcula,on  ▷ More  specializa@on  is  required  

Page 36: 次世代MD専用計算機 - bscrc.jp

What  happens  in  future?

Page 37: 次世代MD専用計算機 - bscrc.jp

TOP500  Average  Frequency

n  CPU  frequency  became  constant  aler  2005  n  Performance  increase  relies  on  paralleliza@on

CP

U F

requ

ency

(MH

z)

Date

-

500

1,000

1,500

2,000

2,500

3,000

Page 38: 次世代MD専用計算機 - bscrc.jp

TOP500  Average  Power  Efficiency    (MFLOPS/W)

n  Pro  :  Exponen@al  Growth  n  Con:  Growth  speed  slower  than  performance  growth

MFL

OP

S/W

10    

100    

1,000    

100  

1000  

10000  Avg  MF/W  

Top10  MF/W  

Avg  RMAX  

Linp

ack

GFL

OP

S

Year

Page 39: 次世代MD専用計算機 - bscrc.jp

Exascale  Systems

n 1018  FLOPS  @  2GHz  n 2.5  X  108  FP  ALUs  n ~105  Processors  →  103  ALUs  /  Processors  n Possible  direc@ons  ▷ SoC  Integra@on  ▷ BlueGene/L  type  machines  ▷ Heterogeneous  

Page 40: 次世代MD専用計算機 - bscrc.jp

What  Exaflops  means

n 108  arithme@c  units  in  parallel  n Different  from  TFLOPS  -­‐>  PFLOPS  n Which  applica@on  can  use  this???  ▷ It  may  be  be}er  to  have  a  center  with  exascale  performance  ▷ However,  the  real  target  performance  for  applica@ons  will  be  ~10PFLOPS  ▷ Design  should  consider  this  point    

Page 41: 次世代MD専用計算機 - bscrc.jp

Future  of  high  performance  compu@ng

n End  of  Si  cycle  ~  2020  n Produc@on  cost  of  semiconductor  will  con@nue  to  decrease  for  a  while  

n Dedicated  approach  /  semi-­‐dedicated  approach  will  be  an  answer  to  improve  performance  aler  the  end  of  Si  cycle

Page 42: 次世代MD専用計算機 - bscrc.jp

Acknowledgements

n RIKEN  Mr.  I}a  Ohmura  Dr.  Gentaro  Morimoto  Dr.  Yousuke  Ohno  Mr.  Aki  Hasegawa

n Hitachi  Co.  Ltd.    Mr.  Iwao  Yamazaki    Mr.  Tetsuya  Fukuoka    Mr.  Makio  Uchida    Mr.  Toru  Kobayashi    and  many  other  staffs  

 n Hitachi  JTE  Co.  Ltd.  

 Mr.  Satoru  Inazawa    Mr.  Takeshi  Ohminato    

n Japan  IBM  Service  Mr.  Ken  Namura  Mr.  Mitsuru  Sugimoto  Mr.  Masaya  Mori  Mr.  Tsubasa  Saitoh