17
dr. sc. Draško Tomić Novi HPC resurs - superračunalo Bura 1

Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

dr. sc. Draško Tomić

Novi HPC resurs - superračunalo Bura

1

Page 2: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

2

Opća arhitektura

Page 3: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

3

SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM,8x 600GB SAS HDD ,120 x 2TB SAS 7.200rpm, vatrozid, 28-portni mrežnipreklopnik za spajanje sustava u DCmrežu

SMP2: 16x CPU (16c 2.5GHz),6 TB RAM ,8x 600GB SAS HDD ,120 x 2TB SAS 7.200rpm

HPC1 = HPC3: 4 blade kućišta, 36bladeposlužitelja, 72 čvora, svaki sa 2 CPU (12c2.6GHz), 64GB RAM ,320GB HDD, IB FDR

HPC2: 4 blade kućišta , 36 bladeposlužitelja, 72 čvora, svaki sa 2 procesora (12c 2.6GHz ), 64GB memorije, 320GB

HDD, IB FDR, radna stanica za potrebe

sigurnog udaljenog nadzora DC

HPC4: 4 blade kućišta , 36 bladeposlužitelja,, 72 čvora, svaki sa 2 procesora (12c 2.6GHz), 64GB memorije,

320GB HDD, IB FDR 1 x bladekućište , 4 blade poslužitelja , svaki sa 2 x nVidia K40, 2 procesora (8c

2.6Ghz), 64GB memorije, 320GB HDD

Page 4: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

4

SERVICE 1: 9 x 36p unmanaged IB + 2 x

36p managed IB preklopnika

1 x 1U KVM konzola

2 poslužitelja za HSM čvor

•Diskovni sustav za HSM cache sa 40 x

NL_SAS 2TB HDD

SERVICE 2: 2 x 48p

Gigabit Ethernet

preklopnik za servisnu

mrežu sa 2 login noda,

2 noda za metadata

podatke sa 39x 900GB

SAS 10K HDD, 2 servera

za centralni datotečni

sustav (LUSTRE)

SERVICE 3: 4servera za

centralni atotečni

sustav(LUSTRE), a za

centralni diskovni

sustav (Lustre), ukupno

200 x 2TB SAS 7,2krpm

HDDs

TRAČNA

KNJIŽNICA ZA

HSM, 400 utora,

14 drajvova

Page 5: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

5

Infiniband mreža

324 porta na top preklopnicima (2 x SX6036 + 7 x SX6025), od kojih se 288 koristi za HPC računalne čvorove, 9 za GPU ubrzivače a

27 ih je spojeno na low preklopnike ( 2 x SX6025), za povezivanje ostalih komponenti sustava. Mreža je Fat Tree non-blocking

topologije.

Page 6: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

6

Upravljačka mreža

Za upravljanje i nadzor HPC sustava koriste se dva preklopnika CISCO 3750X. Prateća oprema u Data centru ( UPS, IPCC, hlađenje, ...) spojena je na treći CISCO

SG300-28 preklopnik. To je napravljeno zbog sigurnosti i veće raspoloživosti sustava.

Page 7: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

7

Shematski prikaz sustava

Page 8: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

8

Arhitektura HSM rješenja

GRAUDATA XTREEMESTORE – HSM PROGRAMSKA OPREMA:

•'ArchiveManager' (GAM) sa ugrađenim paralelnim paralelnim

•HSM datotečnim sustavom

•Programska oprema za upravljanjem diskovnog sustava

•(HSM; Archive; Backup) za napredne aplikacije (Lustre - BeeGFS i ostale)

• Paralelni dostup preko Meta datotečnog sustava sa 'POSIX' sučeljem

do neograničene veličine diskovnog sustava

•'Grid struktura' za standardnu PC opremu

Page 9: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

9

Programska podrška

Softver Opensource / commercial

Supercomputer Suite Extended version Commercial

OS RedHat Compute Node (16S) Commercial

OS RedHat Compute Node (2S) Commercial

OS RedHat Head Node (2S) Commercial

bullx PFS - 1 OSS Commercial

Intel Parallel Studio XE Cluster Edition for Linux (Academic) Commercial

PBSPro (16S) Commercial

PBSPro (2S) Commercial

FlexSim GP Enterprise with Optquest Commercial

Gromacs Opensource

NAMD Opensource

BLAST+ Opensource

Bowtie 2 Opensource

GAMESS Opensource

Burrows-Wheeler Aligner Opensource

CP2K Opensource

Openfoam Opensource

Blender Opensource

Page 10: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

10

Performanse sustava

Benchmark Test

High-Performance Linpack za cjelokupni postav 232,47TFlops

Potrošnja sustava kod Rmax 108,5kW

Performansa SMP datotečnog čvora Write: 13,2GB/sRead: 15,9GB/s

SPEC mpi 2007 za grozd računala 92,4

SPEC omp 2012 za SMP debeli čvor 48,1

Performansa centralnog diskovnog sustava (r/w) Write: 31,35 GB/SRead: 37,90 GB/s

Performansa HSM sustava Write: 2,04GB/sRead: 2,20 GB/s

Performanse aplikacija – Gaussian09 5,17h(18.420sec)

Performanse aplikacija – Abaqus 0,94 h(3411 sec)

Performanse aplikacija – OpenFOAM 3,61 min(217s)

Performanse aplikacija – LS-DYNA 23,16 min (1390sec)

Unutarnja propusnost InfiniBand mreže 6.43 GB/s

Učinkovitost računalnog sustava - HP Linpack učinkovitost 80,82%

Učinkovitost računalnog sustava - omjer TF/kW 2.14TF/kW

Količina topline preuzeta s toplom (rashladnom) vodom 98,97%

Page 11: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

GAŠENJE I ZAUSTAVLJANJE BURA SUSTAVA

•Zaustavljanje svih servisa na svim serverima ( jobs ) - 20 min

•Gašenje svih tankih čvorova ( compute and login nodes ) - 20 min

•Gašenje SMP debelih čvorova ( SMP nodes ) - 20 min

•Gašenje HSM i Robinhood server – 10 min

•Zaustavljanje Lustre servera – 10 min

•Gašenje upravljačkih servera ( management node ) - 10 min

•Gašenje diskovnih sustava - 5 min

•Gašenje mrežnih LAN i SAN preklopnika - 5 min

•Spuštanje svih osigurača ormara za A i B granu napajanja – 5 min

•Gašenje sustava hlađenja – 5 min

•Gašenje sustava napajanja UPS – 5 min

11

Ukupno procijenjeno vrijeme za spuštanje/podizanje sustava = 80/120 min.

Page 12: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

12

Page 13: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

13

Područje primjene – performance share top 500

Page 14: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

0

1

2

3

4

5

6

7

8

9

24 48 96 192 384 768 1536

stmv

apoa1

NAMD mjerenja na Buri

Page 15: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

14

SKALIRANJE

stmv (virus) NAMD benchmark: 10^6 atoma 233 TFLOP superračunalo,

Sveučilište u Rijeci skaliranje do nekoliko tisuća jezgri.

Ovojnica HIV virusa: 5 x 10^7 atoma 1 PFLOP superračunalo, University of

Illinois skaliranje do 500.000 jezgri.

Biofilm: 10^14 atoma ZFLOP superračunalo skaliranje do mnogo miliona

jezgri

Page 16: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

15

Docker

Openstack

SLEM

Magični kvadrati

. . . . .

PROJEKTI (SKALIRANJE)

Page 17: Novi HPC resurs - superračunalo Bura · Novi HPC resurs - superračunalo Bura 1. 2 Opća arhitektura. 3 SMP1: 16x CPU (16c 2.5GHz) , 6 TB RAM, 8x 600GB SAS HDD ,120 x 2TB SAS 7.200

Hvala na pažnji!

17