29
面向未来的解决方案 - 高性能计算的发展趋势

面向未来的解决方案 - jupengineer.com · TCC 应用性能 App. Level ... ENIAC (Circa 1945) Deep Blue (1997) Watson (2010) Antikythera Astronomical Computer (ca 87 BC) Abacus

Embed Size (px)

Citation preview

面向未来的解决方案

- 高性能计算的发展趋势

高性能计算已成为现代科学研究的三大支柱之一

理论研究

高性能计算

实验研究

依赖于物理的原型测试, 只能进行部件级的仿真

全数字化的、虚拟的整体系统模型

参考性的、被动的,长时间的批处理作业

可预测的,互动的实时分析

静态的数据互相隔离的系统

基于流数据,实现协同的系统环境

不够灵活、不够创造性创造更大的

可能性

现在 100-1000倍的提高

科研领域对于高性能计算的需求似乎永无止境

0.0001

0.001

0.01

0.1

1

10

100

1000

10000

100000

93/0

6

93/1

1

94/0

6

94/1

1

95/0

6

95/1

1

96/0

6

96/1

1

97/0

6

97/1

1

98/0

6

98/1

1

99/0

6

99/1

1

00/0

6

00/0

7

'01/

06

01/

11

02/

06

02/

11

03/

06

03/

11

04/

06

04/

11

05/

06

05/

11

06/

06

06/

11

07/

06

07/

11

08/

06

08/

11

09/

06

09/

11

10/

06

10/

11

Rm

ax P

erf

orm

an

ce (

GF

lop

s)

43.65 PF

2.56 PF

816.6 TF

31.1 TF

Source:

www.top500.org

高性能计算系统的处理能力也在不断提高

高性能计算

总体计算成本TCC

应用性能App. Level

Performance

机房环境Power/Cooling

/Footprint

运算效率

Productivity

当前高性能计算所面临的主要挑战

Ocean/wave Forecasting

Climate Modeling

Weather PredictionNuclear Stockpile

Stewardship

Weapons Integration

应用性能:是否能够更快地得到所需的计算结果1

需要选择针对工作负载优化的平台

Cache

A A A A A A A AA A A A A A A A

Cache Cache

Cache Cache

Cache Cache

不同的应用需求容量 带宽

向上扩展(共享内存架构)

部门 / 工作组级

企业级

能力计算Capability

单处理器

4插槽以下的SMP系统

4插槽以上的SMP系统

向外扩展 (分布内存架构)

能力计算定制系统

数千颗处理器

容量计算Capacity

大型SMP:Power Systems: Power 780, Power 795

高密度服务器:BladeCenter: HS22/HS22v, HX5, PS700, PS701, PS702

iDataPlex: dx360 M3

Blue Gene:BG/P, BG/Q

机架式服务器:x3550 M3, x3650 M3, x3690 M3, Power 740

SMP集群:Power Systems: Power 755/750

System x: x3850 X5, x3755 M3

IBM 可以提供灵活的系统选择

Xeon® 7500 Series

计算能力

内存带宽

内存容量

Xeon® 5600 Series

性能价格比

根据应用特点选择不同的处理器架构

或者采用新一代的异构计算模式

GPU 扩展刀片

HS

22

BG

E #

1

BG

E #

2

BG

E #

4

BG

E #

3

IBM BladeCenter GPU 扩展刀片

IBM HS22 刀片服务器

GPU 1GPU 2

HBA

GPU 扩展托盘

机房环境:是否能满足现有系统和未来扩展的需要

Grate tile

12

10

8

6

4

2

0

0 100 200 300 400 500 600 700 800 900 1000

[47.2] [94.4] [141.6] [188.8] [236.0] [283.2] [330.4] [377.6] [424.8] [471.9]

机柜

功率

(kW)

地板送风量 (cfm) [L/s]

传统架空地板送风局限性

0%

20%

40%

60%

80%

100%

40

50

60

70

80

40

50

60

70

40 50 60 70 80 90 100 110 (F)

71.6

45%

20 W/cm2

Steam Iron: 5 W/cm2

2

需要部署端到端的绿色数据中心解决方案服务器硬件 服务器负载数据中心

Other

70%

Processor

30%(电源,风扇,

端到端的解决方案

更有效的供电和制冷

更好的服务器设计+ 能源管理 提高利用率

(整合/虚拟化)

内存,磁盘)

先进的处理器设计+ 处理技术

处理器

性能/Watt 高达95% 空闲资源 大部分

应用对

资源的

平均利

用率在

5-20%

典型的利用率Mainframe80 – 90%

UNIX10 – 20%

Wintel5 – 12%

IT

Power

45%

HVAC,

UPS

55%

100 Units

35

Units

33 Units

Delivered*

*Data source: U.S. Department of

Energy

May 18, 2007

产品与

解决方案

IBM

Cray

Sun

SGI

HP

Other

1

11

21

31

41

51

61

71

81

91

10

20

30

40

50

60

70

80

90

100

100 Most Energy Efficient TOP500 Systems

Ranked by MFlops/wattwww.green500.org

QPACE Roadrunner iDataPlex (6C)

Blue Gene/P iDataPlex (QC)

IBM 系统的领先地位

• 前三名系统• 前20名里占17 套• 前100 名里占65 套• dx360 是能效最高的 x86 系统

The Green500 list (www.green500.org), published twice a year, ranks the TOP500 Supercomputers in the world by energy efficiency based on Linpack MFlops per watt. Little Green500 ranks MF/w of systems that are at least as fast as the 500 th ranked

system on the 18 month prior TOP500 list. “Avg MF/w” is the average energy efficiency of all the systems by a given manufacturer on Green500; the overall Green500 average is 140 MF/w.

IBM

201Avg MF/w

Others(non IBM)

102Avg MF/w

IBM系统在整体能效上具有极大的优势

iDataPlexTypical Enterprise Rack

热交换背门没有移动组件100% 热吸收可降低机房温度

iDataPlex 采用创新的设计来增加服务器密度

能够大幅度地减少机柜占地空间

iDataPlex Rack

Hot Aisle

Cold Isle

Hot Aisle

Cold Isle

Std

Rack

w/ 1U’s

Std

Rack

w/ 1U’s

X sq. ft Air Cooling

0.42X sq. ft Liquid Cooling

400 CFM* per tile*Cubic Feet per Minute

机柜密度提高2.5倍

iDataPlex Rack

Hot Aisle

Cold Isle

0.79X sq. ft Air Cooling

总体计算成本:如何最大化利用现有的投入3

传统的高性能计算中心使用方式

各研究人员

操作系统平台

并行运算支撑平台

各学科计算软件

作业管理系统

所有研究人员将算题提交给作业管理系统

作业管理系统监控后台计算资源

选择空闲资源进行运算

研究项目之间互相影响

没有统一的资源管理平台

无法支持多操作系统

受物理资源限制严重

通过云计算实现动态的计算服务平台

操作系统平台

并行运算支撑平台

专用计算软件

项目一

操作系统平台

并行运算支撑平台

专用计算软件

项目二

监测

回收

部署

决策

数据、策

略、脚本

报告

界面

计算管理

各研究人员

操作系统平台

并行运算支撑平台

专用计算软件

项目三

公众使用人群

计算服务Portal

动态产生

数据存储服务器 应用软件

所有计算资源

云计算架构高性能计算平台对比

传统的高性能计算平台 动态的高性能计算服务平台

资源管理 作业管理系统 资源管理系统+作业管理系统

为作业找资源 为(用户、应用、作业)动态进行资源创建、回收

只管理处理器、应用软件 处理器、内存、存储、网络、应用软件

虚拟化 不支持 服务器虚拟化、存储虚拟化、网络虚拟化

用户管理 独立的用户管理系统 基于LDAP的统一用户管理

用户无法独享资源 用户可以独享资源

平台支持 无法修改已安装平台、无法动态修改

可以同时支持多种平台、可以动态修改

数据存储 没有备份机制 完善的备份、恢复机制

不支持异构存储 异构存储平台支持

用户使用 无资源审批流程 审批、拒绝、预留机制

无法自定义资源配置 可以自定义资源平台、软件等

安全控制 用户认证管理 用户、网络、访问控制

能耗管理 无 高效节能的资源利用技术

存储子系统的I/O能力要满足计算能力发展的需求

0.001

0.1

10

1000

100000

1995 2000 2005 2010 2015

CPU Performance File System Capacity

Number of Disk Drives File System Throughput

1995 2000 2005 2010

CPU Performance Number of Disk Drives File System Throughput

165,000 drives

5,000 drives

4 TF

3.6 GB/s

6 PF

6 TB/s

11,000 drives

100 TF

120 GB/s

数据来源: IBM

运算效率:I/O是关键4

需要解决系统数据访问的瓶颈问题

↔ ↔

应用程序

文件系统

SANFC

iSCSIIB

SAS

服务器

内存

存储系统

缓存

驱动程序

卷管理

瓶颈

瓶颈

LAN SAN

构建统一的、可扩展的高性能数据存储与访问平台

CIFSNFS

HTTPFTPSCP

管理监控

文件管理

数据复制数据迁移数据备份

可扩展的高性能数据存储与访问平台

基于分层存储环境的自动化信息生命周期管理

应用协议 集中管理 高可用性

迁移到离线存储环境,如带库或具有重复数据删除

功能的虚拟带库上

TSM/HSMServer

扫描分析结果

数据

工作站 高性能计算集群 远程用户

元数据 在线存储 近线存储

离线存储

IBM 提供领先的 GPFS 并行文件系统• 经过验证的可扩展性

– 最大14 TB 的文件

– 2PB以上的单一文件系统

– 多达2441个节点

• 非凡的并发数据访问带宽

– 实测134GB/s (单一文件126GB/s)

• 采用开放标准

– 支持X/Open 4.0 文件系统标准,应用无需修改

– 文件系统和数据可以通过mount/unmount支持客户端

• 支持多路径数据访问

– 得到更好的扩展性和性能

– 支持文件系统恢复和高可用性

• 支持NFS或SAMBA访问

– 集群外的客户可以通过NFS或SAMBA访问数据

– 可以通过CNFS实现NFS负载均衡

TCP/IP [+RDMA]

存储

子系统

存储

子系统

GPFS

用户也可以选择集成的 SONAS 存储

SPECsfs2008 公开性能测试结果

CIFS

Clients

HTTP

ClientsFTP

Clients

NFS

Clients

Management

Node

Interface

Node...

IP Network

Tape

Interface

Node

Other

Clients

.... Interface

Node

Global Namespace

Infiniband Data NetworkIP Mgmt. Network

...

Storage Pod

Storage

controller &

disk

Storage

controller &

disk

Storage NodeStorage Node

Storage

Expansion

Storage

Expansion

Storage Pod

Storage

controller &

disk

Storage

controller &

disk

Storage NodeStorage Node

Storage

Expansion

Storage

Expansion

42

MGT Node

MGT Node

2 to 6 Interface Nodes

Storage Node

Storage Node

Switches

1 or 2

Storage

Controllers

60 disk each

0, 1 or 2

Expansion

Units

60 disk each

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Interface Node

Switches

Storage Node

Storage Node

60 Disks

60 Disks

60 Disks

60 Disks

Storage Node

Storage Node

60 Disks

60 Disks

60 Disks

60 Disks

Switches

26

Time

Co

mp

ute

r In

tellig

en

ce

Counting Machine

(Circa 1820)

ENIAC(Circa 1945)

Deep Blue (1997)

Watson (2010)

Antikythera

Astronomical

Computer (ca 87 BC)

Abacus

(Circa 3500 BC)

Napier’s rods

(Circa 1600)

System/360 (1964)

“Within ten years a digital

computer will be the world's

chess champion” 1958,

H. A. Simon and Allen Newell

高性能计算一直是科技发展和创新的主要推动力量

建设创新基础设施,您需要更智慧的HPC系统

云计算针对工作负载优化

海量数据

IBM 可以提供完整的深度计算系列产品和解决方案

模块化可扩展

应用支持

稳定可靠开放兼容

业界领先可靠性

全球范围资源

Power 755

BladeCenter

DCS 9900

iDataPlexLINUX

系统

Blue Gene

xCAT

GPFSPERCS

绿色HPC中心

软件与工具

解决方案与服务

深度计算

Deep

Computing全球生态系统

实施和调优服务

DCV

高性能计算云

SONAS

总结

• 高性能计算(HPC)系统需要– Performance – 优化系统性能

– Productivity - 提高整体效率

– Power Efficiency - 减少能耗和散热

• IBM提供完整的高性能计算解决方案– 针对应用需求提供丰富的系统选择

– 综合考虑数据中心环境和应用的需求

– 采用硬件加速和高密度服务器来降低总体计算成本

– 重视整体I/O架构的设计,提供领先的并行文件系统

• 希望有机会为您提供代表世界先进水平的产品和服务