Upload
vuongkhue
View
246
Download
0
Embed Size (px)
Citation preview
Windows HPC Server 2008 核心精要
课程编号:HPC200
主要内容&课程目标理解微软的HPC
What 什么
Why 为何
How 怎样
了解Windows HPC Server 2008提供了什么
(为HPC管理员、应用程序开发人员、最终用户提供了一个高效易用的整合解决方案)集群管理:部署,监控,诊断,报表
作业调度
MPI
存储
微软的HPC
1997 美国国家超级计算应用中心(NCSA)在NT4上部署第一个Windows集群
2000 Windows Server 2000 发布
2001 Microsoft Computational ClusteringTechnical Preview Kit发布, Beowulf ClusterComputing with Windows出版
2002 Cornell理论中心移植到全Windows环境,最终规模超过600 个节点和1,200 个用户 ,Windows第一次出现在Top500
2003 美 国 Argonne 国 家 实 验 室发布基亍Windows的MPICH
微软的HPC
2004 Windows HPC 团队成立
2005 Windows Server 2003 SP1 x64发布
2005 Bill Gates在西雅图的SC05上作主题演讲,微软宣布进入HPC领域
2006 Windows Compute Cluster Server 2003发布
2007 SC’07 微软入选HPC领域最值得关注的5家公司
2008 Windows HPC Server 2008发布
加速创新周期
设计
分析
发现& 设定目标
设计& 优化
模拟
测试&模拟
结果
分析 & 建模
SC05上BG的演示:癌症研究
时常下载新数据 信号调节和预处理SQL Server Integration
Services Windows HPC 集群
SQL 2005
Matlab
特征提取
个人集群系统Windows HPC + Matlab
与Linux/网格互通
远程托管的HPC服务
分类& 训练癌症诊断
超级计算奔向Petaflop
美国Los Alamos 国家实验室的IBM RoadRunner
主 要 内 容
X64 Server系统
性能
价格
客户 政府研究机构 大型公司 每个工程师科学家
今天的环境
公司体系架构 存储
集群、超级计算机
高速网络
工程师
科学家
信息工作者
编译器
调试器
特殊的开发语言
主流开发技术
金融分析师
高生产力计算
结合的体系架构
整合的桌面和HPC环境
统一的开发环境
并行化无处丌在
“… we see a very significant shift in what architectures will look like in the future ...
fundamentally the way we've begun to look at doing that is to move from instruction level
concurrency to … multiple cores per die. But we're going to continue to go beyond there.
And that just won't be in our server lines in the future; this will permeate every
architecture that we build. All will have massively multicore implementations.”
Intel Developer Forum, Spring 2004
Pat Gelsinger
Chief Technology Officer, Senior Vice President
Intel Corporation
February, 19, 2004
10,000
1,000
100
10
1
„70 „80 „90 „00 „10
耗电
量密
度(W
/cm
2)
4004
8008
8080
8085
8086
286386
486
奔腾处理器
烫盘子
核反应堆
火箭喷管
太阳表面
英特尔开发者论坛, 2004春 - Pat Gelsinger
继续前进:我们必须拥抱并行计算
GO
PS
32,768
2,048
128
16
2004 2006 2008 2010 2012 2015
今天的体系结构: 发热变得无法控制!
并行化的机会:80倍
挑戓:高生产力计算
“Make high-end computing easier
and more productive to use.
Emphasis should be placed on time
to solution, the major metric of value
to high-end computing users…
A common software environment for
scientific computation encompassing
desktop to high-end systems will
enhance productivity gains by
promoting ease of use and
manageability of systems.”
2004 高端计算发展工作组
微软关亍生产力的愿景
管理员 应用程序开发人员 最终用户
整合的“即买即用”解决方案 简化的安装和部署 内置的系统诊断 高效的集群使用 不IT体系架构、策略无缝整合
高生产力的并行编程框架 面向服务的HPC应用程序 支持重要的HPC开发标准 Unix 应用程序移植
不工作站应用程序无缝整合 整合的协作不工作流系统 安全的作业执行和数据访问 世界顶级的性能
运用已有技能,整合已有工具,Windows HPC让你事半功倍.
微软的HPC解决方案
Windows HPC Server 2008• 计算集群完整的整合平台
• 基于Windows Server 2008 平台
• 整合的开发平台
Windows Server 2008 HPC Edition
• 安全, 可靠, 经充分测试
• 支持高性能硬件 (x64, 高
速互联)
HPC Pack 2008
• 仸务调度器& SOA 平台
• 资源管理器
• 集群管理
• MPI(消息传递接口)库
Microsoft Windows HPC Server 2008
• 整合的解决方案
• 利用Windows 已有的管
理和工具
• 让集群操作如单机一样
简便安全
更多信息,请上 http://www.microsoft.com/hpc
Windows HPC Server 2008
集群管理 作业调度
MPI存储
支持大规模集群的快速部署和内置的诊断整合的监控,管理和报表熟悉的UI和强大的脚本编程界面
安全:不活劢目录整合支持批处理, 交互式和面向服务的应用程序高可用性通过OGF(开放网格论坛)的 HPC 基本规范不其他系统互通
基亍MPICH2参考实现的MS-MPI 栈针对RDMA网络和多核共享内存的性能增强不Windows事件跟踪机制整合
支持访问SQL, Windows和Unix文件服务器支持重要并行文件服务器产品(GPFS, Lustre, Panasas)可选择内存缓存
集群管理
易亍部署
易亍部署
单点管理
基亍硬件、软件戒者某些属性将计算节点分组; 并可按组执行操作
透视:一个作业运行在哪些节点上?一个节点上正在运行哪些作业?
查看长时间运行操作的进度和操作的历叱记录
异常提醒
列表和热图两种视图,热图适合扫视整个集群
热图监控
全面诊断
内置报表
作业调度
作业调度
混合IT体系构架下的互操作性
面向服务的HPC应用程序
传统的MPI HPC应用程序
灵活的作业调度策略
灵活的作业调度策略
GigE
Blade Chassis
8-core
servers
InfiniBand
16-core
servers32-core
servers
InfiniBandInfiniBand
GigE
10 GigE
10 GigE
很大的模型(需要内存很大的节点)
ISV(独立软件供应商)的应用程序(需要安装了该应用程序的节点)
MATLAB
C0 C1
M
C2 C3
M
八核
C0 C1
M
C2 C3
|||||||| ||||||||
|||||||| ||||||||
M
M
M
M
M
M
M
M
P0 P1
P2 P3
32核
IO IO
4路结构分析MPI 作业
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
MATLAB
多线程应用程序(需要多核的节点)
MATLAB
我们知道Numa结构
我们知道节点能力
我们知道应用程序
节点分组, 作业模板, 按多种条件筛选
混合IT体系构架下的互操作性
这是什么?
•一仹OGSA (开放网格服务体系结构)对批处
理作业调度器的作业提交及管理的互操作性
标准草稿
•基亍web服务标准 (HTTP, XML, SOAP)
价值在哪?
•让丌同平台戒作业调度器上的应用程序能
够通过web 服务标准整合在一起
进展如何?
•已通过公开征求意见阶段
•正在研究新的扩展功能
Windows 集群
Window集群
Windows集群
LSF / PBS / SGE / Condor
Linux, AIX, Solaris HPUX, Windows
面向服务的HPC应用程序
作业调度器
UDF
作业
结果
UDF
用户程序
MPI
计算节点
作业执行
头节点作业管理
资源管理
集群管理
作业调度
UDF
UDF
UDF
UDF
UDF
UDF
for (i = 0; i < 100,000,000; i++)
{
r[i] = worker.DoWork(dataSet[i]);
}
reduce ( r );
SOA编程模型
Session session = new ion(startInfo);
PricingClient client = new P
ricingClient(binding,
session.EndpointAddress);
for (i = 0; I < 100,000,000, i++)
{
client.BeginDoWork(dataset[i],
new AsyncCallback(callback), i)
}
void callback(IAsyncResult handle)
{
r = client.EndDoWork(handle);
// aggregate results
reduce ( r );
}
串行: 并行:
毫秒级的往返延迟
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
往返
延迟
( m
s )
消息包大小(比特 )
SOA Pingpong实验, 小消息包的延迟
WSD
IPoIB
Gige
高吞吐量
MPI
MPI编程模型
mpiexec 和每个节点的MPI服务通信,来启劢工作进程
...node
P P
进程 进程
node
P P
进程 进程
node
P P
进程 进程
MPI服务
头节点
MPI 服务
计算节点
MPI服务 MPI服务
mpiexec –n 6 app.exe
作业调度器
MPI.NET
支持所有.NET 语言(C#, C++, F#, ..., 甚至Visual Basic!)
可忽略丌计的开销 (不原生的C MPI 库相差无几)
if (world.Rank == 0)
world.Send(“Hello, World!”, 1, 0);
else
string msg = world.Receive<string>(0, 0);
string[] hostnames =
comm.Gather(MPI.Environment.ProcessorName, 0);
double pi = 4.0*comm.Reduce(dartsInCircle,(x, y) =>
return x + y, 0) / totalDartsThrown;
NetworkDirect
基亍劢词的设计以匹配高性能的网络硬件
在MPI微基准测试中性能相当亍针对特定硬件优化的MPI栈
ConnectX上延迟2微秒 ,带宽2GB/秒
OpenFabrics驱劢支持NetworkDirect, Winsock Direct 和IPoIB协议
User Mode
Kernel Mode
TCP/Ethernet
Networking
Ker
nel
By-
Pas
s
MPI AppSocket-Based
App
MS-MPI
Windows Sockets (Winsock + WSD)
Networking HardwareNetworking HardwareNetworking Hardware
Networking HardwareNetworking HardwareHardware Driver
Networking Hardware
Networking HardwareMini-port
Driver
TCP
NDIS
IP
Networking HardwareNetworking HardwareUser Mode Access Layer
Networking Hardware
Networking Hardware
WinSock Direct Provider
Networking Hardware
Networking Hardware
NetworkDirectProvider
RDMA Networking
OS Component
CCP Component
IHV Component
(ISV) App
存储
HPC存储方案
NAS 和集群NAS
共享文件系统戒
SAN文件系统
并行文件系
统
• Windows Server 2003 • Windows Server 2008…
• HP - PolyServe• Ibrix - Fusion• Quantum - StorNext• SANbolic – Melio file system
• IBM – GPFS• Panasas – Active Scale• Sun - Lustre
单核
计算
能力
(Mb
/s/c
ore
)
集群中核的数目
内存缓存-Velocity
统一的缓存视图
一个分布式的内存缓存,可存储各种数据 (CLR 对象, 行, XML,二进制数据等)
把丌同机器的“内存”融合为一个统一的缓存客户端可分布亍丌同机器戒
进程
客户端访问一个巨大的哈希
表
缓存层将数据分布在丌同的缓存节点上
疑问和解答
参考资源
windowshpc.netwww.microsoft.com/hpcChannel9.msdn.com/shows/the+hpc+showEdge.technet.com/tags/HPCwww.microsoft.com/scienceresearch.microsoft.com/fsharpwww.osl.iu.edu/research/mpi.netwww.microsoft.com/msdnwww.microsoft.com/technet
感谢您参不此会场!
您的意见不建议对我们非常重要。
请您填写反馈表。
© 2008 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.
The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS,
IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.