21
计计计计计计计计计计计计计 -- 计计计计计计计计计 计计计

计算环境整合及网格环境建设 -- 机群计算和网格计算

  • Upload
    gitano

  • View
    133

  • Download
    8

Embed Size (px)

DESCRIPTION

计算环境整合及网格环境建设 -- 机群计算和网格计算. 孙功星. 报告内容. 计算系统的现状分析。 资源整合的共享方案及实施。( 04 年) LCG 网格的北京站点设置和维护。( 04 年) 基于国家网络设施的中国国家高能网格试验床的建设( 04 年) 64 位计算平台研究( 04 年)。 2004 年以后的工作设想。. 高能所计算环境现状. 从 VAX HP 工作站 PC Linux Cluster. - PowerPoint PPT Presentation

Citation preview

Page 1: 计算环境整合及网格环境建设 -- 机群计算和网格计算

计算环境整合及网格环境建设-- 机群计算和网格计算

孙功星

Page 2: 计算环境整合及网格环境建设 -- 机群计算和网格计算

报告内容 计算系统的现状分析。 资源整合的共享方案及实施。( 04年) LCG 网格的北京站点设置和维护。( 04年) 基于国家网络设施的中国国家高能网格试验床的建设( 04年) 64 位计算平台研究( 04年)。 2004 年以后的工作设想。

Page 3: 计算环境整合及网格环境建设 -- 机群计算和网格计算

高能所计算环境现状 从 VAXHP 工作站 PC Linux Cluster. 当前,在计算中心有 4套 PC-FARM 计算系统。分别是基于 AMD 和 Intel 系统。它们分别服务于 BES 、YBJ 和 LHC 、 AMS 等实验。以及即将建设的同步辐射信息平台。 每个计算系统的实物及连接见图 1。 其硬 /软件配置如表 1。

Page 4: 计算环境整合及网格环境建设 -- 机群计算和网格计算

图 1 :当前的高能物理计算环境

Central Switch

Internet

Div. 1

Div. 3BES farm

YBJ farm LHC farm

Page 5: 计算环境整合及网格环境建设 -- 机群计算和网格计算

计算环境的硬件配置PC Farm

OS No. CPUs Batch System

Hep-farm

Linux RH7.2

25×Intel PIII

OpenPBS 2.4

YBJ-farm

Linux RH7.2

32×AMD MP

OpenPBS 2.4

LHC-farm

Linux RH7.2

32×AMD MP

OpenPBS 2.4

LCG Linux RH 7.3

9 × Intel P4

OpenPBS2.4

Page 6: 计算环境整合及网格环境建设 -- 机群计算和网格计算

校园网格监视系统及现存系统的问题

Page 7: 计算环境整合及网格环境建设 -- 机群计算和网格计算

资源整合和共享实施 当前 PC FARMS 分离运行存在使用率低的问题。 - 最高的使用效率不到 40% ,本月约 10% 。 使用效率不高的可能原因有三个: - 物理的硬件瓶颈 - 优化问题。 - 应用的是非持续的应用。 在高能所计算环境中,这三个方面的问题都存在: - 硬件的连接带宽不够。 - 系统的配置不当。 - 几个物理实验对资源的使用具有不同的周期。 使用资源的整合、共享不仅可以消除这些问题,也可以节省资金。在所、室两级领导以及其他兄弟室的大力支持下,已经获得了 33万元的资助。

Page 8: 计算环境整合及网格环境建设 -- 机群计算和网格计算

资源整合的硬件组成方案

Page 9: 计算环境整合及网格环境建设 -- 机群计算和网格计算

高能所 Batch 系统的体系结构

UI Central Schuler

Input/Output

Page 10: 计算环境整合及网格环境建设 -- 机群计算和网格计算

高能所 BATCH 系统的用户环境 用户的 home 目录将使用 afs 提供统一的界面。 /afs/ihep.ac.cn/bes/ /afs/ihep.ac.cn/ybj/ 等等。 数据的访问将提供 NFS 和 rfio 协议支持。 /castor/ihep.ac.cn/bes/ /castor/ihep.ac.cn/ybj/ 支持海量数据的在线存储与访问。

Page 11: 计算环境整合及网格环境建设 -- 机群计算和网格计算

基于国家网络基础设施的数据网格计算环境研究和实施 设置和维护服务于中国高能物理计算的 CA( Certificate Authority) 。使高能所成为一个中国高能物理计算的主要网格站点。目前正在申请以获得 LCG 的承认。 建设包括高能物理研究所、北京大学、山东大学等在内的中国国家高能物理网格计算试验床环境(于主任牵头)。

Page 12: 计算环境整合及网格环境建设 -- 机群计算和网格计算

Gloriad 网络和高能物理计算环境 Gloriad网络已经于 2004 年 1月份开通。 - 北京—香港—芝加哥—阿姆斯特丹—俄罗斯。 - 155Mbps 。年中可能达到 2.5Gbps ,逐步达到 10Gbps 。 正在设置 LCG 北京站点,其组成为:(和陈刚) UI (User Interface )、 CE ( Computing Element) 、 SE ( Storage Element) 、 LCFGng和 5个 WNs( Work Nodes) 。 将 LCG 北京站点加入全球 LCG 计算环境中。

Page 13: 计算环境整合及网格环境建设 -- 机群计算和网格计算

Gloriad 的环球网络的连接

Page 14: 计算环境整合及网格环境建设 -- 机群计算和网格计算

LCG 北京站点的组成

lcg002

lcg003

lcg004

lcgwn001lcgwn002lcgwn003

lcgwn004lcgwn005

lcg001LCFGngServer

User Interface

ComputingElement

StorageElement

WorkerNodes

Page 15: 计算环境整合及网格环境建设 -- 机群计算和网格计算

北京 LCG 站点网页

Page 16: 计算环境整合及网格环境建设 -- 机群计算和网格计算

LCG 的 CVS 北京目录

Page 17: 计算环境整合及网格环境建设 -- 机群计算和网格计算

LCG 北京站点的 UI

Page 18: 计算环境整合及网格环境建设 -- 机群计算和网格计算

64 位架构的计算平台研究 基于 Intel 和 AMD 的 64 位平台会渐渐成为一种普通的计算平台。 -与时俱进科学院网络中心已经购置一台拥有 1032 个英特尔安腾 64 位 CPU的超级机群系统,位于全世界的 14位。希望科学院的其他单位使用。 1万元电费 /1天。 当前, 64bit 平台与 32 位是不兼容的,所以,需要对其操作系统,程序库和应用程序的兼容性进行研究。 -技术储备

Page 19: 计算环境整合及网格环境建设 -- 机群计算和网格计算

资金与人员 课题的资金已经用完( 40万)。 设备费用 LHC PC-Farm(32CPUs+1.28TB+4PCs):约 27万。 LCG(9 PC Workstations):约 7.65万。 研究生 +会议 + 论文版面:约 7万。 结余: -10000 元。 希望所里考虑再追加经费 20 万元,购买 CA, 监视服务器,以及建立一个开发环境, LCG 北京站点的存储。 人员建设:正在招聘一个硕士研究毕业生。

Page 20: 计算环境整合及网格环境建设 -- 机群计算和网格计算

2005 年以后的设想 为了支持不断增长的高能物理及其他方面的需求,研究和跟踪 PC-Farm 的硬件体系结构和可扩展性。 开发和实施大规模 PC-Farms 的监视和管理系统。并加入计算中心的系统网络监视中心。 研究基于应用的网格资源集成的调度策略。 研究 BES 、 YBJ 等计算网格环境技术(?)。 建立中国高能网格计算环境,培养研究、技术支撑及维护队伍。加强国内的合作。 维护和扩充 LCG 北京站点,以及其他 Tier-2(3) 站点的技术支持,使之成为 Tier-1或 Tier-2 (?)中国区域中心,以及中国高能网格的全球 LCG 计算资源的入口。加强国际合作。

Page 21: 计算环境整合及网格环境建设 -- 机群计算和网格计算

结论 通过上面的项目的实施和技术储备,将可以获得: - PC 机群系统的技术与经验。 - 网格计算的技术与经验。 - 技术队伍的建设。 完全有理由相信,与海量存储等研究组以及各个兄弟室一道,计算中心能够迎接未来中国高能物理的计算需求的挑战。 希望获得各位用户的支持!!