网格 及其应用的一些相关技术

Preview:

DESCRIPTION

网格 及其应用的一些相关技术. 高能所计算中心 于传松 2002.10.9. 网格简介 LCG — 一个最接近实用化的网格 应用中的一些技术问题 介绍高能所的一些科研成果. 网格简介. 应用需求及发展史 网格体系结构 网格安全 网格信息系统 网格数据管理 网格工作流程 网格软件的发展. 网络技术发展的三次浪潮. 第一次浪潮: Internet 的产生(80年代) 局域网的相互连接产生互联网 FTP、Telnet、Email newsgroup、BBS 第二次浪潮: WWW(80 年代末- 90年代中期) 超文本文件由 http 协议连接 - PowerPoint PPT Presentation

Citation preview

网格及其应用的一些相关技术

高能所计算中心于传松

2002.10.9

网格简介 LCG — 一个最接近实用化的网格 应用中的一些技术问题

介绍高能所的一些科研成果

网格简介

应用需求及发展史 网格体系结构 网格安全 网格信息系统 网格数据管理 网格工作流程 网格软件的发展

网络技术发展的三次浪潮 第一次浪潮:第一次浪潮: InternetInternet 的产生(的产生( 8080 年代)年代)

局域网的相互连接产生互联网局域网的相互连接产生互联网 FTPFTP 、、 TelnetTelnet 、、 EmailEmail newsgroupnewsgroup 、、 BBSBBS

第二次浪潮:第二次浪潮: WWWWWW (( 8080 年代末年代末 - 90- 90 年代中年代中期)期) 超文本文件由超文本文件由 httphttp 协议连接协议连接 WWWWWW 的产生(的产生( 19891989 年由年由 CERNCERN 科学家发明)科学家发明)

第三次浪潮:第三次浪潮: GridGrid (( 9090 年代后半期年代后半期 -...-... )) 各种资源统一通过网格技术连接各种资源统一通过网格技术连接 根据用途不同分为数据网格、计算网格根据用途不同分为数据网格、计算网格 ......

为什么需要网格

大型科学研究 生物、生化研究(基因研究、新药研究)

地学研究(地震研究与预测)

大气物理与气象预报 高能物理理论与实验

提出的需求 计算密集型、 I/O 密集型、数据密集型计算的需求

需要使用位于远处的大型、位置固定的仪器设备

大型国际合作项目的需求

首先是科学研究提出需求,然后扩展到其他领域

什么是网格ArgonneArgonne 实验室的实验室的 I. FosterI. Foster 认为网格是一种规模大小可认为网格是一种规模大小可变的变的虚拟组织虚拟组织:由动态合作的个体、研究单位和资源:由动态合作的个体、研究单位和资源所有者之间的灵活的、安全的、协调的所有者之间的灵活的、安全的、协调的资源共享资源共享

虚拟组织的成员——分布在世界各地的,为了完成同虚拟组织的成员——分布在世界各地的,为了完成同一件事情的研究机构、大学、科学家个体…一件事情的研究机构、大学、科学家个体…

资源——计算机、存储设备、网络、大型科学仪器、资源——计算机、存储设备、网络、大型科学仪器、数据库、软件、信息…数据库、软件、信息…

用户的观点:用户的观点:希望使用网上资源像使用电力、希望使用网上资源像使用电力、自来水那样方便,不必关心是从哪里来的资源,自来水那样方便,不必关心是从哪里来的资源,也不必考虑用多用少,总能满足需求。也不必考虑用多用少,总能满足需求。

网格所需要实现的技术

通信: Internet功能

资源信息服务 资源管理和调度 网格安全:认证和授权

虚拟组织及用户管理

全局名字服务 网格文件系统 监视系统 记帐 用户图形界面

GRIDGRID 的协议分层体系结构的协议分层体系结构

应用层

基础层资源及它们的访问与控制:存储系统、计算机群、网络……

连接层通信协议与安全:通信、认证、授权、 VO管理……

资源层共享单一资源 : 协商访问、控制使用资源分配、文件传输与访问,网格状态信息访问……

会聚层汇聚多个资源 :元目录服务、资源代理、复制服务、任务管理、协同、预留…… G

lobu

s Toolkit

网格工具包( Globus Toolkit )

资源信息及发现服务 资源管理 数据传输服务 网格安全体系

网格安全体系 GSI

Globus 的标准: GSI — 基于 PKI X.509

用户向安全认证中心 CA 申请证书 用户用证书向网格站点自己的 VO 注册 用户获得网格的授权后可以根据自己的

角色使用网格的资源 长时间作业需要授权代理的支持

网格信息系统 GIS

信息服务解决以下问题: 什么资源可资利用 -> 资源发现。 资源的状态如何 -> 资源的选择。 如何优化资源的使用 -> 应用配置和应变。Grid 信息服务: 系统成分的静态和动态资源。 提供在异构、动态环境中配置和自适应的基础。 统一而灵活的信息访问,可扩展的、高效的动态数据

的访问,多信息源的访问,分散的维护。

分级的信息服务结构

Top GIIS

GIIS GIIS

GRIS GRIS GRIS

网格数据管理

基本的协议— Gridftp (安全、并行的 ftp )

对存储系统的接口是 SRM (存储资源管理器) RLS (复制定位系统)跟踪文件的位置 文件移动、复制的基本工具 RM (复制管理器) GFAL (网格文件访问库)提供透明的用户访问

工作流程

服务将资源和作业连接起来 用户申请作业 查询资源情况 将作业与资源(计算能力、存储空间、软件、库…

…)匹配,向调度提交作业 执行作业(计算) 跟踪作业的状态 假如失败,重新提交 返回结果

使用许多服务: GIS , RLS , GSI…

网格软件的发展

Globus美国 Agonne 实验室五层沙漏模型

Web ServiceIBM 、 SUN 、微软Web 调用 API ,基于 SOAP

OGSAGGF 制订的标准吸收了 Web Service 的技术与思想适用于更复杂的应用

P2P 对等网已经发展了三代,目前正在发展第四代

LCG — 一个最接近实用化的网格

LCG 的总体规划 LCG 站点

LHC 计算需求

每年产生的数据 : 12-14 PetaBytes/yearLHC 刻度、重建、模拟等计算所需的

CPU : 100 Million SPECint2000

( 大约 10 万个 Intel 最新 CPU )

Tier2 Center

Online System

CERN Computer Center > 20

TIPS

USA CenterFrance Center

Italy Center UK Center

InstituteInstituteInstituteInstitute ~0.25TIPS

~100 MBytes/sec

100 - 1000

Mbits/sec

Physicists work on analysis “channels”.

Each institute has ~10 physicists working on one or more channels

Physics data cache

~PBytes/sec

2.5 Gbits/sec

Tier2 CenterTier2 CenterTier2 Center

~622 Mbits/sec

Tier 0 +1

Tier 3

Tier 4

Tier2 Center Tier 2

Experiment CERN/Outside Resource Ratio ~1:2Tier0/( Tier1)/( Tier2) ~1:1:1

LCG 站点的分布

参加 LCG 计算的有 31 个国家。

站点数达到 95 个。 总的 CPU 数达到

9528 个—世界上最大的计算机系统。

Grid 组件

Grid 组件

UI (用户接口) CE (计算单元) WNs (工作节点) SE (存储单元) RB (资源代理) MyProxy (证书代理) BDII (顶级网格信息服务)

CA 及 VO

认证中心 CA 基于 PKI 由 CA 服务器和安全 Web 服务器组成 负责证书的颁发、签署和撤销 CA 的策略发布

虚拟组织管理 VOMS 用户注册到自己的 VO ,获得自己的组信

息和角色信息 VOMS 向用户授权,生成代理证书

工作流程图示

LCG 软件的发展

Globus 2 based Web services based

gLite-2gLite-1LCG-2LCG-1

EDGVDT . . .

LCG . . .AliEn

LCG — gLite

应用中的一些技术问题(介绍高能所的一些科研成果)

基础设施中的问题与解决方法 网格文件系统 网格的用户界面

基础设施中的问题与解决方法

新一代计算环境—挑战与方案 超大型计算基础设施的系统结构 超大型计算基础设施的自动化管理 负载平衡与作业调度

新一代计算环境—挑战与方案

系统的稳定性 可管理性 高效性 服务质量保证 安全性 高效的存储系统 关键数据的备份

超大型计算基础设施的系统结构

登录节点

登录节点

计算节点

计算节点

计算节点

计算节点

Disk Server

Disk Server

Disk Server

Tape Server

Tape Server

Tape Server……

… …

磁带库

批处理机群交互机群

LCG站点

Internet

园区网络

自动化管理

超大规模计算中心面临的管理问题 管理的工作量 管理的有序性 管理的有效性

超大型计算基础设施管理系统 ELFms 节点配置、安装、管理 Quattor 系统 / 服务监控 LEMON 硬件 / 状态管理 LEAF

负载平衡与作业调度

意义在于资源的共享和提高可管理性 不同 VO 的用户共享不同来源的设备

基于抢占的调度策略 实现作业的现场保存与恢复

大规模作业的提交 满足高能物理数据处理与分析的需要

网格文件系统

广域网文件存储面临的难题 实现网格文件系统存在的问题 实现网格文件系统的目标

广域网文件存储

网格数据需要全球共享,需要广域网上的文件存储服务

广域网文件存储面临的难题 延迟:光速的限制;多次往返通信 缺乏可靠性:打开 / 保存文件超时;丢失数

据 异构的存储系统 存储资源动态变化

实现网格文件系统存在的问题

名字服务器的结构与效率问题 名字服务器用于检索和定位资源,因此效率及可靠性与结构有关,

应该采用什么样的结构? 存储资源整合与需求多样化的问题

网格上的存储资源和用户的需求是多种多样的 动态复制问题

数据复制是提高性能和可靠性的重要手段,动态复制策略? 文件访问方式问题

写操作引起的副本一致性问题 文件传输方式选择

存在众多的文件传输 / 访问协议,没有统一的标准

实现网格文件系统的目标

将动态变化、异构的、全球分布的存储资源虚拟成一个稳定的、单一的文件系统视图

提供分级的文件名字空间 提供 POSIX 文件访问接口 (Open/Seek/

Read/Write/Close) 应用程序无须任何修改就可以访问网格存储空间

( local virtual file system ) 自动透明的副本创建和选择机制 延迟管理、性能优化、安全保证等

网格文件系统的一种实现—— HEP-GridFS 的体系结构

物理存储系统( castor/HPSS/NFS 等)

网格文件系统体系结构 网格五层沙漏结构

网格安全认证体系 GSI

存储资源管理 SRM

网格文件名字服务

网格文件访问接口

构造层:可供共享的资源 物理和逻辑实体

连接层:提供安全通信

资源层:共享单一资源

汇聚层:协调各种资源(目录 服务、调度、复制等)

应用层:应用程序、工具

广域网传输

网格文件系统的一种实现—— HEP-GridFS 组件及其相互关

系网格文件名字服务器 1

访

本地数据传输

海量存储系统

存储资源管理SRM

WIN32客户端

LINUX客户端

其它客户端

本地数据传输

海量存储系统

存储资源管理SRM

本地数据传输

海量存储系统

存储资源管理SRM

网格文件名字服务器 n

网格的用户界面

研究网格 Portal 的目的、意义 网格 Portal 的体系结构 网格 Portal 的基础功能 关于遗留代码

网格 Portal的目的

网格环境中包含着各种异构计算机、软件、数据库等,要想充分使用这些资源,使它们协同工作,需要对复杂的网格环境有清晰的认识和配置,而这并不容易

作为网格这一新技术而言,只有当用户感觉到这项新技术容易使用,操作不复杂,才能得以推广

网格 Portal的意义

提供一个相对简单而且适合用户使用习惯的 Web交互界面,提供了对身份认证、任务提交、信息查询等访同网格资源的方便的操作接口,简化了客户端的软件配置

对用户隐藏底层网格系统的细节 提供可视化的资源视图 可以快速利用网格的计算能力 用户的工作不受网格变化的影响 提供一整套利用网格服务和网格资源来完成科学计算的

工具 负责管理后端网格中的计算资源

网格 Portal 的体系结构

客户端浏览器:为了传输的安全,客户端浏览器需要支持 SSL

Web 应用服务器:也即网格 portal容器,为网页提供服务,它是网格 Portal 所在,主要用来处理客户端的 HTTP 请求

网格服务层:主要由网格服务如文件传输、作业提交等服务构成

I E 浏览器

Servl et

Portl et Portl etPortl etPortl et

、 、 、J ob Securi ty Resource Fi l e网格服务

网格 Portal 的基础功能

安全访问服务 用户注册、登录、认证、授权、代理、会话控制

作业管理服务 作业提交、启动、停止、迁移、返回作业状态和结果

数据服务 网格文件管理、数据传输服务

信息及监控服务 提供信息查询、作业监视

特定任务

关于遗留代码 遗留代码是指那些在传统计算环境中运行良好、有科学计算用户在长期的科学研究中积累的一些经常使用的程序

这类程序主要针对传统计算环境而设计,一般可以运行在一种或几种指定的计算平台上,成熟、稳定性好、拥有一定的用户、又在网格计算环境中继续使用的价值,但是,这些遗留代码大多不具备对网格计算环境的适应能力

为了在网格计算环境下充分使用这些遗留代码,将他们进行web 服务包装

遗留代码进行web 服务包装后,将其融入网格portal之中,方便用户的使用

总结

四年前报告的结论 Grid 是继 Internet 和

WWW 之后网络技术的新发展

目前 Grid 技术尚未成熟,许多问题有待解决

各国的科学家和 IT业正在努力发展 Grid 相关技术

Grid将在科学研究、工商业及生活中得到广泛应用

Grid将在几年内走到你身边

今天的发展现状 Grid 技术已经接近成熟 科学界的 Grid 正在大规

模部署,在两、三年内将正式投入使用

商业和其他领域也将进入普遍应用

中国科学家已经完成了许多卓有成效的研究工作(上述介绍的大多是是高能所科学家的工作)

谢谢!

Recommended