30
服务“双一流”建设 搭建科研创新高性能计算云平台 --教育科研EaaS模式 山东大学软件学院 山东省高性能计算中心 龚斌

服务“双一流”建设 搭建科研创新高性能计算云平台hpc.csu.edu.cn/uploads/Img2/20180710/3.pdf · 服务“双一流”建设 搭建科研创新高性能计算云平台--教育科研EaaS模式

  • Upload
    others

  • View
    19

  • Download
    0

Embed Size (px)

Citation preview

服务“双一流”建设

搭建科研创新高性能计算云平台

--教育科研EaaS模式

山东大学软件学院

山东省高性能计算中心

龚斌

目录

• 平台建设背景

• 面临的挑战和问题

• 平台的建设

• 典型应用场景

建设背景

• 实施国家创新驱动发展战略

• 《新一代人工智能发展规划》和发展大数据战略

• 世界一流大学和一流学科建设, “双一流”

• 高性能计算已同理论研究和科学实验一起成为人类探索未知世界的三大科学手段,被称为支撑科学发现的第三个支柱。科技进步的重要标志之一,也是国家科技综合实力的综合体现

建设背景

• 高性能计算近年来发展迅速– 从2010年11月天河-1排名TOP500第一名到2013年后,“神威太湖之光”连续排名

第一

– 2016、2017年连续两次获高性能计算应用“戈登•贝尔”奖

• 从2000年上海超级计算中心成立,到目前有国家超算中心(天津、广州、深圳、长沙、济南、无锡),省级和地区超算中心,各高校超算中心,院系、课题组计算平台

山东大学高性能计算平台

• 山东大学是国内最早建设高性能计算平台的高校之一– 2002年8月经山东省科技厅批准成立山东省高性能计算中心,依托山东大学软件学

院,由山东大学和济南市高新技术开发区管委会共同投资建设

• 目前是国家高性能计算环境的主要节点,也是教育部的ChinaGrid主要节点– 承担了国家十一、十二五国家863和十三五国家重点研发计划项目,以及教育部中

国科研教育网格项目

• 开展化学、物理、材料、能动、生物信息、信息安全及动漫渲染等高性能计算应用– 2004年8月数学院王小云院士的团队在平台上完成了对单向散列函数MD5算法安全

攻击的成功实现,实现了国际密码学领域的重大突破

面临的挑战一:计算需求多样性

• 山东大学学科门类众多,涉及计算的学科逐渐增加,计算需求多样–从计算的传统学科理工科,发展到实证科学、医学、药学、人文学科

–从传统的连续问题离散化的高性能计算(OpenMP、MPI)到离散问题的大数据、深度学习、统计分析

–从单纯计算应用到软件调试、优化模型、实验教学

–大多数处于中、小规模(几百个核),个别(上千核),还有一部分处于入门

–应用的交互场景从ssh终端、Web Portal到应用集成环境、GUI图形(ANSYS)

–从课题组统一调配排队使用到个人工作环境的使用

面临的挑战二:技术的发展

• 随着计算机技术的发展,系统结构、操作系统、支撑软件多种多样–系统架构:两路节点、四路胖节点、八路肥节点、GPU节点到双路机群、

四路机群、GPU机群等;从传统的MPI机群到大数据处理机群

–操作系统:centos 6.*, 7.*、ubuntu 12.04,14.04,16.04,17.04,18.04,windows HPC server

–支撑软件:python 2.7,3.4,3.5,3.6、各种compiler、library等

• 大数据:数据量大,代码迁移

• 深度学习:软件版本多,GPU

面临的挑战三:思维和服务模式

• 新技术、新思维、新模式出现

–互联网:开放、平等、协作、快速、分享,以人为本

–云计算:资源统一管理和调度,按需提供服务,用户体验

–移动互联:将计算有关的人和事连接

–大数据:以数据为中心,为用户精准画像,提供个性化服务

• 有益的尝试– 天津超算、上海超算的云服务模式,高校计算云平台:上海交通大学、北京理工

大学等

– HPC in Cloud:公有云,AWS、Azure、阿里云、腾讯云、华为云

– 容器技术:singularity, shifter, udocker, charliecloud, ubercloud

决策面临的问题• 大平台、小平台的矛盾

–大平台如何满足不同用户的个性化需求

–小平台建设分散,人员、空间、设备资源难以整合

• 如何实现“依托学科、专管共用、开放共享、服务需求”

• 扩大计算应用领域,加强交叉学科的融合,带动计算相关学科的发展,提高科研创新能力

运维面临的问题

• 传统的管理模式难以满足应用需求–从硬件维护、软件安装部署、作业提交、权限分配、用户记账

• 应用部署存在“Dependency hell”

• 运维服务、应用支持人员不足

• 缺乏资源优化分配和应用激励机制

• 收费模式单一

使用面临的问题

• 使用门槛比较高,初入计算比较难,特别是对非计算机专业

• 使用方式单一,用户体验差

• 缺乏用户自己定制、开发的途径,难以实现个性化定制

• 缺少技术交流的环境和应用激励机制

• 只提供单纯的计算,缺乏工作流和对整个科研过程的支持

总 结

• 两个难点:运维管理难,用户使用难

• 两个目标:减少运维的工作量,提高使用的灵活性

• 核心:打包与部署分离

• 解决方法:智能微模块 + 容器技术,就如“集装箱”

• 引入基于社交通讯的移动应用,打造围绕计算和数据的“工作圈”

思 考

• 指导思想:以人为本

–让想计算的人更方便计算

–重点解决:“Dependency hell”,为用户提供个性化定制

–让服务走向用户

–让参与其中的人都有“获得感”、“存在感”

• 以用户为中心、以应用为根本、以计算和数据为引擎

–把与计算有关的人和事连接起来,环境即服务(Environment-as-a-Service)

–把相关计算的人和人连接起来,生态即服务(Ecosystem-as-a-Service)

• 面向教育科研的EaaS模式

EaaS:以环境(生态)为服务

• Environment:环境

–计算应用环境:个人,课题组

–实验实训环境:Linux、DB、network、software

–软件研发环境:深度学习

–交叉研究环境:生物信息

• Ecosystem:生态

–面向课题生态

–面向项目生态

–面向问题生态

• 围绕学校的高性能计算、云计算、大数据、深度学习、数据分析统计的科研需求,建设一个基于混合架构、容器和移动应用技术的计算云服务平台,计算能力达到380TFLOPS,存储能力为1.6PB,构建“依托学科、专管共用、开放共享、服务需求” 大型设备的管理和应用体系,为学科发展提供支撑,助力科研创新

平台建设目标

2017.9.20

学校立项

调研,制定总体方案

机房装修加固 发布招标书

开标

设备陆续到货

软件总体设计

cloud.sdu.edu.cn山大智信

与学校统一身份认证系统挂接

试运行小规模测试

平台发布

2017.1

2016.12

2017.112017.10

2017.8.222017.6

2018.1

2017.12

2018.7.6

2018.3

平台建设历程

物理资源池

容器网络

Vxlan OPA

状态管理

元数据 健康检查

存储基础服务

NFS Lustre CPFS服务网格

多租户网络服务

SDN网络控制器

资源编排调度服务

Mesos Kubernetes Nomad Slurm

容器存储服务

Rootfs / Volume

OCI / Singularity

容器镜像服务

计算应用场景

Web交互场景(Jupyter)

容器化应用组件

单节点Linux容器多节点Linux容器

集群Web服务容器

单节点远程桌面容器

GUI场景(GaussView) HPC 传统场景(Slurm Cluster)

多层次安全保障

多租户认证与校园认证体系集成

容器内外用户id统一管理

容器镜像恶意软件扫描

多租户网络/数据存储相互隔离

硬件网络防火墙

人性化操作界面

Web工作界面

山大智信移动端

全局信息仪表盘

高效运维管理界面

运维监控系统

模块化机房智能数字化管理

模块化机房 FusionServer Intell OPA FusionStor

物理资源池

模块化机房 FusionServer Intell OPA FusionStor

教育科研EaaS

计算应用环境 教学实验环境 软件研发环境 交叉科研环境

IB

山大智信

• 与普联软件公司合作

• 基于社交的移动应用

• 系统、应用和数据可自主管控

• 统一身份认证,实名制

• 系统通知直接推送

• 建立围绕计算和数据的“工作圈”

• 已实现用户扫描登录、新闻、直播、点播、计算可视化应用等

应用场景一:深度学习

• TensorFlow是用于机器学习和深度神经网络方面的研究的开源软件库;TensorBoard 可以展现TensorFlow 图像,绘制图像生成的定量指标图以及附加数据

• Jupyter(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言,便于创建和共享程序文档,支持实时代码,数学方程和可视化,可用于数据清理和转换、数值模拟、统计建模、机器学习等

应用场景二:生物信息galaxy

• 整合了各种生物信息学分析工具,可以友好方便的构建生物数据分析工作流,是集数据上传检索及处理、序列比对组装、序列分析、SNP/WGA分析、数据可视化等众多生物信息分析功能于一体的公共开放性平台

• 演示:找出人类22号染⾊体上,具有单核苷酸多态性变异个数最多的

前5个基因外显子

应用场景三:虚拟机群

• 用于课题组租用多节点机群,通过作业队列管理系统提交作业脚本

• 用户可以对作业队列管理系统控制,记账管理

应用场景四: Gaussian

• 一个功能强大的量子化学综合软件包,其可执行程序可在不同型号的大型计算机,超级计算机,工作站和个人计算机上运行

• Gview是一个专门设计与高斯配套使用的软件,其主要用途有两个– 图形交互构建高斯的输入文件

– 图形方式显示高斯计算的结果

• 演示:构建甲烷分子模型,计算其单点能并图形化输出结果

目前应用状况

下一步工作

• 丰富应用镜像

• 完善云平台管理和调度

• 加强“山大智信”的应用广度和深度

• 试运行收费模式