10
i 附件、产品白皮书 北京容天汇海科技有限公司 RT-Brain v2.0 产品白皮书

RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 i 页

附件、产品白皮书

北京容天汇海科技有限公司

RT-Brain v2.0

产品白皮书

Page 2: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 ii 页

目 录

1 RT-BRAIN 概述 .................................................................................................................. 3

1.1 产品目标 .............................................................................................................................. 3

1.2 产品亮点 .............................................................................................................................. 3

2 RT-BRAIN 总体架构 ......................................................................................................... 6

2.1 产品功能架构 ..................................................................................................................... 6

2.1.1 功能视图 ...................................................................................................................... 6

2.1.2 功能概述 ...................................................................................................................... 6

2.2 产品技术架构 ..................................................................................................................... 8

3 RT-BRAIN 功能概述 ......................................................................................................... 9

3.1 对外服务接口(IAPI) .................................................................................................. 9

3.2 性能测试(ITEST) ......................................................................................................... 9

Page 3: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 3 页

1 RT-Brain 概述

1.1 产品目标

RT-Brain 人工智能大数据平台是一个针对人工智能大数据用户,提供易管

理的中文图形化界面、支持多种部署方式的多租户平台。RT-Brain 平台把很多

分散的物理计算资源抽象成一个巨大的资源池,它利用这些资源来帮助用户执行

计算任务。对于用户来说,操作一个分散的集群资源可以像使用一台计算机一样

简单。平台涵盖传统的机器学习、数据分析和挖掘,以及最新的深度学习技术,

其中深度学习模块从数据、算法和模型方面提供多种性能优化方案,支持智能超

参搜寻优化,提供精细粒度的调度与部署,精确支持到单台节点的特定 GPU、CPU

和内存等资源的独享与共享模式,用专业手段解决用户非专业的问题,让用户只

关注自己的专业,不用去研究底层的 IT 技术是如何实现的,快速上手,随需部

署,即开即用。

1.2 产品亮点

❑ 国内首创全中文深度学习图形界面,内容一目了然,卓越的交互性,可

以保证用户轻松上手;

Page 4: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 4 页

❑ 平台具备超强的适用性,兼容 x86、Power 和 ARM混合集群架构;

❑ 平台提供 GPU 的原生支持,深度学习模型都是经过 GPU 后端(包括

TensorFlow、PyTorch、Caffe、Theano、Torch等最顶级的框架)优化的,

训练效率是 CPU 的 100倍;

❑ 支持不对称计算节点,不仅可以让用户轻松将原有老旧设备并入集群,

而且支持未来各种新品架构计算节点的追加,统一调度;

❑ 除了支持深度学习模型并行,也加入了数据并行训练的支持,同时支持

同步和异步并行模式;

❑ 支持从 Flow,R,Python,Java,Scala或 REST API中为用户定义或预定

义的图像/文本分类的深度学习模型;

Page 5: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 5 页

❑ 平台支持数据的交叉验证、早期中止和超参搜索,先进的智能超参调

优,多种智能模式,帮助用户选择最优模式,保证用户训练模型的最优

化,提高训练效率;

❑ 平台除了支持目前火热的深度学习,还支持传统的机器学习以及主流大

数据分析功能,可以让用户采用一个平台就可以完成全方位的智能大数

据分析功能;

❑ 平台同时支持高性能计算的 MPI 并行模式,可以帮助用户轻松完成基因

计算、流体力学、分子动力学、材料分析等传统科学计算集群的搭建 、

计算和管理;

❑ UI 界面方式和服务模式两种模式,可以让客户轻松构建自己的云服务平

台,同时支持移动终端调用;

Page 6: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 6 页

❑ 支持用户自定义企业级模块,可以非常方便地开发和部署自己的深度学

习应用,从而实现快速无缝的业务结合。

2 RT-Brain 总体架构

2.1 产品功能架构

2.1.1 功能视图

2.1.2 功能概述

从功能视图来看,整个 RT-Brain划分为以下几大应用模块:

Page 7: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 7 页

❑ 基础共享平台

基础共享平台是独立于深度学习框架的专用模块,是整合平台的基础和核

心。它将资源管理、作业调度、系统监控等业务活动所涉及的各环节有序地串联

起来,保证业务的正常开展,并做到可监督、可管控。主要功能包括:把很多分

散的物理计算资源实现统一化管理、提供统一的用户作业管理界面,实现作业的

统一调度、以多维度、人性化方式展示监控信息便于用户实时掌握系统运行情况

等。

❑ 深度学习平台

RT-Brain 是新一代人工智能平台,集成了深度学习、超算等领域的技术框

架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在 Hadoop 和

Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

专业的问题,让用户只关注专业,不用去研究技术,中文图形化界面使用户快速

上手。其中丰富的对外服务接口和超参搜索算法是深度学习平台的两块基石。

❑ 智能管家

智能管家能够应付各种复杂的异构环境,实现了 RT-Brain 的自动化部署及

版本升级功能。为用户节约大量人力成本且大大缩短了平台的部署时间,是一款

高附加值产品。其次可以用来监控系统性能和管理集群内各容器的部署和使用,

管理集群内各种资源的状态,如:CPU 、内存、硬盘利用率,I/O负载、网络流

量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资

源,提高系统整体性能起到重要作用。

❑ 对外服务接口

提供了丰富的服务接口供第三方系统使用,RT-Brain通过对外服务接口实现

与外部系统进行数据传递,从而实现跨系统的业务流程疏通以及数据采集与交

换。通过 RT-Brain 提供的服务接口,第三方系统可以执行深度学习下的训练、

推理等操作,以及管理分散的物理计算资源。 服务接口符合 OpenAPI 3.0规范,

所有接口调用都是通过 Rest API的格式来发送 HTTP请求的。出于安全考虑,每

次请求都需要对用户身份作认证,请求 header 中都需要带用户账号 username和

用户密码 password,password为经过 md5加密过的密码。

Page 8: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 8 页

2.2 产品技术架构

将现今流行的深度学习框架,比如 TensorFlow、PyTorch、Caffe等做出整合,

并将大量的底层操作进行封装。在满足所有功能需要的前提下,极大地简化了这

些深度学习框架的操作流程,大大降低了深度学习从业人员的资格门槛。我们还

采用现今学术最前沿的 TPE以及高斯贝叶斯算法,为软件系统添加了超参优化功

能,从而解决了当前整个深度学习行业所要面对的重大问题--模型超参调优。提

供一个风格简洁、操作流畅、具有极高实用价值的深度学习开发平台。

❑ 整合市面上流行的深度学习框架,如:Tensorflow、PyTorch、Caffe、

Theano、Keras 和 Faster-RCNN等,提供更完善的方案;

❑ 融合大数据、高性能计算等核心技术,支持海量数据下的深度学习和机器

学习;

❑ 提供更友好、更简单、更人性化的操作界面;

❑ 提供超参搜索算法及自动发现模型过欠拟合问题,节约用户模型训练时

间;

❑ 微服务架构及容器化部署的平台,能实现高容错、高扩展和高可用的目标;

❑ 提供丰富的对外服务接口,便于与业务系统集成;

❑ 通过智能管家实现产品的自动化部署,减轻对运维人员的负担。

Page 9: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 9 页

3 RT-Brain 功能概述

3.1 对外服务接口(iAPI)

提供了丰富的服务接口供第三方系统使用,RT-Brain通过对外服务接口实现

与外部系统进行数据传递,从而实现跨系统的业务流程疏通以及数据采集与交

换。

3.2 性能测试(iTest)

经过严格的性能测试,保证产品的可靠性及实用性。

❑ 硬件环境

❑ 测试报告

Page 10: RT-Brain v2€¦ · 架,实现作业的统一调度和协同工作。支持自动化部署和多租户,在Hadoop和 Spark集群上无缝地完成大数据处理、深度学习任务。用专业的手段解决用户非

第 10 页