Upload
others
View
37
Download
0
Embed Size (px)
Citation preview
培训认证课程介绍
星环信息科技(上海)有限公司
二〇一八年八月
星环培训认证课程介绍
星环培训认证体系由大数据培训和人工智能培训两部分构成。大数据培训为
1+N+1 模式,其中前面的 1 为基础部分,即大数据平台数据工程师培训,N 为大
数据平台开发工程师 N个方向的培训,目前已开设的包括数仓与数集、实时流处
理、搜索与检索培训,后续会增设图计算与图检索等培训,后面的 1为架构师培
训。人工智能培训目前开设了 AI工程师培训,后续会增设其他培训。
大数据
大数据平台数据工程师
概述
本课程的内容涵盖了 Hadoop 生态圈介绍、大数据平台部署以及星环大数据平台
组件介绍。Hadoop生态圈介绍包括 HDFS、MapReduce、Spark、Yarn等组件,主
要从原理、操作方面进行讲解;大数据平台部署包括:软硬件要求、角色分配、
平台部署;星环大数据平台四大组件:Inceptor、Hyperbase、Slipstream、Search,
主要从组件的架构原理、安装、配置、运维等方面进行讲解。
时间
4天授课,1天考试
动手实验
通过 Transwarp Manager 对大数据平台实现安装、配置、监控
分布式存储 HDFS上的文件操作及运维命令
如何使用 Flume、Sqoop对外部数据进行导入
在 Yarn 上如何运行、调度 MR、Spark任务
如何通过 Inceptor实现 SQL on Hadoop
分布式下的事务操作
Hyperbase数据库的索引应用
星环平台下的 SQL流处理
授课对象&预备技能
运维实施工程师、系统管理员、IT项目经理
熟练使用 linux,了解 SQL语法及数据库基本概念
课程大纲
星环大数据平台介绍
分布式存储 HDFS
◼ HDFS 的特点
◼ 内部角色 NameNode 与 DataNode
◼ 文件的可靠性存储
◼ 解析文件读写过程
◼ Client 操作 HDFS 的常用命令
◼ 运维管理 HDFS
分布式资源调度 Yarn
◼ Yarn 架构与 Resource Manager、Node Manager
◼ 分布式资源封装与管理
◼ Yarn 下的调度器策略
◼ 解析作业提交执行过程
分布式计算框架
◼ MapReduce 特点
◼ 解析 Mapper—Reducer 运行机制
◼ 高性能的计算框架 Spark
◼ 弹性分布式数据集 RDD 与 DAG
NoSQL 数据库 Hyperbase
◼ Hyperbase 中的数据模型
◼ 架构与 Master、RegionServer
◼ 数据读写流程
◼ 非结构化数据存储 Object Store 简介
◼ 丰富的索引组合
◼ SQL for Elastic Search
SQL 最完善的执行引擎 Inceptor
◼ 组成架构介绍
◼ SQL 语法介绍之 DDL
◼ SQL 语法介绍之 DML
◼ SQL 语法介绍之 DQL
◼ 存储过程介绍
◼ 大数据量下的通用优化策略
◼ 各种表的总结与应用场景选择
大数据平台流处理 StreamSQL
◼ 流处理概念
◼ SQL 定义语法
集群规划与运维诊断
总结
课程表
时间
(9:30-17:30) 主题 课程
第一天 Hadoop 生态圈
Hadoop 生态圈概述
分布式存储 HDFS
分布式计算框架
分布式资源调度
第二天
Hadoop 生态圈
Sqoop 数据抽取
Flume 数据采集
分布式消息队列 Kafka
大数据平台
大数据平台介绍
大数据平台软硬件要求
集群角色分配
大数据平台部署
第三天 服务安装与使用
分布式 SQL 引擎 Inceptor
SQL 集成开发环境 Waterdrop
实时流处理引擎 Slipstream
第四天
服务安装与使用
集群运维
大规模搜索引擎 Search
NoSQL 数据库 Hyperbase
平台管理运维 Transwarp Manager
集群运维
第五天 闭卷笔试
开卷上机考试
大数据平台数据工程师(高级)(未开课)
概述
本课程的内容涵盖了 TOS介绍及运维、核心组件调优及诊断、平台安全管控以及
资源分配及调度。TOS 介绍及运维包括 Docker 介绍、Kubernetes 介绍以及 TOS
运维;核心组件调优及诊断包括 Inceptor、Slipstream、Search、Hyperbase
的调优及诊断;平台安全管控及资源分配及调度包括 Guardian、安全模式下各
组件操作以及资源的分配及调度。
时间
4天授课,1天考试
动手实验
通过 Transwarp Manager 对大数据平台实现安装、配置、监控
分布式存储 HDFS上的文件操作及运维命令
如何使用 Flume、Sqoop 对外部数据进行导入
在 Yarn 上如何运行、调度 MR、Spark任务
如何通过 Inceptor实现 SQL on Hadoop
分布式下的事务操作
Hyperbase数据库的索引应用
星环平台下的 SQL流处理
授课对象&预备技能
运维实施工程师、系统管理员、IT项目经理
熟练使用 linux,了解 SQL语法及数据库基本概念
参加并通过大数据平台数据工程师培训
课程大纲
星环大数据平台介绍
分布式存储 HDFS
◼ HDFS 的特点
◼ 内部角色 NameNode 与 DataNode
◼ 文件的可靠性存储
◼ 解析文件读写过程
◼ Client 操作 HDFS 的常用命令
◼ 运维管理 HDFS
分布式资源调度 Yarn
◼ Yarn 架构与 Resource Manager、Node Manager
◼ 分布式资源封装与管理
◼ Yarn 下的调度器策略
◼ 解析作业提交执行过程
分布式计算框架
◼ MapReduce 特点
◼ 解析 Mapper—Reducer 运行机制
◼ 高性能的计算框架 Spark
◼ 弹性分布式数据集 RDD 与 DAG
NoSQL 数据库 Hyperbase
◼ Hyperbase 中的数据模型
◼ 架构与 Master、RegionServer
◼ 数据读写流程
◼ 非结构化数据存储 Object Store 简介
◼ 丰富的索引组合
◼ SQL for Elastic Search
SQL 最完善的执行引擎 Inceptor
◼ 组成架构介绍
◼ SQL 语法介绍之 DDL
◼ SQL 语法介绍之 DML
◼ SQL 语法介绍之 DQL
◼ 存储过程介绍
◼ 大数据量下的通用优化策略
◼ 各种表的总结与应用场景选择
大数据平台流处理 StreamSQL
◼ 流处理概念
◼ SQL 定义语法
集群规划与运维诊断
总结
课程表
时间
(9:30-17:30) 主题 课程
第一天 TOS
Docker 介绍
Kubenetes 介绍
TOS 运维
第二天
Inceptor进阶 Inceptor调优
Inceptor诊断
Slipstream 进阶 Slipstream 进阶使用
Slipstream 诊断
第三天
Search 进阶 Search 调优
Search 诊断
Hyperbase 进阶 Hyperbase 调优
Hyperbase 诊断
第四天
平台安全管控 统一安全管控 Guardian
安全模式下组件操作
资源分配与调度
服务资源分配
计算资源分配
资源调度
第五天 闭卷笔试
开卷上机考试
大数据平台开发工程师—数仓与数集
概述
本课程以数据集市场景为主线,依次从场景描述、业务需求、技术路线、实现步
骤、案例分享、总结等方面进行讲解,旨在使学员清楚数据集市有哪些典型业务
场景、掌握如何使用 Holodesk 或 Rubik 实现典型业务场景、了解项目上的数据
集市应用案例等。
时间
2天授课,1天考试
动手实验
提供某业务数据,根据需求,完成数据集市典型业务场景过程
授课对象&预备技能
应用研发工程师、ETL 工程师、项目经理
熟练使用 linux、SQL,对星环大数据平台 Inceptor、Holodesk等组件有比较深
入了解
参加并通过大数据平台数据工程师培训
课程大纲
星环 TDH 大数据平台
◼ 星环 TDH 大数据平台概述
◼ 星环 TDH 大数据平台部署方案介绍
数据集市概述
◼ 大数据场景下数据集市建设方案
◼ 联机分析处理技术 OLAP
◼ 基于关系型数据的 OLAP 技术 ROLAP
◼ 基于多维数据组织的 OLAP 技术 MOLAP
◼ ROLAP 与 MOLAP 实践对比
◼ 星环 TDH 平台上 ROLAP 建设方案
◼ 星环 TDH 平台上 MOLAP 建设方案
分布式 SQL 分析引擎 Inceptor
◼ 架构设计
◼ 不同业务场景下表的设计方案介绍
◼ SQL 语法介绍之 DDL
◼ SQL 语法介绍之 DML
◼ SQL 语法介绍之 DQL
◼ 存储过程介绍
◼ 大数据量下的通用优化策略
分布式内存存储组件 Holodesk
◼ 架构设计介绍
◼ Cube On Holodesk 技术
◼ Holodesk 性能对比
◼ Holodesk 上索引以及 Cube 的原理、实践
可视化 OLAP Cube 开发工具 Rubik
◼ OLAP 分析平台架构设计
◼ Cube 数据结构介绍
◼ 星型模型、雪花模型详解
◼ Cube 的定义、实例化、优化等实践介绍
轻量级自助式 BI 分析工具 Pilot
◼ 交互式 HDFS 访问
◼ 自助式图表定义、展示
典型场景动手实践之 ROLAP 分析场景
◼ ROLAP 分析数据准备
◼ Holodesk 技术实践
典型场景动手实践之 MOLAP 分析场景
◼ MOILAP 分析数据准备
◼ Rubik 工具实践
◼ MBO 优化器实践
案例分享
◼ 某省农信管理驾驶舱系统
◼ 数据自主分析平台
◼ 营销分析平台
◼ 客户服务管理平台
总结
课程表
时间
(9:30-17:30) 主题 课程
第一天
课程及数据集市介绍 TDH 星环平台概述
数据集市概述
相关技术组件
分布式执行计算引擎 Inceptor
分布式高性能存储组件 Holodesk
星环大数据 TDH平台部署
第二天
相关技术组件 可视化 OLAP Cube 分析工具 Rubik
轻量级自主式 BI分析工具 Pilot
典型场景 ROLAP 案例实战
MOLAP 案例实战
案例分享 某省农信驾驶管理仓系统
总结 总结
第三天 开卷上机考试
大数据平台开发工程师—实时流处理
概述
本课程以实时流处理场景为主线,依次从场景描述、业务需求、技术路线、实现
步骤、案例分享、总结等方面进行讲解,旨在使学员清楚实时流处理有哪些典型
业务场景、掌握如何使用 Slipstream 实现典型业务场景、了解项目上的实时流
处理应用案例等。
时间
4天授课,1天考试。
动手实验
提供某业务数据,根据需求,完成实时流处理典型业务场景过程。
授课对象&预备技能
应用研发工程师、ETL 工程师、项目经理
熟练使用 Linux、SQL,对星环大数据平台 Slipstream 组件有比较深入了解
参加并通过大数据平台数据工程师培训
课程大纲
流处理场景综述
◼ 流式大数据特性及应用领域
◼ 流处理基本流程(需求/数据/预处理/计算/展示/存储)
◼ 流处理工程框架(底层数据源/中间计算引擎/上层可视化/存储到数据库)
◼ TDH Slipstream 产品特点
◼ 流处理引擎对比
流处理相关组件
◼ 分布式协调技术 Zookeeper
◼ NewSql数据库 Hyperbase
◼ 深度学习平台 Sophon
◼ 分布式消息队列 Kafka
◼ 实时流处理引擎 Slipstream
典型应用场景
◼ 实时规则研判
◼ 实时窗口指标统计
◼ 复杂事件处理(Complex Event Processing)
◼ PLSQL处理复杂逻辑
◼ 流式机器学习和数据挖掘
典型案例分享
◼ 公安交警集成指挥平台
◼ 风电集中监控系统
◼ 银行实时反欺诈系统
◼ 石化实时故障检测系统
总结
课程表
时间
(9:30-17:30) 主题 课程
第一天
流处理综述
流处理场景介绍
流处理场景特点
流处理场景典型应用
相关技术组件
流处理平台介绍
分布式消息队列 Kafka
Kafka API 开发
Kafka 常用参数
第二天 流处理引擎
流处理引擎对比分析
实时流处理引擎 Slipstream
Slipstream UDF 开发
Slipstream JDBC 开发
Slipstream 难点及参数
第三天 典型场景及案例
实时规则研判
案例-公安交警集成指挥平台
实时窗口统计
案例-风电集中监控系统
复杂事件处理
案例-银行实时反欺诈系统
PLSQL 处理复杂逻辑
案例-银行实时风控系统
流式机器学习和数据挖掘
案例-石化实时故障检测系统
第四天 课程总结 综合案例分析
实时流处理课程总结
第五天 考试 考试
大数据平台开发工程师—搜索与检索
概述
本课程以文本搜索和高并发检索两个场景为主线,依次从场景描述、业务需求、
技术路线、实现步骤、案例分享、总结等方面进行讲解,旨在使学员清楚搜索与
检索有哪些典型业务场景、掌握如何使用 Search 和 Hyperbase 实现典型业务场
景、了解项目上的搜索与检索应用案例。
时间
2.5天授课,0.5天考试。
动手实验
提供某业务数据,根据需求,完成搜索与检索典型业务场景过程。
授课对象&预备技能
应用研发工程师、数据库工程师、项目经理
熟练使用 Linux、SQL,对星环大数据平台 Search 和 Hyperbase组件有比较深入
了解
参加并通过大数据平台数据工程师培训
课程大纲
搜索与检索场景综述
◼ 搜索与检索的功能特性及应用领域
◼ 搜索与检索基本流程(需求/规划/数据预处理/存储/查询)
◼ 搜索与检索的开发框架(数据源/存储引擎/Java/SQL)
◼ Search 和 Hyperbase 产品特点
◼ 常见文本搜索引擎对比
搜索与检索相关组件
◼ NewSql 数据库 Hyperbase
◼ 全文搜索引擎 Search
◼ 大数据 SQL 引擎 Inceptor
典型应用场景
◼ 非结构化数据存储
◼ 高并发检索
◼ 关键字搜索
◼ 不指定列的数据分析
◼ 聚合统计
典型案例分享
◼ 图片数据存储引擎
◼ 新闻舆论关键字搜索引擎
◼ 高聚合统计分析引擎
总结
课程表
时间
(9:30-17:30) 主题 课程
第一天
搜索与检索综述
搜索与检索场景介绍
搜索与检索场景特点
搜索与检索场景典型应用
相关技术组件 NewSQL 数据库 Hyperbase
全文搜索引擎 Search
大数据 SQL引擎 Inceptor
第二天 典型场景及案例
非结构化数据存储
案例-票据影像数据管理
高并发检索
案例-银行电子账单系统
关键字搜索
案例-全网舆情分析系统
不指定列的数据分析
案例-公安云海情报系统
高聚合率统计分析
案例-舆论热词频次统计分析
第三天 典型场景及案例
图片存储引擎的核心实现
全文搜索引擎的核心实现
高聚合率统计分析引擎的核心实现
总结 开卷上机考试
大数据平台架构师
概述
本课程从需求分析、产品选型、细节设计、案例分享等多个角度,帮助用户掌握
如何在星环 TDH平台下设计出一套多功能、高性能的大数据解决方案。
时间
2天授课,1天考试
授课对象&预备技能
技术售前工程师、系统设计师、项目经理、架构师
需具备完整的 IT项目经验,一定关系型数据库的使用经验
参加并通过大数据平台数据工程师培训
参加并通过大数据平台开发工程师培训或者有较长时间使用 Hadoop 相关产品经
验
课程大纲
行业中的大数据的典型实践
需求分析
◼ 业务特点与分类
◼ 采集分析数据特征
◼ 性能响应指标评估
产品选型
◼ RDB vs MPP vs HADOOP
◼ 分布式计算引擎对比
◼ 搜索检索
◼ 图计算
◼ 流处理
◼ 多租户方案
基于星环 TDH 的架构设计
◼ 各组件的特点及适用场景
◼ 组件性能指标
◼ 组件间的资源分配与规划
◼ 数据集成设计
◼ 星环 TDH 内部的数据流转
◼ TDH 上的多租户管理
集群容量规划
集群角色分配
典型场景分析实践
◼ 统计分析场景
◼ 检索查询场景
◼ 流处理场景
◼ 数据挖掘场景
◼ 综合场景
总结
课程表
时间
(9:30-17:30) 主题 课程
第一天 TDH 平台
TDH 产品架构
TDH5.0 新特性
产品选型
产品选型:TDH vs MPP
产品选型:TDH vs ApacheHadoop
产品选型:计算引擎对比
产品选型:搜索检索技术
产品选型:图计算
产品选型:流处理
产品选型:多租户管理
项目需求 需求收集与分析
第二天
架构设计
典型场景判断
数据集成设计
数据流转设计
多租户管理
集群规划
各组件性能指标
集群容量规划
集群角色分配
资源分配与调度
典型场景与案例
典型场景:统计分析场景
典型场景:检索查询场景
典型场景:流处理场景
典型场景:数据挖掘场景
典型场景:综合场景
第三天 考试
人工智能
AI 工程师
概述
本课程主要针对具有一定人工智能理论和机器学习算法基础,同时想要在人工智
能领域继续深造并且进行实际案例实践的学员。培训内容主要包括人工智能与机
器学习概述,星环 Sophon 人工智能平台,机器学习建模流程,机器学习算法基
础,机器学习案例实践,人工智能典型案例分析等。希望学员通过此次培训能够
了解人工智能和机器学习技术的发展趋势,前沿技术研究和典型应用场景。同时,
巩固机器学习算法基础,熟悉星环 Sophon人工智能平台,并以此进行案例实践。
时间
4天授课,1天考试
授课对象
企业科技人员包括:
➢ 数据挖掘工程师
➢ 数据分析师
➢ 数据工程师
➢ 项目经理
预备技能
计算机/数学相关专业,具备一定统计分析知识
具备编程基础(R/Java/Python/ Matlab 均可)
数据库基本概念与 SQL 编程基础
机器学习基本概念
课程大纲
人工智能与机器学习概述
◼ 人工智能与机器学习基本概念
◼ 人工智能与机器学习技术发展趋势
◼ 人工智能与机器学习典型技术方案
◼ 人工智能与机器学习典型应用场景
星环 Sophon 人工智能平台
◼ 星环 Sophon 人工智能平台概述
◼ 星环 Sophon 人工智能平台部署
◼ 星环 Sophon 人工智能平台案例实践
机器学习算法与建模基础
◼ 机器学习建模流程介绍
◼ 建模流程之数据预处理
◼ 建模流程之特征工程
◼ 建模流程之算法选择
◼ 机器学习算法基础与应用案例
◼ 建模流程之模型评估
◼ 建模流程之模型应用
人工智能场景最佳实践
◼ 人工智能场景分析
◼ 人工智能场景技术路线
◼ 人工智能场景操作实践
人工智能综合案例实战
◼ 人工智能案例业务需求
◼ 人工智能案例数据需求
◼ 人工智能案例操作实战
课程表
时间
(9:30-17:30) 主题 课程
第一天
人工智能与机器学习概述
人工智能与机器学习基本概念
人工智能与机器学习技术发展趋势
人工智能与机器学习典型技术方案
人工智能与机器学习典型应用场景
星环 Sophon 人工智能平台
星环 Sophon 人工智能平台概述
星环 Sophon 人工智能平台安装部署
星环 Sophon 人工智能平台案例实践
第二天
机器学习算法与建模基础
机器学习建模流程介绍
建模流程之数据预处理
建模流程之特征工程
建模流程之算法选择
机器学习算法基础与应用案例
建模流程之模型评估
建模流程之模型应用
第三天
人工智能场景最佳实践
人工智能场景分析
人工智能场景技术路线
人工智能场景操作实践
第四天
人工智能综合案例实战
人工智能案例业务需求
人工智能案例数据需求
人工智能案例操作实战
第五天 人工智能基础培训结课考核
针对指定的业务需求分析并寻求解决方
案,并进行模型评估和模型解释