29
2016年9月23日星期五 SUGON ENTERPRISE BIG DATA SOLUTIONS www.sugon.com 曙光信息产业股份有限公司 曙光XData之数据融合与深度分析 中科曙光 宋怀明

曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

  • Upload
    others

  • View
    18

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

• 曙光XData之数据融合与深度分析

中科曙光 宋怀明

Page 2: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

01 技术发展趋势

02 业务数据融合

03 深度分析技术

04 精选案例分享

目录

Page 3: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2

SUGON ENTERPRISE BIG DATA SOLUTIONS

Sugon

01. 技术发展趋势 趋势,技术

Page 4: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

全球数据的90%产生于过

去2年内

Facebook每分钟产

生180万次赞。我

们每分钟发送2.04亿封邮件

01

06

以今天的数据生产速

度,我们可以在2天内产生2003年以前

的所有数据

Youtube 1天内上

传的视频要花费15年才能看完

02

07

行业内获取并且存储

的数据量每1.2年就会翻一番

全球每分钟会新增570个网站

03

08

到2020年,全球数据

量将由现在的3.2ZB变为40ZB

04

仅Google一家搜索引擎,每秒就处理4万次

搜索查询,一天之内更是超过35亿次

05

令人惊奇的大数据真相

Page 5: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

4

SUGON ENTERPRISE BIG DATA SOLUTIONS

Sugon

Page 6: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

• 大数据已经从2015年新兴技术发展

周期中消失,说明大数据已经用于

实践当中

• 大数据相关的关键技术

› 物联网

› 自然语言处理问答

› 机器学习

› 数字人文主义

› 市民数据科学家

› 数据安全

新兴技术发展曲线

Page 7: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

6

SUGON ENTERPRISE BIG DATA SOLUTIONS

Sugon

02. 业务数据融合 多源、异构

Page 8: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

业务系统复杂化

虚拟化 VM VM VM APP

OS

APP

OS

APP

OS

虚拟化 存储 网络

基础软件 服务系统 业务系统 IaaS

SaaS/PaaS Web

DataBase VPN

OA系统 财务系统 人力资源

BOSS系统 ERP系统

Page 9: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

数据融合的必要性

• 数据源是多样的、自然形成的、

海量的数据常常是半结构或无结

构的

• 要求数据科学家和分析师驾驭多

样、多源的数据,将它们梳理后

进行挖掘和分析

• 数据融合就成为不可或缺的一步

大数据深度分析 B

• 对单一数据源(营销数据、行政报表、

问卷调查、人口普查等)进行深入的追

踪和分析

• 分析人员对数据的来源和结构有一定

的控制和深层的了解。

传统统计分析 A

Page 10: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

数据融合

以产生决策智能为目标将多种数

据源中的相关数据提取、融合、

梳理整合成一个分析数据集

分析数据集是个独立的和灵活的

实体,可随数据源的变化重组、

调整和更新

Page 11: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

数据融合主要步骤

清理 数据

连接多源数据

理解并梳理数

建立分析数据

数据

转换

建立结构数据组合

01 02 03

04 05 06

Page 12: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

数据分类

一手数据

(Primary Data)

• 包括企业或组织直接采集掌控

的内部运行数据和营销数据

• 具体、灵活、快速积累能够实

时或接近实时地为决策者提供

监测、追踪、描述信息

二级数据

(Secondary Data)

• 第三者采集、整理、和提供的

二手数据,如经济指标、人口

普查、民意调查、网路数据等

• 一般是定期公布的数据,它能

提供国家、地区、行业的状况

信息,成为数据分析中的可比

性坐标。

科学数据

(Scientific Data)

• 包括科学研究 的成果、指数、

算法、模型等

• 更新是不定时的,但它代表着

目前科研成果,对数据分析的

建模和算法提供科学基础。

Page 13: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

12

SUGON ENTERPRISE BIG DATA SOLUTIONS

Sugon

03. 深度分析技术 实时、挖掘

Page 14: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

人工智能、机器学习和深度学习的区别

深度学习

机器学习

人工智能

深度学习取得突破 驱动人工智能蓬勃发展

机器学习开始兴起

早期的人工智能令人兴奋不已

1950s 1960s 1970s 1980s 1990s 2000s 2010s

Page 15: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

深度学习训练过程

自下上升非监督学习

› 从底层开始,一层一层的往顶层训练,用无标定数据分层训练各层参数

自顶向下的监督学习

› 通过带标签的数据去训练,误差自顶向下传输,对网络进行微调,给予第

一步得到各层参数进一步微调整个多层模型的参数

Page 16: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

深度学习模型

• 深度学习方法是一个现代的人工神经网络方法升级版,利用丰富而又廉

价的计算,建立更大和更复杂的神经网络,许多方法都是涉及半监督学

习(大型数据中包含很少有标记的数据)。

› 自动编码器(AutoEncoder)

› 限制玻尔兹曼机(Restricted Boltzmann Machine,RBM)

› 卷积神经网络(Convolutional Neural Networks ,CNN)

› 循环神经网络(Recurrent Neural Networks,RNN)

Page 17: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

部分深度学习框架

框架 主语言 从语言 硬件 分布式 命令式 声明式

Caffe C++ Python/Matlab CPU/GPU X X Y

Torch Lua - CPU/GPU/FPGA X Y X

Theano Python - CPU/GPU X Y X

TensorFlow C++ Python CPU/GPU/Mobile Y X Y

Paddle Python C++ CPU/GPU/FPGA Y X Y

MXNet C++ Python/R/Julia/Go CPU/GPU/Mobile/JS Y Y Y

Page 18: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

XData数据实时交互分析

XData

APM分析

经营分析

运维监控

安全审计

索引所有事件数据:任意数据源、类型、大小 数据实时可视化

XData实时交互分析系统是曙光推出的面向多行业海量数据高速、全自由度的分析平台。基

于内存计算、流式计算和分布式全文检索技术。

Page 19: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

XData系统架构图

多源异构数据 收视数据 消费数据 支付数据 订购数据

网维数据 用户数据 媒资数据 工单数据

采集与预处理 多源整合 数据清理 数据转换 数据关联 数据采集

存储与分析平台

分布式列存储 分布式索引存储

实时检索分析引擎 内存计算引擎

服务接口(Java API/Restful) MQL分析引擎

分析业务平台 收视分析 消费分析 订购分析 网络流量分析

数据可视化

深度学习框架

Caffe Theano

TensorFlow MXNet

指标数据

配置数据

信息检索

Page 20: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

XData实时分析流程

数据在线缓存

流计算引擎

资源调度 内存计算引擎

分布式存储

OS 交换数据 汇聚

采集监控 Agent

业务数据

日志数据 索引任意数据

内存分析引擎

弹性数据接入框架

内置数据分析模型

功 能 特 点

Page 21: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

XData—用户分析

实时画像 市场分析 提升转化率 个性化

Page 22: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

XData—综合运维

关注单独的设备 全量、同时 范围

关心近一个月数据 数月、数年 周期

故障定位时间不等 实时、高效 速度

结构化/半结构化数据 多源、异构 类型

负载预测 异常诊断 异常值检测 关联设备分析

Page 23: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

XData—安全审计

Page 24: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

23

SUGON ENTERPRISE BIG DATA SOLUTIONS

Sugon

04. 精选案例分享 行业、应用

Page 25: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

数据融合应用

金融

平台一体 智汇应用

行业市场细分

客户需求分类

一体化

存储 处理 数据

融合

深度 分析

产品 服务

应用开发支持

应用真正落地

Page 26: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

案例1:某运营商大数据分析系统

华南地区最有影响力的广播电视网络运营商之一,有线电视用户超过140万户,互动电视用户超过40万户,宽带用户近30万户。 鉴于公司多项业务发展和日常运维需求,需要建设一个数据分析平台,采集分析所有用户(个人及企业)的属性、收视、工单、订购、账单、支付、设备运行等数据,建立一套完整的数据分析挖掘机制,从而更好地了解用户收视行为、消费习惯,改善内部IT运维,加速企业战略转型。

客户概述

项目特色

整合新媒、运支、网维、媒资等部门

业务数据

支持任意维度、任意尺度数据挖掘

提供全业务的个体和群体用户画像

实时、简洁的人机交互分析界面

基于角色的细颗粒度权限控制

平台架构

Page 27: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

案例2:某气象大数据分析系统

•卫星数据 •雷达数据

•数值预报 •自动站数据

•常规观测 • • •

•元数据 •产品辅助数据

•运行配置数据 •原始数据

•地理空间数据 •预处理数据

数据存储

服务总线

•资料检索 •报文处理

•资料显示 •站点预报

•交互编辑 • • •

数据应用

异构数据源

API

•客户端调用

•WebService

•REST服务

•调用脚本

CIMISS节点

存储分析平台

数据加载

•格式转换 •细网格预处理

•高分辨率预处理 •异常数

据校验等等

大数据分析引擎

•模型校验 •内存计算引擎

•检索分析引擎 •流处理引擎

应用功能管理

•基础运算 •实时分析

•全文检索 •数据统计

权限管理

资源管理

用户管理

服务管理

系统监控

平台管理 检索接口

分析接口

下载接口

交换接口

JDBC接口

业务系 统用户

部门 用户

行业 用户

公众 用户

曙光大数据平台

Page 28: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

案例3:某土地治理分析系统

Page 29: 曙光XData之数据融合与深度分析images.nvidia.com/cn/gtc/downloads/pdf/big-data/208.XData...类型 结构化/半结构化数据 多源、异构 负载预测 异常诊断 异常值检测

2016年9月23日星期五

SUGON ENTERPRISE BIG DATA SOLUTIONS

www.sugon.com 曙光信息产业股份有限公司

T h a n k y o u !