13
www.h3c.com 新华三数据引擎助推地铁科学发展 潘子健

新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

www.h3c.com

新华三数据引擎助推地铁科学发展 潘子健

Page 2: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

2

海量地铁大数据案例:北京地铁

年地铁运行时间

>10万小时

2万摄像头年记录时间

>6000万小时

年客运量

>30亿人次

8月12号(周五)北京地铁各线路客运量

1号线 2号线 5号线 6号线 7号线 8号线 9号线 10号线 13号线 15号线 八通线 昌平线 房山线 机场线 亦庄线

0.00

20.00

40.00

60.00

80.00

100.00

120.00

140.00

160.00

180.00

合计 953.96万人次 单位(万人次)

127.68 116.59

106.55

90.03

44.84 43.39

54.73

76.56

169.88

34.03 31.03

23.25 12.20 3.15

20.05

Page 3: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

传统数据库已经不适应大数据处理

3

处理日常交易。读写频繁、数据量小类型单一 必须保证数据一致、真实,不能出现偏差 制造数据,是数据产生的主要源头 增加、删除、查询、修改是主要数据操作内容 不适合海量数据关联查询、异构数据关联操作

传统数据库

定期分析一大批数据,找趋势。数据类型多样、量大 不关注数据的一致性 不制造数据,从其他数据库抽取数据 分析、多数据关联查询是主要操作

大数据平台

交易型:日常业务

传统数据库

海量数据分析慢 不支持视频等非结构化数据处理

应用程序

如刷卡进站、路程、票价信息

数据抽取

分析型:周期型业务

如北京市过去5年内所有刷卡 进站、路程、票价信息

大数据平台(Hadoop + MPP)

Page 4: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

地铁大数据处理—技术选型

4

传统数据库

数据仓库/MPP

Hadoop

MPP/Hadoop

结构化数据

AFC票务信息

非结构化数据 CCTV监控

半结构化数据

网络安全日志

深度定制与融合

多种数据 各显其能

Page 5: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

典型地铁数据库技术对比

5

技术特点

技术短板

适用场景

▪ 基于行数据增删改

▪ 数据强一致性

▪ 行锁、多版本控制

▪ 高并发

▪ 支持各类复杂查询

▪ 支持高并发/高性能查询

▪ 支持Share Nothing 存储

▪ 并行处理

▪ 高可靠性专用硬件

▪ 适合多表关联、复杂查询

▪ MPP+Share Nothing的高可扩展架构,PB级别

▪ 开放的X86 PC平台

▪ 兼容性好

▪ 半结构化、非结构化数据的强大支持和处理

▪ 开放架构设计

▪ 扩展性最好

▪ 最低成本分布式架构

▪ 大数据索引困难

▪ 聚集处理的I/O高

▪ 数据批量写代价大

▪ 扩展性差

▪ 依赖高性能硬件

▪ 高性能专用硬件

▪ 兼容性弱,平台迁移困难

▪ 扩展性较差

▪ 更擅长结构化数据

▪ 并发能力一般

▪ 只处理结构化数据

▪ 平台可靠性稍差

▪ 系统规模增大时,运维负担加重

▪ 并发程度低

▪ 不适合复杂关系处理和迭代算法

▪ 更新能力弱适合一写多读

▪ 高并发事务处理

▪ 严格无丢失的高价值密度数据管理

▪ 实时复杂查询

▪ 高并发的实时分

▪ PB级大规模数据的复杂关联、聚集以及数据模型加工

▪ 分钟级几十并发程度查询

▪ 批量ETL处理预加工

▪ 海量数据存储和备份

▪ 通用大数据算法引擎 100T级别 数千万投资

传统OLTP数据库 TeraData数据仓库

一体机 MPP分布式

数据库 Hadoop/NoSQL

Page 6: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

理想地铁大数据解决方案: Teradata+MPP+Hadoop

6

数据分析 专家

数据预处理 工程师

决策者

Teradata整合战略和运营分析能

力的最有价值的数据,支撑KPI

、报表的及时呈现,进行高效的

用户交互的数据加工

MPP数据库作为深度分析库,

可以进行各类数据模型加工,支

持对模型数据的OLAP分析处理

存储非结构化数据,实现标准或自

定义的灵活的数据ETL加工逻辑或

者数据挖掘算法功能,并且可实现

海量数据的存储与简单查询

Teradata MPP Hadoop

Page 7: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

地铁AFC大数据分析示例

7

利用Hadoop ETL加工能力,提取用户AFC进出站信息,和购票信息,形成ODS层数据

在MPP内部利用复杂关联和聚集计算能力,进行数据汇总,形成基础统计信息

挖掘地铁乘客出行特征和规律,帮助实现地铁的行车组织优化、设施优化等

01

02 03

04

Hadoop大数据预处理平台

Teradata数据仓库 行程域

线路域

MPP深度分析库

乘客换乘汇总统计 乘车时间汇总统计

数据处理层

进站信息,出站信息, 购票信息

客流预测 CoMET指标 乘客行为洞察

运营指标监控 财务分析 应急预案

在Teradata数据仓库内部,形成用户出行路径标签和换乘特征分析主题域,进行OLAP分析

OIS PIS CCTV AFC ACC FAS BAS

Page 8: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

H3C大数据解决方案

8

大数据人才建设及培训认证 数据源

数据增值

DataEngine 数据引擎

大数据众智创新开发平台

数据服务平台

Hadoop MPP分布式数据库

决策分析 业务创新 数据交易

批量采集 实时采集

物联网 社交媒体 非结构化数据 生产记录 内容管理 SOA Web服务

ERP CRM SCM

……

Page 9: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

交通大数据典型项目案例

9

宁波市鄞州区“智慧交通”项目 本项目建设在鄞州区交通信息资源中心,在市区纵向连通的基础之上,横向打通鄞州区交通局与港航处、运管所和公路段的数据通道;在整合原有系统的基础上,新建数据交换平台、GIS-T系统、综合交通运行监测系统、综合交通信息服务系统、应急指挥调度系统、综合交通业务平台等系统,实现“大数据+”智慧交通的全方位的综合应用示范工程。

“大数据+”交通诱导 大数据设备(现场) “大数据+”智慧决策

Page 10: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

10

Page 11: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

DataEngine成就卓著

11

200多篇相关专利

近30篇核心专利

工信部信息通信研究院测试:32项,100%通过

江苏等省公安厅测试:28项,100%通过

公安部视频监控实验室大数据标准制定

公安部大数据安全标准制定

Page 12: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

新华三大数据最佳实践

12

政府 其他

公安

技术驱动、行业创新

企业 高校

广东省信息中心 河南省信息中心

安徽省食品药监局 工信部通信研究院

公安部信通处 公安部重点实验室

东莞公安局 湖南公安大数据平台

德豪润达 健康之路 光谷信息

全实鹰科技

基础数据服务平台 能效分析系统 大数据交易 宏观数据监控

内网流量分析监控 情报研判系统

视频智能分析系统 信息资源服务平台

工业4.0 供应链整合 创新型业务 精准营销

金融大数据 无线电信号管理

舆情监控 电力调度智能分析

人才培养 大数据实验室 智慧校园

高校无线大数据

南开大学 华中农业大学 福建工程学院 华信研究院

中国建设银行安徽分行 浙江省无线电管理协会

数据中心联盟 电力调度中心

……..

Page 13: 新华三数据引擎助推地铁科学发展 潘子健 · Hadoop大数据 预处理平 Teradata数据仓库 行程域 线路域 MPP深度 分析库 乘客换乘汇总统计 乘车时间汇总统计

THANKS www.h3c.com

13