Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
混合架构下的数据集成与数据治理
Cai Donglin 资深咨询顾问 Data Integration Solution July 28, 2015
Oracle Confidential – Internal/Restricted/Highly Restricted
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.
3
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
议题
信息化趋势及面临的巨大挑战
混合架构下 的“数据治理”
Oracle 数据集成支撑平台
Oracle 数据集成和治理最佳实践
1
2
3
4
Oracle Confidential – Internal/Restricted/Highly Restricted 4
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
企业信息建设 ”云”化大势所趋
5
信息孤岛 •传统的计算架构,无法支持弹性的业务扩展和业务沟通需求
标准化和整合 • 利用标准化的技术、工具和流程进行资源整合,降低数据中心运营成本,同时合理利用资源
• 基础设施层、数据库层、融合中间件层和融合应用层各个层次的标准化和整合
• 实现业务弹性和扩拓展性,降低拓展成本
• 使得资源按需分配、绿色节能成为可能
优化 • 在标准化和整合的基础上不断优化
• 通过自动化和自服务降低IT管理的复杂度
• 实现透明的可视化监控
• 在降低成本的前提之下,更有效、灵活、快速地支持业务发展
“云”化 • 以云理念和云架构为基础对流程和资源进行整合,构建云中数据中心的基础
• 同时不断通过优化提升数据中心业务支撑能力
• 在云架构的基础上有选择地搭建IaaS, PaaS, SaaS平台并灵活部署适合公有云和私有云的业务
• 使得业务模式随需而变成为可能
• 实现关键价值链的整合能力和敏捷的业务创新能力
• 并大幅度降低成本和满足节能低碳要求
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
大数据技术的蓬勃发展
• CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强,商用市场占有率第一,Oracle、IBM、Dell等公司与之合作,impala产品独树一帜
• 主打产品是Hortonworks Data Platform (HDP) ,微软、 TeraData与Informatica等公司与之合作
• EMC Greenplum HD是基于mapR版本二次开发改造
• Apache HDFS - 用于存储大型数据集的分布式文件系统
• Apache MapReduce -处理大型数据集的并行计算框架
• Apache Hive - 一种类似于 SQL 语言的数据仓库,允许在 HDFS 内进行数据概括、即席查询和数据分析
• Apache Pig - 一种高级别的语言,可用来表述数据分析程序,而此类程序也可以在 Map-Reduce 任务中进行转换;
• Apache HBase - 一个面向列的非关系型数据库
• Apache Zookeeper - 一种针对大型集群的协调服务
• Apache Avro- 一数据序列化工具
• Apache Whirr - 用来在云中运行 Hadoop
• Apache Flume - 从应用程序中收集大量的日志并将其汇总到 HDFS
• Hue - 与 Hadoop 进行交互的桌面界面(Cloudera Open Source)
• Oozie - 用于 Hadoop 活动的工作流引擎
• Sqoop - 用于 Hadoop 与 RDBMS 的集成
6
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
混合架构下信息化面临的巨大挑战
分布式数据平台(Hadoop、NoSQL) 松散、多样 灵活的模式 开发为中心
OLAP/OLTP 数据库 高密度信息 固定的结构 管理为中心
混合云架构(公有、私有)
一体化管理 资源最优化 强化支撑力
数据如何集成
???
7
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
议题
信息化趋势及面临的巨大挑战
混合架构下 的“数据治理”
Oracle 数据集成支撑平台
Oracle 数据集成和治理最佳实践
1
2
3
4
Oracle Confidential – Internal/Restricted/Highly Restricted 8
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
什么是 数据治理 ?
• 定义:数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部门的知识和意见,通过将流程、策略、标准、技术和组织的有效组合,对企业的信息化建设进行全方位的监管,需要企业高层的授权和业务部门与IT部门的密切协作。
• 目标:保证数据的时效性、合法性、完整性、一致性、可审计和安全性
Governance 含有梳理之意,将纷杂变得顺畅
Oracle Confidential – Internal/Restricted/Highly Restricted 9
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
数据治理的主要驱动力及关键技术
Survey by: International Association for Information and Data Quality(IAIDQ)
10
4.30%
5.90%
5.90%
13.40%
18.70%
20.30%
25.70%
26.90%
39.00%
44.40%
45.50%
48.70%
48.70%
57.20%
66.30%
0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00%
Rules discovery tools
Other
Product Information Management (PIM) tools
Customer data integration (CDI) tools
Master data mangement (MDM) tools
Business rules engines
Workflow tools
Data relationship discovery and mapping
Data remediation/cleansing tools
Metadata repositoty
Data quality monitoring
Data matching and reconcoliation (data de-duplication)
Data modeling (computer-aided software engineering)
Extract-transform-load (ETL) and other data integration tools
Data quality analysis, assessment or profiling
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
数据治理框架:三大支柱 组织:数据治理团队
标准/流程/策略
• 数据委员会 • 数据所有者 • 数据管理员 • 业务专家
• 数据定义 • 技术标准 • 企业数据模型 • 主数据/引证数据
• 数据集成E-LT/ETL • 数据剖析、探查 • 数据质量控制 • 元数据管理
实施 定义
循环式开发和交付
• 质量分析师 • 开发人员 • 数据架构师 • …
• 业务规则 • 数据安全 • 数据访问和管理 • 数据监控和审计
技术支撑平台
11
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
数据治理委员会及组织架构
• 沟通和协调数据治理日常管理工作;
• 制定数据治理相关工作计划; • 推动数据治理执行策略和执行方案
• 定期向决策委员会汇报数据治理工作情况;
• 制定并审核数据平台用户角色和数据访问权限控制方案。
• 对数据治理工作进行集中统一领导,协调相关各职能部门的运作;
• 审议数据治理建设状况,研究确定数据治理的战略、方针和政策;
• 审定数据治理方案与实施计划,监督检查数据治理措施的执行情况;
• 不定期审议数据治理重大变更事项;
• 针对数据检查报告中提出的严重违规及重大问题,在范围内协调整改、处理及处罚;
• 定期听取数据治理经营体对数据治理工作的汇报;
• 审议其他需提交委员会研究的数据治理事项。
数据 是 客户日常运营中积累的宝贵资产,如何管理好这些资产,充分发挥其决策支持价值,是摆在我们面前的现实问题。数据治理委员会和经营体是数据运营和管理的组织。
数据治理委员会
(IT部门、各部门
负责人)
数据标准管理 数据质量管理 数据需求管理 元数据管理
数据治理经营体
12
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
数据标准价值 以大数据或云平台为契机,建立起全公司统一的数据标准雏形,并且影响和指导上、下游系统对数据标准的执行。
• 没有公司统一的数据标准
• 源系统设计中缺乏针对数据标准化的指导和数据质量的控制
• 统一数据模型设计过程中缺少数据标准的指导
• 各业务部门之间未能对统一数据模型达成共识,数据缺少标准化整合,导致业务部门之间较少数据共享机制
系统现状评价
• 有公司统一数据标准定义
• 数据标准可以用来约束上游源系统的设计开发,同时数据治理能够有效的在IT部门内建立系统开发控制机制
• 数据标准可以指导跨系统的数据整合的模型设计
• 基于数据标准能够让业务针对数据模型达成共识,达到跨部门的数据共享和数据分析应用支持
最佳实践目标
13
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
数据标准实施过程
• 数据主题 • 设计范围 • 优先策略 • 工作重点 • 配合支持 • ……
• 现有定义 • 使用习惯 • 问题梳理 • 现状分析 • 参考文档 • ……
• 信息大类 • 信息小类 • 信息项 • 数据类型 • 重要规则 • ……
• 系统范围 • 应用领域 • 数据表 • 数据字段 • 数据取值 • ……
• 影响分析 • 范围/顺序 • 系统改造 • 新建系统 • 手工补录 • ……
• 标准发布 • 管理机制 • 工作流程 • 维护增强 • 配套工具 • ……
标准范围应包括哪些?
目前的状况如何?
标准应该是什么样的?
目前对标准满足情况?
标准应该如何执行?
如何维护 管理标准?
标准框架 现状调研 标准设计 标准映射 标准执行 标准维护
14
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
数据治理技术处理流程框架示例
15
数 据
治 理
企业
级元
数据
管理
Data quality analyst
IT Developer
Business experts
Data
stewards
Real-time/ Batch
Profiling Cleansing Matching
Reference Data
Business Rules
Deliver data
Data stewards
Big Data ERP BI CRM OA DQ Monitor
高效实现数据业务价值 全方位监管信息化建设
Trusted Data
Transform data
DQ report
元数据管理
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
议题
信息化趋势及面临的巨大挑战
混合架构下 的“数据治理”
Oracle 数据集成支撑平台
Oracle 数据集成和治理最佳实践
1
2
3
4
Oracle Confidential – Internal/Restricted/Highly Restricted 16
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle 数据集成与数据治理支撑体系
17
现代化 MDM SOA 大数据
业界最佳的企业数据集成方法
实时、高效、可访问的统一技术平台
最高性能、更低的总拥有成本、易用、可靠
企业级数据质量方法和技术平台,实现数据驱动业务
全面的企业级元数据管理
经认证的领先技术,快速实现价值
Oracle Data Integrator ( 数据抽取加载-转换 EL-T)
Oracle GoldenGate (实时数据)
Oracle Enterprise Data Quality (数据质量管理)
Oracle Enterprise Metadata Management
(元数据管理)
OLTP
应用程序
传统
云
Oracle 客户收益:
总拥有成本降低 80% 性能提升五倍 开发成本降低 70%
同步 自定义 BI
大数据
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle 大数据集成与数据治理体系
Staging
Sqoop
HDFS
Hive
Flume
Cap
ture
Trai
l
Ro
ute
De
live
r
Pu
mp
Transformation
Data Streaming Kafka (MPP Pub/Sub)
Storm and Trident
Spark Streaming
HBase
Discovery Sandbox/s
R Oracle GoldenGate
Oracle Data Integrator
Oracle 数据治理
Oracle Data Preparation
Model First Analytics
• Reporting-oriented • Often enterprise wide
in scope, cross LoB • “you know the
questions to ask”
报表&仪表板
Data First Analytics
• Data Exploration • Highly visual and/or
interactive • “you don’t know the
questions to ask”
数据发现
• Telematics • Industry Services • Internet of Things • Sentiment
数据服务
18
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle GoldenGate 实时大数据集成技术
HDFS (Files)
HBase (NoSQL)
Hive / Hive Streaming (SQL)
Flume & Storm (Streaming)
Kafka (MPP Pub/Sub)
Spark Streaming (Machine Learning)
Capture Database Transactions and Deliver to Big Data in Real-Time
Cap
ture
Trai
l
Ro
ute
Del
iver
Pu
mp
GoldenGate
JMS
19
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Data Integrator大数据集成技术
Flume/Kafka Hive on MR, Tez, Spark
Logs
OLTP DB
SQOOP
OGG
Pig on MR, Tez, Spark
ODI
SQOOP
Any DW
OGG
Spark
Oozie
OEDQ OEMM
Data Validation & Cleansing
Metadata Mgmt & Lineage
API/File
Hive/HCat, HDFS,HBase
Hive/HCat, HDFS,HBase
NoSQL
Flume/Kafka
Load to Oracle
Oracle DB Big Data SQL
20
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle 企业级全信息管理平台
数据库一体机 大数据一体机 +
Oracle Big Data
Connectors
Oracle Data
Integrator
Oracle Advanced
Analytics
Oracle NoSQL Database
Cloudera Hadoop
Oracle R Distribution
Oracle
GoldenGate
Oracle Data
Integrator
Oracle Event
Processing
Oracle Event
Processing
Oracle
GoldenGate
Oracle Advanced
Analytics
Oracle Database
Oracle Spatial
& Graph
Oracle Industry Models
Oracle Big Data SQL
OBIEE, Endeca , R, Adv Analytics, Oracle Big Data Discovery …
Oracle Data
Integrator
血缘分析元、影响分析、业务术语库)
元数据采集、)
企业级元数据管理
21
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
针对私有/可管理云的数据集成部署
主要机会 客户整合许多数据库到云数据库平台架构
Goldengate 零宕机的迁移本地数据到数据库云服务或Exadata云服务中
客户针对本地系统和私有/可管理云数据库的部署,实现高可用架构
GoldenGate 具有针对不同环境,进行冲突检测和提供解决办法的双向数据复制能力
扩展而言,可用ODI进行初始化/批量数据加载和复杂转换,用EDQ满足任意数据的清洗需求
收益 关键数据库和应用的零宕机方案
阶段性的滚动式升级,最小化风险
保证关键任务云部署的持续可用
DBCS/ExaCS Synch & Consolidation
HA/AA/DR for Multi-Master Cloud or On-Premises
***本地数据和云数据的迁移、高可用、容灾/应急和双活中心
22
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
针对BI/分析 云的数据集成方案
主要机会 数据库云服务的客户有数据移动和ELT转换的需求
ODI可基于数据库云服务引擎进行数据初始化和任意转换
Goldengate 可在数据库云服务实例和本地数据库之间进行数据同步
基于云的数据仓库架构,例如:Exadata云服务或Amazon Redshift
ODI可用于初始化数据和ELT转换
GoldenGate 用于Exadata云服务实例和本地数据库之间的数据同步
扩展而言,EDQ可满足任意数据的清洗需求
基于Amazon RDS的Oracle数据库客户
GoldenGate 用于RDS上Oracle数据库和本地数据库之间的数据同步
收益 业界最快的、可处理海量数据加载和同步的工具平台
自动化、可扩展、可复用的数据处理机制,最大化节省云集成的成本
针对本地和云架构的统一的标准数据集成平台,可获得更好的总体拥有成本
DIS for Cloud BI/Analytics
GoldenGate with Oracle DBs on RDS
DIS and Oracle DBCS
23
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
SaaS 应用数据供给到本地BI/分析系统
主要机会 客户必须将本地系统与SaaS应用进行集成,例如:Salesforce.com, Sales Cloud,
Service Cloud or Eloqua
ODI 基于数据库或专门应用的API,可进行大量数据的转换
扩展而言,EDQ可满足任意数据的清洗需求
扩展而言, GoldenGate可用于云应用和本地资源之间的实时数据库复制
可结合由可依赖合作伙伴提供的额外云连接
Bristlecone (ODI): Amazon Redshift, Salesforce.com, SuccessFactors, ServiceNow
Progress DataDirect (ODI & EDQ): Salesforce.com, Amazon Redshift, Eloqua, Google Analytics, Oracle Service Cloud, Sugar CRM, VeeVa CRM, Microsoft Dynamics CRM, Database.com
收益 业界最快的数据集成解决方案,最大化SaaS应用的投资
共享的设计、运行和元数据工具,更好的提高效率和降低云集成的成本
24
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle 数据质量管理平台
25
- 四个步骤快速实现业务价值
洞察
提升
保护
目标系统 质量指标
EDW/云端
/MDM/BD/
企业级数据质量处理
源系统数据现状
质量过程监控
治理
• 四个简单的步骤,Oracle EDQ快速实现业务价值
– 1:了解数据面临的问题 – 数据剖析
– 2:定位数据问题并解决问题、提升数据质量 – 清洗、匹配和标准化
– 3:防止数据问题再出现 – 保护、治理和控制
– 4:全面了解企业数据质量趋势
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle 企业级元数据管理平台
26
- 跨整个数据生命周期无断点的元数据管理 探查元数据
文本检索和元数据浏览,
可视化模型图解, 鸟瞰视图, 元数据报表
数据流程和血缘分析
Sarbanes-Oxley Act (SOX) 合规
版本化管理和模型比对
从BI报表和业务应用层,以URI方式可追溯
管理协作
评论回馈和回顾面板
可分类的元数据标签
多媒体附件 (文档, 视频, 幻灯片, 代码)
URL 链接引证邮件, 博客, 社交网络
生命周期变化管理
从任意数据挖掘、数据仓库、ETL/数据集成、BI工具、云端和大数据/Hadoop中,获取元数据
企业架构管
变更影响分析
数据标准化&数据治理
支持多样的元数据标准
注解和标记
语义血缘分析
业务术语库
Oracle 预集成
Oracle Database
Oracle Data Integrator, Oracle GoldenGate
Oracle Business Intelligence Enterprise Edition
Oracle Business Intelligence Applications
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
议题
信息化趋势及面临的巨大挑战
混合架构下 的“数据治理”
Oracle 数据集成支撑平台
Oracle 数据集成和治理最佳实践
1
2
3
4
Oracle Confidential – Internal/Restricted/Highly Restricted 27
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle 混合架构下的完整数据集成与治理解决方案
数据发现 数据分析
有价值的信息
Data Lin
eage
Imp
act
An
alys
is
ETL 数据质量
数据集成
流数据 集成 数据丰富
文件 云
数据源
大数据 关系型 应用级
业务术语库
元数据知识库
语义关联
28
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 29