Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
使用 Hadoop 充实您的数据仓库
联合主讲
李园花
甲骨文中国高级顾问
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 2
议题
机遇
挑战
战略
案例
最佳实践
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 3
充分了解客户
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 4
大数据助力改善运营绩效
信息来源:经济学人情报社,“决定性因素:大数据和决策制定”
大数据所表现出的优势不断增加
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 5
使用 数据
12%
的高管认为自己
理解数据对其组织
的影响
产生 数据
问题
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 6
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 7
眼见不一定为实
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 8
电源:交流还是直流?
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 9
RDBMS RDBMS
当今
发现和分析
商务智能
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 10
RDBMS RDBMS
当今
发现和分析
商务智能
外部
ETL 集群
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 11
RDBMS RDBMS
归档的数据怎么处理?
发现和分析
商务智能
归档
外部
ETL 集群
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 12
RDBMS RDBMS
新数据怎么处理?
发现和分析
商务智能
? 归档
外部
ETL 集群
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 13
RDBMS RDBMS
扩展您的数据仓库
发现和分析
商务智能
?
外部
ETL 集群
归档
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 14
RDBMS Hadoop
RDBMS Hadoop
将 Hadoop 与 RDBMS 集成
发现和分析
商务智能
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 15
“[Facebook] 从一开始就采用了 Hadoop。现在我们在引入关系型数据库系统来增强 Hadoop。我们本来选择的是另一个方向……但我们最后发现使用错误的技术来解决某些问题是非常困难的。”
Ken Rubin 分析总监 Facebook
http://tdwi.org/Articles/2013/05/06/Facebooks-Relational-Platform.aspx?Page=1
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 16
快速 解决新问题
建立 数据储藏库
提高 预测准确性
加快数据 驱动的行动
Hadoop 主要使用场合 补充现有数据仓库
ETL
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 17
• 事务数据
• 客户信息
• Web 日志和会话数据
• 机器/传感器数据
• 历史数据
数据储藏库 将所有可能有价值的数据存储在一个地方
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 18
RDBMS RDBMS
当今
发现和分析
商务智能
? 归档
外部
ETL 集群
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 19
RDBMS Hadoop
RDBMS Hadoop
使用 Hadoop 创建活动的归档
发现和分析
商务智能
Σ
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 20
Hadoop 中存储着 80 年的历史数据
结构化数据和非结构化数据包括客户数据、经济趋势数据、远程信息处理传感器数据、天气数据和公共数据
与大型机和 EDW 集成
采用 Hadoop 之前只能分析一个州,且耗时 24 小时
使用 Cloudera 则可以分析所有 50 个州的风险,且用时只有 16 小时(提升约 500 倍)
最常见的 3 个使用场合:数据枢纽、ETL 分流、高级分析
全面的风险分析
客户案例:Insurer 实时数据枢纽
Cloudera
Hadoop
EDW 和
大型机 客户数据
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 21
• 批处理窗口限制
• 增加价值 vs. 增加成本
• 分析 vs. 转换
• 分析 vs. 数据移动和复制
• 新数据源的价值不确定
当今的 ETL 挑战
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 22
发现和分析
商务智能
RDBMS RDBMS
当今典型的 ETL
外部
ETL 集群
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 23
RDBMS Hadoop
RDBMS Hadoop
使用 Hadoop 实现 ETL 分流
发现和分析
商务智能
Σ
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 24
普通消费者所用新设备产生的数据呈指数级增长
ETL 和存储限制将分析囿于 1% 采样
如今,Oracle Exadata 与 Cloudera Hadoop 的结合可以将分析扩展到 100% 的数据上(每天 0.5 PB!)
显著缩短查询时间(即,从 4 天缩短至 53 分钟)
ETL 代码库缩小 90%
从 1% 采样到 100% 分析
客户案例:通信服务
归档存储
数据仓库
复杂关联
报警
筛选和
分割
事件监视
流式 ETL
流式 ETL
电信
服务
之前
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 25
普通消费者所用新设备产生的数据呈指数级增长
ETL 和存储限制将分析囿于 1% 采样
如今,Oracle Exadata 与 Cloudera Hadoop 的结合可以将分析扩展到 100% 的数据上(每天 0.5 PB!)
显著缩短查询时间(即,从 4 天缩短至 53 分钟)
ETL 代码库缩小 90%
从 1% 采样到 100% 分析
客户案例:通信服务
归档存储
数据仓库
复杂关联
报警
筛选和
分割
事件监视
流式 ETL
流式 ETL
电信
服务
之前
数据仓库
报警
筛选和
分割
事件监视
Hadoop 归档存储
ETL
关联
第 1 阶段 DWH
电信
服务
之后
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 26
发现潜在机会
您遇到过 ETL 性能问题吗?
您是否有一些可能有价值的数据您目前未使用但可能会提供新
的洞察?
您应该重点分析结构化数据、非结构化数
据还是两者?
大数据解决方案是否已经建成了孤岛?
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 27
所面临的挑战 和 Oracle 对策
挑战 ORACLE 对策
• 分散的解决方案 • 专业化、集成的数据存储和工具
• 自助式 BI 难题 • 灵活、引导式和自动化的 BI 及数据发现
• 数据非最新 • 提供实时、定义明确数据的解决方案
• 收回投资的时间/部署时间 • 横向和行业预建的解决方案、集成系统
• 数据和用户日益多样化 • 支持数千用户和 PB 级数据的企业解决方案
• 可管理性、安全性、成本 • 集中管理,具备高级安全性/治理
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 28
大数据就绪 研发原型阶段
所需技能
– 分布式数据部署(例如 Hadoop)
– 使用 MapReduce 进行 Python 或 Java 编程
– 统计分析(例如 R)
– 数据集成
– 能形成业务假设
– 可传递大数据的业务价值
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 29
准备好迎接大数据了? 联系您的客户管理团队
是否已经为结构化数据提供了成熟的分析解决方案?
大数据能否对企业产生影响?
是否已经建立了大数据原型、培养了所需技能并证实了其价值?
是否为大数据制定了企业集成和部署战略?
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 30 版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 30
持续创新
大数据广泛应用
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 31
版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 32