32
使用 Hadoop 充实您的 数据仓库 联合主讲 李园花 甲骨文中国高级顾问

使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

使用 Hadoop 充实您的数据仓库

联合主讲

李园花

甲骨文中国高级顾问

Page 2: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 2

议题

机遇

挑战

战略

案例

最佳实践

Page 3: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 3

充分了解客户

Page 4: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 4

大数据助力改善运营绩效

信息来源:经济学人情报社,“决定性因素:大数据和决策制定”

大数据所表现出的优势不断增加

Page 5: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 5

使用 数据

12%

的高管认为自己

理解数据对其组织

的影响

产生 数据

问题

Page 6: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 6

Page 7: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 7

眼见不一定为实

Page 8: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 8

电源:交流还是直流?

Page 9: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 9

RDBMS RDBMS

当今

发现和分析

商务智能

Page 10: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 10

RDBMS RDBMS

当今

发现和分析

商务智能

外部

ETL 集群

Page 11: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 11

RDBMS RDBMS

归档的数据怎么处理?

发现和分析

商务智能

归档

外部

ETL 集群

Page 12: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 12

RDBMS RDBMS

新数据怎么处理?

发现和分析

商务智能

? 归档

外部

ETL 集群

Page 13: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 13

RDBMS RDBMS

扩展您的数据仓库

发现和分析

商务智能

?

外部

ETL 集群

归档

Page 14: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 14

RDBMS Hadoop

RDBMS Hadoop

将 Hadoop 与 RDBMS 集成

发现和分析

商务智能

Page 15: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 15

“[Facebook] 从一开始就采用了 Hadoop。现在我们在引入关系型数据库系统来增强 Hadoop。我们本来选择的是另一个方向……但我们最后发现使用错误的技术来解决某些问题是非常困难的。”

Ken Rubin 分析总监 Facebook

http://tdwi.org/Articles/2013/05/06/Facebooks-Relational-Platform.aspx?Page=1

Page 16: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 16

快速 解决新问题

建立 数据储藏库

提高 预测准确性

加快数据 驱动的行动

Hadoop 主要使用场合 补充现有数据仓库

ETL

Page 17: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 17

• 事务数据

• 客户信息

• Web 日志和会话数据

• 机器/传感器数据

• 历史数据

数据储藏库 将所有可能有价值的数据存储在一个地方

Page 18: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 18

RDBMS RDBMS

当今

发现和分析

商务智能

? 归档

外部

ETL 集群

Page 19: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 19

RDBMS Hadoop

RDBMS Hadoop

使用 Hadoop 创建活动的归档

发现和分析

商务智能

Σ

Page 20: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 20

Hadoop 中存储着 80 年的历史数据

结构化数据和非结构化数据包括客户数据、经济趋势数据、远程信息处理传感器数据、天气数据和公共数据

与大型机和 EDW 集成

采用 Hadoop 之前只能分析一个州,且耗时 24 小时

使用 Cloudera 则可以分析所有 50 个州的风险,且用时只有 16 小时(提升约 500 倍)

最常见的 3 个使用场合:数据枢纽、ETL 分流、高级分析

全面的风险分析

客户案例:Insurer 实时数据枢纽

Cloudera

Hadoop

EDW 和

大型机 客户数据

Page 21: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 21

• 批处理窗口限制

• 增加价值 vs. 增加成本

• 分析 vs. 转换

• 分析 vs. 数据移动和复制

• 新数据源的价值不确定

当今的 ETL 挑战

Page 22: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 22

发现和分析

商务智能

RDBMS RDBMS

当今典型的 ETL

外部

ETL 集群

Page 23: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 23

RDBMS Hadoop

RDBMS Hadoop

使用 Hadoop 实现 ETL 分流

发现和分析

商务智能

Σ

Page 24: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 24

普通消费者所用新设备产生的数据呈指数级增长

ETL 和存储限制将分析囿于 1% 采样

如今,Oracle Exadata 与 Cloudera Hadoop 的结合可以将分析扩展到 100% 的数据上(每天 0.5 PB!)

显著缩短查询时间(即,从 4 天缩短至 53 分钟)

ETL 代码库缩小 90%

从 1% 采样到 100% 分析

客户案例:通信服务

归档存储

数据仓库

复杂关联

报警

筛选和

分割

事件监视

流式 ETL

流式 ETL

电信

服务

之前

Page 25: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 25

普通消费者所用新设备产生的数据呈指数级增长

ETL 和存储限制将分析囿于 1% 采样

如今,Oracle Exadata 与 Cloudera Hadoop 的结合可以将分析扩展到 100% 的数据上(每天 0.5 PB!)

显著缩短查询时间(即,从 4 天缩短至 53 分钟)

ETL 代码库缩小 90%

从 1% 采样到 100% 分析

客户案例:通信服务

归档存储

数据仓库

复杂关联

报警

筛选和

分割

事件监视

流式 ETL

流式 ETL

电信

服务

之前

数据仓库

报警

筛选和

分割

事件监视

Hadoop 归档存储

ETL

关联

第 1 阶段 DWH

电信

服务

之后

Page 26: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 26

发现潜在机会

您遇到过 ETL 性能问题吗?

您是否有一些可能有价值的数据您目前未使用但可能会提供新

的洞察?

您应该重点分析结构化数据、非结构化数

据还是两者?

大数据解决方案是否已经建成了孤岛?

Page 27: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 27

所面临的挑战 和 Oracle 对策

挑战 ORACLE 对策

• 分散的解决方案 • 专业化、集成的数据存储和工具

• 自助式 BI 难题 • 灵活、引导式和自动化的 BI 及数据发现

• 数据非最新 • 提供实时、定义明确数据的解决方案

• 收回投资的时间/部署时间 • 横向和行业预建的解决方案、集成系统

• 数据和用户日益多样化 • 支持数千用户和 PB 级数据的企业解决方案

• 可管理性、安全性、成本 • 集中管理,具备高级安全性/治理

Page 28: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 28

大数据就绪 研发原型阶段

所需技能

– 分布式数据部署(例如 Hadoop)

– 使用 MapReduce 进行 Python 或 Java 编程

– 统计分析(例如 R)

– 数据集成

– 能形成业务假设

– 可传递大数据的业务价值

Page 29: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 29

准备好迎接大数据了? 联系您的客户管理团队

是否已经为结构化数据提供了成熟的分析解决方案?

大数据能否对企业产生影响?

是否已经建立了大数据原型、培养了所需技能并证实了其价值?

是否为大数据制定了企业集成和部署战略?

Page 30: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 30 版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 30

持续创新

大数据广泛应用

Page 31: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 31

Page 32: 使用 Hadoop 充实您的 数据仓库 - Oracle · Enriching Your Data Warehouse with Hadoop Author: Oracle & Cloudera Subject: Big Data Created Date: 3/20/2014 10:36:22 AM

版权所有 © 2013,Oracle 和/或其关联公司。保留所有权利。 32