30
数据仓库-分析平台的建

Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

企业数据仓库的进化 -企业分析平台的建设

Page 2: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

议程

• 数据仓库的演进

• 现有的数据仓库– the EDW

• 未来的数据仓库–Enterprise Analytical Platform

• Exadata:新一代数据仓库平台

• 提问和讨论

Page 3: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

信息的进化

石刻文字-3800年 岩画时间-

6000年 甲骨文-3000年 竹简-2000年

蔡伦造纸-1900年

活字-950年

照相机-172年 留声机-134年 录像机-65年 电影机-112年

Page 4: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

问题与思路

Page 5: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

•搭建数据平台,整合数据源,建立数据仓库平台

•建立业务模型和面向业务的统一信息平台

•建立报表、KPI、多维分析、查询等基本功能

时间

系统发展阶段

在线查询

挖掘

分析

经营分析

系统

OLAP分析 报表 KPI

客户信息 合作伙伴信息

客户轮廓 渠道轮廓

合作伙伴轮廓

经营分析系统

管理和业务人员

BOSS系统

直销

实体

代理

增值

电子

合作伙伴

营销服务人员

客户

经营分析系统 BOSS系统

ETL

计划

提升数据质量,扩充业务功能

构建应用平台,拓展支撑能力

架构系统,丰富数据源

架构与平台

数据仓库的导入与发展

数据是一个环境,而不是一个产品

•建立数据质量管理系统,提高数据质量

•建立以业务为专题的专项分析

•构建业务管理平台,推动IT技术与业务流程的融合

•建设挖掘应用,加强对营销一线的联动与支撑

•完善业务生产的分析支撑能力,全面支撑各项业务活动

•提升整个企业运营水平,辅助企业战略决策,将系统分析力转化为执行力

建立运营支撑机制,提升管理水平

专题应用 业务联动 业务智能

Page 6: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

您的数据仓库- 现有的 “后视镜”方式的决策

业务决策

客户

产品

渠道

营销

新增了多少客户

流失了多少客户

谁是我们的最佳客户户

我们的客户在哪里

最佳盈利产品是那一种

市场占有率最大的产品是什么

哪些产品正在逐渐失去市场份额 销售最佳的区域是哪里

业绩最差的区域是哪里

哪些区域业务处于增长阶段

Page 7: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

• 新的及非结构化的数据

• 新的业务模式出现

• 新技术及新应用的不断涌现

Your Data Warehouse-NOW 数据类型不断增加

Page 8: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Your Data Warehouse-NOW 数据量的不断增长

Schema-based Terabytes

Un-Structured Zetabytes

Schema-less Petabytes

Page 9: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

EDW向EAP的演进 Your Data Warehouse is going to evolve

业务收益

时间

→ 更好的决策

→ 更好的运营

→ 更优秀的性能

Enterprise Analytic Platform

今天 Enterprise Data

Warehouse

Page 10: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

从EDW升级至 EAP ---瞻前顾后

Looking ahead: “FUTURE”

Page 11: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

企业分析平台的驱动

• EDW主要用于格式化良好的结构化数据

• 需要对新的数据类型提供支持 • XML

• Spatial

• Multi-media

• DICOM medical content

• Etc…

• 大数据量下的高性能

• 为应用提供全面完整的信息

Page 12: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

EAP给最终用户及IT带来的好处

• 最终用户:

• 业务发现的新视角

• 更快的响应稍纵即逝的商业机会

• 拥有更多的数据,执行更为深入的业务分析

• 实时的分析

• IT:

• 交付跨各个业务域的分析功能

• 提供更高的服务灵活性

Page 13: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

EAP的组成

获取 分析 集成

Enterprise Analytic Platform

Operational

Systems

Distributed File Systems

Transaction (Key-Value)

Stores

Advanced Data Access

Automatic Parallelism

Optimized hardware

In-database Data Mining

Advanced Analytics

Sandboxing

In-memory processing

Automated Management

Data

Co

mp

lexit

y

Schema-less

Unstructured

Schema

Page 14: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Exadata:新一代数据仓库平台

Page 15: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Oracle提供的数据库云服务器,完美解决超大规模数据库/数据仓库面临的挑战!

• Extreme Performance

为数据仓库应用带来10-100倍的性能提升;

• Linear Scalability

适应海量数据迅速增长的线性性能扩展,消除瓶颈

• Enterprise Ready

预配置的软硬件提供企业级的支撑能力,最大可用性、安全性、容灾等。

• Standard

基于开放软硬件架构的标准化工作方式,现有应用的透明迁移,简单的管

理。

Exadata是…

Page 16: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

不仅是:

•部署在大量PC SERVER上的RAC

更不是:

•简单的软件和硬件捆绑

也不意味着:

•封闭的、非标准的软硬件技术

Exadata不是…

Page 17: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Exadata智能存储服务器网格

• 21 GB/sec 磁盘数据扫描

• 50 GB/sec 内存数据扫描

• 1百万+ 随机I/Os /sec, 8K DB块

数据库服务器网格

• 几百万级事务处理能力/每分钟

• 几千万级查询能力/每分钟

• 几十亿级记录扫描能力/每分钟

InfiniBand网络

• 880 Gb/sec 累计IO带宽(=220 4Ghz FC)

ExaData ,超级性能 & 最佳数据库整合机器

ExaData ,最佳的数据库整合一体机 – – 性能概览

Page 18: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Oracle Exadata的主要价值

• 极致性能、超强扩展

• 完美整合、即付即用

• 数据库云,满足快速变化与新需求

超凡

特性

• 适合于 OLTP 及 DW 业务场景

• 多数据库整合及混合负载

• 数据库云,按需服务

数据

整合

• 一体化整合,降低采购和运营成本

• 减少 50%~70%能耗及机房空间

• 提高功效、降低管理、实现集团效率

降低

成本

ERP

CRM

Warehouse

Data Mart

HR

Page 19: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

极致性能:数据库云服务的可靠保障 最具设计创新,彻底解决数据库系统性能瓶颈

InfiniBand 请求

DB Servers

Exadata Storage

Exadata

高性能理由② “混合列压缩(EHCC)”:获得10x-50x倍 超高

压缩比,并提高磁盘I/O效率

高性能理由③ “Smart Flash Cache”:高达5.3TB, 提高随机I/O

性能,1M IOPS、50GB/s Throughput.

高性能理由① “Smart Scan”:计算负载部分卸载至并行智能

存储层,并只传输经筛选的有用数据

高性能理由④ “Infiniband”: 提供40Gb/s 端口带宽,聚合带宽高达880Gb/s , 端口延时(0.1us )小于以太网的

1/100

Smart Scan、EHCC、Smart Flash Cache等是Oracle Exadata 独有的关键性能突破技术

Page 20: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Smart Scan 处理技术,解决数据瓶颈 Exadata为什么快 10-100x 倍?

Exadata Storage Grid

构建并发Smart Scan

请求 问题:昨天的销售业绩如何?

在TB 级数据中扫描匹配请求的数据

Oracle

数据库网格

SUM

仅仅返回满足条件的数据(行、列)

Select sum(sales)

where

Date=’24-Sept’ …

10 TB scanned 1 GB returned to servers

Page 21: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

超高数据压缩比 ——提高存储效率,降低存储成本

综合列压缩比率

• Query = 14.6X

• Archive = 22.6X

• 提高数据对磁盘的I/O性能,数倍降低存储投资成本

10 10 10 1116

19 19 19 20 21

29

43

0

5

10

15

20

25

30

35

40

45

50

Siz

e R

ed

ucti

on

Facto

r b

y T

ab

le

OLTP 压缩(avg=3.3)

Query 压缩 (avg=14.6)

Archive 压缩 (avg=22.6)

52

Page 22: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

FlashCache有效解决磁盘随机I/O的瓶颈

• 机械磁盘的存储容量大,但IOPS性能低下

> SAS HDD: ~300 I/Os per second

• Flash闪存数据容量虽然小,但是可以达到万级的IOPS

> Sun F20 Flash 存储卡: 10万 IOPS

• 理想的解决方案

> 在磁盘上保存数据 ---低成本

> 将访问热点数据Cache到闪存

> 使用PCI-E 闪存卡避免磁盘控制器的限制

• Exadata X2满配高达5.3TB 的高性能Flash Cache,

> 高带宽:75GB/s

> 高随机IOPS性能:1.5M IOPS

> 低延时

HDD: 300 IOPS

Sun Flash Accelerator Card: 100,000 IOPS

300倍IOPS性能提升

4x 96GB

Page 23: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Exadata X2 完善的数据库云产品 适合于OLTP, 数据仓库、数据库整合及数据库云应用系统

• Quarter, Half, Full and Multi-Racks • Full and Multi-Racks

Oracle Exadata X2-8 Oracle Exadata X2-2

Page 24: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Oracle #1 for Data Warehousing

Source: IDC, July 2009 – “Worldwide Data Warehouse Management Tools 2008 Vendor Shares”

Page 25: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Exadata 部分客户群 在诸多行业及地区得到迅速推广

Page 26: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

基于EXADATA,实现动态数据仓库应用 法国BNP银行投行部

客户需求:35个交易大厅交易实时监控系统;(OLTP)

合规和风控系统;(OLAP)

历史交易查询和报表系统(5年)(OLAP)

最近数据量达20TB;客户查询性能远远跟不上

客户买2台半配X2-2 Exadata (上周交易数据放在闪存中)

结果: 历史交易查询提高了20倍以上;从30-50分钟到1分钟左右(5年数据)

数据库运维和变更从数个小时缩短到10-20分钟

业务部门新的查询需求可以实现而没有性能瓶颈的担忧

美洲银行Bank of America 美洲银行美林证券

美林证券大规模应用Oracle的Exadata和Goldengate Bank of America 把多个业务系统的数据抽取整合到Exadata支持的ODS系统中;实现业务部门要求准实时的SLA

多个Web应用系统数据装载速度大大提高; 支持典型的OLTP应用(连接到ODS系统的应用系统)和DW应用;语句查询速度快了14-572倍不等。 风险控制系统、历史查询等应用是典型海量数据情况下支持OLTP和OLAP的混合应用

Page 27: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Softbank Runs 2x–8x Faster on Exadata 36 Teradata Racks Replaced by 3 Exadata Racks

Teradata 36 Racks

Exadata 3 Racks

Page 28: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

Sun + Oracle 11g RAC = 新的TPCC世界纪录!

Page 29: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM

小结:Extreme Performance Data

Warehousing Integrated Technology Stack

• Single source of truth

• Easy to deploy and manage

• Extreme performance

• Meets all end user

requirements

• Lower cost of ownership

Smart Storage

Database

Data Models

ELT Tools

BI Tools

BI Applications

Page 30: Competing against Hadoop - Oracle · Jean-Pierre Dijcks Subject: Hadoop/MapReduce and Oracle Keywords: Hadoop, MapReduce, Oracle Database Created Date: 7/18/2011 10:13:20 AM