22
1 数数数数数数数 数数数 PB 数数数数数数数数数数数 数数 GG@thinkinlamp majun@actionsky. com

数据仓库

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 数据仓库

1

数据仓库纵横谈解读准 PB级数据分析架构设计思路

锅巴GG@[email protected]

Page 2: 数据仓库

2

Agenda

Big Data!数据仓库

数据仓库 2.0基于 Infobright的解决方案

Page 3: 数据仓库

3

Big Data

`

10TB数据—“大”还是“小”?

大数据的商业价值

何谓之“大”?

大数据是什么?

Page 4: 数据仓库

4

数据仓库

Page 5: 数据仓库

5

数据仓库

数据仓库是一种体系结构,而非一种技术

数据仓库为其他形式的信息处理提供了理想的基础

事实只有一个版本

如果需要,可以重新调整数据

可以为新的、未知的应用随时提供数据

降低企业获取信息的代价

Page 6: 数据仓库

6

大型数据仓库

数据仓库包含历史

低粒度级采集数据——数据仓库的灵活性数据种类繁多

历史数据 + 细节数据 + 多种数据 = 大量数据

Page 7: 数据仓库

7

大型数据仓库

下载 1 小时索引 15分钟访问 25毫秒下载 12小时

索引 72小时访问 3 秒

Page 8: 数据仓库

8

数据量的影响

花销 ( 成本 )存储、分析处理

有效性

企业是否使用收集的所有数据

数据管理

数据量的不断增加、数据管理规则需要改变

Page 9: 数据仓库

9

数据仓库的特性

主题导向

集成性

时间差异性

不变动性

Page 10: 数据仓库

10

数据仓库 SDLC收集需求

分析

设计

编程

测试

集成

实现

实现数据仓库集成数据 (ETL)检验偏差针对数据编程设计 DSS系统分析结果理解需求

Page 11: 数据仓库

11

DW2.0

622407magic number?

Page 12: 数据仓库

12

DW2.0 vs DW1.0

数据生命周期的准确认识

交互、整合、近线、归档

元数据的重要性

技术基础架构的流动特性

Page 13: 数据仓库

13

Infobright

??

Page 14: 数据仓库

14

行存储 vs 列存储

Page 15: 数据仓库

15

行存储 vs 列存储

Page 16: 数据仓库

16

Infobright架构

Page 17: 数据仓库

17

知识网格 KG

Page 18: 数据仓库

18

KG工作原理

Page 19: 数据仓库

19

IB数据检索流程

Page 20: 数据仓库

20

IB的价值

Page 21: 数据仓库

21

水平扩展数据分析中间件

分而治之

按需而分

仓库 2.0启示

Page 22: 数据仓库

22

Q&A 时候不早啦 ! Thanks!

大家都累了 ...me 2...opentalk 2012