30
1 Copyright 2010 Action Tech 基于MySQL的开源DW

Infobright技术架构

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Infobright技术架构

1 Copyright 2010 Action Tech

基于MySQL的开源DW

Page 2: Infobright技术架构

2 Copyright 2010 Action Tech

介绍

• 开源DW的优势

• Infobright介绍

• 爱可生介绍

Page 3: Infobright技术架构

3 Copyright 2010 Action Tech

开源DW的优势

• 开源数据仓库在前期耗费较少,维护和支持费也较少

• 源数据仓库采用的技术很容易在市场中获得

• 开源数据仓库大大促进了标准化。

• 开源数据仓库相当灵活

• 开源数据仓库能从网络社区效应中获利

• 开源数据仓库可以逐步实施

Page 4: Infobright技术架构

4 Copyright 2010 Action Tech

列存储 VS 行存储

Page 5: Infobright技术架构

5 Copyright 2010 Action Tech

列存储 vs 行存储 – 用例

Page 6: Infobright技术架构

6 Copyright 2010 Action Tech

Infobright 介绍

•开源数据仓库(Data Warehouse)解决方案

•基于列存储的存储引擎

•海量数据存储

•数据压缩比例高

•高速的数据装载性能

•优化的统计算法(sum /group/count …)

Page 7: Infobright技术架构

7 Copyright 2010 Action Tech

Infobright 价值

•节约设计开销

没有复杂的数据仓库模型设计要求(比如星状模型、雪花模型)

无需要物化视图、数据分区、索引建立

•节省存储资源

高压缩比率通常是10:1,某些应用可能达到40:1

•集成利用广泛

和众多的BI套件相容,比如Pentaho、Cognos、Jaspersof

•降低运维成本

随着数据库的逐渐增大,查询和装载性能持续保持稳定

实施和管理简单,需要极少的管理

•商业保证

第一个商业支持的开源仓储分析数据库

是Oracle/MySQL 官方推荐的仓储集成架构

时间

资金 资源

Page 8: Infobright技术架构

8 Copyright 2010 Action Tech

Infobright 适用场景

大数据量的分析应用

˗网页/在线分析、移动分析、客户行为分析、分析营销和广告 ……

日志/事件管理系统

˗电信详单分析和报告、系统/网络 安全认证记录 ……

数据集市

˗企事业单位特定数据仓库、为中小企业提供数据仓库 ……

嵌入式分析

˗为独立软件供应商/ SaaS供应商提供嵌入式分析应用 ……

Page 9: Infobright技术架构

9 Copyright 2010 Action Tech

Infobright 客户案例 – 某大型电信运营商

业务结算系统 业务压力: 每个月产生的记录数为82亿条。 每个月的数据增长量为3.8TB。 MySQL 自有的MYISAM 引擎无法达到查询与写的性能要求

新数据库需要满足: 规模更大的数据集 良好的扩展能力 快速查询的反应能力(大量的汇总查询) 快速实施&低维护成本

需求

Page 10: Infobright技术架构

10 Copyright 2010 Action Tech

Infobright 客户案例 – 某大型电信运营商

INFOBRIGHT 解决了以上的所有问题。

1. 可以适应几百亿甚至几千亿条记录的单表。

2. 爱可生自主研发的PROXY 代理软件,负责大数据量的水平扩展。

3. 固有的知识网格体系, 能够确保快速的响应时间。 对应汇总的响应时

间为MyISAM的几十倍甚至上百倍。

4. 高压缩比,节省了大量的存储开销。

5. 只需要懂MySQL 就可以熟练的操作以及维护INFOBRIGHT。

Page 11: Infobright技术架构

11 Copyright 2010 Action Tech

Infobright VS 传统存储

分组聚合查询

select sql_no_cache max(k_s) from select_ib_3 group by url ;

数据行数 Infobright MyISAM

一百万 0.39s 5.04s

一千万 3.68s 53.34s

六千万 23.24s 5min 42s

一亿两千万 45.98s 11min 8s

Where限定查询

select sql_no_cache count(1) from select_ib_4 where url=‘www.actionsky.com ;

数据行数 Infobright MyISAM

一百万 0.19s 0.49s

一千万 0.62s 3.61s

六千万 1.23s 23.75s

一亿两千万 4.55s 47.29s

Page 12: Infobright技术架构

12 Copyright 2010 Action Tech

Infobright VS 传统存储

日期筛选和分组

select sql_no_cache * from select_ib_2 where date <1299145600 and date >1288540800 group by url;

数据行数 Infobright MyISAM

一百万 1.27s 1.58s

一千万 4.59s 17.82s

六千万 22.44s 1 min 55.74s

一亿两千万 44.99s 3 min 55.48s

报表归并汇总语句

insert into tmp select k,url,max(num,sum(k_s),date from select_im_2_ind group by k, url order by null;

数据行数 Infobright MyISAM

一百万 7.35s 59.95s

一千万 2min 15s 17min 48s

六千万 11min 38s 1h 55min13s

一亿两千万 23min 47s 3h 37min 49s

Page 13: Infobright技术架构

13 Copyright 2010 Action Tech

Infobright 组成部分

Page 14: Infobright技术架构

14 Copyright 2010 Action Tech

Infobright 模块原理

•优化器

最小化的解压缩数据

有效提高执行计划

•知识网格

存储元数据、列信息、表关系

数据块分布状态统计信息

同等查询状态缓存信息

•数据块

真实数据压缩存放位置

按照数据存储块保存

Page 15: Infobright技术架构

15 Copyright 2010 Action Tech

Data Packs

Page 16: Infobright技术架构

16 Copyright 2010 Action Tech

Data Packs 数据压缩之后

Page 17: Infobright技术架构

17 Copyright 2010 Action Tech

Knowledge Grid

Page 18: Infobright技术架构

18 Copyright 2010 Action Tech

Knowledge Grid Nodes - DPNs

Page 19: Infobright技术架构

19 Copyright 2010 Action Tech

Knowledge Grid Nodes - Histograms

Page 20: Infobright技术架构

20 Copyright 2010 Action Tech

Knowledge Grid Nodes - CMAPs

Page 21: Infobright技术架构

21 Copyright 2010 Action Tech

Knowledge Grid Nodes - P-2-P

Page 22: Infobright技术架构

22 Copyright 2010 Action Tech

Optimizer

Page 23: Infobright技术架构

23 Copyright 2010 Action Tech

Infobright 粗糙集示例

SELECT COUNT(*) FROM employees

WHERE salary > 100000

AND age < 35

AND job = ‘IT’

AND city = ‘San Mateo’;

① 查找包含salary > 100000的数据包

② 查找包含age < 35的数据包

③ 查找包含job = ’IT’的数据包

④ 查找包含city = ‘San Mateo’的数据包

⑤ 去除所有与检索条件不相干的标记

⑥ 最后在确定的数据包内解压缩相关数据

⑦ 执行检索

Page 24: Infobright技术架构

24 Copyright 2010 Action Tech

Infobright SQL优化

• 选择合适的数据类型

• 选择合适的字符集

• 选择合适的暗语(lookup, for_insert )

• 避免使用union all

• 避免使用select * from table

• 尽量使用系统提供的函数

• Rough Query (roughly )

Page 25: Infobright技术架构

25 Copyright 2010 Action Tech

Infobright 数据类型

Page 26: Infobright技术架构

26 Copyright 2010 Action Tech

Infobright导入工具

• Insert

• MySQL 导入工具 (@bh_dataformat='mysql')

• ETL工具

http://www.infobright.org/Downloads/Contributed‐Software/

• Infobright 自身的导入工具

CSV格式(@bh_dataformat='txt_variable')

二进制格式(@bh_dataformat='binary')

• DLP 分布式导入工具

(1.6TB/小时)

Page 27: Infobright技术架构

27 Copyright 2010 Action Tech

分布式导入工具-DLP

Page 28: Infobright技术架构

28 Copyright 2010 Action Tech

分布式导入工具-DLP

项目 测试一 测试二 测试三 测试四

远端DLP机数 10台 10台 16台 16台

目标Infobright 1台 1台 1台 1台

原始数据总量 1600GB 1600GB 1984GB 12608GB

完成耗时 1H15m20s 1H20m06s 1H25m17s 8H30m

Page 29: Infobright技术架构

29 Copyright 2010 Action Tech

爱可生介绍 • 迁移到MySQL数据库

• MySQL数据库升级

• MySQL数据恢复服务

• 高可用性服务

• NDB Cluster服务

• MySQL开发支持

• 全文搜索设计与优化

• Memcached缓存咨询与优化

• 全面的MySQL性能审核

• MySQL巡检

• MySQL 远程DBA

• 紧急MySQL 疑难解答

• MySQL数据库现场咨询

• MySQL培训

• 数据仓库的设计、实施、优化等技术支持和

培训

Oracle白金合作伙伴

MySQL中国区总分销商

Oracle授权教育合作伙伴

MySQL及开源架构解决方案供应商

Page 30: Infobright技术架构

30 Copyright 2010 Action Tech

OK!