Upload
xuezhang-wu
View
3.439
Download
9
Embed Size (px)
DESCRIPTION
Citation preview
1 Copyright 2010 Action Tech
基于MySQL的开源DW
2 Copyright 2010 Action Tech
介绍
• 开源DW的优势
• Infobright介绍
• 爱可生介绍
3 Copyright 2010 Action Tech
开源DW的优势
• 开源数据仓库在前期耗费较少,维护和支持费也较少
• 源数据仓库采用的技术很容易在市场中获得
• 开源数据仓库大大促进了标准化。
• 开源数据仓库相当灵活
• 开源数据仓库能从网络社区效应中获利
• 开源数据仓库可以逐步实施
4 Copyright 2010 Action Tech
列存储 VS 行存储
5 Copyright 2010 Action Tech
列存储 vs 行存储 – 用例
6 Copyright 2010 Action Tech
Infobright 介绍
•开源数据仓库(Data Warehouse)解决方案
•基于列存储的存储引擎
•海量数据存储
•数据压缩比例高
•高速的数据装载性能
•优化的统计算法(sum /group/count …)
7 Copyright 2010 Action Tech
Infobright 价值
•节约设计开销
没有复杂的数据仓库模型设计要求(比如星状模型、雪花模型)
无需要物化视图、数据分区、索引建立
•节省存储资源
高压缩比率通常是10:1,某些应用可能达到40:1
•集成利用广泛
和众多的BI套件相容,比如Pentaho、Cognos、Jaspersof
•降低运维成本
随着数据库的逐渐增大,查询和装载性能持续保持稳定
实施和管理简单,需要极少的管理
•商业保证
第一个商业支持的开源仓储分析数据库
是Oracle/MySQL 官方推荐的仓储集成架构
时间
资金 资源
8 Copyright 2010 Action Tech
Infobright 适用场景
大数据量的分析应用
˗网页/在线分析、移动分析、客户行为分析、分析营销和广告 ……
日志/事件管理系统
˗电信详单分析和报告、系统/网络 安全认证记录 ……
数据集市
˗企事业单位特定数据仓库、为中小企业提供数据仓库 ……
嵌入式分析
˗为独立软件供应商/ SaaS供应商提供嵌入式分析应用 ……
9 Copyright 2010 Action Tech
Infobright 客户案例 – 某大型电信运营商
业务结算系统 业务压力: 每个月产生的记录数为82亿条。 每个月的数据增长量为3.8TB。 MySQL 自有的MYISAM 引擎无法达到查询与写的性能要求
新数据库需要满足: 规模更大的数据集 良好的扩展能力 快速查询的反应能力(大量的汇总查询) 快速实施&低维护成本
需求
10 Copyright 2010 Action Tech
Infobright 客户案例 – 某大型电信运营商
INFOBRIGHT 解决了以上的所有问题。
1. 可以适应几百亿甚至几千亿条记录的单表。
2. 爱可生自主研发的PROXY 代理软件,负责大数据量的水平扩展。
3. 固有的知识网格体系, 能够确保快速的响应时间。 对应汇总的响应时
间为MyISAM的几十倍甚至上百倍。
4. 高压缩比,节省了大量的存储开销。
5. 只需要懂MySQL 就可以熟练的操作以及维护INFOBRIGHT。
11 Copyright 2010 Action Tech
Infobright VS 传统存储
分组聚合查询
select sql_no_cache max(k_s) from select_ib_3 group by url ;
数据行数 Infobright MyISAM
一百万 0.39s 5.04s
一千万 3.68s 53.34s
六千万 23.24s 5min 42s
一亿两千万 45.98s 11min 8s
Where限定查询
select sql_no_cache count(1) from select_ib_4 where url=‘www.actionsky.com ;
数据行数 Infobright MyISAM
一百万 0.19s 0.49s
一千万 0.62s 3.61s
六千万 1.23s 23.75s
一亿两千万 4.55s 47.29s
12 Copyright 2010 Action Tech
Infobright VS 传统存储
日期筛选和分组
select sql_no_cache * from select_ib_2 where date <1299145600 and date >1288540800 group by url;
数据行数 Infobright MyISAM
一百万 1.27s 1.58s
一千万 4.59s 17.82s
六千万 22.44s 1 min 55.74s
一亿两千万 44.99s 3 min 55.48s
报表归并汇总语句
insert into tmp select k,url,max(num,sum(k_s),date from select_im_2_ind group by k, url order by null;
数据行数 Infobright MyISAM
一百万 7.35s 59.95s
一千万 2min 15s 17min 48s
六千万 11min 38s 1h 55min13s
一亿两千万 23min 47s 3h 37min 49s
13 Copyright 2010 Action Tech
Infobright 组成部分
14 Copyright 2010 Action Tech
Infobright 模块原理
•优化器
最小化的解压缩数据
有效提高执行计划
•知识网格
存储元数据、列信息、表关系
数据块分布状态统计信息
同等查询状态缓存信息
•数据块
真实数据压缩存放位置
按照数据存储块保存
15 Copyright 2010 Action Tech
Data Packs
16 Copyright 2010 Action Tech
Data Packs 数据压缩之后
17 Copyright 2010 Action Tech
Knowledge Grid
18 Copyright 2010 Action Tech
Knowledge Grid Nodes - DPNs
19 Copyright 2010 Action Tech
Knowledge Grid Nodes - Histograms
20 Copyright 2010 Action Tech
Knowledge Grid Nodes - CMAPs
21 Copyright 2010 Action Tech
Knowledge Grid Nodes - P-2-P
22 Copyright 2010 Action Tech
Optimizer
23 Copyright 2010 Action Tech
Infobright 粗糙集示例
SELECT COUNT(*) FROM employees
WHERE salary > 100000
AND age < 35
AND job = ‘IT’
AND city = ‘San Mateo’;
① 查找包含salary > 100000的数据包
② 查找包含age < 35的数据包
③ 查找包含job = ’IT’的数据包
④ 查找包含city = ‘San Mateo’的数据包
⑤ 去除所有与检索条件不相干的标记
⑥ 最后在确定的数据包内解压缩相关数据
⑦ 执行检索
24 Copyright 2010 Action Tech
Infobright SQL优化
• 选择合适的数据类型
• 选择合适的字符集
• 选择合适的暗语(lookup, for_insert )
• 避免使用union all
• 避免使用select * from table
• 尽量使用系统提供的函数
• Rough Query (roughly )
25 Copyright 2010 Action Tech
Infobright 数据类型
26 Copyright 2010 Action Tech
Infobright导入工具
• Insert
• MySQL 导入工具 (@bh_dataformat='mysql')
• ETL工具
http://www.infobright.org/Downloads/Contributed‐Software/
• Infobright 自身的导入工具
CSV格式(@bh_dataformat='txt_variable')
二进制格式(@bh_dataformat='binary')
• DLP 分布式导入工具
(1.6TB/小时)
27 Copyright 2010 Action Tech
分布式导入工具-DLP
28 Copyright 2010 Action Tech
分布式导入工具-DLP
项目 测试一 测试二 测试三 测试四
远端DLP机数 10台 10台 16台 16台
目标Infobright 1台 1台 1台 1台
原始数据总量 1600GB 1600GB 1984GB 12608GB
完成耗时 1H15m20s 1H20m06s 1H25m17s 8H30m
29 Copyright 2010 Action Tech
爱可生介绍 • 迁移到MySQL数据库
• MySQL数据库升级
• MySQL数据恢复服务
• 高可用性服务
• NDB Cluster服务
• MySQL开发支持
• 全文搜索设计与优化
• Memcached缓存咨询与优化
• 全面的MySQL性能审核
• MySQL巡检
• MySQL 远程DBA
• 紧急MySQL 疑难解答
• MySQL数据库现场咨询
• MySQL培训
• 数据仓库的设计、实施、优化等技术支持和
培训
Oracle白金合作伙伴
MySQL中国区总分销商
Oracle授权教育合作伙伴
MySQL及开源架构解决方案供应商
30 Copyright 2010 Action Tech
OK!