Upload
others
View
19
Download
0
Embed Size (px)
Citation preview
探索阿里数据藏宝图——数据地图
阿外(刘应耀)
阿里有多少数据?如何存储的?
数据与数据间什么关系?
如何找?如何用?
引子
大数据该关注什么?
数据的未来?
数据管理模块结构
OTS
数据字典
ODPS myfox 云梯1
血缘关系 数据特征
元数据服务
数据质量 生命周期
数据市场
数据地图 主数据
数据 总线
Garuda
基础 服务
DataX
DT
TT
IDE
计量
调度
安全
日志
数据 系统
元数据 中心
数据 市场
元数据 应用
DBSync
元数据中心
元数据模块结构
字段
数据源 数据表 应用
分区 odps1 hive1 hive2 myfox1 ......
taobao etao tmall b2b ......
数据源:数据系统集群实例命名,系统种类包括iDB/ODPS/OTS/hive/hBase/myfox/garuda/galaxy/itier;
应用:数据源物理上的统一命名空间,如oracle的schema、odps的project、mysql的database等;
数据表: 统一的 GUID命名规范, datasource1.app1.table1,直观易用,简化API接口;
血缘关系:数据流向(表表,字段字段 ),数据关联(外键);
敏感授权:应用或表的owner可对全表或字段进行敏感级别设置;
血缘关系 敏感授权 类目
标签/收藏 订阅 用户行为
业务属性
数据系统
元数据中心
元数据中心
事件中心
元数据 资源库
元数据服务 元数据驱动
ODPS 驱动
Hive 驱动
......
图搜索
元数据及血缘关系
开放API
ODPS 云梯1 ......
数据总线
DataX TT DT
ots, HBase,iDB...
事件订阅/通知
业务线(商业智能、小微金融等)
事件订阅/通知
全量同步
元数据中心 数据系统
实时增量同步
同步方案
元数据 资源库
同步作业 开放API
元数据
事件通知
消息中心
监听
ODPS/iDB/Hive/...
每晚全量读取数据系统的数据字典及血缘,执行Merge操作
iSearch
Garuda
Neo4j
MySql
数据特征
系统建设方案
数据字典
iDB 云梯1 odps alipay hadoop Garuda OTS HBase myfox OceanBase 日志
系统、包、数据表、字段、分区等
数据量、访问热度、标签及用户行为等
血缘
表级、字段级、分区级
hive脚本 odps脚本 DataX DT Task TT DBSync
数据地图
Dashboard
全文检索
指标体系,统计分析,监控预警
血缘追溯、影响分析等
Service API App
质量 安全 生产 计量
名称、标签、owner等
元数据中心应用
数据质量项目
1970年入网的淘宝用户:马总6岁操作ARPANET网?
彩票订单为负值:淘宝从用户手中买彩票?
一条物流单不同字段分别记录了北京和上海:中国直辖市合并?
一个人旺旺登录日时长超过24小时:地球停转之日?
• 信息可互通(-Information)
• 规范可遵循(-Rule)
• 组织可信任(-Organisation )
• 系统可依赖(-System)
• 环境可发挥(-Environment)
血缘应用:影响分析
前端业务线
元数据服务
影响分析 (规则+策略)
库表变更
影响 评估
API
允许变更
无
工作流引擎
否
是否线上
拒绝变更
是
有
执行变更处理流程
商业智能、小微金融等要求源数据表变更时有影响评估和变更流程协同。
业务规范约束:前端业务线发起变更申请;
技术体系保障:数据系统DDL执行前事件触发影响分析流程;
数据地图 (1)
数据地图 (2)
数据地图 (3)
数据地图 (4)
数据地图价值
数据市场
谢 谢 ! http://www.alidata.org [email protected] @阿里之外