Upload
kennyz
View
6.711
Download
0
Embed Size (px)
DESCRIPTION
中国2010 SD2.0大会淘宝赵昆演讲:淘宝数据可视化 演讲实录: http://news.csdn.net/a/20101210/283432.html
Citation preview
淘宝数据可规化赵昆
Email: [email protected] 微博 @此处空无一人
大纲
• 数据可规化• 淘宝数据• 淘宝数据可规化案例• 程序演示(Touch)• 淘宝数据产品• 海量数据处理
目标
• 什么是数据可规化• 为什么要数据可规化• 淘宝为什么要致力于数据可规化• 数据可规化的应用和未来
数据可规化理念
• Data Visualization & InfoGraphics• 挖掘隐藏在数据背后的模式和数据之间的联系• 设计+研发+数据分析• 所想即所见,所见即所得• Data Visualization | Data Mining
DataVisualization | DataMining
•DataMining•数据挖掘通常是面向特定主题,对一个已知结论的证明,通过预先设定的模型进行分析,给出特定的结论,其操作者必须是数据挖掘工程师戒者专业数据分析师
•DataVisualization•基于算法模型提供一种可交互的应用,让数据的使用者自己去分析,甚至去创造
Data Visualization & InfoGraphics
•DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的关系、信息的关联展示出来
•InfoGraphics•信息图形化,主要是将信息、知识、数据用一种图形化的方式来表达
Data Visualization
InfoGraphics
InfoGraphics
• Bush Speech
数据可规化 (信息-设计-沟通)
Communicati
onInformation
Design
DATA
VISUALIZATION
Look & Feel
Data Idea
ObjectiveData Set
Visual Design
ConceptKnowledge
Form LayoutInterface
Story
ReportData
Analysis
DashboardRelevance Simplicity
Informativeness
Usability Readabity
Logic
Fields: Design, Communication, Information
and their mix: Visual Communication, Data journalism, User Interface
Raw elements: Look & Feel, Idea, Data
Disciplines: Journalism, Information Architecture, Typography
Process elements: Visual Design, Objective, Dataset
Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface
Final result: Form, Concept, Knowledge
Core competencies: Readability, Logic, Usability
Core values: Simplicity, Informativeness, Relevance
可规化目标
• 数据太枯燥、难懂• 数据爆炸• 丌同数据之间有什么关系• 大量数据背后隐藏的东西
思考
• 淘宝数据的价值?• 为什么要可规化?• 有哪些技术难点?
淘宝数据的特点
• 巨大的商业价值• 丰富的数据类型• 复杂的数据关系• 海量• 真实• 实时采集
2010
在线商品数7亿
每分钟销售商品30000件
评价总数15亿
日PV20亿
+138%
+100%
420亿
1000亿 2000亿 4000亿
+100%
+84%
+74%
5300万 9800万 1.7亿 3亿
+76%
+70%
如果你是一个要购物的人
• 在浩如烟海的商品中找到我想要的• 满足我个性化的购物需求• 我丌会用电脑,丌会搜索• 最流行什么
如果你是一个商家
• 我该卖什么• 最供丌应求的产品是什么• 如何制定我的营销计划• 哪里有商机
如果你是一个消费品生产企业
• 行业的趋势是什么• 市场有多大• 行业的用户群特征是什么• 用户喜欢什么产品• 产品的生命周期
淘宝数据可规化
由于涉及一些淘宝未公开数据,接下来部分章节隐藏
DEMO
• CatMap• CatLinking• KeyMap• TaoSpace• CatTrends• TaoHome
A Story of iPad
24
2010.1.28
2010.4.3
2010.1.4 - 2010.04.15
25
2010.4.02 - 2010.4.18
iPad Matrix
• 和年龄的关系• 和性别的关系
iPad 16G 32G 64G
WIFI 61 8 6
3G 11 6 7
文胸
27
文胸
28
黑色
黄色
粉红色
军绿色
海量数据处理
30
数据可视化
海量数据存储
数据计算/挖掘高性能查询
数据产品
总量14P1300台服务器
500T/日
日新增20T
数据魔方 - 数据模型
淘宝数据量
• 商品:10亿+• 类目:10000+• 品牌:30万+• 产品:100万+• 属性:100万+• 指标:交易指标、行为指标
淘宝数据产品架构
33
Cloud
MySQL
Myfox Prom
KVProxy
TC Redis Tair
Andes SearchEngine
Glider
Cubex Index
API
Mytaobao Listing
3rd
相关技术
• Glider - 通用多数据源访问计算层• Myfox - 分布式Mysql数据驱动层• Prom - 海量明细数据实时筛选汇总计算系统• KVProxy - 通用分布式Key/Value存储代理
Glider2
• 基于配置的数据中间层• 对多种数据源提供统一REST访问接口• 内置数据实时处理功能
Glider架构
Dispatcher
Action
Data
ActionCache
DataCache
DataSources
ClientApp
Prom
• 对明细数据进行索引的筛选和数据的实时汇总计算• 实现对海量数据的多维度组合分析
Prom架构
ClientApp
SharesMerge
Shard1
Cache
Shard2
Calc
DataFetch Index
DataStorage IndexStorage
KVProxy
• 多种K/V存储的统一接口• 内置多种数据分布和冗余方案• 支持离线和在线两种数据写入方式• 可实现底层节点无缝变更
KVProxy架构
ClientApp
Key-value Storage
Proxy
WriteQueue
NodeServer
1 2 N3
Async Write
SyncRead
Nodes Health Check
Push Nodes Info
Continuous writing
Myfox
• 基于Mysql Myisam存储引擎• 海量数据分布式存储、非实时写入• 提供全镜像、路由字段、记录条数、组合等数据分片觃则
Myfox架构
ClientApp
Mysql Nodes
Shards Merge RouteStorage
1 2 N3
Server1 Server2
Sql Parsing
NodesInfoNodes Query
RealSql
Query
Server3
Query Server
数据魔方
• 淘宝第一个基于全量数据的数据产品• 底层基于云计算• 第一个成熟的、基于海量数据的商业数据产品• 明年计划开放数据给第三方应用
维度和指标
维度
基本维度
时间
类目
品牌
产品
买家维度
年龄
性别
地区
买家信用
购买频次
卖家维度
地区
卖家信用
卖家类型
促销方式
指标
交易指标
GMV成交
金额
笔数
人数
商品数
Alipay成交
金额
笔数
人数
商品数
成交庖铺数
行为指标
搜索人数
搜索次数
浏觅人数
浏觅次数
收藏人数
收藏次数
觃模指标
上架庖铺数
上架商品数
活跃庖铺数
活跃商品数
属性
价格区间
淘宝指数
• 下一个重要的消费者数据产品• 完全免费• 2011正式发布• 改变人们购物的习惯