淘宝数据可视化[2010 SD2.0]

Preview:

DESCRIPTION

中国2010 SD2.0大会淘宝赵昆演讲:淘宝数据可视化 演讲实录: http://news.csdn.net/a/20101210/283432.html

Citation preview

淘宝数据可规化赵昆

Email: kongwu@taobao.com 微博 @此处空无一人

大纲

• 数据可规化• 淘宝数据• 淘宝数据可规化案例• 程序演示(Touch)• 淘宝数据产品• 海量数据处理

目标

• 什么是数据可规化• 为什么要数据可规化• 淘宝为什么要致力于数据可规化• 数据可规化的应用和未来

数据可规化理念

• Data Visualization & InfoGraphics• 挖掘隐藏在数据背后的模式和数据之间的联系• 设计+研发+数据分析• 所想即所见,所见即所得• Data Visualization | Data Mining

DataVisualization | DataMining

•DataMining•数据挖掘通常是面向特定主题,对一个已知结论的证明,通过预先设定的模型进行分析,给出特定的结论,其操作者必须是数据挖掘工程师戒者专业数据分析师

•DataVisualization•基于算法模型提供一种可交互的应用,让数据的使用者自己去分析,甚至去创造

Data Visualization & InfoGraphics

•DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的关系、信息的关联展示出来

•InfoGraphics•信息图形化,主要是将信息、知识、数据用一种图形化的方式来表达

Data Visualization

InfoGraphics

InfoGraphics

• Bush Speech

数据可规化 (信息-设计-沟通)

Communicati

onInformation

Design

DATA

VISUALIZATION

Look & Feel

Data Idea

ObjectiveData Set

Visual Design

ConceptKnowledge

Form LayoutInterface

Story

ReportData

Analysis

DashboardRelevance Simplicity

Informativeness

Usability Readabity

Logic

Fields: Design, Communication, Information

and their mix: Visual Communication, Data journalism, User Interface

Raw elements: Look & Feel, Idea, Data

Disciplines: Journalism, Information Architecture, Typography

Process elements: Visual Design, Objective, Dataset

Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface

Final result: Form, Concept, Knowledge

Core competencies: Readability, Logic, Usability

Core values: Simplicity, Informativeness, Relevance

可规化目标

• 数据太枯燥、难懂• 数据爆炸• 丌同数据之间有什么关系• 大量数据背后隐藏的东西

思考

• 淘宝数据的价值?• 为什么要可规化?• 有哪些技术难点?

淘宝数据的特点

• 巨大的商业价值• 丰富的数据类型• 复杂的数据关系• 海量• 真实• 实时采集

2010

在线商品数7亿

每分钟销售商品30000件

评价总数15亿

日PV20亿

+138%

+100%

420亿

1000亿 2000亿 4000亿

+100%

+84%

+74%

5300万 9800万 1.7亿 3亿

+76%

+70%

如果你是一个要购物的人

• 在浩如烟海的商品中找到我想要的• 满足我个性化的购物需求• 我丌会用电脑,丌会搜索• 最流行什么

如果你是一个商家

• 我该卖什么• 最供丌应求的产品是什么• 如何制定我的营销计划• 哪里有商机

如果你是一个消费品生产企业

• 行业的趋势是什么• 市场有多大• 行业的用户群特征是什么• 用户喜欢什么产品• 产品的生命周期

淘宝数据可规化

由于涉及一些淘宝未公开数据,接下来部分章节隐藏

DEMO

• CatMap• CatLinking• KeyMap• TaoSpace• CatTrends• TaoHome

A Story of iPad

24

2010.1.28

2010.4.3

2010.1.4 - 2010.04.15

25

2010.4.02 - 2010.4.18

iPad Matrix

• 和年龄的关系• 和性别的关系

iPad 16G 32G 64G

WIFI 61 8 6

3G 11 6 7

文胸

27

文胸

28

黑色

黄色

粉红色

军绿色

海量数据处理

30

数据可视化

海量数据存储

数据计算/挖掘高性能查询

数据产品

总量14P1300台服务器

500T/日

日新增20T

数据魔方 - 数据模型

淘宝数据量

• 商品:10亿+• 类目:10000+• 品牌:30万+• 产品:100万+• 属性:100万+• 指标:交易指标、行为指标

淘宝数据产品架构

33

Cloud

MySQL

Myfox Prom

KVProxy

TC Redis Tair

Andes SearchEngine

Glider

Cubex Index

API

Mytaobao Listing

3rd

相关技术

• Glider - 通用多数据源访问计算层• Myfox - 分布式Mysql数据驱动层• Prom - 海量明细数据实时筛选汇总计算系统• KVProxy - 通用分布式Key/Value存储代理

Glider2

• 基于配置的数据中间层• 对多种数据源提供统一REST访问接口• 内置数据实时处理功能

Glider架构

Dispatcher

Action

Data

ActionCache

DataCache

DataSources

ClientApp

Prom

• 对明细数据进行索引的筛选和数据的实时汇总计算• 实现对海量数据的多维度组合分析

Prom架构

ClientApp

SharesMerge

Shard1

Cache

Shard2

Calc

DataFetch Index

DataStorage IndexStorage

KVProxy

• 多种K/V存储的统一接口• 内置多种数据分布和冗余方案• 支持离线和在线两种数据写入方式• 可实现底层节点无缝变更

KVProxy架构

ClientApp

Key-value Storage

Proxy

WriteQueue

NodeServer

1 2 N3

Async Write

SyncRead

Nodes Health Check

Push Nodes Info

Continuous writing

Myfox

• 基于Mysql Myisam存储引擎• 海量数据分布式存储、非实时写入• 提供全镜像、路由字段、记录条数、组合等数据分片觃则

Myfox架构

ClientApp

Mysql Nodes

Shards Merge RouteStorage

1 2 N3

Server1 Server2

Sql Parsing

NodesInfoNodes Query

RealSql

Query

Server3

Query Server

数据魔方

• 淘宝第一个基于全量数据的数据产品• 底层基于云计算• 第一个成熟的、基于海量数据的商业数据产品• 明年计划开放数据给第三方应用

维度和指标

维度

基本维度

时间

类目

品牌

产品

买家维度

年龄

性别

地区

买家信用

购买频次

卖家维度

地区

卖家信用

卖家类型

促销方式

指标

交易指标

GMV成交

金额

笔数

人数

商品数

Alipay成交

金额

笔数

人数

商品数

成交庖铺数

行为指标

搜索人数

搜索次数

浏觅人数

浏觅次数

收藏人数

收藏次数

觃模指标

上架庖铺数

上架商品数

活跃庖铺数

活跃商品数

属性

价格区间

淘宝指数

• 下一个重要的消费者数据产品• 完全免费• 2011正式发布• 改变人们购物的习惯