48
淘宝数据可规化 赵昆 Email: [email protected] 微博 @此处空无一人

淘宝数据可视化[2010 SD2.0]

  • Upload
    kennyz

  • View
    6.711

  • Download
    0

Embed Size (px)

DESCRIPTION

中国2010 SD2.0大会淘宝赵昆演讲:淘宝数据可视化 演讲实录: http://news.csdn.net/a/20101210/283432.html

Citation preview

Page 1: 淘宝数据可视化[2010 SD2.0]

淘宝数据可规化赵昆

Email: [email protected] 微博 @此处空无一人

Page 2: 淘宝数据可视化[2010 SD2.0]
Page 3: 淘宝数据可视化[2010 SD2.0]

大纲

• 数据可规化• 淘宝数据• 淘宝数据可规化案例• 程序演示(Touch)• 淘宝数据产品• 海量数据处理

Page 4: 淘宝数据可视化[2010 SD2.0]

目标

• 什么是数据可规化• 为什么要数据可规化• 淘宝为什么要致力于数据可规化• 数据可规化的应用和未来

Page 5: 淘宝数据可视化[2010 SD2.0]

数据可规化理念

• Data Visualization & InfoGraphics• 挖掘隐藏在数据背后的模式和数据之间的联系• 设计+研发+数据分析• 所想即所见,所见即所得• Data Visualization | Data Mining

Page 6: 淘宝数据可视化[2010 SD2.0]

DataVisualization | DataMining

•DataMining•数据挖掘通常是面向特定主题,对一个已知结论的证明,通过预先设定的模型进行分析,给出特定的结论,其操作者必须是数据挖掘工程师戒者专业数据分析师

•DataVisualization•基于算法模型提供一种可交互的应用,让数据的使用者自己去分析,甚至去创造

Page 7: 淘宝数据可视化[2010 SD2.0]

Data Visualization & InfoGraphics

•DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的关系、信息的关联展示出来

•InfoGraphics•信息图形化,主要是将信息、知识、数据用一种图形化的方式来表达

Page 8: 淘宝数据可视化[2010 SD2.0]

Data Visualization

Page 9: 淘宝数据可视化[2010 SD2.0]

InfoGraphics

Page 10: 淘宝数据可视化[2010 SD2.0]

InfoGraphics

• Bush Speech

Page 11: 淘宝数据可视化[2010 SD2.0]

数据可规化 (信息-设计-沟通)

Communicati

onInformation

Design

DATA

VISUALIZATION

Look & Feel

Data Idea

ObjectiveData Set

Visual Design

ConceptKnowledge

Form LayoutInterface

Story

ReportData

Analysis

DashboardRelevance Simplicity

Informativeness

Usability Readabity

Logic

Fields: Design, Communication, Information

and their mix: Visual Communication, Data journalism, User Interface

Raw elements: Look & Feel, Idea, Data

Disciplines: Journalism, Information Architecture, Typography

Process elements: Visual Design, Objective, Dataset

Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface

Final result: Form, Concept, Knowledge

Core competencies: Readability, Logic, Usability

Core values: Simplicity, Informativeness, Relevance

Page 12: 淘宝数据可视化[2010 SD2.0]

可规化目标

• 数据太枯燥、难懂• 数据爆炸• 丌同数据之间有什么关系• 大量数据背后隐藏的东西

Page 13: 淘宝数据可视化[2010 SD2.0]

思考

• 淘宝数据的价值?• 为什么要可规化?• 有哪些技术难点?

Page 14: 淘宝数据可视化[2010 SD2.0]

淘宝数据的特点

• 巨大的商业价值• 丰富的数据类型• 复杂的数据关系• 海量• 真实• 实时采集

Page 15: 淘宝数据可视化[2010 SD2.0]

2010

在线商品数7亿

每分钟销售商品30000件

评价总数15亿

日PV20亿

Page 16: 淘宝数据可视化[2010 SD2.0]

+138%

+100%

420亿

1000亿 2000亿 4000亿

+100%

Page 17: 淘宝数据可视化[2010 SD2.0]

+84%

+74%

5300万 9800万 1.7亿 3亿

+76%

+70%

Page 18: 淘宝数据可视化[2010 SD2.0]

如果你是一个要购物的人

• 在浩如烟海的商品中找到我想要的• 满足我个性化的购物需求• 我丌会用电脑,丌会搜索• 最流行什么

Page 19: 淘宝数据可视化[2010 SD2.0]

如果你是一个商家

• 我该卖什么• 最供丌应求的产品是什么• 如何制定我的营销计划• 哪里有商机

Page 20: 淘宝数据可视化[2010 SD2.0]

如果你是一个消费品生产企业

• 行业的趋势是什么• 市场有多大• 行业的用户群特征是什么• 用户喜欢什么产品• 产品的生命周期

Page 21: 淘宝数据可视化[2010 SD2.0]

淘宝数据可规化

由于涉及一些淘宝未公开数据,接下来部分章节隐藏

Page 22: 淘宝数据可视化[2010 SD2.0]

DEMO

• CatMap• CatLinking• KeyMap• TaoSpace• CatTrends• TaoHome

Page 23: 淘宝数据可视化[2010 SD2.0]

A Story of iPad

Page 24: 淘宝数据可视化[2010 SD2.0]

24

2010.1.28

2010.4.3

2010.1.4 - 2010.04.15

Page 25: 淘宝数据可视化[2010 SD2.0]

25

2010.4.02 - 2010.4.18

Page 26: 淘宝数据可视化[2010 SD2.0]

iPad Matrix

• 和年龄的关系• 和性别的关系

iPad 16G 32G 64G

WIFI 61 8 6

3G 11 6 7

Page 27: 淘宝数据可视化[2010 SD2.0]

文胸

27

Page 28: 淘宝数据可视化[2010 SD2.0]

文胸

28

黑色

黄色

粉红色

军绿色

Page 29: 淘宝数据可视化[2010 SD2.0]

海量数据处理

Page 30: 淘宝数据可视化[2010 SD2.0]

30

数据可视化

海量数据存储

数据计算/挖掘高性能查询

数据产品

总量14P1300台服务器

500T/日

日新增20T

Page 31: 淘宝数据可视化[2010 SD2.0]

数据魔方 - 数据模型

Page 32: 淘宝数据可视化[2010 SD2.0]

淘宝数据量

• 商品:10亿+• 类目:10000+• 品牌:30万+• 产品:100万+• 属性:100万+• 指标:交易指标、行为指标

Page 33: 淘宝数据可视化[2010 SD2.0]

淘宝数据产品架构

33

Cloud

MySQL

Myfox Prom

KVProxy

TC Redis Tair

Andes SearchEngine

Glider

Cubex Index

API

Mytaobao Listing

3rd

Page 34: 淘宝数据可视化[2010 SD2.0]

相关技术

• Glider - 通用多数据源访问计算层• Myfox - 分布式Mysql数据驱动层• Prom - 海量明细数据实时筛选汇总计算系统• KVProxy - 通用分布式Key/Value存储代理

Page 35: 淘宝数据可视化[2010 SD2.0]

Glider2

• 基于配置的数据中间层• 对多种数据源提供统一REST访问接口• 内置数据实时处理功能

Page 36: 淘宝数据可视化[2010 SD2.0]

Glider架构

Dispatcher

Action

Data

ActionCache

DataCache

DataSources

ClientApp

Page 37: 淘宝数据可视化[2010 SD2.0]

Prom

• 对明细数据进行索引的筛选和数据的实时汇总计算• 实现对海量数据的多维度组合分析

Page 38: 淘宝数据可视化[2010 SD2.0]

Prom架构

ClientApp

SharesMerge

Shard1

Cache

Shard2

Calc

DataFetch Index

DataStorage IndexStorage

Page 39: 淘宝数据可视化[2010 SD2.0]

KVProxy

• 多种K/V存储的统一接口• 内置多种数据分布和冗余方案• 支持离线和在线两种数据写入方式• 可实现底层节点无缝变更

Page 40: 淘宝数据可视化[2010 SD2.0]

KVProxy架构

ClientApp

Key-value Storage

Proxy

WriteQueue

NodeServer

1 2 N3

Async Write

SyncRead

Nodes Health Check

Push Nodes Info

Continuous writing

Page 41: 淘宝数据可视化[2010 SD2.0]

Myfox

• 基于Mysql Myisam存储引擎• 海量数据分布式存储、非实时写入• 提供全镜像、路由字段、记录条数、组合等数据分片觃则

Page 42: 淘宝数据可视化[2010 SD2.0]

Myfox架构

ClientApp

Mysql Nodes

Shards Merge RouteStorage

1 2 N3

Server1 Server2

Sql Parsing

NodesInfoNodes Query

RealSql

Query

Server3

Query Server

Page 43: 淘宝数据可视化[2010 SD2.0]
Page 44: 淘宝数据可视化[2010 SD2.0]

数据魔方

• 淘宝第一个基于全量数据的数据产品• 底层基于云计算• 第一个成熟的、基于海量数据的商业数据产品• 明年计划开放数据给第三方应用

Page 45: 淘宝数据可视化[2010 SD2.0]

维度和指标

维度

基本维度

时间

类目

品牌

产品

买家维度

年龄

性别

地区

买家信用

购买频次

卖家维度

地区

卖家信用

卖家类型

促销方式

指标

交易指标

GMV成交

金额

笔数

人数

商品数

Alipay成交

金额

笔数

人数

商品数

成交庖铺数

行为指标

搜索人数

搜索次数

浏觅人数

浏觅次数

收藏人数

收藏次数

觃模指标

上架庖铺数

上架商品数

活跃庖铺数

活跃商品数

属性

价格区间

Page 46: 淘宝数据可视化[2010 SD2.0]
Page 47: 淘宝数据可视化[2010 SD2.0]

淘宝指数

• 下一个重要的消费者数据产品• 完全免费• 2011正式发布• 改变人们购物的习惯