50
腾讯大数据之 -- 实时精准推荐 腾讯 - TEG - 数据平台部 肖磊

腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

  • Upload
    others

  • View
    21

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

腾讯大数据之--实时精准推荐

腾讯-TEG-数据平台部

肖磊

Page 2: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

大数据特点及应用领域

海量数据

PB级

数据种类

繁多

价值密度低

商业价值高

处理速度

更快

数据挖掘 数据分析

数据仓库 数据安全

大数据定义特点 大数据关键领域

Page 3: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

议程

腾讯大数据系统架构

腾讯大数据应用-实时精准推荐

Page 4: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

TDW 分布式数据仓库

实时查询

腾讯大数据系统架构

TRC 实时计算平台

TPR 精准推荐平台

Hive&Pig&IDE Hadoop

Lhotse

Gaia

TDBank数据实时采集

TDProcess流式计算

TDEngine分布式存储

1

2

3 算法库 Spark DNN深度学习模型

Hbase TDSI

Page 5: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

TDW 分布式数据仓库

Hive / Pig查询处理引擎

Lhotse任务统一调度集成开发环境 IDE

计算引擎 MapReduce

存储引擎 HDFS

HADOOP集群

TD

Ban

k

数据采集

PG小数据处理

HBase实时查询

资源调度和管理 Gaia

自主研发的腾讯分布式数据仓库,支持百PB级的数据存储和计算,为公司产品提供海量、高效、稳定的大数据离线计算平台支撑和决策支持。

Page 6: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

服务器 5000+台

CPU 100,000+核

内存 300+ TB

磁盘 70,000+块

存储容量 100+PB

每天Job数 1,000,000+

每天扫描数据量 6+ PB

存储利用率 80%+

CPU利用率 90%+

网络利用率 90%+

TDW 分布式数据仓库

Page 7: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

TRC 实时计算平台

实时消息采集

流式数据计算

实时数据访问

TDBank TDProcess TDEngine

实时接入 流式计算 存储引擎

系统

监控

数据

分析

精准

推荐

基于在线消息流计算模型, 对海量数据进行实时计算处理

Page 8: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

1-2s 采集平均时延 99.99% 可用度

500bn+ 最高日接入消息条数 1Trillion

1.5 Trillion 每天多维度交叉计算量

50ms 每次请求的时延

2bn+ 每秒应用引擎访数据次数

30bn 每天支撑推荐请求量

TRC 腾讯实时计算平台

Page 9: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

TPR 精准推荐平台

以人为核心的个性化数据挖掘,提供“海量、精准、实时”

的个性化精准推荐服务

实时推荐系统接口

TDBank实时采集

TDProcess流式计算

TDEngine分布式存储引擎

Online Rec Engine实时推荐引擎

推荐系统接口

Hina系统

TDW

实时查询

老架构 – 天级 新架构 – 分钟级

TDW

Spark

Page 10: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

2 亿+ 视频精准推荐量/天

1.5亿+ 电商精准推荐量/天

1 亿+ 新闻精准推荐量/天

150亿 + 效果广告精准推荐量/天

TPR 腾讯精准推荐平台

Page 11: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

议程

腾讯大数据系统架构

腾讯大数据应用-实时精准推荐

Page 12: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

用户画像为核心基础

以效果广告为代表的精准营销

以视频推荐为代表的相关推荐

以电商推荐为代表的效果推荐

QQ好友,微博等关系链推荐

QQ秀,APP应用类推荐

Tips定向推荐…

腾讯实时精准推荐实例

Page 13: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

推荐系统关键点

数据

算法

系统 推荐引擎

用户

物品场景

Page 14: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

人口属性(年龄,性别,学历…)

其他(搜索、付费、设备imei…)

用户画像

社交属性(QQ,qzone、朋友关系链…)

内容偏好(腾讯网,视频,微博)

电商兴趣(网购、拍拍、

易迅…)

游戏爱好(游戏时长、付费…)

数据-用户数据

• 8亿 月活跃用户数8亿

• 40亿 日均用户行为40亿次以上

• 100亿+ 单产品日均请求百亿量级

• 1000亿+ 用户关系链累积千亿量级

• 15000亿 日均支撑多维度交叉计算量

• …

格式多样

• 结构化数据 文本 图像 音频 视频 …

Page 15: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

数据-场景

推荐位置变量:PC页面、客户端、无线侧

环境变量:雾霾、下雨、紫外线

时间变量:早中晚、周末、假日

空间变量:LBS数据

其他变量:实时行为、状态 …

Page 16: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

推荐本质上是一种个性化排序

Ranking= scoring+sorting+filtering

特定场景如效果广告,排序准确+预测值精准

AD Ranking = scoring+PCTR+filtering

ECPM=CTR*CPC

指导思想:针对不同的推荐场景,基于不同的数据采用不同的算法策略

算法-简介

Page 17: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

挑战-精准投放1 ‰ 用户-物品的评价/行为矩阵过于稀疏,密度千分位,甚至更低

1-3 用户看到推荐物品的曝光机会仅有1-3次/天

10,000 + 通常单个推荐位可投物品在10万级别以上

3-9 以效果广告为例,大部分推荐素材对应的的生命周期仅有3-9天左右

50 单次推荐请求控制时间50ms以内

10,000 + 通常单个推荐位可投物品在10万级别以上

10 bn+ 日均推荐请求量可达100亿次+

应对高性能的学习算法:分布式并行的LR,邻域CF,MF等算法

场景定制化的用户画像和物品特征提取

大数据对算法的挑战

Page 18: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

算法示例 – Logistic Regression

特征构成

模型训练Spark上的分布式并行的高维LR算法支持高维特征+大训练数据集15分钟增量更新线上模型

用户基本属性,行为属性、兴趣标签..

用户

推荐位

位置特征信息...

物品

Tag、图像特征、类目、行业..

是否点击

1,0

+ + =+其他

上下文

LBS,时间,节假日,天气...

实时动态反馈特征

多粒度点击率,转化率

曝光次数

点击次数…

用户画像行为属性兴趣标签 …

项目,推荐位ID

项目特征信息推荐位特征信息 ...

时间LBS

天气节假日…

Page 19: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

大数据对系统的挑战

CPU&IO密集

高吞吐率

低延迟

线性扩展

柔性

低成本

……

Page 20: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

TDBank日接入消息平均1000+亿

平均采集延迟1-2秒

TDProcess日计算量10000+亿

秒级延迟

TDE存储量3T

毫秒级延迟

实时推荐引擎日请求100+亿

日推荐计算10000+亿

推荐延迟50ms以内

模型推送延迟分钟级

Recommender Interface

TDBank实时采集

TDProcess流式计算

TDEngine分布式存储引擎

Online Rec Engine实时推荐引擎

TDW

Spark

系统-实时精准推荐平台

Page 21: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

实时全流程数据驱动的实时推荐

智能基于时序演进的智能推荐提取新特征的跨界推荐

移动融入LBS、体感等数据的移动场景推荐

未来发展方向初探

Page 22: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

2011 2012 March 3 days 1 hour 1 Mins

实时-数据实时化示例

腾讯实时用户画像

-8亿 用户-10亿 + 交互行为-1000亿+ 关系链

Page 23: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

数据流式处理 模型实时更新 数据实时化实时推荐

10%+

实时-全流程实时推荐价值

Page 24: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

智能-基于时序演进的智能推荐

用户兴趣时序演变

• 传统推荐系统多侧重于当前时点的即时静态预测

• 智能推荐是预测用户未来一段时间的潜在需求并在适宜的时间给予用户精准推荐。

--Collaborative Evolution for User Profiling in Recommender Systems

Page 25: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

智能-基于时序演进的智能推荐

时序模型示例

预测

Page 26: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

智能-基于时序演进的智能推荐

Long-tail User

Different Time Intervals

Page 27: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

• 都是女裙美图,结果不同

1.1% CTR 0.21% CTR

584W Imp 654W Imp

智能–提取新特征的跨界推荐

Page 28: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

智能-提取新特征的跨界推荐•特征提取:CNN+DNN整体训练

•与LR融合:两种方式–1) Ensemble方式–2) 加特征方式,解决性能问题

•抽取其中CNN层输出的图像特征,加入LR

X1图片像素

X2:用户特征物品特征

X2:图像亮度、对比度等

CNN

DNN

Y2: Click ratio

抽取的图像特征

Page 29: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

跨界模型学习-基于GPU单机多卡并行的DNN系统结构

•mini-batch结束

时:同步,参数交换

•Cache结束时:

同步,交换helper sum

智能-提取新特征的跨界推荐

Page 30: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

-手机/可穿戴设备/APP/电商系统

-LBS数据/体感数据/用户关系链数据/交易数据

移动-融入LBS、体感等数据的移动场景推荐

Page 31: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百
Page 32: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

   Social  Group  Behavior:      Analysis  and  Applica6on

Paul  He(贺鹏)  Data  Center,  SNG,  Tencent  

 Interna6onal  Conference  on  Machine  Learning  (ICML2014)

Workshop  

Page 33: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Introduc6on:  User  Behavior  Predic6on

•  User  behavior  predic6on  is  fundamental  problem    –  Recommender  systems.  –  Informa6on  retrieval.  

•  User  behavior  predic6on  methods    –  Based  on  user  historical  behavior  (Time  series).    –  Based  on  the  similar  user  behavior  (Probability  model  &  Associa6ve  rules).  –  Based  on  social  rela6onships  &  social  group.  

Page 34: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Introduc6on:  Social  Group  Behavior

•  Goal:  –  Predic6ng  individual  behavior  based  on  group  behavior  predic6on.  

•  Based  on  :  –  Homophily  &  Social  Influence.  –  Group  members  share  similar  traits  and  are  likely  to  behave  in  the  same  way.  

Page 35: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Outline

•  Group  detec6on.  •  Group  behavior  analysis  

–  Finding  social  groups  which  have  homogeneous  behavior.  –  Finding  group  members  who  behave  in  the  same  way.  

•  Group  behavior  predic6on  –  Finding  a  new  popular  item  in  a  group  and  recommending  the  item  to  a  right  user  in  a  given  context.  

Page 36: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Part  I  :  Group  Detec6on  in  Tencent  Social  Network

Page 37: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Social  Network  Data  of  Tencent  PlaVorm

•  Nodes  80M+,Links  100B+.  •  Different  types  of  friendships:  

–  Offline  &  Online.  –  Current  &  Past.  

Page 38: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Separa6ng  Various  Social  Networks

current  offline  network

past  offline  network

current  online  network

past  online  network

•  Challenges:  –  Different  types  of  social  network  are  mixed  together.  –  However,  different  types  of  social  networks  have  different  characteris6cs.  

social  network    (A  snapshot)

Page 39: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Loca6on  Based  Social  Network  (LBSN)

•  Loca6on  bridges  the  gap  between  the  physical  world  and  online  social  network.  

•  LBSN  maps  offline  social  network.  •  Human  mobility  analysis  +  Community  detec6on.  

Page 40: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Real  World  Group  Detec6on •  Hierarchical  group  detec6on.  •  Group  detec6on  based  on  user  interests  and  behaviors.  

Interest  groups

Page 41: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Part  II  :  Group  Behavior  Analysis  Based  on  App  Propaga6on

Page 42: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Social  Apps

•  A  social  App  named  “TianTianKuPao”.  •  Users  can  invite  friends  to  play  and  compete  with  each  other.

Page 43: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Mining  the  Groups  with  High  App  Adop6on  Rate •  Adop6on  rate  of  different  groups  are  not  evenly  distributed.  •  The  groups  of  high  adop6on  rate  have  homogeneous  behaviors.  

Target  groups

Page 44: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

What  Characteris6cs  Do  the  Groups  with  Homogeneous  Behavior  Have?

•  Choosing  loca6on  based  groups  of  different  sizes.  •  Classifying  groups  into  3  types  of  app  coverage:  Top,  Middle  and  Tail.  •  Analyzing  the  characteris6cs  of  these  3  types  of  groups  

–  Group  members’  info,  Group  structure,  Group  behaviors,  etc.  

Page 45: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Who  Has  a  Higher  Acceptance  of  Innova6on?

•  Choosing  groups  of  two  sizes  (10-­‐15  &  30-­‐50).  •  In  each  size,  choose  groups  with  the  app  adop6on  rate  >70%  .  

•  Classifying  members  into  4  types:  Pioneers,  Followers,  Stragglers  and  Resisters.  •  Analyzing  the  characteris6cs  of  these  4  types  of  members.  

Page 46: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Part  III  :  Predic6on  of  group  behavior  and  applica6on

Page 47: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Predic6ng  Group  Behavior  for  a  New  App

•  To  find  out  groups  with  poten6ally  high  app  adop6on  rate  at  the  early  stage    –  The  real  world  groups  (Hierarchical  groups,  Interest  based  groups,  etc.)    –  Groups  characteris6cs  (Members’  info,    Group  structure,  Group  behaviors,  etc.)  –  The  new  app  spreading  speed  in  the  group.  

Page 48: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Recommending  the  New  App  to  the  Members

•  To  find  out  suitable  occasions  to  recommend  the  new  app  to  the  right  members  –  Tagging  the  users’  types  (Pioneers,  Followers,  Stragglers  and  Resisters)  

according  to  characteris6cs  of  users.  –  Recommending  the  app  to  different  types  of  users  in  different  stages.  

Page 49: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Team  work  @Data  Center,  SNG,  Tencent  Welcome  to  join  us!

Page 50: 腾讯大数据之 --实时精准推荐 - LAMDA · 引擎 HDFS HADOOP 集群 B nk 数 据 采 集 PG 小数据 处理 HBase 实时 查询 资源调度和管理 Gaia 自研发的腾讯分布式数据仓库,支持百

Thank  you  for  your  aken6on!  

This  is  the  end.