Upload
xiaoerxiaoer
View
1.182
Download
5
Embed Size (px)
Citation preview
个人简介: jhuangpku.github.io
library(wordcloud)
wordcloud(blog$word, blog$freq, random.order=F, color=pal)
主要内容
业务问题
解决方案
学术界方案
Data-level transfer
Parameter-level transfer
应用效果 &Future Work
广告时间 ----WE ARE HIRING
什么是在线广告
广告 A 出价 5元
规则
广告主对关键词出价 bid
点击一次收费 bid (实际
GSP )
目标:收益最大化
有限位置怎么选择广告?
Bid* 广告点击率降序排列
核心问题:点击率怎么估计
点击率: 0 平均收益: 0 元
广告 B 出价 2元
广告 C 出价 1元
点击率: 0.1 平均收益: 0.2元
点击率: 0.1 平均收益: 0.1元
怎么预估点击率 -LR
数据集
1 0 0 …
1 0 0 …
0 1 0 …
0 0 0 …
0 0 0 …
0 1 0 …
0 0 1 …
1
0
1
0
0
0
0
Target y
X1
X2
X3
X4
X5
X6
X7
0 0 0 …
1 0 0 …
1 0 0 …
0 1 0 …
0 0 0 …
0 1 0 …
0 0 1 …
。。
query 广告 ID
Y=1
Y=0
||||),,(min1
wCywXlm
iiii
距离分界面越远, loss 越小
))),(1log()1(),(log(),,( wXhywXhyywXl iiiiiii
)exp(1
1),(
iti Xw
wXh
)exp(1
1)|1(P
iti Xw
Xy
点击率学习目标:给定样本, y=1 的概率
0 0 1 … ?Xn 0 0 1 …
Data-Level
Source Target
Data-level
基本假设: S 上的 data 经过合理的变化,可以变成 T 上的 data
核心 & 问题: data 相似度的衡量Ps(x,y) ->Pt(x,y)
代表方法: Instance base Feature base x1
三维示例
x1
x2
问题: X2!=0 的由于数据少,未观测到
x1
x2
真实 T 分布x1
x2
相似变换
x2
w 降低
W 增加
观测 S 分布
观测 T 分布
调整后 S 分布
Data-Level
Source Target
Data-level
基本假设: S 上的 data 经过合理的变化,可以变成 T 上的 data
核心 & 问题: data 相似度的衡量Ps(x,y) ->Pt(x,y)
代表方法: Instance base Feature base
现实是噪音!噪音!!噪音!!!
Parameter-LevelParameter-level
基本假设: S 上的权重和 T 上的权值有”相似性”
核心 & 问题:权值相似度的衡量该度量方法表现为一个约束
代表方法: parameter base
W1W2
W3 W3’W4 W4’W5 W5’
Common
source target
||||)()(2
1)()( ''' wwCwwLwwLwwwLwf SSTSS
TSS
target 上的拟合 正则
新权值在 Source 的数据上的 loss 近似模拟
另一种观点: bayes LR 提供的是先验
:source 上的权重:target 上的权重
SwwwS Sw
Parameter revisitedParameter-level
W1W2
W3 W3’W4 W4’W5 W5’
Common
source target
近似实现 common-part 和 individual-part 的方法:Step1 :在 source 上的训练只训练“可迁移”的特征— common-partStep2 :在 target 上把所有特征带进去训练
效果: common-part 变动较少, individual-part 变动较多Common-part 的业务含义,不同 query 在不同卡片的 weight 近似一致
||||)()(2
1)()( ''' wwCwwLwwLwwwLwf SSTSS
TSS
应用效果 &Future Work
应用效果
Future Work数据: Source , target 的选择特征:可迁移特征的选择(单 slot 在 S 上训练 T 上校验)模型: multi-task / GBDT 增量
项目 线下 auc 线上 ctr
医疗知心中间页找医院 TL 模型 +0.8% 2.08%
教育知心无线找课程 TL 模型 +5%+ 7.52%