Upload
bevis-browning
View
74
Download
6
Embed Size (px)
DESCRIPTION
输入法用户数据分析及应用. 张扬 @ [email protected]. 简介. Topic :输入法用户数据分析及应用 涉及的几个问题 什么是输入法用户数据? 从中能分析出什么样的用户行为? 这些数据能如何被我们利用? 本报告将: 展现输入法用户数据分析的一些初步结论 提供用户数据应用的一些潜在场景 为今后用户数据采集的改进提供依据 预计时间: 1h. Outline. 简述:历史版本及词库制作过程 输入法用户数据分析 输入法打字比赛 用户上传词库 用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 - PowerPoint PPT Presentation
Citation preview
输入法用户数据分析及应用
张扬 @ [email protected]
简介• Topic :输入法用户数据分析及应用• 涉及的几个问题
什么是输入法用户数据?从中能分析出什么样的用户行为?这些数据能如何被我们利用?
• 本报告将:展现输入法用户数据分析的一些初步结论提供用户数据应用的一些潜在场景为今后用户数据采集的改进提供依据
• 预计时间: 1h
2/41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
3/41
搜狗输入法历史版本• V1.0.1.4 ,第一个版本, 2006/06/05• V1.0.1.6 ,公测第二版, 2006/06/21
v 模式,繁体输入• V1.0.2.0 , 2006/08/15
支持自定义短语 ((*^__^*) 嘻嘻……、 o(∩_∩)o… 哈哈 )
• V1.0.2.4 , 1.0 正式版, 2006/09/05• 2.0 正式版, 2007/01/29
词库更新,新组词算法• V , 3.0beta1 , 2007/03/02
皮肤功能,字符集选择 (GB2312/GBK)
4 /41
搜狗输入法历史版本 (Contd.)• v3.0beta2 , 2007/07/02
细胞词库功能统计语料整改、黑白名单流程整改
• 3.0 正式版, 2007/10/18用户词库 / 配置网络同步固定单字字序、增补现汉、百科、口语列表等、注音库第一次整改
• v3.1 , 2007/12/28v 模式计算器、错音提示词库管理系统正式投入使用
• v3.2 , 2008/02/04支持简拼组词引入用户词库新词、注音库第二次整改
• V3.3 , 2008/04/20成语词典、基于用户信息改进单字字序、新评测体系
5 /41
输入法词库制作过程综览涉及到的其他一些模块:人工编辑词库管理系统( 错词 / 碎词 / 垃圾词、错音、注音库、新词 )
固定单字字序色情词汇固排
6 /41
输入法词库制作过程综览(Contd.)
质量等级 词条类别 备注
很高 现代汉语词典 05 版人工整理的词条
后者如国家颁布、人工整理的词条可信任,可直接出条
较高 兄弟部门提供的股票、楼盘、地名、体育、歌曲词典模板抓取的口语词条
普通 网上收集的词表较老版本的分词词典民间流传的词库
俗语、诗词
所谓的加加 /mspy 词库
7 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
8 /41
输入法用户数据分析• 数据来源
– 输入法打字比赛用户原始击键序列,包括上屏拼音序列、退格、翻页等击键信息
– 用户上传词库以用户敲入空格上屏作为词边界未记录退格、翻页等信息原始拼音序列扩展成全拼
Samples: 的确 dique/diq/dq/dque -> deque 软件按 ruanjan -> ruanjianan (“软件”的错误拼写 ) 算恶劣 suanel -> suanle (“ 算了”的错误拼写 )
9 /41
打字比赛用户击键序列• 来源: 07年末输入法打字比赛的用户输入
原始击键序列• 样本选取标准:
输入时间 (115-125sec) ,长度 (100-180 字 )
• 原始数据格式<: 退格^: 向上翻页_: 向下翻页
• 比赛下输入行为的特殊性
00BECD37,ren, 人00BEDB9E,zhiyouzai,只有在00BEFCF1,dfll,颠非琉璃00BEFE49<00BEFF53<00BF001E<00BF06C5<00BF1C9F_00BF1F10^00BF3893,dianfeiliuli,颠非琉璃00BF3B71<00BF3C2D<00BF3CE8<00BF4F67<00BF5F26,dpll,颠沛流离00BF658F,zhihou,之后
10 /41
基本统计结果• 样本总数: 39756• 平均输入时间每词条输入时间: 1473251107 / 843687 = 1746.21 msec每单字平均输入时间: 426762423 / 314221 = 1358.16 msec
• 词条输入统计输入二字词的次数最多,其次是单字歧义性?入袋为安?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200
50000
100000
150000
200000
250000
300000
350000
400000
450000 输入词条次数 vs. 词条长度
11 /41
拼音输入模式• 全拼 > 末字简拼 > 全简拼 > 非末字简拼
的 (62780) de 41436 d 20570 r 153 rn 15 rfma 15 di 3得到 (370) dedao 321 ded 39 dd 4 deidao 3 ddao 2 dedk 1一中 (6) yizhong 5 yizhogn 1
什么 (1081) shenme 608 shenm 277 sm 120 shm 40 shme 17 wft 5 sme 4 ufme 3 shime 2车子里 (13) chezili 11 chezil 1 chzili 1
12 /41
输入退格模式• 抓取规则前后音节不一致;编辑距离 (naive) <= 3;前后词条长度 >= 2
• 退格模式类别错音,字母增 /删 /交换;末字简拼,候选不理想;组词,候选不理想 么有 |meyou -> 没有 |meiyou 23
比尔 |bier -> 别人 |bieren 19与昂 |yuang -> 员工 |yuangong 17批次 |pici -> 彼此 |bici 14一进 |yijin -> 已经 |yijing 13一位 |yiwei -> 因为 |yinwei 12局的 |jude -> 觉得 |juede 12失去 |shiq -> 事情 |shiqing 12女里 |nvli -> 努力 |nuli 9成魔 |chengmo -> 沉默 |chenmo 9吃完饭 |chiwanfan -> 晚饭 |wanfan 8
13 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
14 /41
用户上传词库• 搜狐通行证 /3.0 正式版起支持
• 定期从输入法服务器上 dump 一次词库的快照以用户为单位,记录词条、拼音、输入次数信息
15 /41
用户词库统计
071101 071112 080102 080106 080120 080129 0802110
1000000
2000000
3000000
4000000
5000000
6000000
7000000
8000000
词条数 ( 使用用户数 >=3)
071101 071112 080102 080106 080120 080129 0802110
100000
200000
300000
400000
500000
600000
700000
用户数
16 /41
用户输入的随意性Case: 一点一起下去吃点东西
一点2800414/320722
一点一 125/116
点一起 61/60
点一起下 7/6
一起下 2348/1969
一起下去 124/121
一起下去吃 4/4
下去吃 280/266
下去吃点 9/9
下去吃点东西 15/15
17 /41
用户词库统计 (contd.)
1 2 3 4 5 6 7 8 9 10 GT 10
0
50000000
100000000
150000000
200000000
250000000
300000000
频率 vs. 长度
频率1 2 3 4 5 6 7 8 9 10 GT 10
0
500000
1000000
1500000
2000000
2500000
3000000
词条数 vs. 长度
词条数
各长度词条平均敲击次数12345678910GT 10
• 固定单字字序的必要性
18 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
19 /41
输入法评测体系• 现有评测体系
– 首选率评测集合: std5000 , mzk7000 , bbs3000 , userdict评测模式:全拼、一词一上屏
– 垃圾词识别和删词验证• 依据用户数据,构建更贴近用户输入行为的评测
体系– 词库完备性验证
增加 recall考察指标;评测覆盖单字 / 系统词库 / 组词– 区分 devset和 testset– 测试用例源于真实的用户输入
20 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
21 /41
输入法词库 / 分词 / 注音• 词库词条:有进有出
• 固定单字字序
• 注音注音实例:的卢 dilu 、井柏然 jingboran 、王栎鑫wangyuexin分配比例:重用 chongyong/zhongyong 、都 du/dou
核心词库
外围词库
口语 : 个税、回聊、默拒、团购、大摩、详单、抄底、法伤、国战
概念 : 崇礼门、水立方、王紫娇、毒水饺、艳照门 /裸照门 /淫照门
碎词 / 组合词 : 觉自己、的发展和、为用户提供、记者昨、间进行、进行评、记者昨天
22 /41
10
1
10
1
1
1*)'(
),(
j j
j jj
py
Rank
RanksBehindCharsThatCharerPartialOrd
StdOrderingSim
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
23 /41
输入法外围开发• 拼音纠错模式抽取
将首先用于基于用户词库新词发现的垃圾词过滤上
• 数据:用户词库快照 (080202) 55 个错音模式共计 22w 个实例现在 xianzai -> 仙子啊 xianzia什么 shenme -> 神恶魔 shenem软件 ruanjian -> 软件按 ruanjan睡觉 shuijiao -> 水骄傲 shuijao
• 与打字比赛数据相比,缺乏原始的用户击键序列记录
24 /41
拼音纠错模式抽取 : 步骤• Step 1:修改传统编辑距离算法 (DP, O(mn)) ,增加
字符交换编辑操作
• Step 2: 使用回溯获得拼音对的对齐
• Step 3: 用一个滑动窗口找出所有可能的用户编辑方式 ([ACL00]Brill & Moore)
d[i, j] := min ( d[i-1, j] + 1, // 删除 d[i, j-1] + 1, // 添加 d[i-1, j-1] + cost // 替换 d[i-2, j-2] + 1 // 交换 , newly-added)
struct Node{ uchar distance; uchar lasti; uchar lastj; OpType lasttype;};
25 /41
Example: 今天 ji’tian ->近台南jin’tai’n
抽取模式
ia -> aitia -> taiian -> ain
26 /41
抽取结果分析• 字母增 /删 /替换模
式• 模糊音模式• 字母交换模式
• 键盘布局?硬件质量?生理因素?Inadequate data!
g => ~ 26144 // 应该是模糊音~ => g 25504 // 应该是模糊音n => ~ 23987 //右手食指i => ~ 17087 //右手中指u => ~ 10987 //右手食指h => ~ 5615 //右手食指y => ~ 2295 //右手食指n => l 1703i => u 1517a => ~ 1117q => j 1080~ => u 945 //右手食指~ => i 906 //右手中指~ => h 729 //右手食指
me => em 43734ai => ia 20992ao => oa 15914ia => ai 8313en => ne 6733le => el 700he => eh 663
n~ => ng 25504 in~ => ing 19437 en~ => eng 3572 an~ => ang 2495 ng => n~ 13201 eng => en~ 5774 ing => in~ 4135 ang => an~ 3292 sh => s~ 4921 sha => s~a 3769 shu => s~u 1152 c~a => cha 729 zh => z~ 694 zhe => z~e 694
27 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
28 /41
搜索查询校正• Case: 贾平凹• 输入法错音提示 (专利 from 王坚 /赵立洋 )
• 用到搜索结果页的查询校正 (QC) 上? (该专利的一个延伸应用 )1) 查询中拼音 / 错音查询占一定比例2) 现有 QC不支持错音提示3) Pros: QC彩蛋功能直接支持4) Cons: 小众需求? 29 /41
搜索查询校正 (contd.)• 查询中拼音 / 错音查询所占比例
Web/3-4w, music/20w, pic/6w
原始查询词 对应汉语 7 天查询频率 100 天查询频率meinv 美女 1264 18232
liudehua 刘德华 55 920
zhangyouyu 张筱雨 ( 错音 )
77 672
zhangxiaoyu 张筱雨 248 3564
30 /41
QC 点击统计:baidu => 百度 5430xingjiao => 性交 2065zuoai => 做爱 2041tangfang => 汤芳 1873toupai => 偷拍 1641rentiyishu => 人体艺术 1560meinv => 美女 1437
siwa => 丝袜 1424zuo爱 => 做爱 1261zouguang => 走光 1184zhangxiaoyu => 张筱雨 1046renyao => 人妖 1044renti => 人体 1041xing爱 => 性爱 898hushi => 护士 830
搜索查询校正 (contd.)• Case1: 张柏芝 ( 正确读音: zhangbaizhi)
查询 zhangbaizhi => 有“张柏芝” QC建议查询 zhangbozhi => 无“张柏芝” QC建议原因:目前注音库仅保留正确读音,造成查询分流
• Case2: 张筱雨查询词 正确读音 7 天查询频率 100 天查询频率
张筱雨 zhangxiaoyu 7076 342357
张莜雨 zhangyouyu 758 11778
张悠雨 zhangyouyu 311 3435
31 /41
搜索查询校正 (contd.)• Case3: 贾平凹
32 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
33 /41
改进方向• 用户个性化,路在何方
击键序列、输入词条、喜好设置、 context 信息推送• 用户数据隐私?• 词库大小:安装、更新、推广
Dilemma :输入流畅性 vs. 词库权威性口语 vs. 基本词汇 (劻勷、束脩、暗室逢灯、爱礼存羊 )色情词 /鄙语与二元的界限: 是以、别管、贼贵、蹭饭、办卡核心词库 vs. 外围词库
• 如何与搜狗其他服务更紧密结合
34 /41
尚待解决的问题• 新形式噪音数据的过滤艳照门:燕赵门、眼照明、艳照闷、眼罩门上上签:丄丄签
• 用户词库统计信息的新需求缺乏原始击键序列信息 => 输入法小白狗版噪音数据a) 啊 ashia 、必 bixu 、炒 buchao 等不规范输入b) 火星文、繁体输入用户群体的划分 (专业、地域、喜好群体 )
35 /41
Outline 简述:历史版本及词库制作过程 输入法用户数据分析
输入法打字比赛 用户上传词库
用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正
改进方向 结论
36 /41
总结 搜狗输入法是第一个问世的互联网输入法因词库、皮肤、自定义短语等功能为广大网民所喜爱,积累了一定的领先优势
面对 Google和腾讯的追赶,我们仍不断创新细胞词库、错音提示
搜狗输入法的今后方向是巩固自己的领先优势,苦练内功,同时以用户数据为切入点,在功能个性化、输入贴心化下做出创新,并尽可能为搜索和其他产品吸引更多用户,提升用户黏性资源整合、信息推送
我们能做得更好!
37 /41
38 /41
Reference• [ACL00] Brill & Moore, An improved error
model for noisy channel spelling correction, 2000
• 陈正 & 李开复,拼写纠正在拼音输入法中的应用,计算机学报, 2001
• 王坚 /赵立洋,一种互联网关键字符相关信息的发布方法和系统,专利申请书, 2007
39 /41
Any questions?
40 /41
Thank you
41 /41