41
输输输输输输输输输输输输 输输 @ [email protected]

输入法用户数据分析及应用

Embed Size (px)

DESCRIPTION

输入法用户数据分析及应用. 张扬 @ [email protected]. 简介. Topic :输入法用户数据分析及应用 涉及的几个问题 什么是输入法用户数据? 从中能分析出什么样的用户行为? 这些数据能如何被我们利用? 本报告将: 展现输入法用户数据分析的一些初步结论 提供用户数据应用的一些潜在场景 为今后用户数据采集的改进提供依据 预计时间: 1h. Outline. 简述:历史版本及词库制作过程 输入法用户数据分析 输入法打字比赛 用户上传词库 用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 - PowerPoint PPT Presentation

Citation preview

Page 1: 输入法用户数据分析及应用

输入法用户数据分析及应用

张扬 @ [email protected]

Page 2: 输入法用户数据分析及应用

简介• Topic :输入法用户数据分析及应用• 涉及的几个问题

什么是输入法用户数据?从中能分析出什么样的用户行为?这些数据能如何被我们利用?

• 本报告将:展现输入法用户数据分析的一些初步结论提供用户数据应用的一些潜在场景为今后用户数据采集的改进提供依据

• 预计时间: 1h

2/41

Page 3: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

3/41

Page 4: 输入法用户数据分析及应用

搜狗输入法历史版本• V1.0.1.4 ,第一个版本, 2006/06/05• V1.0.1.6 ,公测第二版, 2006/06/21

v 模式,繁体输入• V1.0.2.0 , 2006/08/15

支持自定义短语 ((*^__^*) 嘻嘻……、 o(∩_∩)o… 哈哈 )

• V1.0.2.4 , 1.0 正式版, 2006/09/05• 2.0 正式版, 2007/01/29

词库更新,新组词算法• V , 3.0beta1 , 2007/03/02

皮肤功能,字符集选择 (GB2312/GBK)

4 /41

Page 5: 输入法用户数据分析及应用

搜狗输入法历史版本 (Contd.)• v3.0beta2 , 2007/07/02

细胞词库功能统计语料整改、黑白名单流程整改

• 3.0 正式版, 2007/10/18用户词库 / 配置网络同步固定单字字序、增补现汉、百科、口语列表等、注音库第一次整改

• v3.1 , 2007/12/28v 模式计算器、错音提示词库管理系统正式投入使用

• v3.2 , 2008/02/04支持简拼组词引入用户词库新词、注音库第二次整改

• V3.3 , 2008/04/20成语词典、基于用户信息改进单字字序、新评测体系

5 /41

Page 6: 输入法用户数据分析及应用

输入法词库制作过程综览涉及到的其他一些模块:人工编辑词库管理系统( 错词 / 碎词 / 垃圾词、错音、注音库、新词 )

固定单字字序色情词汇固排

6 /41

Page 7: 输入法用户数据分析及应用

输入法词库制作过程综览(Contd.)

质量等级 词条类别 备注

很高 现代汉语词典 05 版人工整理的词条

后者如国家颁布、人工整理的词条可信任,可直接出条

较高 兄弟部门提供的股票、楼盘、地名、体育、歌曲词典模板抓取的口语词条

普通 网上收集的词表较老版本的分词词典民间流传的词库

俗语、诗词

所谓的加加 /mspy 词库

7 /41

Page 8: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

8 /41

Page 9: 输入法用户数据分析及应用

输入法用户数据分析• 数据来源

– 输入法打字比赛用户原始击键序列,包括上屏拼音序列、退格、翻页等击键信息

– 用户上传词库以用户敲入空格上屏作为词边界未记录退格、翻页等信息原始拼音序列扩展成全拼

Samples: 的确 dique/diq/dq/dque -> deque 软件按 ruanjan -> ruanjianan (“软件”的错误拼写 ) 算恶劣 suanel -> suanle (“ 算了”的错误拼写 )

9 /41

Page 10: 输入法用户数据分析及应用

打字比赛用户击键序列• 来源: 07年末输入法打字比赛的用户输入

原始击键序列• 样本选取标准:

输入时间 (115-125sec) ,长度 (100-180 字 )

• 原始数据格式<: 退格^: 向上翻页_: 向下翻页

• 比赛下输入行为的特殊性

00BECD37,ren, 人00BEDB9E,zhiyouzai,只有在00BEFCF1,dfll,颠非琉璃00BEFE49<00BEFF53<00BF001E<00BF06C5<00BF1C9F_00BF1F10^00BF3893,dianfeiliuli,颠非琉璃00BF3B71<00BF3C2D<00BF3CE8<00BF4F67<00BF5F26,dpll,颠沛流离00BF658F,zhihou,之后

10 /41

Page 11: 输入法用户数据分析及应用

基本统计结果• 样本总数: 39756• 平均输入时间每词条输入时间: 1473251107 / 843687 = 1746.21 msec每单字平均输入时间: 426762423 / 314221 = 1358.16 msec

• 词条输入统计输入二字词的次数最多,其次是单字歧义性?入袋为安?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

50000

100000

150000

200000

250000

300000

350000

400000

450000 输入词条次数 vs. 词条长度

11 /41

Page 12: 输入法用户数据分析及应用

拼音输入模式• 全拼 > 末字简拼 > 全简拼 > 非末字简拼

的 (62780)       de    41436       d     20570       r      153       rn    15       rfma       15       di     3得到 (370)       dedao      321       ded  39       dd    4       deidao     3       ddao       2       dedk       1一中 (6)       yizhong   5       yizhogn   1

什么 (1081)       shenme   608       shenm     277       sm   120       shm 40       shme       17       wft  5       sme 4       ufme       3       shime      2车子里 (13)       chezili     11       chezil      1 chzili       1      

12 /41

Page 13: 输入法用户数据分析及应用

输入退格模式• 抓取规则前后音节不一致;编辑距离 (naive) <= 3;前后词条长度 >= 2

• 退格模式类别错音,字母增 /删 /交换;末字简拼,候选不理想;组词,候选不理想 么有 |meyou -> 没有 |meiyou 23

比尔 |bier -> 别人 |bieren 19与昂 |yuang -> 员工 |yuangong 17批次 |pici -> 彼此 |bici 14一进 |yijin -> 已经 |yijing 13一位 |yiwei -> 因为 |yinwei 12局的 |jude -> 觉得 |juede 12失去 |shiq -> 事情 |shiqing 12女里 |nvli -> 努力 |nuli 9成魔 |chengmo -> 沉默 |chenmo 9吃完饭 |chiwanfan -> 晚饭 |wanfan 8

13 /41

Page 14: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

14 /41

Page 15: 输入法用户数据分析及应用

用户上传词库• 搜狐通行证 /3.0 正式版起支持

• 定期从输入法服务器上 dump 一次词库的快照以用户为单位,记录词条、拼音、输入次数信息

15 /41

Page 16: 输入法用户数据分析及应用

用户词库统计

071101 071112 080102 080106 080120 080129 0802110

1000000

2000000

3000000

4000000

5000000

6000000

7000000

8000000

词条数 ( 使用用户数 >=3)

071101 071112 080102 080106 080120 080129 0802110

100000

200000

300000

400000

500000

600000

700000

用户数

16 /41

Page 17: 输入法用户数据分析及应用

用户输入的随意性Case: 一点一起下去吃点东西

一点2800414/320722

一点一 125/116

点一起 61/60

点一起下 7/6

一起下 2348/1969

一起下去 124/121

一起下去吃 4/4

下去吃 280/266

下去吃点 9/9

下去吃点东西 15/15

17 /41

Page 18: 输入法用户数据分析及应用

用户词库统计 (contd.)

1 2 3 4 5 6 7 8 9 10 GT 10

0

50000000

100000000

150000000

200000000

250000000

300000000

频率 vs. 长度

频率1 2 3 4 5 6 7 8 9 10 GT 10

0

500000

1000000

1500000

2000000

2500000

3000000

词条数 vs. 长度

词条数

各长度词条平均敲击次数12345678910GT 10

• 固定单字字序的必要性

18 /41

Page 19: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

19 /41

Page 20: 输入法用户数据分析及应用

输入法评测体系• 现有评测体系

– 首选率评测集合: std5000 , mzk7000 , bbs3000 , userdict评测模式:全拼、一词一上屏

– 垃圾词识别和删词验证• 依据用户数据,构建更贴近用户输入行为的评测

体系– 词库完备性验证

增加 recall考察指标;评测覆盖单字 / 系统词库 / 组词– 区分 devset和 testset– 测试用例源于真实的用户输入

20 /41

Page 21: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

21 /41

Page 22: 输入法用户数据分析及应用

输入法词库 / 分词 / 注音• 词库词条:有进有出

• 固定单字字序

• 注音注音实例:的卢 dilu 、井柏然 jingboran 、王栎鑫wangyuexin分配比例:重用 chongyong/zhongyong 、都 du/dou

核心词库

外围词库

口语 : 个税、回聊、默拒、团购、大摩、详单、抄底、法伤、国战

概念 : 崇礼门、水立方、王紫娇、毒水饺、艳照门 /裸照门 /淫照门

碎词 / 组合词 : 觉自己、的发展和、为用户提供、记者昨、间进行、进行评、记者昨天

22 /41

10

1

10

1

1

1*)'(

),(

j j

j jj

py

Rank

RanksBehindCharsThatCharerPartialOrd

StdOrderingSim

Page 23: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

23 /41

Page 24: 输入法用户数据分析及应用

输入法外围开发• 拼音纠错模式抽取

将首先用于基于用户词库新词发现的垃圾词过滤上

• 数据:用户词库快照 (080202) 55 个错音模式共计 22w 个实例现在 xianzai -> 仙子啊 xianzia什么 shenme -> 神恶魔 shenem软件 ruanjian -> 软件按 ruanjan睡觉 shuijiao -> 水骄傲 shuijao

• 与打字比赛数据相比,缺乏原始的用户击键序列记录

24 /41

Page 25: 输入法用户数据分析及应用

拼音纠错模式抽取 : 步骤• Step 1:修改传统编辑距离算法 (DP, O(mn)) ,增加

字符交换编辑操作

• Step 2: 使用回溯获得拼音对的对齐

• Step 3: 用一个滑动窗口找出所有可能的用户编辑方式 ([ACL00]Brill & Moore)

d[i, j] := min (             d[i-1, j] + 1,     // 删除                     d[i, j-1] + 1,     // 添加                     d[i-1, j-1] + cost   // 替换                     d[i-2, j-2] + 1   // 交换 , newly-added)

struct Node{ uchar distance; uchar lasti; uchar lastj; OpType lasttype;};

25 /41

Page 26: 输入法用户数据分析及应用

Example: 今天 ji’tian ->近台南jin’tai’n

抽取模式

ia -> aitia -> taiian -> ain

26 /41

Page 27: 输入法用户数据分析及应用

抽取结果分析• 字母增 /删 /替换模

式• 模糊音模式• 字母交换模式

• 键盘布局?硬件质量?生理因素?Inadequate data!

g => ~  26144 // 应该是模糊音~ => g  25504  // 应该是模糊音n => ~  23987  //右手食指i => ~  17087  //右手中指u => ~  10987  //右手食指h => ~  5615  //右手食指y => ~  2295  //右手食指n => l  1703i => u  1517a => ~  1117q => j  1080~ => u  945  //右手食指~ => i  906  //右手中指~ => h  729  //右手食指

me => em 43734ai => ia 20992ao => oa    15914ia => ai      8313en => ne    6733le => el  700he => eh    663

n~ => ng         25504      in~ => ing 19437      en~ => eng       3572      an~ => ang       2495 ng => n~         13201      eng => en~       5774      ing => in~ 4135      ang => an~       3292 sh => s~          4921      sha => s~a        3769      shu => s~u        1152 c~a => cha     729 zh => z~          694      zhe => z~e        694

27 /41

Page 28: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

28 /41

Page 29: 输入法用户数据分析及应用

搜索查询校正• Case: 贾平凹• 输入法错音提示 (专利 from 王坚 /赵立洋 )

• 用到搜索结果页的查询校正 (QC) 上? (该专利的一个延伸应用 )1) 查询中拼音 / 错音查询占一定比例2) 现有 QC不支持错音提示3) Pros: QC彩蛋功能直接支持4) Cons: 小众需求? 29 /41

Page 30: 输入法用户数据分析及应用

搜索查询校正 (contd.)• 查询中拼音 / 错音查询所占比例

Web/3-4w, music/20w, pic/6w

原始查询词 对应汉语 7 天查询频率 100 天查询频率meinv 美女 1264 18232

liudehua 刘德华 55 920

zhangyouyu 张筱雨 ( 错音 )

77 672

zhangxiaoyu 张筱雨 248 3564

30 /41

QC 点击统计:baidu => 百度 5430xingjiao => 性交 2065zuoai => 做爱 2041tangfang => 汤芳 1873toupai => 偷拍 1641rentiyishu => 人体艺术 1560meinv => 美女 1437

siwa => 丝袜 1424zuo爱 => 做爱 1261zouguang => 走光 1184zhangxiaoyu => 张筱雨 1046renyao => 人妖 1044renti => 人体 1041xing爱 => 性爱 898hushi => 护士 830

Page 31: 输入法用户数据分析及应用

搜索查询校正 (contd.)• Case1: 张柏芝 ( 正确读音: zhangbaizhi)

查询 zhangbaizhi => 有“张柏芝” QC建议查询 zhangbozhi => 无“张柏芝” QC建议原因:目前注音库仅保留正确读音,造成查询分流

• Case2: 张筱雨查询词 正确读音 7 天查询频率 100 天查询频率

张筱雨 zhangxiaoyu 7076 342357

张莜雨 zhangyouyu 758 11778

张悠雨 zhangyouyu 311 3435

31 /41

Page 32: 输入法用户数据分析及应用

搜索查询校正 (contd.)• Case3: 贾平凹

32 /41

Page 33: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

33 /41

Page 34: 输入法用户数据分析及应用

改进方向• 用户个性化,路在何方

击键序列、输入词条、喜好设置、 context 信息推送• 用户数据隐私?• 词库大小:安装、更新、推广

Dilemma :输入流畅性 vs. 词库权威性口语 vs. 基本词汇 (劻勷、束脩、暗室逢灯、爱礼存羊 )色情词 /鄙语与二元的界限: 是以、别管、贼贵、蹭饭、办卡核心词库 vs. 外围词库

• 如何与搜狗其他服务更紧密结合

34 /41

Page 35: 输入法用户数据分析及应用

尚待解决的问题• 新形式噪音数据的过滤艳照门:燕赵门、眼照明、艳照闷、眼罩门上上签:丄丄签

• 用户词库统计信息的新需求缺乏原始击键序列信息 => 输入法小白狗版噪音数据a) 啊 ashia 、必 bixu 、炒 buchao 等不规范输入b) 火星文、繁体输入用户群体的划分 (专业、地域、喜好群体 )

35 /41

Page 36: 输入法用户数据分析及应用

Outline 简述:历史版本及词库制作过程 输入法用户数据分析

输入法打字比赛 用户上传词库

用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发 搜索查询校正

改进方向 结论

36 /41

Page 37: 输入法用户数据分析及应用

总结 搜狗输入法是第一个问世的互联网输入法因词库、皮肤、自定义短语等功能为广大网民所喜爱,积累了一定的领先优势

面对 Google和腾讯的追赶,我们仍不断创新细胞词库、错音提示

搜狗输入法的今后方向是巩固自己的领先优势,苦练内功,同时以用户数据为切入点,在功能个性化、输入贴心化下做出创新,并尽可能为搜索和其他产品吸引更多用户,提升用户黏性资源整合、信息推送

我们能做得更好!

37 /41

Page 38: 输入法用户数据分析及应用

38 /41

Page 39: 输入法用户数据分析及应用

Reference• [ACL00] Brill & Moore, An improved error

model for noisy channel spelling correction, 2000

• 陈正 & 李开复,拼写纠正在拼音输入法中的应用,计算机学报, 2001

• 王坚 /赵立洋,一种互联网关键字符相关信息的发布方法和系统,专利申请书, 2007

39 /41

Page 40: 输入法用户数据分析及应用

Any questions?

40 /41

Page 41: 输入法用户数据分析及应用

Thank you

41 /41