39
阿里巴巴大数据实践之自然语言处理 初 敏、骆卫华 2015-4-18 第十二届自然语言处理青年学者研讨会

阿里巴巴大数据实践之自然语言处理

Embed Size (px)

Citation preview

Page 1: 阿里巴巴大数据实践之自然语言处理

阿里巴巴大数据实践之自然语言处理

初 敏、骆卫华

2015-4-18 第十二届自然语言处理青年学者研讨会

Page 2: 阿里巴巴大数据实践之自然语言处理

阿里巴巴NLP概览

Page 3: 阿里巴巴大数据实践之自然语言处理

云计算支撑起NLP的规模和效率

Page 4: 阿里巴巴大数据实践之自然语言处理

大数据时代NLP的特点

• 多数据源贯通 数据规模大 多视角的综合分析

商品描述

Page 5: 阿里巴巴大数据实践之自然语言处理

• 电商平台中的NLP

– 知识图谱

– 全网用户兴趣挖掘

• 客服场景中的NLP

– 客服机器人

– 语音识别和后续分析

• 移动场景中的人机交互

• 阿里翻译 (下午14:40~14:50介绍)

典型应用分享

Page 6: 阿里巴巴大数据实践之自然语言处理

构建电商知识图谱

信息抽取

知识库

数据处理

输入

核心

内网数据:静态、动态 外网数据:静态、动态

结构化数据挖掘 半结构化数据挖掘 非结构化数据挖掘

数据融合:度量、对齐、冲突消解、缺失补齐、简单推理

数据监控 数据抓取 数据筛选 数据标注

热点

基础数据库 RDF数据库

同反多义词 相关词 上下位

词库

实体描述 句法分析 情感语句

句库

重要度 相似度 词间关系

度量库

品牌、产品、商品、买家、

卖家

实体库

单独属性 列举属性 关联属性

属性库

Page 7: 阿里巴巴大数据实践之自然语言处理

知识图谱Schema举例

政治

文化娱乐

科技

商业

人物 酒店

餐厅

购物中心

星级

品牌

位置

菜系

风格

价位

Schema

Property Type Domain

Value

千岛湖希尔顿度假酒店

星级 = 5级 品牌 = 希尔顿 位置 = 杭州市淳安

县环湖北路600号

肯德基(湖滨店)

菜系 = 美式快餐 风格 = 休闲 价位 = 20~50

……

……

……

……

……

……

Page 8: 阿里巴巴大数据实践之自然语言处理

• 下拉魔盒 — 下拉提示再扩展

– 旧版标签随意罗列,缺乏逻辑,新版实现语义聚合

PV: ↑ UV: ↑

旧版

新版

知识图谱的应用

Page 9: 阿里巴巴大数据实践之自然语言处理

• 无线锦囊

– 手淘搜索结果中插入词推荐进行智能导购

– 后台核心技术:商品标题语义理解

改进语义理解 PV ↑

GMV ↑

知识图谱的应用

Page 10: 阿里巴巴大数据实践之自然语言处理

• 智能导购

• 在频道页面智能推送导航词汇

大幅提升运营效率

知识图谱的应用

Page 11: 阿里巴巴大数据实践之自然语言处理

• 电商平台中的NLP

– 知识图谱

– 全网用户兴趣挖掘

• 客服场景中的NLP

– 客服机器人

– 语音识别和后续分析

• 移动场景中的人机交互

• 阿里翻译 (下午14:40~14:50介绍)

典型应用分享

Page 12: 阿里巴巴大数据实践之自然语言处理

全网用户标签挖掘

基础数据挖掘

用户特征挖掘

用户标签池

全网用户日志 数据源

应用 广告定向投放 DMP 用户画像

基于网站结构 的网页分类

基于页面内容 的网页分类

基于特征识别 的用户分类

全网页面 其他数据:电商类目、

垂直行业信息等

……

Page 13: 阿里巴巴大数据实践之自然语言处理

全网用户标签挖掘

用户浏览日志

Page 14: 阿里巴巴大数据实践之自然语言处理

网页标签 • 使用人工标注结果评估

用户标签

• 问题:全网浏览行为找不到合适的评估方式

• 方案:使用未来几天相应类目下的淘内行为评估

• 购买提升率=标签用户购买率 * 100 /非标签用户购买率 – 1

Alibaba Confidential

标签 标签用户购买率 非标签用户购买率 购买提升率

模型玩具 2.26% 0.22% 920.11%

婴幼儿奶粉 1.12% 0.19% 482.02%

全网用户标签挖掘

• 质量评估方案

Page 15: 阿里巴巴大数据实践之自然语言处理

• 用户兴趣标签示例

全网用户标签挖掘

Page 16: 阿里巴巴大数据实践之自然语言处理

• 对热门事件的关注度

– 舌尖上的中国2

– 世界杯

2014/5/1 2014/5/8 2014/5/15 2014/5/22 2014/5/29 2014/6/5

关注“舌尖上的中国2”的人数

结束

2014/5/1 2014/5/11 2014/5/21 2014/5/31 2014/6/10

世界杯热门标签

worldcup

亚冠恒大 欧冠决赛

热身赛

世界杯

全网用户标签挖掘

Page 17: 阿里巴巴大数据实践之自然语言处理

• 电商平台中的NLP

– 知识图谱

– 全网用户兴趣挖掘

• 客服场景中的NLP

– 客服机器人

– 语音识别和后续分析

• 移动场景中的人机交互

• 阿里翻译 (下午14:40~14:50介绍)

典型应用分享

Page 18: 阿里巴巴大数据实践之自然语言处理

客服机器人

• 集团客服机器人 – 服务于全集团内外部客户

• 商家机器人 – 提供给淘宝商家的辅助工具:千牛插件

• 蚂蚁金融智能小宝 – 无处不在的金融顾问

Page 19: 阿里巴巴大数据实践之自然语言处理

客服机器人

Page 20: 阿里巴巴大数据实践之自然语言处理

客服机器人

• PC入口

Page 21: 阿里巴巴大数据实践之自然语言处理

客服机器人

• PC入口

• 手机入口

Page 22: 阿里巴巴大数据实践之自然语言处理

客服机器人

Page 23: 阿里巴巴大数据实践之自然语言处理

• 电商平台中的NLP

– 知识图谱

– 全网用户兴趣挖掘

• 客服场景中的NLP

– 客服机器人

– 语音识别和后续分析

• 移动场景中的人机交互

• 阿里翻译 (下午14:40~14:50介绍)

典型应用分享

Page 24: 阿里巴巴大数据实践之自然语言处理

客服场景中的语音识别及后续分析

Page 25: 阿里巴巴大数据实践之自然语言处理

• 电商平台中的NLP

– 知识图谱

– 全网用户兴趣挖掘

• 客服场景中的NLP

– 客服机器人

– 语音识别和后续分析

• 移动场景中的人机交互

• 阿里翻译 (下午14:40~14:50介绍)

典型应用分享

Page 26: 阿里巴巴大数据实践之自然语言处理

移动场景中的人机交互

Page 27: 阿里巴巴大数据实践之自然语言处理

移动场景中的人机交互

Interaction m management

Multimodal intention understanding Multimodal response generator

ASR

Speech

NLU

Text

H5 parser

Touch

NLG H5

Generator

input

Speech Text H5 page

output

Execution

TTS

Contextual information

Request history

Task Completion

Structured Search

Web search

Dialogue management

Gesture understanding

Other response Generator

Gesture

Chit-Chat Question &

Answer

Other types of response

Page 28: 阿里巴巴大数据实践之自然语言处理

移动场景中的人机交互

Page 29: 阿里巴巴大数据实践之自然语言处理

移动场景中的人机交互

Page 30: 阿里巴巴大数据实践之自然语言处理

移动场景中的人机交互

Page 31: 阿里巴巴大数据实践之自然语言处理

• 电商平台中的NLP

– 知识图谱

– 全网用户兴趣挖掘

• 客服场景中的NLP

– 客服机器人

– 语音识别和后续分析

• 移动场景中的人机交互

• 阿里翻译 (下午14:40~14:50介绍,欢迎参与!)

典型应用分享

Page 32: 阿里巴巴大数据实践之自然语言处理

阿里翻译技术业务框架

阿里机器翻 译平台

阿里人工翻 译平台 语料

提供初翻,降低翻译成本

AliExpress Alibaba 淘宝海外 …

产品结构化数据和贸易趋势数据

Page 33: 阿里巴巴大数据实践之自然语言处理

阿里翻译与国际化电商

“2013年跨境电商交易已经达到三万亿人民币”而“翻译”被认为是跨境电商成功的润滑剂

Page 34: 阿里巴巴大数据实践之自然语言处理

阿里翻译的应用场景

Page 35: 阿里巴巴大数据实践之自然语言处理

阿里翻译的语种覆盖

英语

法语

西语

德语

意语

葡语 俄语

日语

韩语

阿拉伯语

荷兰语

中文 越南语 泰语

土耳其语

希伯来语

印尼语 互为翻译

Page 36: 阿里巴巴大数据实践之自然语言处理

阿里翻译的服务能力

为Alibaba、AliExpress等跨境电商平台

进行上亿级别的 全量翻译

千万级别的每日 增量翻译

服务 总用户量 过亿

Page 37: 阿里巴巴大数据实践之自然语言处理

阿里翻译的翻译特色

Original 5.5in Android 4.4.2 MTK6572 Dual

Core Mobile Phone RAM 512MB ROM 4GB

Unlocked Dual SIM Camear WCDMA GPS

QHD NX N720 Free Shipping

品牌词、型号词堆砌

原文拼写错误多

促销词汇堆砌

专业词汇多

低质量电商原文改善与翻译

解决电商文本的翻译难点

spelling check

命名实体识别 电商行业专业词汇库

高精度统计翻译模型

… Text Refine

Page 38: 阿里巴巴大数据实践之自然语言处理

阿里翻译的技术构成

Page 39: 阿里巴巴大数据实践之自然语言处理