55
1 深度学 在自然 理的 俊林 捷通股份有限公司 2014.10.3

深度学习在自然语言处理的应用V0.76

Embed Size (px)

Citation preview

1

深度学 在自然 言 理的 用习 语 处 应

俊林张捷通股份有限公司畅

2014.10.3

2

大纲• 深度学 介习简• 基础问题:语言表示问题

– Word Embedding– 不同粒度语言单元的表示

• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型

– RAE/Tensor Network/ 卷积网络• NLP 的应用

– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR

• 探讨与思考

3

深度学习(表示学习)

4

深度学习(表示学习)

5

Layer-Wise Pre-Training

6

Denoising Autoencoder

7

自然语言交互的时代

8

大纲• 深度学 介习简• 基础问题:语言表示问题

– Word Embedding– 不同粒度语言单元的表示

• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型

– RAE/Tensor Network/ 卷积网络• NLP 的应用

– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR

• 探讨与思考

9

One-Hot 表示

• One Hot 表示在传统 NLP 中很常用

Similarity(dog,cat)=0

10

Word Embedding

• 词向量:单词的分布向量表示( Distributional Representation )

• 词向量表征了单词使用上下文中的句法语义特征– One-Hot 的字面匹配到 DR 的语义匹配

Similarity(dog,cat)>Similarity(dog,the)

Similarity(“the dog smiles.”,“one cat cries.” )

11

无监督训练获得单词的 WE-word2vec

:苹果单词

12

无监督训练获得单词的 WE-word2vec

: 鹿单词 长颈

13

无监督训练获得单词的 WE-word2vec

字:单 张

14

无监督训练获得单词的 WE-word2vec

字:单 雯

15

无监督训练获得单词的 WE-word2vec

字:葱单

16

Word2vec

CBOW :

17

word2vec

Skip-Gram:

18

word2vec

CBOW+ Hierarchical Softmax

19

word2vec

CBOW+Negative Sampling

最大化:

st :正例

例负

20

不同粒度语言单元的表示 - 字符 / 单字

字符上下文向量

英文:捕 法获构词

中文:捕 字搭配获

英文拓展:字符 N-Gram 中文拓展: 字单 N-Gram ?

21

不同粒度语言单元的表示 - 短语 / 句子 / 文档

• 方法一: 向量取和(单词词 Summrization )– 很多情况都做此 化 理种简 处– 于过 简单 , 但是仔 思考有一定道理细

• 方法二: 向量加权求和单词词– Huang’s Work– 权重:类似于 IDF

• 方法三: RNN

22

不同粒度语言单元的表示 - 短语 / 句子 / 文档

• 方法四: Matrix-Vector NN

23

不同粒度语言单元的表示 - 短语 / 句子 / 文档

• 方法五:卷积神经网络

24

大纲• 深度学 介习简• 基础问题:语言表示问题

– Word Embedding– 不同粒度语言单元的表示

• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型

– RAE/Tensor Network/ 卷积网络• NLP 的应用

– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR

• 探讨与思考

25

RAE(Recursive AutoEncoders)

• 推 短 及句子 的导 语 级别 Word Embedding 表示

26

Neural Tensor Networks

• 表 多个 体之 的 系 达 实 间 关 / 个 之 某两 单词 间 种操作

27

Neural Tensor Networks

28

卷积网络( Convolutional Deep Neural Network )

• 全局特征 与融合选择 / 不定 定 表示长转换为 长

29

大纲• 深度学 介习简• 基础问题:语言表示问题

– Word Embedding– 不同粒度语言单元的表示

• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型

– RAE/Tensor Network/ 卷积网络• NLP 的应用

– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR

• 探讨与思考

30

语言模型

31

语言模型

Bilinear-LM

32

语言模型

RNNLM

33

深度学习用于中文分词 - 思路 1

34

深度学习用于中文分词 - 思路 2

35

深度学习用于中文分词

• 者思路基本相同两– 基于字的 Word Embedding+ 三 神 网层 经 络 +BEMS 序列标记

分类

– 思路 2 引入全局的 Viterbi 解 (分类后 理)码 处

– 效果:和主流分 算法效果接近词• CRF/Maxent+ 二元特征

– 类似思路同 可以套用到样 POS/NER/Parser 等 景场

– 是利用这 Word Embedding 解决 NLP 最直 的问题 观 NLP 应用思路

– 考 探索下非 准三 神 网 的 模型虑 标 层 经 络结构 复杂

36

深度学习用于知识挖掘

• 大类两 问题– 有知 的新知 推理现 识库 识

• CYC,WordNet,FreeNet……• 目前的文献做法大思路基本一致

– 已知 体用实 Word Embedding 表示– 体 系用实 关 Tensor Network 建模– 后向 播传 +SGD 训练

– 从自由文本中 掘 化知挖 结构 识

37

现有知识库的新知识推理

38

现有知识库的新知识推理

最小化目 函数:标

正例:

例:负

39

从自由文本中挖掘结构化知识

整体结构

法 特征词 级

40

从自由文本中挖掘结构化知识

句子 特征抽取:卷 网级 积 络

41

机器翻译(通用模型)

最常 的通用模型:见 Encoder-Decoder Model

Encoder

Decoder

向量语义

42

机器翻译( Encoder-Decoder 具体例子)

ACL2014 Best Paper : Fast and Robust Neural Network Joint Models for Statistical Machine Translation

网络结构

言模型语

翻 模型译

43

机器翻译 - 很多地方可以引入 DL

• 单词对齐• 短语对齐• 短 重排序语• 言模型语• 翻 模型译• 合模型联• 翻 果重排序译结• …………… 单词对齐

44

情感计算

• 核心的 个两 问题– 句子 的级 Word Embedding 表示

• 前面 个讲过这 问题

– 如何将情感 向 到各倾 编码 级 Word Embedding 中• 半 督或者 督学 :通 程将情感 向 到监 监 习 过训练过 倾 编码

WE 中结构

45

Paraphrase( 整体框架 )

S1 : The judge also refused to postpone the trial date of Sept. 29.

S2 : Obus also denied a defense motion to postpone the September trial date.

Paraphrase 的问题: Semantic(S1)=Semantic(S2)?

46

Paraphrase ( RAE )

Darling!I’m here!

Darling!I’m here!

47

Paraphrase ( Dynamic Pooling )

应用拓展:很明显这个方法可以照搬不动放到 QA问题匹配中(一篇灌水论文就此诞生了!)

欧式距离:越小越好

48

DL for IR

一 直 的方法种 观

49

DL for IR

一 没那么直 的方法种 观

50

大纲• 深度学 介习简• 基础问题:语言表示问题

– Word Embedding– 不同粒度语言单元的表示

• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型

– RAE/Tensor Network/ 卷积网络• NLP 的应用

– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR

• 探讨与思考

51

探讨与思考

• 与 方法比传统 较 DL 的 所在优势– 抛掉特征 步选择 骤– 洁地融入 特征简 语义级– 很多 用可以直接应 绕过 NLP 的中 景比如间场

POS ,句法, 少 累加减 错误– 言 程依 容易建模: 向量语 长 赖 词 + 卷 网积 络– 可以解决 言模型的数据稀疏 :语 问题 15-Gram– 很多 景如果 化速度非常快,方便 用的工程化场 优 应

用化实

52

探讨与思考

• 目前研究模式中最基 和重要的础 问题– 短 、句子、段落、文档 的有效语 级别 Word

Embedding 表示– 文档 表示很多 用直接受益级别 应 : 分类, IR 等

• :文档 采用低 表示,是否 失 信息?只能问题 级别 维 丢 细节作 助手段?句子 的低 表示很有意 ,最 。为辅 级别 维 义 关键

• 如何更能体 “深度”的思想现– 目前 不上很还说 Deep : WE 主为– 是否有除了“ Word Embedding” 外更 Deep 的模式?

• 目前看 DL 在 NLP 些方面好 些一般?哪 哪– 涉及 理的 用:表 好语义处 应 现– 不涉及太多 的 用:语义 应 State-of-the-art– 明什么?说

• Word Embedding 已 把经 传统 ML 方法使用特征融合 去了进• 特征效果体 明语义级别 现 显

53

探讨与思考

• 与 CRF 的比 及区 与 系较 别 联– CRF: 性 线 VS DL: 非 性线– CRF: 高 离散特征 维 VS: DL: 低 特征维连续– :非 性模型 于低 特征有效, 高 离散特征结论 线 对 维连续 对 维

无效

• DL 在推荐系 方面 用方法的思考统 应– 不成熟的初步思路

• 我个人看好 DL 在 NLP 方面的作用– 与 方法比有明 点传统 显优– 展初期:机会多、挑 大发 战

• NLP 方向博士生的黄金 代时– 非常容易想到很多 New Idea– 一把新的 子,很多 子可以去敲锤 钉

54

广告时间

55

Thanks!