深度学习在自然语言处理的应用V0.76

1

深度学在自然言理的用习语处应

俊林张捷通股份有限公司畅

2014.10.3

2

大纲• 深度学介习简• 基础问题：语言表示问题

– Word Embedding– 不同粒度语言单元的表示

• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型

– RAE/Tensor Network/ 卷积网络• NLP 的应用

– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR

• 探讨与思考

3

深度学习（表示学习）

4

深度学习（表示学习）

5

Layer-Wise Pre-Training

6

Denoising Autoencoder

7

自然语言交互的时代

8






• 探讨与思考

9

One-Hot 表示

• One Hot 表示在传统 NLP 中很常用

Similarity(dog,cat)=0

10

Word Embedding

• 词向量：单词的分布向量表示（ Distributional Representation ）

• 词向量表征了单词使用上下文中的句法语义特征– One-Hot 的字面匹配到 DR 的语义匹配

Similarity(dog,cat)>Similarity(dog,the)

Similarity(“the dog smiles.”,“one cat cries.” ）

11

无监督训练获得单词的 WE-word2vec

：苹果单词

12


：鹿单词长颈

13


字：单张

14


字：单雯

15


字：葱单

16

Word2vec

CBOW ：

17

word2vec

Skip-Gram:

18

word2vec

CBOW+ Hierarchical Softmax

19

word2vec

CBOW+Negative Sampling

最大化：

st ：正例

例负

20

不同粒度语言单元的表示 - 字符 / 单字

字符上下文向量

英文：捕法获构词

中文：捕字搭配获

英文拓展：字符 N-Gram 中文拓展：字单 N-Gram ？

21

不同粒度语言单元的表示 - 短语 / 句子 / 文档

• 方法一：向量取和（单词词 Summrization ）– 很多情况都做此化理种简处– 于过简单 , 但是仔思考有一定道理细

• 方法二：向量加权求和单词词– Huang’s Work– 权重：类似于 IDF

• 方法三： RNN

22


• 方法四： Matrix-Vector NN

23


• 方法五：卷积神经网络

24






• 探讨与思考

25

RAE(Recursive AutoEncoders)

• 推短及句子的导语级别 Word Embedding 表示

26

Neural Tensor Networks

• 表多个体之的系达实间关 / 个之某两单词间种操作

27

Neural Tensor Networks

28

卷积网络（ Convolutional Deep Neural Network ）

• 全局特征与融合选择 / 不定定表示长转换为长

29






• 探讨与思考

30

语言模型

31

语言模型

Bilinear-LM

32

语言模型

RNNLM

33

深度学习用于中文分词 - 思路 1

34

深度学习用于中文分词 - 思路 2

35

深度学习用于中文分词

• 者思路基本相同两– 基于字的 Word Embedding+ 三神网层经络 +BEMS 序列标记

分类

– 思路 2 引入全局的 Viterbi 解（分类后理）码处

– 效果：和主流分算法效果接近词• CRF/Maxent+ 二元特征

– 类似思路同可以套用到样 POS/NER/Parser 等景场

– 是利用这 Word Embedding 解决 NLP 最直的问题观 NLP 应用思路

– 考探索下非准三神网的模型虑标层经络结构复杂

36

深度学习用于知识挖掘

• 大类两问题– 有知的新知推理现识库识

• CYC,WordNet,FreeNet……• 目前的文献做法大思路基本一致

– 已知体用实 Word Embedding 表示– 体系用实关 Tensor Network 建模– 后向播传 +SGD 训练

– 从自由文本中掘化知挖结构识

37

现有知识库的新知识推理

38

现有知识库的新知识推理

最小化目函数：标

正例：

例：负

39

从自由文本中挖掘结构化知识

整体结构

法特征词级

40

从自由文本中挖掘结构化知识

句子特征抽取：卷网级积络

41

机器翻译（通用模型）

最常的通用模型：见 Encoder-Decoder Model

Encoder

Decoder

向量语义

42

机器翻译（ Encoder-Decoder 具体例子）

ACL2014 Best Paper ： Fast and Robust Neural Network Joint Models for Statistical Machine Translation

网络结构

言模型语

翻模型译

43

机器翻译 - 很多地方可以引入 DL

• 单词对齐• 短语对齐• 短重排序语• 言模型语• 翻模型译• 合模型联• 翻果重排序译结• …………… 单词对齐

44

情感计算

• 核心的个两问题– 句子的级 Word Embedding 表示

• 前面个讲过这问题

– 如何将情感向到各倾编码级 Word Embedding 中• 半督或者督学：通程将情感向到监监习过训练过倾编码

WE 中结构

45

Paraphrase( 整体框架 )

S1 ： The judge also refused to postpone the trial date of Sept. 29.

S2 ： Obus also denied a defense motion to postpone the September trial date.

Paraphrase 的问题： Semantic(S1)=Semantic(S2)?

46

Paraphrase （ RAE ）

Darling!I’m here!

Darling!I’m here!

47

Paraphrase （ Dynamic Pooling ）

应用拓展：很明显这个方法可以照搬不动放到 QA问题匹配中（一篇灌水论文就此诞生了！）

欧式距离：越小越好

48

DL for IR

一直的方法种观

49

DL for IR

一没那么直的方法种观

50






• 探讨与思考

51

探讨与思考

• 与方法比传统较 DL 的所在优势– 抛掉特征步选择骤– 洁地融入特征简语义级– 很多用可以直接应绕过 NLP 的中景比如间场

POS ，句法，少累加减错误– 言程依容易建模：向量语长赖词 + 卷网积络– 可以解决言模型的数据稀疏：语问题 15-Gram– 很多景如果化速度非常快，方便用的工程化场优应

用化实

52

探讨与思考

• 目前研究模式中最基和重要的础问题– 短、句子、段落、文档的有效语级别 Word

Embedding 表示– 文档表示很多用直接受益级别应 : 分类， IR 等

• ：文档采用低表示，是否失信息？只能问题级别维丢细节作助手段？句子的低表示很有意，最。为辅级别维义关键

• 如何更能体 “深度”的思想现– 目前不上很还说 Deep ： WE 主为– 是否有除了“ Word Embedding” 外更 Deep 的模式？

• 目前看 DL 在 NLP 些方面好些一般？哪哪– 涉及理的用：表好语义处应现– 不涉及太多的用：语义应 State-of-the-art– 明什么？说

• Word Embedding 已把经传统 ML 方法使用特征融合去了进• 特征效果体明语义级别现显

53

探讨与思考

• 与 CRF 的比及区与系较别联– CRF: 性线 VS DL: 非性线– CRF: 高离散特征维 VS: DL: 低特征维连续– ：非性模型于低特征有效，高离散特征结论线对维连续对维

无效

• DL 在推荐系方面用方法的思考统应– 不成熟的初步思路

• 我个人看好 DL 在 NLP 方面的作用– 与方法比有明点传统显优– 展初期：机会多、挑大发战

• NLP 方向博士生的黄金代时– 非常容易想到很多 New Idea– 一把新的子，很多子可以去敲锤钉

54

广告时间

55

Thanks!

Technology

深度学习在自然语言处理的应用V0.76