Upload
jun-wang
View
556
Download
6
Embed Size (px)
Citation preview
2
大纲• 深度学 介习简• 基础问题:语言表示问题
– Word Embedding– 不同粒度语言单元的表示
• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型
– RAE/Tensor Network/ 卷积网络• NLP 的应用
– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR
• 探讨与思考
8
大纲• 深度学 介习简• 基础问题:语言表示问题
– Word Embedding– 不同粒度语言单元的表示
• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型
– RAE/Tensor Network/ 卷积网络• NLP 的应用
– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR
• 探讨与思考
10
Word Embedding
• 词向量:单词的分布向量表示( Distributional Representation )
• 词向量表征了单词使用上下文中的句法语义特征– One-Hot 的字面匹配到 DR 的语义匹配
Similarity(dog,cat)>Similarity(dog,the)
Similarity(“the dog smiles.”,“one cat cries.” )
21
不同粒度语言单元的表示 - 短语 / 句子 / 文档
• 方法一: 向量取和(单词词 Summrization )– 很多情况都做此 化 理种简 处– 于过 简单 , 但是仔 思考有一定道理细
• 方法二: 向量加权求和单词词– Huang’s Work– 权重:类似于 IDF
• 方法三: RNN
24
大纲• 深度学 介习简• 基础问题:语言表示问题
– Word Embedding– 不同粒度语言单元的表示
• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型
– RAE/Tensor Network/ 卷积网络• NLP 的应用
– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR
• 探讨与思考
29
大纲• 深度学 介习简• 基础问题:语言表示问题
– Word Embedding– 不同粒度语言单元的表示
• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型
– RAE/Tensor Network/ 卷积网络• NLP 的应用
– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR
• 探讨与思考
35
深度学习用于中文分词
• 者思路基本相同两– 基于字的 Word Embedding+ 三 神 网层 经 络 +BEMS 序列标记
分类
– 思路 2 引入全局的 Viterbi 解 (分类后 理)码 处
– 效果:和主流分 算法效果接近词• CRF/Maxent+ 二元特征
– 类似思路同 可以套用到样 POS/NER/Parser 等 景场
– 是利用这 Word Embedding 解决 NLP 最直 的问题 观 NLP 应用思路
– 考 探索下非 准三 神 网 的 模型虑 标 层 经 络结构 复杂
36
深度学习用于知识挖掘
• 大类两 问题– 有知 的新知 推理现 识库 识
• CYC,WordNet,FreeNet……• 目前的文献做法大思路基本一致
– 已知 体用实 Word Embedding 表示– 体 系用实 关 Tensor Network 建模– 后向 播传 +SGD 训练
– 从自由文本中 掘 化知挖 结构 识
42
机器翻译( Encoder-Decoder 具体例子)
ACL2014 Best Paper : Fast and Robust Neural Network Joint Models for Statistical Machine Translation
网络结构
言模型语
翻 模型译
44
情感计算
• 核心的 个两 问题– 句子 的级 Word Embedding 表示
• 前面 个讲过这 问题
– 如何将情感 向 到各倾 编码 级 Word Embedding 中• 半 督或者 督学 :通 程将情感 向 到监 监 习 过训练过 倾 编码
WE 中结构
45
Paraphrase( 整体框架 )
S1 : The judge also refused to postpone the trial date of Sept. 29.
S2 : Obus also denied a defense motion to postpone the September trial date.
Paraphrase 的问题: Semantic(S1)=Semantic(S2)?
50
大纲• 深度学 介习简• 基础问题:语言表示问题
– Word Embedding– 不同粒度语言单元的表示
• 字符 / 单字 / 单词 / 短语 / 句子 / 文档• 值得重点关注的模型
– RAE/Tensor Network/ 卷积网络• NLP 的应用
– 语言模型– 中文分词– 知识挖掘– 情感计算– 机器翻译– Paraphrase– IR
• 探讨与思考
51
探讨与思考
• 与 方法比传统 较 DL 的 所在优势– 抛掉特征 步选择 骤– 洁地融入 特征简 语义级– 很多 用可以直接应 绕过 NLP 的中 景比如间场
POS ,句法, 少 累加减 错误– 言 程依 容易建模: 向量语 长 赖 词 + 卷 网积 络– 可以解决 言模型的数据稀疏 :语 问题 15-Gram– 很多 景如果 化速度非常快,方便 用的工程化场 优 应
用化实
52
探讨与思考
• 目前研究模式中最基 和重要的础 问题– 短 、句子、段落、文档 的有效语 级别 Word
Embedding 表示– 文档 表示很多 用直接受益级别 应 : 分类, IR 等
• :文档 采用低 表示,是否 失 信息?只能问题 级别 维 丢 细节作 助手段?句子 的低 表示很有意 ,最 。为辅 级别 维 义 关键
• 如何更能体 “深度”的思想现– 目前 不上很还说 Deep : WE 主为– 是否有除了“ Word Embedding” 外更 Deep 的模式?
• 目前看 DL 在 NLP 些方面好 些一般?哪 哪– 涉及 理的 用:表 好语义处 应 现– 不涉及太多 的 用:语义 应 State-of-the-art– 明什么?说
• Word Embedding 已 把经 传统 ML 方法使用特征融合 去了进• 特征效果体 明语义级别 现 显
53
探讨与思考
• 与 CRF 的比 及区 与 系较 别 联– CRF: 性 线 VS DL: 非 性线– CRF: 高 离散特征 维 VS: DL: 低 特征维连续– :非 性模型 于低 特征有效, 高 离散特征结论 线 对 维连续 对 维
无效
• DL 在推荐系 方面 用方法的思考统 应– 不成熟的初步思路
• 我个人看好 DL 在 NLP 方面的作用– 与 方法比有明 点传统 显优– 展初期:机会多、挑 大发 战
• NLP 方向博士生的黄金 代时– 非常容易想到很多 New Idea– 一把新的 子,很多 子可以去敲锤 钉