Upload
sawyer-summers
View
55
Download
4
Embed Size (px)
DESCRIPTION
基于翻译日志的统计机器翻译模型剪枝. 刘凯 吕雅娟 姜文斌 刘群 中科院计算所. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 研究动机. 实用机器翻译系统 训练语料庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大 较大的运行成本 & 应用场景受限. 研究动机. 规则表规模 FBIS(0.2M) 规则数: 32M 大小: 1G (压缩后) LDC(1.5M) 规则数: 167M - PowerPoint PPT Presentation
Citation preview
基于翻译日志的统计机器翻译模型剪枝
刘凯 吕雅娟 姜文斌 刘群
中科院计算所
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验结果
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验结果
研究动机• 实用机器翻译系统– 训练语料庞大
研究动机• 实用机器翻译系统– 训练语料庞大
– 翻译模型庞大
研究动机• 实用机器翻译系统– 训练语料庞大
– 翻译模型庞大
– 较大的运行成本 & 应用场景受限
研究动机• 规则表规模– FBIS(0.2M)• 规则数: 32M• 大小: 1G (压缩后)
– LDC(1.5M)• 规则数: 167M• 大小: 4G (压缩后)
– Baidu 、 Bing 、 Google……
研究动机• 规则表规模问题– 需要大规模服务器提供服务
研究动机• 规则表规模问题– 需要大规模服务器提供服务
– 难以移植到移动终端
研究动机• 规则表规模问题– 需要大规模服务器提供服务
– 难以移植到移动终端• 国际流量漫游包月≈ 2000 元(泰国)
研究动机• 可行性
– 长尾现象– 大规模剪枝是可能的
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
输出参数
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
找出模型搜索空间并去除搜索空间外的不必要的规则
√
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
找出模型搜索空间并去除搜索空间外的不必要的规则
√
翻译日志!
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验结果
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: ⟨ 布什 与 X1 X2, Bush X2 with X1⟩
⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√1best
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√1best
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√1best
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√√√
布什 与 沙龙 举行 了 会谈
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
111
布什 与 沙龙 举行 了 会谈
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
………
…………
…………
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
………
…………
…………
翻译日志
翻译日志模型剪枝• 模型剪枝– 仅保留在翻译中命中的规则– 命中次数 >0 的规则
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验
实验• 实验配置(汉 - 英)– 训练语料: LDC , 1.5M 句对– 语言模型:法新社 +Giga 新华 5 元– 翻译日志模拟语料:• 训练集 1.5M• 新闻语料 5.28M• Web 语料 6.06M (搜狗全网)
– 开发测试集:• Dev:nist06; Tst:nist04,nist05,nist08
实验• 实验结果– 直接过滤规则表
– Count: 低于等于该使用频度的规则不被保留
翻译日志 训练集 新闻语料 Web语料
过滤频度 Count=0 Count=1 Count=2 Count=0 Count=0
规则表大小% 2.40 0.89 0.47 3.68 2.78
NIST04 (BLEU%) 34.01 33.08 32.40 33.74 32.76
NIST05(BLEU%) 31.46 30.78 30.12 31.07 30.58
NIST08(BLEU%) 27.24 26.45 25.80 26.70 26.50
测试集均值 30.90 (-0.28) 30.10 (-1.08) 29.44 (-1.74) 30.50 (-0.68) 29.95 (-1.23)
实验• 实验结果– 在过滤规则表基础上重新调参
– 能够更加接近原始规则表的效果
翻译日志 训练集 新闻语料
测试集均值(重调参前) 30.90 30.50
测试集均值(重调参后) 31.03 30.90
实验• 讨论– OOV 问题• 解决:利用训练集获取翻译日志
– 领域问题• 确实存在
– 新闻 : 34.06=>33.74– Web: 34.06=>32.76
结论• 简单动机和方法
• 效果显著– 规则表大小: 100%=>2.4%– 翻译效果: 31.18=>31.03
• 语言模型剪枝也可参照该思想
谢谢!