38
基基基基基基基 基基基基基基基基基 基基 基基基 基基基 基基 基基基基基基

基于翻译日志的统计机器翻译模型剪枝

Embed Size (px)

DESCRIPTION

基于翻译日志的统计机器翻译模型剪枝. 刘凯 吕雅娟 姜文斌 刘群 中科院计算所. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 大纲. 研究动机 翻译解码方法 翻译日志模型剪枝 实验结果. 研究动机. 实用机器翻译系统 训练语料庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大. 研究动机. 实用机器翻译系统 训练语料庞大 翻译模型庞大 较大的运行成本 & 应用场景受限. 研究动机. 规则表规模 FBIS(0.2M) 规则数: 32M 大小: 1G (压缩后) LDC(1.5M) 规则数: 167M - PowerPoint PPT Presentation

Citation preview

Page 1: 基于翻译日志的统计机器翻译模型剪枝

基于翻译日志的统计机器翻译模型剪枝

刘凯 吕雅娟 姜文斌 刘群

中科院计算所

Page 2: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验结果

Page 3: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验结果

Page 4: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 实用机器翻译系统– 训练语料庞大

Page 5: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 实用机器翻译系统– 训练语料庞大

– 翻译模型庞大

Page 6: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 实用机器翻译系统– 训练语料庞大

– 翻译模型庞大

– 较大的运行成本 & 应用场景受限

Page 7: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模– FBIS(0.2M)• 规则数: 32M• 大小: 1G (压缩后)

– LDC(1.5M)• 规则数: 167M• 大小: 4G (压缩后)

– Baidu 、 Bing 、 Google……

Page 8: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模问题– 需要大规模服务器提供服务

Page 9: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模问题– 需要大规模服务器提供服务

– 难以移植到移动终端

Page 10: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 规则表规模问题– 需要大规模服务器提供服务

– 难以移植到移动终端• 国际流量漫游包月≈ 2000 元(泰国)

Page 11: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 可行性

– 长尾现象– 大规模剪枝是可能的

Page 12: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

输出参数

Page 13: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

Page 14: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

Page 15: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

找出模型搜索空间并去除搜索空间外的不必要的规则

Page 16: 基于翻译日志的统计机器翻译模型剪枝

研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定

参数 输出

找出模型搜索空间并去除搜索空间外的不必要的规则

翻译日志!

Page 17: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验结果

Page 18: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: ⟨ 布什 与 X1 X2, Bush X2 with X1⟩

⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 19: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 20: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 21: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 22: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√1best

Page 23: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√1best

Page 24: 基于翻译日志的统计机器翻译模型剪枝

翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√1best

Page 25: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验

Page 26: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

Page 27: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

√√√

布什 与 沙龙 举行 了 会谈

Page 28: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

111

布什 与 沙龙 举行 了 会谈

Page 29: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

………

…………

…………

Page 30: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 利用翻译获取规则信息

⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……

………

…………

…………

翻译日志

Page 31: 基于翻译日志的统计机器翻译模型剪枝

翻译日志模型剪枝• 模型剪枝– 仅保留在翻译中命中的规则– 命中次数 >0 的规则

Page 32: 基于翻译日志的统计机器翻译模型剪枝

大纲• 研究动机

• 翻译解码方法

• 翻译日志模型剪枝

• 实验

Page 33: 基于翻译日志的统计机器翻译模型剪枝

实验• 实验配置(汉 - 英)– 训练语料: LDC , 1.5M 句对– 语言模型:法新社 +Giga 新华 5 元– 翻译日志模拟语料:• 训练集 1.5M• 新闻语料 5.28M• Web 语料 6.06M (搜狗全网)

– 开发测试集:• Dev:nist06; Tst:nist04,nist05,nist08

Page 34: 基于翻译日志的统计机器翻译模型剪枝

实验• 实验结果– 直接过滤规则表

– Count: 低于等于该使用频度的规则不被保留

翻译日志 训练集 新闻语料 Web语料

过滤频度 Count=0 Count=1 Count=2 Count=0 Count=0

规则表大小% 2.40 0.89 0.47 3.68 2.78

NIST04 (BLEU%) 34.01 33.08 32.40 33.74 32.76

NIST05(BLEU%) 31.46 30.78 30.12 31.07 30.58

NIST08(BLEU%) 27.24 26.45 25.80 26.70 26.50

测试集均值 30.90 (-0.28) 30.10 (-1.08) 29.44 (-1.74) 30.50 (-0.68) 29.95 (-1.23)

Page 35: 基于翻译日志的统计机器翻译模型剪枝

实验• 实验结果– 在过滤规则表基础上重新调参

– 能够更加接近原始规则表的效果

翻译日志 训练集 新闻语料

测试集均值(重调参前) 30.90 30.50

测试集均值(重调参后) 31.03 30.90

Page 36: 基于翻译日志的统计机器翻译模型剪枝

实验• 讨论– OOV 问题• 解决:利用训练集获取翻译日志

– 领域问题• 确实存在

– 新闻 : 34.06=>33.74– Web: 34.06=>32.76

Page 37: 基于翻译日志的统计机器翻译模型剪枝

结论• 简单动机和方法

• 效果显著– 规则表大小: 100%=>2.4%– 翻译效果: 31.18=>31.03

• 语言模型剪枝也可参照该思想

Page 38: 基于翻译日志的统计机器翻译模型剪枝

谢谢!