基于翻译日志的统计机器翻译模型剪枝
刘凯 吕雅娟 姜文斌 刘群
中科院计算所
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验结果
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验结果
研究动机• 实用机器翻译系统– 训练语料庞大
研究动机• 实用机器翻译系统– 训练语料庞大
– 翻译模型庞大
研究动机• 实用机器翻译系统– 训练语料庞大
– 翻译模型庞大
– 较大的运行成本 & 应用场景受限
研究动机• 规则表规模– FBIS(0.2M)• 规则数: 32M• 大小: 1G (压缩后)
– LDC(1.5M)• 规则数: 167M• 大小: 4G (压缩后)
– Baidu 、 Bing 、 Google……
研究动机• 规则表规模问题– 需要大规模服务器提供服务
研究动机• 规则表规模问题– 需要大规模服务器提供服务
– 难以移植到移动终端
研究动机• 规则表规模问题– 需要大规模服务器提供服务
– 难以移植到移动终端• 国际流量漫游包月≈ 2000 元(泰国)
研究动机• 可行性
– 长尾现象– 大规模剪枝是可能的
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
输出参数
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
找出模型搜索空间并去除搜索空间外的不必要的规则
√
研究动机• 解码器搜索空间有限– 参数固定则搜索空间固定
参数 输出
找出模型搜索空间并去除搜索空间外的不必要的规则
√
翻译日志!
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验结果
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: ⟨ 布什 与 X1 X2, Bush X2 with X1⟩
⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√1best
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√1best
翻译解码• 翻译例子– 布什 与 沙龙 举行 了 会谈– 解码: Bush held a meeting with Sharon Bush hold a meeting with Sharon Bush hold a conference with Salon ……
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√1best
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
√√√
布什 与 沙龙 举行 了 会谈
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
111
布什 与 沙龙 举行 了 会谈
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
………
…………
…………
翻译日志模型剪枝• 利用翻译获取规则信息
⟨ 布什 与 X1 X2, Bush X2 with X1⟩⟨ 沙龙 , Sharon⟩⟨ 举行 了 会谈 , held a meeting⟩⟨ 沙龙 , Salon⟩⟨ 举行 了 会谈 , hold a meeting⟩⟨ 举行 了 会谈 , hold a conference⟩……
………
…………
…………
翻译日志
翻译日志模型剪枝• 模型剪枝– 仅保留在翻译中命中的规则– 命中次数 >0 的规则
大纲• 研究动机
• 翻译解码方法
• 翻译日志模型剪枝
• 实验
实验• 实验配置(汉 - 英)– 训练语料: LDC , 1.5M 句对– 语言模型:法新社 +Giga 新华 5 元– 翻译日志模拟语料:• 训练集 1.5M• 新闻语料 5.28M• Web 语料 6.06M (搜狗全网)
– 开发测试集:• Dev:nist06; Tst:nist04,nist05,nist08
实验• 实验结果– 直接过滤规则表
– Count: 低于等于该使用频度的规则不被保留
翻译日志 训练集 新闻语料 Web语料
过滤频度 Count=0 Count=1 Count=2 Count=0 Count=0
规则表大小% 2.40 0.89 0.47 3.68 2.78
NIST04 (BLEU%) 34.01 33.08 32.40 33.74 32.76
NIST05(BLEU%) 31.46 30.78 30.12 31.07 30.58
NIST08(BLEU%) 27.24 26.45 25.80 26.70 26.50
测试集均值 30.90 (-0.28) 30.10 (-1.08) 29.44 (-1.74) 30.50 (-0.68) 29.95 (-1.23)
实验• 实验结果– 在过滤规则表基础上重新调参
– 能够更加接近原始规则表的效果
翻译日志 训练集 新闻语料
测试集均值(重调参前) 30.90 30.50
测试集均值(重调参后) 31.03 30.90
实验• 讨论– OOV 问题• 解决:利用训练集获取翻译日志
– 领域问题• 确实存在
– 新闻 : 34.06=>33.74– Web: 34.06=>32.76
结论• 简单动机和方法
• 效果显著– 规则表大小: 100%=>2.4%– 翻译效果: 31.18=>31.03
• 语言模型剪枝也可参照该思想
谢谢!