27
11,001 New Features for Statistical Machine Translation David Chiang, Kevin Knight, We i Wang 报报报 报报报 2009.11.12

11,001 New Features for Statistical Machine Translation

  • Upload
    gusty

  • View
    53

  • Download
    3

Embed Size (px)

DESCRIPTION

11,001 New Features for Statistical Machine Translation. David Chiang, Kevin Knight, Wei Wang 报告人:李贤华 2009.11.12. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 主要内容. 简介 MIRA 训练 特征选择 实验结果 分析讨论. 简介. 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1 - PowerPoint PPT Presentation

Citation preview

Page 1: 11,001 New Features for Statistical Machine Translation

11,001 New Features for Statistical Machine

Translation

David Chiang, Kevin Knight, Wei Wang

报告人:李贤华2009.11.12

Page 2: 11,001 New Features for Statistical Machine Translation

主要内容 简介 MIRA 训练 特征选择 实验结果 分析讨论

Page 3: 11,001 New Features for Statistical Machine Translation

主要内容简介 MIRA 训练 特征选择 实验结果 分析讨论

Page 4: 11,001 New Features for Statistical Machine Translation

简介 所用系统: Hiero ,句法系统 所用方法:添加大量特征,用 MIRA 训练 实验结果:汉英上 BLEU 分别提高 1.5 , 1.1

添加的特征多为句法系统才能使用的特征,突出句法系统的优势。

相比 MERT , MIRA 对于多特征调参更佳。

Page 5: 11,001 New Features for Statistical Machine Translation

Baseline

Hiero:

串到串翻译系统, 12 个特征,用 MERT 训练得到权重

句法系统:串到树翻译系统, 25 个特征,用 MERT 训

练得到权重

Page 6: 11,001 New Features for Statistical Machine Translation

主要内容 简介MIRA训练 特征选择 实验结果 分析讨论

Page 7: 11,001 New Features for Statistical Machine Translation

MIRA 训练将新特征加入线性模型,用 MIRA 训练。e :输出串 h(e): e 的特征向量 w: 特征权重循环如下:1. 选择一组输入句子 f1…fm ,解码2. 对于每个输入句子,选择其 10-best3. 对每个输入句子,选择一个 oracle 翻译,

Page 8: 11,001 New Features for Statistical Machine Translation

4. 对于每一个候选翻译,计算损失

5. 更新 w 至 w’ , w’ 最小化:

对于每个句子,解码器给训练器一个森林,训练器将权重更新后传给解码器。

Page 9: 11,001 New Features for Statistical Machine Translation

主要内容 简介 MIRA 训练特征选择 实验结果 分析讨论

Page 10: 11,001 New Features for Statistical Machine Translation

特征选择 Discount feature

有许多计数为 1 的规则被选中,说明其概率被高估了

使用特征 count 来奖励或者惩罚规则,特征值和规则的计数有关

Page 11: 11,001 New Features for Statistical Machine Translation

目标端特征 Rule overlap features 规则之间有交点。有些非终结符作为交点

时更加可靠。对于不同的非终结符做交点的规则,进行不同的奖罚。

Page 12: 11,001 New Features for Statistical Machine Translation

Bad single-level rewrite对于一些使用范围很小的有问题的规则进行

惩罚,通过对开发集的观察,得到以下规则需要惩罚:

PP->VBN NP-CPP-BAR->NP-C INVP->NP-C PPCONJP->RB IN

Page 13: 11,001 New Features for Statistical Machine Translation

Node count features

对于树中出现的非终结符计数,以免某非终结符出现过多或过少

Insertion features

有些规则会在英文端插入一些单词。对于每一个最可能出现在插入规则中的单词

一个特征。

Page 14: 11,001 New Features for Statistical Machine Translation

特征选择 源端特征: Soft syntactic constraints

软句法约束,在源句子上建立句法树,奖励那些源端与该句法树相符的规则,惩罚不符的规则

Page 15: 11,001 New Features for Statistical Machine Translation

Structural distortion features

设 S 为非终结符覆盖的源语言单词个数, R为是否要调序, P(R|S) 可以在抽取规则的时候计算得到,并可作为模型的一个新特征,由此影响调序。

Page 16: 11,001 New Features for Statistical Machine Translation

主要内容 简介 MIRA 训练 特征选择实验结果 分析讨论

Page 17: 11,001 New Features for Statistical Machine Translation

实验结果 使用了 260m 词的汉英双语语料。 对于句法系统,重现了 Collins 的 parser ,

以对英语部分产生句法树 句法规则的抽取是在 65m 的子训练集上

完成的 对于 Hiero ,两个非终结符的规则在 38m

子集上抽取,其余规则在训练集其余部分抽取

Page 18: 11,001 New Features for Statistical Machine Translation

训练了 3 个 5 元语言模型 1-> 在整个英文语料上训得,用于两个系

统 2-> 用 10 亿词训得,用于句法系统 3-> 用 20 亿词训得,用于 Hiero 所有语言模型都用 KN 平滑算法

Page 19: 11,001 New Features for Statistical Machine Translation

开发集: 2010 个句子 测试集: 1994 个句子 从 NIST2004 , 2005 及 GALE program

抽取的新闻语料。 Hiero 用了源端特征,句法系统用了目标

端特征,两个系统都用了折扣特征。

Page 20: 11,001 New Features for Statistical Machine Translation
Page 21: 11,001 New Features for Statistical Machine Translation

主要内容 简介 MIRA 训练 特征选择 实验结果分析讨论

Page 22: 11,001 New Features for Statistical Machine Translation

分析

Discount feature:

+ 表示惩罚,- 表示奖励。

Page 23: 11,001 New Features for Statistical Machine Translation

Word insertion feature:

Be 动词, a+ the,.,,-

Page 24: 11,001 New Features for Statistical Machine Translation

Rule-overlap feature

Page 25: 11,001 New Features for Statistical Machine Translation

Weights for generated English nonterminals

Page 26: 11,001 New Features for Statistical Machine Translation

结论 1. 新特征即使在顶级翻译系统上也能有所

作为 2.MIRA 优于 MERT 3. 句法系统能利用在其他系统中无法使用

的特征,句法系统和 MIRA 是一个强大的组合

Page 27: 11,001 New Features for Statistical Machine Translation

相关论文:

1.Online large-margin training of syntactic and structural translation features

2.minimum error rate training in statistical machine translation