16
Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation 作作 : 作作作 作作作 作作作 作作 作作作 作作作 中中中中中中中中中中中 中中中中中中中中中中中中中

Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation

  • Upload
    adair

  • View
    76

  • Download
    0

Embed Size (px)

DESCRIPTION

Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation. 作者 : 卢世祥 彭星源 陈振标 徐波 报告人:李长亮 中国科学院自动化研究所 数字内容技术与服务研究中心. 报告框架. 任务 我们的方法 实验 结论. 报告框架. 任务 我们的方法 实验 结论. 为什么需要领域自适应?. 双语训练语料通过的不同的方式来自不同的领域 大量的训练数据中的“主题”或是“领域”是变化的,这样会导致“训练数据”和“当前翻译任务”不匹配 - PowerPoint PPT Presentation

Citation preview

Pseudo In-Domain Data Selection fromLarge-Scale Web Corpus for Spoken

Language Translation

作者 : 卢世祥 彭星源 陈振标 徐波报告人:李长亮

中国科学院自动化研究所数字内容技术与服务研究中心

报告框架• 任务• 我们的方法• 实验• 结论

报告框架• 任务• 我们的方法• 实验• 结论

为什么需要领域自适应?• 双语训练语料通过的不同的方式来自不同的领域• 大量的训练数据中的“主题”或是“领域”是变

化的,这样会导致“训练数据”和“当前翻译任务”不匹配

• 集内数据很小,集外数据很大

传统方法• 数据选择

– 根据集内数据,从集外数据中选择相似的训练数据,运用这些数据训练新的翻译模型

• 主题模型– 通过主题模型,将集内数据中的先验主题分布转换到集外数据上,

进而调整集外短语表的概率分布

• 多领域模型融合– 将多个不同领域的语料或是模型进行动态或是静态的融合

基于数据选择的领域自适应• 本文中重点讨论基于数据选择的领域自适应方法• 传统方法的缺陷

– 都是简单的基于词袋模型数据选择方法(如 TF-IDF )• 数据选择模型不准确:没有考虑上下文信息

– 都是单语数据选择模型• 翻译模型训练数据都是双语数据,单语数据选择模型不全面

• 我们的方法:基于短语的双语数据选择模型

报告框架• 任务• 我们的方法• 实验• 结论

基于短语的双语数据选择方法• 主要思路 :

– 从集外双语语料中选择和集内双语语料相似的数据。• 集外双语语料

– 网络上抓取的大量双语语料,大多来自双语字幕、双语例句,在形式中跟口语领域很相似,约有 1100W 句对。

• 集内双语语料– IWSLT 提供的双语语料: BTEC 和 CJK ,约 38W 句对。

基于短语的双语数据选择方法

• 双语语料选取步骤– Step 1: 启发式抽取集内语料的短语,分别计算每个短语所包含的

信息。公式如下:

– Step 2: 计算集外语料的每个双语句对中所包含的集内短语的信息量,包含的越多,我们认为该句对和集内语料越相似。相似准则中我们同时考虑源语言和目标语言端。

| | | |

( )( ) , ( ) log ( ), ( ) | | ( )

( )i

ip p

count pP p I p P p W p p I p

count p

1

( )( )2

( )( )

| | | |

( ) ( )( ) ( )

| | | |

IItgtsrc

I G II G Itgt tgt tgtsrc src src

p Pp Pbi

src tgt

p P p P Pp P p P Pbi

src tgt

W pW pScore

s s

W p W pW p W pScore

s s

报告框架• 任务• 我们的方法• 实验• 结论

实验• 基线系统

– 开发集: IWSLT05 ,测试集 : IWSLT07– 集内双语语料: BTEC 和 CJK ,约 38W 句对– 集外双语语料:网络抓取语料,约 1100W 句对– 翻译模型:短语模型

基线系统实验结果

选择相似性数据规模实验• 实验结果

– 开发集: IWSLT05 ,测试集 : IWSLT07– 集内双语语料: BTEC 和 CJK (约 38W )– 集外双语语料: 1100W

开发集上相似语料选取规模与翻译性能的实验结果

我们发现选取 200W句对的时候实验效果最好,接下的实验我们都选取 200W句对

语料 / 模型混合下的实验结果• 语料混合:集内语料( 38W )和选取的集外相似语料( 200

W )混合在一起,训练翻译模型• 模型混合:集内语料( 38W )和选取的集外相似语料( 200

W )分别训练翻译模型,解码时同时使用两个翻译模型

语料混合下的实验结果 模型混合下的实验结果

报告框架• 任务• 我们的方法• 实验• 结论

结论• 为了提高口语翻译性能,我们从网络收集了大量

的双语语料,但是直接使用效果不好。• 我们提出了一种基于短语的双语的数据选择方法,

来筛选语料,提高口语翻译性能。– 解决的问题

• 基于词袋模型数据选择方法没有考虑上下文信息• 单语数据选择模型不全面

– 性能提升的结果• 单纯语料选取可以提高 1.6BLEU• 语料 /模型融合分别可以提高 3.9/4.5BLEU

谢谢各位老师和同学! 本人由于工作原因,没有及时参会,由

李长亮博士代我做报告,报告如有疑问的地方请与我本人联系!给大家带来的不便,敬请谅解!

再次感谢各位老师和同学,还有李长亮博士!谢谢!

卢世祥,邮箱: [email protected]