Upload
hija
View
85
Download
0
Embed Size (px)
DESCRIPTION
厦门大学第四届机器翻译研讨会评测系统描述. 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008 年 11 月 北京. 提纲. 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结. 提纲. 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结. 概述. 厦门大学参加了 汉英新闻领域机器翻译(开放) 汉英新闻领域系统融合 英汉新闻领域机器翻译(受限) 英汉科技领域机器翻译(受限) 使用的模型 汉英机器翻译:短语,短语 + 规则 - PowerPoint PPT Presentation
Citation preview
厦门大学第四届机器翻译研讨厦门大学第四届机器翻译研讨会评测系统描述会评测系统描述陈毅东 史晓东 周昌乐陈毅东 史晓东 周昌乐
{ydchen, mandel, dozero}@xmu.edu.cn{ydchen, mandel, dozero}@xmu.edu.cn厦门大学信息科学与技术学院智能科学与技术系厦门大学信息科学与技术学院智能科学与技术系
20082008 年年 1111 月 北京月 北京
提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结
提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结
概述概述厦门大学参加了厦门大学参加了– 汉英新闻领域机器翻译(开放)汉英新闻领域机器翻译(开放)– 汉英新闻领域系统融合汉英新闻领域系统融合– 英汉新闻领域机器翻译(受限)英汉新闻领域机器翻译(受限)– 英汉科技领域机器翻译(受限)英汉科技领域机器翻译(受限)使用的模型使用的模型– 汉英机器翻译:短语,短语汉英机器翻译:短语,短语 ++ 规则规则– 英汉机器翻译:短语英汉机器翻译:短语 ++ 规则、规则规则、规则
使用的融合方法和系统融合评测中使用的相同
提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结
机器翻译系统概要(机器翻译系统概要( 11 ))统计翻译系统统计翻译系统– 短语模型短语模型– 对数线性模型对数线性模型
融合特征:短语翻译概率(正向融合特征:短语翻译概率(正向 // 反向)、词汇化反向)、词汇化短语翻译概率(正向短语翻译概率(正向 // 反向)、语言模型、长度惩反向)、语言模型、长度惩罚因子、短语惩罚因子罚因子、短语惩罚因子– 单调解码,动态规划方法单调解码,动态规划方法– 汉英机器翻译评测中,我们的短语翻译系统则汉英机器翻译评测中,我们的短语翻译系统则结合了基于组块的词语调序模型 结合了基于组块的词语调序模型
机器翻译系统概要(机器翻译系统概要( 22 ))规则翻译系统规则翻译系统– 基本模块:基本模块:词法分析词法分析句法分析句法分析词义消歧词义消歧译文生成译文生成– 采用依存文法描述英语和汉语,文法由程序来采用依存文法描述英语和汉语,文法由程序来描述 描述 – 词典条目大约词典条目大约 1010 万万– 结合了部分结合了部分 TMTM 技术技术– 没有专门针对这次评测进行调整没有专门针对这次评测进行调整
提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结
系统融合方法概要(系统融合方法概要( 11 ))早在早在 19941994 年就有研究者研究多引擎翻译系统。年就有研究者研究多引擎翻译系统。多引擎系统的研究可以粗略地分成两类:多引擎系统的研究可以粗略地分成两类:– 简单地在各系统的输出中选出一个最佳的结果。简单地在各系统的输出中选出一个最佳的结果。– 从各系统的输出中各选取最佳片段并构成新的结果。从各系统的输出中各选取最佳片段并构成新的结果。由于融合粒度更细,第二类方法常常可以获得更由于融合粒度更细,第二类方法常常可以获得更好的融合效果。好的融合效果。第二类系统融合技术需要解决的两个问题:第二类系统融合技术需要解决的两个问题:– 必须从候选翻译中抽取出与原文相对应的翻译片段。必须从候选翻译中抽取出与原文相对应的翻译片段。– 必须在这些可用的翻译片段中筛选并组合成新的翻译必须在这些可用的翻译片段中筛选并组合成新的翻译结果。 结果。
系统融合方法概要(系统融合方法概要( 22 ))参考文献参考文献– Chen Yu, Andreas EiChen Yu, Andreas Ei
sele, Christian Federsele, Christian Federmann, Eva Hasler, Mmann, Eva Hasler, Michael Jellinghaus, aichael Jellinghaus, and Silke Theison. 20nd Silke Theison. 2007. Multi-Engine Ma07. Multi-Engine Machine Translaiton wichine Translaiton with an Open-Source th an Open-Source Decoder for StatisticDecoder for Statistical Machine Translaital Machine Translaiton. In: on. In: Proceedings Proceedings of the Second Workof the Second Workshop on Statistical shop on Statistical Machine TranslationMachine Translation,, Prague, 193-196. Prague, 193-196.
平行语料库
候选翻译
原文新句对
短语表
短语模型训练模块
单语语料库
语言模型
语言模型训练模块
短语翻译解码模块
译文
提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结
评测数据与结果(评测数据与结果( 11 ))使用的外部工具使用的外部工具– GIZA++GIZA++ 工具包对双语语料进行词对齐,训练工具包对双语语料进行词对齐,训练模式是模式是 1155HH5533554455
– 使用使用 SRISRI 语言模型工具包来训练语言模型语言模型工具包来训练语言模型– 使用使用 CRF++CRF++ 工具包来训练组块分析器(汉英工具包来训练组块分析器(汉英测评中)。测评中)。
评测数据与结果(评测数据与结果( 22 ))汉英新闻机器翻译评测汉英新闻机器翻译评测– 数据数据
– 结果结果
来源来源 量量双语句库
训练数据 (common部分 ), LDC2005T06, LDC2003E07, LDC2006T04, LDC2003T17, LDC2004T07, LDC2002T01, LDC2002E18, LDC2003E14
96万句对树库 LDC2005T01 1.8万句英语语料 LDC2007T07 (xinhua part) 275M 词
双语句库的英文部分 18M 词系统系统 BLEU4BLEU4 NIST5NIST5 时间时间 (s)(s)xmu-constrast-memt(统计 +规则) 0.2412 7.5082 6935.44
xmu-primary-pumpkin(统计) 0.2390 7.8401 5341.25
评测数据与结果(评测数据与结果( 33 ))汉英新闻系统融合评测 汉英新闻系统融合评测 – 根据诸系统在根据诸系统在 ssmt2007ssmt2007 测试集上的成绩仅挑选了前测试集上的成绩仅挑选了前 44名的系统参与融合名的系统参与融合– 采用的数据情况同汉英新闻机器翻译评测采用的数据情况同汉英新闻机器翻译评测– 结果结果
– constrastconstrast 系统使用和汉英新闻机器翻译评测相同的参系统使用和汉英新闻机器翻译评测相同的参数,数, primaryprimary 系统则将长度惩罚因子参数增加到原来系统则将长度惩罚因子参数增加到原来的两倍。 的两倍。
系统系统 BLEU4BLEU4 NIST5NIST5 时间时间 (s)(s)xmu-primary-memt1xmu-primary-memt1 0.2721 7.4408 15043.03xmu-constrast-memt2xmu-constrast-memt2 0.2321 5.1955 15108.88
评测数据与结果(评测数据与结果( 44 ))英汉新闻机器翻译评测英汉新闻机器翻译评测– 数据情况数据情况
– 结果结果
来源来源 量量双语句库 所提供的训练数据 (common部分 ) 61万句对汉语语料 双语句库的中文部分 8M 词
系统系统 BLEU5BLEU5 NIST6NIST6 时间时间 (s)(s)xmu-primary-memtxmu-primary-memt(统计(统计 ++规规则)则) 0.2369 7.9624 3262.44
xmu-constrast-neonxmu-constrast-neon(规则)(规则) 0.2263 8.3199 36.45pbtmpbtm(统计)(统计) 0.2020 - -
评测数据与结果(评测数据与结果( 55 ))英汉科技机器翻译评测英汉科技机器翻译评测– 数据情况数据情况
– 结果结果
– xmu-constrast-memt2xmu-constrast-memt2 系统仅使用科技语料 系统仅使用科技语料
来源来源 数据量数据量双语句库 所提供的训练数据( common部分) 61万句对
所提供的训练数据(中信所语料) 30万句对汉语语料 双语句库的中文部分 14M 词系统系统 BLEU5BLEU5 NIST6NIST6 时间时间 (s)(s)xmu-primary-memt1 (xmu-primary-memt1 (统计统计 ++规则规则 )) 0.4026 10.3247 3362.61xmu-constrast-memt2 (xmu-constrast-memt2 (统计统计 ++规规则则 ))
0.4004 10.2729 3091.70
xmu-constrast-neon (xmu-constrast-neon (规则规则 )) 0.2816 9.1400 58.23
提纲提纲概述概述机器翻译系统概要机器翻译系统概要系统融合方法概要系统融合方法概要测评数据与结果测评数据与结果小结小结
小结小结本次评测我们参加的系统在技术上没有太本次评测我们参加的系统在技术上没有太多的进步。多的进步。本次评测我们所使用的系统融合技术太简本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。陋,是将来努力的重点。
谢谢大家!谢谢大家!陈毅东 史晓东陈毅东 史晓东
{ydchen, mandel}@xmu.edu.cn{ydchen, mandel}@xmu.edu.cn