14
从印尼语语料迁移抽取 马来语多词命名实体 王琳 1 , 刘伍颖 2 1 上海外国语大学,贤达经济人文学院,上海 200083 2 广东外语外贸大学,语言工程与计算实验室,广州 510420 第21届汉语词汇语义学研讨会(CLSW2020)

第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

从印尼语语料迁移抽取马来语多词命名实体

王琳1, 刘伍颖2

1上海外国语大学,贤达经济人文学院,上海 2000832广东外语外贸大学,语言工程与计算实验室,广州 510420

第21届汉语词汇语义学研讨会(CLSW2020)

Page 2: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

摘要

• 对于低资源语言而言,语料的稀缺性使得多词命名实体抽取变得更加困难。语言之间的同源性和相似性带来一个形态迁移学习的新机遇,可以通过富资源语言的语料迁移学习出低资源语言的多词命名实体。本文围绕相对低资源的马来语多词命名实体抽取问题,创新一种基于富资源印尼语语料的迁移抽取算法。实验结果表明该算法在利用印尼语语料抽取马来语多词命名实体是有效的,而且证明正是由于印尼语和马来语同属南岛语系马来波利尼西亚语族的同源性和相似性支撑了形态迁移学习的强可计算性。

Page 3: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

Abstract

• The scarcity of corpus makes multiword named entity (MNE) extractionvery difficult for some low-resource languages. The homology andsimilarity between languages bring a new opportunity aboutmorphological transfer learning from rich-resource languages to low-resource languages. This paper addresses the issue of MNE extraction forrelatively low-resource Malay, and proposes a novel transfer extractingalgorithm from rich-resource Indonesian. The experimental results verifythe effectiveness of our algorithm to extract Malay MNEs fromIndonesian corpus, and also prove a strong computability ofmorphological transfer learning from Indonesian to Malay owing to thehomology and similarity of the same Malay-Polynesian language branchof the Austronesian language family.

Page 4: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

引言

• 多词命名实体(Multiword Named Entity, MNE)这种介于词汇和句子之间的形态粒度被广泛用于自然语言处理应用。尽管多词命名实体的定义多种多样,但主要共识是由两个以上词汇连接构成,其意义不能通过部分构成词汇获得,也就是多词命名实体产生了构成词汇意义之外的新意义。这种具有独立意义的形态粒度在形态复用和语义处理上更加高效和科学。

• 近来随着语言大数据的爆炸增长,富资源语言的多词命名实体自动抽取变得越来越容易。尽管当前的无监督抽取算法和深度学习算法对人工标注语料的依赖程度不断降低,但它们仍需要大规模未标注的原始语料。因此对于既缺乏标注语料又缺乏大规模未标注语料的低资源语言而言,已有算法难以高效解决低资源语言的多词命名实体抽取问题,这也促使我们研究低资源语言的多词命名实体抽取方法。

Page 5: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

印尼语和马来语的形态交叠

• 任何一种迁移学习都是在学习的源目之间寻找某种共性。印尼语和马来语具有极强的同源关系,使得二者在发音、词汇、句法等方面十分相似。二者的拉丁形态字母表完全相同。因此基于同源关系的形态相似性就是从印尼语到马来语迁移学习的共性。然而印尼语与马来语之间的形态相似性究竟有多大?我们通过形态交叠统计给出具体的定量分析。

Page 6: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

印尼语和马来语的形态交叠

• 我 们 统 计 了 20180501 版Wikipedia印尼语文档和马来语文档中去重后的词汇级N-gram形态串数量,具体结果如表所示。其中1-gram数据显 示 全 部 印 尼 语 文 档 是 由657,409个不同的印尼语词汇组成,而全部马来语文档只由395,365个不同的马来语词汇组成,两种语言交叠的共有词数量多达211,453。

N-gram Indonesian(MOR)

Malay(MOR) Overlap

1-gram 657,409(32.16%)

395,365(53.48%) 211,453

2-gram 8,035,771(15.36%)

3,994,868(30.89%) 1,233,931

3-gram 19,614,857(6.51%)

8,756,914(14.58%) 1,276,456

4-gram 23,038,089(2.84%)

9,708,373(6.73%) 653,356

5-gram 20,797,228(1.66%)

8,658,728(4.00%) 345,955

Page 7: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

形态迁移学习框架

• 我们提出的用于马来语多词命名实体抽取的形态迁移学习框架如图所示,主要包括源多词命名实体抽取(SourceMNEs Extracting)和目标多词命名实体 萃 取 (TargetMNEs Distilling)两部分。

Page 8: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

形态迁移学习框架

• 源抽取部分输入大规模印尼语文本文档,输出印尼语多词命名实体。目标萃取部分接收源抽取部分输出的印尼语多词命名实体,生成马来语多词命名实体。从全局视角审视,该框架是一种灵活的元结构,各种高效的抽取与萃取算法都可以集成进来。

Page 9: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

实验

• 为了验证形态迁移学习多词命名实体抽取算法的效力,我们首先实现了相关算法。接着我们把20180501版Wikipedia中的439.3MB印尼语文档和173.8MB马来语文档分别用作实验印尼语语料和马来语语料,把已有的196,915条印尼语多词命名实体和93,373马来语多词命名实体用作标准答案,对实验结果进行评价。一方面在印尼语语料上运行源多词命名实体抽取实验,提取印尼语多词命名实体,比对印尼语标准答案,分析印尼语多词命名实体抽取效果。另一方面在最优的印尼语多词命名实体抽取结果和马来语语料上运行目标多词命名实体萃取实验,提取马来语多词命名实体模糊集和精准集,比对马来语标准答案。

Page 10: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

源多词命名实体抽取结果

• 在源抽取实验中,我们从0.1到0.9梯度设置粘度阈值,并报告相应粘度阈值下运行结果的准确率(P)、召回率(R)、F1值(F1),以此评价印尼语多词命名实体抽取的效果。

• 右图折线描绘了上述3项指标根据粘度阈值的变化趋势,可以看出当粘度阈值小于0.6时,随着粘度阈值增大,P值和R值基本呈相反趋势变化。当粘度阈值从0.6开始增大到0.9时,P值和R值都呈现迅速降低的趋势。当粘度阈值等于0.3时,F1值达到最高峰值,此时P、R和F1值分别为0.3936、0.2537和0.3085。

Page 11: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

结果示例

• 印尼语多词命名实体示例(机场名)

Page 12: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

人工标注类别占比

Category Number of MNEs Percentage Examples

人名 572 49.31%Adlin Aman RamlieAlex YoongAzmil Mustapha

地名 214 18.45%Pulau Breueh (布吕埃岛)Gunung Karangetang (卡兰吉田火山)Powiat Olesno (奥莱斯诺县)

机构名 33 2.84%Angkatan Laut (海军)Dewan Perwakilan Rakyat (人民代表理事会)Radio Televisyen Malaysia (马来西亚广播电视台)

其他多词命名实体 262 22.59%Pertempuran Antietam (安提塔姆战役)Manuskrip Voynich (伏尼契手稿)Pendidikan Vokasional (职业教育)

其他多词表示 79 6.81%beraneka ragam (各种各样)jerih payah (辛劳)dan seterusnya (接下来)

Page 13: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

结论

• 实验结果表明从印尼语到马来语形态迁移学习出相对正确的多词命名实体中,人名、地名、机构名占据70%以上,对相对低资源语言的语料扩建具有实用价值。据此可知我们算法利用印尼语语料抽取马来语多词命名实体是可行的,而且证明正是由于印尼语和马来语同属南岛语系马来波利尼西亚语族的同源性和相似性支撑了形态迁移学习的强可计算性。

Page 14: 第21届汉语词汇语义学研讨会(CLSW2020) 从印尼语语料迁移抽取 … · Microsoft PowerPoint - 新建 Microsoft PowerPoint 演示文稿.pptx Author: Administrator Created

Transfer Extracting of Malay Multiword Named Entity from Indonesian Corpus

Lin Wang1, Wuying Liu2

1 E-mail: [email protected] E-mail: [email protected]

Chinese Lexical Semantics Workshop

我们低资源语言处理研究组(Low-Resource LanguagesProcessing Group)致力于“稀缺语言资源建设”和“低资源语言计算技术研究”,已经对日本语、韩国语、越南语、印尼语、马来语、菲律宾语等进行了探索并取得了系列成果,本论文就是其中的部分研究成果,期待与您合作交流,欢迎拿起手机扫描右侧二维码加微信详聊:)