11
34 4 2020 4 中文信息学报 JOURNALOFCHINESEINFORMATIONPROCESSING Vol.34 , No.4 Apr. , 2020 文章编号: 1003-0077 ( 2020 ) 04-0010-11 一种轻量级的汉语语义角色标注规范 刘亚慧, 杨浩苹, 李正华, 张民 ( 苏州大学 计算机科学与技术学院, 江苏 苏州 215006 ) :作为主流的浅层语义表示形式, 语义角色标注一直是自然语言处理领域的研究热点之一目前学术界已 有的语义角色标注规范( PropBank 规范和北大规范) 主要存在三个问题: 基于片段的论元表示让标注难度加大; ②PropBank 中谓词框架的定义难度较大; 北大规范缺乏省略论元的标注经过充分调研, 该文尝试融合已有的 中英文语义角色标注规范的优点, 同时结合实际标注中遇到的问题, 制定了一种轻量级的适合非语言学背景的标 注者参与的中文语义角色标注规范第一, 采用基于词的论元表示, 避免了片段边界的确定, 从而降低标注难度; 第二, 标注者直接根据句子上下文信息, 标注谓词相关论元角色, 而无须预先定义每个谓词的所有语义框架; 第三, 显式标注句子中省略的核心论元, 更准确地刻画句子的语义信息此外, 为了保证标注一致性和提高数据标注质 , 规范针对各种复杂语言现象, 给出了明确的优先级规定和难点分析关键词:语义角色标注; 标注规范; 浅层语义分析; 论元角色; 谓词 中图分类号: TP391 文献标识码: A ALightweightAnnotationGuidelineofChineseSemanticRoleLabeling LIUYahui , YANGHaoping , LIZhenghua , ZHANGMin ( SchoolofComputerScienceandTechnology , SoochowUniversity , Suzhou , Jiangsu215006 , China ) Abstract : Asthemainformalismofshallowsemanticparsing , semanticrolelabelingisoneofthehotresearchtopics innaturallanguageprocessing ( NLP ) .Therearethreemainproblemsincurrentexistingannotationguidelines ( i.e. , thePropBankannotationguidelineandthePekingUniversityguideline ) .First , thespan-basedargumentrepresenta- tioncomplicatestheannotationprocess.Second , itisdifficulttodefinetheframesofthepredicatesinthePropBank annotationguideline.Third , the Peking University guidelinedoesnotannotateomittedarguments.Through thoroughinvestigationofexistingChineseandEnglishannotationguidelines , wedevelopalightweightannotation guidelineforChinesesemanticrolelabelingsuitableforordinaryannotatorsbycombiningtheadvantagesofexisting guidelinesandconsideringtherealproblemsduringourannotationprocess.First , wechoosetheword-basedargu- mentrepresentationtoavoiddeterminationofspanboundaryandthusreduceannotationdifficulty.Second , annota- torscandirectlyannotatetheargumentsofapredicatewordaccordingtothesententialcontextinformation , without pre-definingallsemanticframesofthepredicateword.Third , weexplicitlyannotatetheomittedcoreargumentsto morepreciselydescribethesemanticinformationofsentences.Additionally , inordertoensuretheannotationcon- sistencyandimprovethequalityofannotation , theproposedguidelinegivesclearpriorityanddifficultyanalysisfor variouscomplexlinguisticphenomena. Keywords : semanticrolelabeling ; annotationguideline ; shallowsemanticparsing ; argumentrole ; predicate 收稿日期: 2019-09-09 定稿日期: 2019-12-13 基金项目:国家自然科学基金( 61525205 , 61876116 ); 江苏高校优势学科建设工程资助项目 0 引言 语义分析是自然语言理解的目标之一, 其目的 是获取整个句子的所有语义信息, 并采用某种形式 表示出来如果能够深入理解句子的语义结构, 么计算机就有可能实现真正的强人工智能目前, 学术界已经提出了若干种不同的语义表示形式,

一种轻量级的汉语语义角色标注规范hlt.suda.edu.cn/images/3/3f/一种轻量级的汉语语义角色标注规范.pdf · 一种轻量级的汉语语义角色标注规范

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • 第34卷 第4期2020年4月

    中文信息学报

    JOURNALOFCHINESEINFORMATIONPROCESSINGVol.34,No.4Apr.,2020

    文章编号:1003-0077(2020)04-0010-11

    一种轻量级的汉语语义角色标注规范

    刘亚慧,杨浩苹,李正华,张 民

    (苏州大学 计算机科学与技术学院,江苏 苏州215006)

    摘 要:作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大;

    ②PropBank中谓词框架的定义难度较大;③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;

    第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,

    显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。

    关键词:语义角色标注;标注规范;浅层语义分析;论元角色;谓词中图分类号:TP391 文献标识码:A

    ALightweightAnnotationGuidelineofChineseSemanticRoleLabeling

    LIUYahui,YANGHaoping,LIZhenghua,ZHANGMin(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215006,China)

    Abstract:Asthemainformalismofshallowsemanticparsing,semanticrolelabelingisoneofthehotresearchtopicsinnaturallanguageprocessing(NLP).Therearethreemainproblemsincurrentexistingannotationguidelines(i.e.,

    thePropBankannotationguidelineandthePekingUniversityguideline).First,thespan-basedargumentrepresenta-tioncomplicatestheannotationprocess.Second,itisdifficulttodefinetheframesofthepredicatesinthePropBankannotationguideline.Third,thePeking Universityguidelinedoesnotannotateomittedarguments.ThroughthoroughinvestigationofexistingChineseandEnglishannotationguidelines,wedevelopalightweightannotation

    guidelineforChinesesemanticrolelabelingsuitableforordinaryannotatorsbycombiningtheadvantagesofexistingguidelinesandconsideringtherealproblemsduringourannotationprocess.First,wechoosetheword-basedargu-mentrepresentationtoavoiddeterminationofspanboundaryandthusreduceannotationdifficulty.Second,annota-torscandirectlyannotatetheargumentsofapredicatewordaccordingtothesententialcontextinformation,without

    pre-definingallsemanticframesofthepredicateword.Third,weexplicitlyannotatetheomittedcoreargumentstomorepreciselydescribethesemanticinformationofsentences.Additionally,inordertoensuretheannotationcon-sistencyandimprovethequalityofannotation,theproposedguidelinegivesclearpriorityanddifficultyanalysisforvariouscomplexlinguisticphenomena.Keywords:semanticrolelabeling;annotationguideline;shallowsemanticparsing;argumentrole;predicate

    收稿日期:2019-09-09 定稿日期:2019-12-13基金项目:国家自然科学基金(61525205,61876116);江苏高校优势学科建设工程资助项目

    0 引言

    语义分析是自然语言理解的目标之一,其目的

    是获取整个句子的所有语义信息,并采用某种形式表示出来。如果能够深入理解句子的语义结构,那么计算机就有可能实现真正的强人工智能。目前,学术界已经提出了若干种不同的语义表示形式,尝

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 4期 刘亚慧等:一种轻量级的语义角色标注规范

    试刻画较深层次的语义信息,如 UCCA[1]、AMR[2]

    和SDP[3]等。但仍存在一些问题:①深层语义歧义性、模糊性较大,非语言学背景的人员很难掌握,标注一致性较低,这使得语料建设比较困难;②可计算性差,很难设计出一个简单的统计模型进行深层语义分析,并取得较好的性能。此外,深层语义分析涉及多个层次和方面[4],很难用一个表示形式刻画所有的语义信息。局限于目前的技术水平,我们认为深层语义分析在短期内很难形成具有较强实用性

    的成果,或者说难以对自然语言理解上层应用产生大的帮助。

    作为一种浅层语义表示形式,语义角色标注(semanticrolelabeling,SRL)具有简单易用、多语言适用、模型和算法研究较深入等优点。给定输入句子,SRL的目标是首先找出句子的谓词(predicate),然后以该谓词为核心,确定相关的论元成分(argu-ment),并标注相应语义角色标签,形成句子的谓词论元语义信息。如图1所示,在句子中存在谓词“去”和“骑”,我们将其作为两个独立的任务进行标注。当“去”作为谓词时,“我”和“学校”是核心论元成分,“骑”“车”是附加论元成分,用语义角色标签施事(a-gent)、受事(patient)、方式(manner)和工具(tool)表示论元成分与谓词之间的关系。当“骑”作为谓词时,“我”和“车”是核心论元成分,用语义角色标签施事和受事表示论元成分和谓词之间的关系。

    图1 语义角色标注示例

    和句法结构相比,语义结构具有更好的稳定性和一致性[5]。如图2所示,三个句子的语序不同、表

    图2 具有相同语义结构、不同句法结构的示例

    达方式不同,句法分析后得到的句法结构也不同,但是SRL语义结构是相同的,都描述了论元“我”“学校”“杯子”和谓词“打碎”的关系。

    目前,SRL技术已被成功应用到信息抽取[6]、自动问答[7]以及机器翻译[8]等多个领域。当下主流的SRL模型主要分为两种形式:①基于BIO标签的模型,即根据给定的谓词,判定和这个谓词相关的论元成分,使用B作为一个论元的开始,I作为一个论元的中间,O表示一个词不作为论元成分。具有代表性的是基于深层BiLSTM[9-10]和Self-attention[11]

    框架的工作。②基于谓词—论元—关系三元组识别的模型,即在一个模型框架中同时识别谓词、论元以及它们之间的关系[12]。

    语料资源对于SRL非常重要,可以大大促进算法和模型研究的进展。较为知名的英语语义角色标注资源有PropBank[13]、NomBank[14]和FrameNet[15]

    等,中 文 有 ChinesePropositionBank (CPB)[16]、

    ChineseNomBank(CNB)[17]和北大网库[18]等。和英文SRL相比,中文SRL工作开展较晚,语料库目前增长非常缓慢,且领域覆盖面也很有限。当利用已有数据训练模型,进而分析真实网络文本时,性能会急剧下降,无法满足实际应用对性能的要求。因此,面向不同来源文本的SRL语料库的持续性建设,成为了目前SRL研究的迫切需求。

    作为语料库建设的重要基础,制定科学、合理的标注规范是重中之重。基于充分调研,我们认为目前已有的SRL标注规范存在可以进一步改进的问题,如下所示:

    (1)作为两种主流的标注规范,PropBank和北大规范[19]均以片段作为论元成分的基本单元。然而,片段边界的界定在实际标注中非常困难,导致标注一致性很差。值得注意的是,目前深层语义标 注 形 式 如 UCCA 和SDP,都 基 于 词 进 行标注。

    (2)PropBank基于谓词框架理论展开标注。对于每一个谓词,需要预定义所有可能的语义框架。实际标注中,对于新出现的谓词,需要定义对应的论元框架;对于已知谓词,标注者首先确定其框架编号,进而根据框架定义标注对应论元成分;如果没有适合的语义框架,则需要建立新的框架。可以看出,基于谓词语义框架开展标注工作,要求标注者身兼具体标注、维护和更新谓词框架、完善标注规范等多个职责,因此标注者需要很强的语言学知识背景。

    11

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 中 文 信 息 学 报 2020年

    而本文工作的目标是设计一个轻量级的浅层语义标

    注规范,未来聘用大量非语言学背景、以汉语为母语的标注人员,针对多来源多领域文本,展开大规模、高质量数据标注,以大幅度提高面对真实网络文本的浅层语义分析性能。

    (3)汉语表达非常灵活,句子中可以有很多缺省,人通常可以根据语境很自然地进行语义补全。标注缺省论元有助于增进计算机对于自然语言的语义理解。北大规范明确不标注句子中缺省的隐含论元成分。PropBank则可以根据谓词框架反向得到缺省的论元成分,例如,如果句子中没有标注出 ARG0,而对应的谓词框架有 ARG0,则表明句子中省略了ARG0。CPB与PropBank的缺省情况类似。此外,布拉格树库中的语义标注层用额外节点来表示pro-drop结构中缺省的主语等[20]。

    本文提出了一种以词为论元单位、显式标注缺省论元的轻量级中文语义角色标注规范,作为后续

    SRL标注的重要基础。基于此规范,我们对北大公开的约1万句语义数据(对应约1.5万个谓词)进行了重新标注,从而方便两个规范之间的对比和分析。最新的标注规范(不断更新)我们发布在http://hlt.suda.edu.cn/index.php/COPAD。未来我们将基于此规范展开更大规模的标注。

    1 编制标注规范的考虑因素

    我们的目标是面向多领域多来源文本,人工快速标注大规模数据,从而构建谓词论元数据集。为了达到这个目标,必须制定一个科学(满足语言学理论)、系统(条理清晰、易于理解)、完整(覆盖各种语言现象)[21]的轻量级中文语义角色标注规范。本规范充分借鉴了北大规范,同时吸取中英SRL中的经验和教训。我们总结了编制标注规范的初衷和考虑因素,如下所示:

    (1)确定谓词的选取范围 SRL的任务是以谓词为核心,确定相关的论元成分,其首要任务是确定谓词范围。中英SRL规范中对于谓词范围的规定各不相同。在CPB和CNB中的谓词词性主要是动词及名词性的动词;FrameNet中的谓词是基于框架的,没有确定的界限,里面包含名词、形

    容词等;在北大规范中,谓词的选取范围是动词、形容词和状态词。根据《语法讲义》[22]对谓词的定义,结合中英文规范,本规范中规定谓词词性的选取范围是动词和形容词,其中,动词包括名词性的动词。

    (2)基于词的论元表示 语义关系是对词所反映场景的概括,是实词与实词之间的语义联系。现有的中文SRL规范都以句子的片段(词、词组或子句)作为论元成分。在标注的时候,需要标注人员确定句子片段的边界,使标注过程复杂化。所以我们采用基于词的标注,将规范简化为轻量级的SRL规范。但如果论元对应一个句子片段,例如“我喜欢打篮球”中谓词“喜欢”对应的内容论元“打篮球”是个子句,就需要标注者从子句中确定唯一的代表词作为论元,为此我们制定了相关规则。例如,实词的优先级大于虚词等。和以片段为论元的规范相比,以词为论元的规范标注的信息可能不完整,但可以用句中的其他谓词、依存句法等信息进行补偿。

    (3)使用精简的语义角色标签 我们需要尽可能精简且能将句子浅层语义表达出来的语义角

    色标签。如果语义角色标签的数量过多,会大大增加标注的难度;如果语义角色标签数量过少,句子中谓词所表达的真实场景无法刻画清楚。本规范采用了北大规范中的绝大部分角色标签,但给出了标签更详细、明确的适用范围。另外,对于显式标注 缺 省 的 核 心 论 元,我 们 增 加 了 隐 藏 主 体(hidden-subject)和隐藏客体(hidden-object)标签;考虑到句子中“上班”“见面”等谓词会以“上了班”“见过面”等离合的形式出现,我们又增加了一个离合(separated)标签;北大规范中的路径(path)角色适用于基于片段的论元标注,而我们采用基于词的论元标注,因此我们删除了path标签。目前规范包含28个语义角色,其对应的语义角色标签如表1所示。

    (4)显式标注缺省论元 对句子中省略成分的把握有助于完整理解句子的意思,例如“我吃了”,从概念层面上我们可以感知“吃”后面存在核心角色的省略。我们要标注的谓词论元成分不仅是句子中实际存在的语言单位,还可能是概念层面可以感知但句子中没有出现的隐含成分。

    21

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 4期 刘亚慧等:一种轻量级的语义角色标注规范

    表1 语义角色标签汇总表

    论元角色标签 论元角色 例句 标注论元

    agent 施事 我[打]他 我

    co-agent 共同施事 我和他[讨论] 我、他

    expe(experiencer) 当事 天气真[好] 天气

    iexpe(indirect-experiencer) 间接当事 他心情不[好] 他

    hidden-subject 隐藏主体 [吃]饭了吗 隐藏主体

    patient 受事 他被[打]了 他

    target 对象 他[敬爱]老师 老师

    content 内容 他[知道]那件事 事

    result 结果 [造]了个房子 房子

    dative 与事 [给]他书 他

    relative 系事 这[是]他的书 书

    hidden-object 隐藏客体 你[吃]了吗 隐藏客体

    tool(instument) 工具 用毛笔[写]字 毛笔

    material 材料 用颜料[刷]墙 颜料

    manner 方式 按计划[执行] 计划

    loc(location) 处所 在学校[学习] 学校

    beg-loc(beginlocation) 起点 从学校[出发] 学校

    end-loc(endlocation) 终点 [流]入大海 大海

    dir(direction) 方向 向西[流] 西

    time-span 时间段 近日[很忙] 近日

    time-point 时间点 星期天去[打篮球] 星期天

    beg-tm(begintime) 开始时间 比赛七点开始[进行] 七点

    end-tm(endtime) 结束时间 会议[开]到三点 三点

    range 范围 在数学上[有]天赋 数学

    reason 原因 我因为爱你才[撒谎] 爱

    purpose 目的 我为了成名而[努力] 成名

    quantity 事量 我[跑]了一圈 一圈

    separated 离合 我们[见]过面 面

    (5)适合不同的分词粒度。为了避免人工标注分词,我们使用ChineseTreebank标准的分词工具先对文本进行自动分词,然后在自动分词的文本上进行语义标注。自动分词难免会出现分词粒度不一致,但分词结果可以接受的情况,因此我们在规范中充分考虑了这个因素,使其适合不同的分词粒度。例如,句子“他挨揍”有两种不同的分词粒度,如图3所示。若“挨揍”分开,则“挨”和“揍”均可作谓词进行标注。如果“挨”为谓词,则“他”是“挨”的施事,“揍” 图3 不同分词粒度的示例

    31

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 中 文 信 息 学 报 2020年

    是“挨”的内容,因为“挨”有“忍受”的意思,是“他”的自主行为;如果“揍”作为标注对象,那么“他”是“揍”的受事,概念层面上可感知到缺少“揍他”的施事;如果“挨揍”作为一个谓词,“他”为“挨揍”的当事。

    随着语义标注工作的进行,我们肯定会遇到目前规范中没有考虑到的问题,届时我们将对其进行深入的研究,积极与其他专家交流、分析,不断更新和完善我们的规范。

    2 谓词范围的规定

    本规范谓词词性范围为动词和形容词,其中动词包括名词化的动词,例如,“理论 与 实际 的 结合是 很 紧密 的”中的“结合”我们也是需要作为谓词进行标注的。若句子中没有我们规定的谓词词性,例如,“今天周五”中只有名词等,我们不对其进行标注。一般来说,句中的谓词都应作为标注对象进行标注。在进行浅层语义分析时,只需要选择句子中对句义有重要影响的谓词进行标注。若谓词对提取句子浅层语义没有帮助,则不进行标注。

    对于不适合作为标注对象的谓词,我们做了以下总结和规定:

    ① 谓词概念义比较虚,在句子中主要起到了满足韵律或语法结构的作用。该类谓词主要有能愿动词、形式动词、趋向动词、使役动词等,例如,“我要吃苹果”中的“要”是辅助谓词“吃”来表达说话人的主观信息,是能愿动词,在句中只起到了助动词的语法作用。

    ② 在句子中只起到指称作用,且句中不存在和它有语义关系的核心论元成分。“比赛进行了三个小时”中的“比赛”不作为谓词进行标注,它只起到指称的作用,且句子中也不存在与“比赛”有语义关系的核心论元成分,但句子“考研培训机构发财了”中的“培训”需要进行标注,因为“考研”和“机构”都是与“培训”有语义关系的核心论元成分。标注如图4所示。

    图4 有核心论元成分的示例

    ③ 生活中常用的交际口语没有谓词性作用,不进行标注。例如,日常交际口语中的“您好”,只是表示单纯的礼貌。

    ④ “是”或“有”在句子中和其他谓词一起出现,仅仅起到语法作用时,不对其作为谓词进行标注。例如,“飓风是可怕的”“我有爱过你”,仅仅将“可怕”和“爱”作为谓词进行标注就可以提取出句子中“飓风可怕”和“我爱你”的语义信息。

    ⑤ 由于形容词和副词的界限比较模糊,我们规定当形容词作为补语或状语修饰谓词时,不进行标注。例如,“他工作很努力”和“他很努力地工作”中的“努力”不作为谓词。因为“工作”作为谓词时,已经将句子基本概念义“他工作”提取了出来。

    在句子中可能不止一个谓词,例如,“我坐下品尝自己摘的果子”中的“坐”“品尝”和“摘”都是谓词。对于这种有多个谓词的句子,通过多次复制该句,分别对各个谓词进行标注。每个谓词只表达了句子局部的谓词—论元信息,为了将整句话的浅层语义表达出来,最终将会把句子中所有的谓词标注进行合并。

    3 语义角色标签介绍

    对于论元成分,应该最大限度地将句子里谓词对应真实场景中的全部参与成分都标注出来。本规范中将论元角色分为核心角色、附加角色和其他角色三大类,如图5所示。

    ① 核心角色是谓词的词汇语义所涉及的最基本的且比较重要的参与者,缺少了这样的参与者,该谓词表达的概念义就不完整。

    ② 附加角色又称非核心角色,是谓词所表达的动作或行为所涉及的相对次要的参与者,没有这些参与者一般不会对句义造成严重的影响,有了这些参与者会使句子的概念义更加清晰、详细。

    ③ 其他角色中目前只有离合角色,离合角色对应的论元成分是离合词的一部分。完整的谓词应该是离合词整体,只不过在特定情况下被“着、了、过”等虚词分开了,无法将其归为核心角色或附加角色。

    根据语义角色的分类,我们将语义角色标签分为主体标签、客体标签、附加标签和其他标签四种。以下将对较为重要的语义角色标签进行详细介绍。

    3.1 主体标签

    主体标签所标注的论元一般充当谓词所表达动

    作或行为的发出者或描述者。

    41

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 4期 刘亚慧等:一种轻量级的语义角色标注规范

    图5 所有论元角色列表和层次关系

    施事(agent):规定施事是谓词所表达动作或行为的发出者,并且发出者具有主观意愿。一般是由指人的名词充当,也可以是动物,有时也可以是拟人化的无生命物。

    共同施事(co-agent):规定共同施事是谓词所表达动作或行为的发出者。有些谓词要表达的动作或行为需要多个人共同参与才能完成,并且这些参与者在事件中的地位都是相同的,我们规定将最先出现的施事标为agent,其余的施事标为co-agent。

    当事(experiencer,expe):①谓词所表达的动作或行为的经历者,且经历者不具有主动行为能力(即不具有主观意愿,和施事对立);②谓词所表达的性质或状态的被描述者,这时的谓词通常是形容词、关系动词(如“是、当、作为”等)或存现动词(如“出现、发生”等)。

    间接当事(indirect-experiencer,iexpe):规定间接当事是句子中与当事论元密切相关的成分。为避免范围过宽,我们规定间接当事与当事之间的关系主要有“整体—部分”“实体—属性”“实体—亲属称呼”这三种情况。

    3.2 客体标签

    客体标签所标注的论元一般是谓词所表达动作

    或行为的承受者,有时也描述主体角色的状态。受事(patient):规定受事是谓词所表达动作和

    行为的承受者,并受到谓词一定的影响。受事通常可以用介词“把(将)”引出。

    对象(target):规定对象是表达态度、感知和感情等动词后面的内容,一般为人或物的名词。典型

    的“对象”角色一般可以用“对”或“向”等介词引导,但不能用“把”字引出,对象成分不会受动词所表达的动作影响。

    内容(content):规定内容是谓词表达信息传递、处理(“喊、记录、学习”等)或心理活动(“知道、认为”等)后面的客体论元。

    结果(result):规定结果是动作或行为发生而产生的成品。谓词中制作义动词后面的内容一般标为result。

    系事(relative):规定系事是关系动词或存现动词中的客体角色,一般与当事对应。

    与事(dative):规定与事是与谓语所表示的动作或行为没有明显施受关系的客体论元,本规范中限定与事为双宾语结构中的间接宾语。

    3.3 附加标签

    附加标签太多,选个别在标注过程中难以标注的典型附加标签进行介绍。

    处所(location,loc):处所是指谓词动作或行为发生的空间或地点,包括抽象地点和具体地点。

    时间点(time-point):规定时间点是谓词动作或行为发生的时刻,例如,“星期天、今天”表示时点,即时间的位置或早晚。一般由“在……时、当……时候”等引出。

    时间段(duration):时间段指谓词动作或行为发生的时间段,是一个时间点与另一个时间点之间的时间差,例如,“两天内、这段时间”等。

    方式(manner):规定方式指谓词动作或行为发生过程中所采取的方式、方法、姿态、形式,通常可以

    51

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 中 文 信 息 学 报 2020年

    由“用、以”等介词引出,可以进一步扩展为“用/以……方式/方法”来修饰谓词。

    范围(range):范围指谓词动作或行为所涉及的方面或范围。一般可以用“在……方面”来对范围论元进行提问。

    事量(quantity):规定事量是动作或行为所涉及的数量、频率、时长、幅度等。

    3.4 其他标签

    离合(separated):①词中字搭配非常紧密,通常一起出现,但也可以根据一定的形式插入其他语言成分;②无法通过每个字的基本含义组合得到词语的含义;具有这两个特点的词为离合词。

    上述就是规范中比较重要的语义角色标签。我们的标签和北大标签相比,增加了离合标签和隐藏标签,去掉了路径标签,对于其他标签我们给出了更详细、明确的标签适用范围(在本文4.4节给出)。

    4 规范中的创新点

    4.1 基于词的标注

    北大规范中标注的论元成分不限于词,可以是词组或小句。基于语义标准,论元成分即语义上描述了一个完整的实体、数量、时间、空间、事件(活动)等单位构成的一个“语义块”[23]。

    “语义块”可以清楚地表达事件,但是标注过程非常麻烦。①标注过程中会标注冗余的成分。对于“把桌子放在窗户边上”,北大规范标为:“[%受事把桌子 %][#放#][%处所 在 窗户边上%]”,其中 “把”“在”等片段中的虚词、介词也被标注出来了;②需要标注者确定论元的边界。句子“[%当事这 %]是 多么 [#美妙#]的 [%+当事 前景

    %]”中,选“美妙”作为谓词,北大规范用特殊符号“+”将“这”和“前景”连起来,分别标注为“当事”和“+当事”,以表示同一个论元。此外,语言学观点上的不同也导致标注者之间产生分歧,标注一致性较差。与前人不同,我们提出的规范只将“前景”作为论元,很大程度上减小了标注的工作量和难度,同时也标注出重要的语义信息。

    CPB、CNB和FrameNet也是将片段标为论元,且将语义分析转换成框架成分的识别和分类任务。他们依据词义的场景表述,将同一个场景的动词归为一类,场景由框架实现,语义角色是场景的参与

    者,也是框架的一部分。这种标注需要标注者有很扎实的语言学功底,不适合非语言学背景的标注者进行标注。

    我们的规范标注的论元成分都具体到词。以词为论元的标注形式简洁、便于应用,避免了片段边界的确定。相对于CPB、CNB和FrameNet,我们不再基于框架,只从谓词出发,根据句子上下文信息进行分析和标注,适用于非语言学背景的标注者。

    4.2 论元词的选取

    从句子片段中选择一个词作为论元,我们基本的原则是选取片段中对表达语义很重要的词作为论

    元成分。具体而言,词的部分重要程度顺序如下:(1)谓词(通常是动词)在语义上最重要,我们

    规定谓词优先级大于其他词。例如,在“我喜欢打篮球”中,我们将“打”选取为谓词“喜欢”的论元成分。

    (2)虚词在句中只是起到了表示各种语法的作用,我们规定实词的优先级大于虚词。例如,在介宾短语结构中,我们选取宾语部分作为论元成分。此外,像图6中的“们”是助词,我们将“老人”选作论元成分。

    图6 实词优先级大于虚词示例

    (3)名词短语中,具体姓名更重要,例如“白求恩 大夫 受伤 了”,“受伤”的施事标为“白求恩”,而不是“大夫”;在方位词短语中,规定方位词大于地点或时间词,例如,“在桌子上放着一杯水”,“上”应该标为“放”的主体角色,而不是“桌子”;数量词短语中,规定量词优先级大于数词,例如,“我走了一趟”,当“一”和“趟”分开时,我们将“趟”作为事量论元。

    (4)句子片段中存在重复表达同一个实体的情况,我们规定将这样的重复成分同时标注为相同的语义角色。例如,“克林顿,美国总统”中“克林顿”和“美国总统”属于重复表达,但需要区分的是“美国总统克林顿”和“美国的克林顿总统”都只描述了一个语义角色,不属于实体的重复表达。

    以上只列出了部分词选取规定,还有一些其他的规定,详情可见规范。

    4.3 缺省论元的标注

    在真实语料当中,为了避免重复、突出新的信

    61

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 4期 刘亚慧等:一种轻量级的语义角色标注规范

    息,句子中会出现省略,但是根据句子表层的概念义我们可以感知到句子缺失成分。在进行语义角色标注的时候,我们需要尽可能地将句子中缺少的论元成分找到,进而减少信息的缺失。句中的省略是特别灵活的、动态的、对语境有很强的依赖性和严格的时效性,但语义角色标注的范围是句子,我们无法掌握整个语言环境,所以不可能理解出缺失的是什么内容。由于核心角色在句子中最重要,所以我们只规定了“隐藏主体”和“隐藏客体”两个标签,便于将缺省的核心论元成分标注出来。如图7所示,隐藏了“爱”的施事。此外,句子中可能存在省略了多个主体论元或多个客体论元的情况,例如,“开会!”这个句子中,可能省略了agent(“我”)和co-agent(“他们”),但也可能省略了一个agent(“我们”);“我送”这个句子,没有上下文语境也有两种情况,可能省略了dative(“他”,我送他礼物)和patient(“礼物”,我送他礼物),也可能省略一个patient(“他”,我送他去车站)。由于在省略的场景下,无法确定到底省略了几个主体或客体,因此我们统一只标注一个隐藏主体或隐藏客体。如图8所示,“给”后面缺少与事和受事两个客体角色,即“给谁什么”中的“谁”和“什么”。

    图7 隐藏主体 图8 隐藏多个客体

    4.4 复杂情况处理的规定

    规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析,帮助标注者进行选择,以保证标注数据的一致性和提高标注数据的质量。

    深层语义 VS.浅层语义 本规范的目标是标注句子的浅层语义结构,因此在标注的时候不需要进行深层次的语义推理和联想。例如,句子“他 是 一个 善良 的 人”中,人和善良有最直接的语义关系,“人”为“善良”的当事,通过推理可以得出“他”和“善良”也有间接的语义关系,即“他”是“善良”的当事。但是,“他”和“人”不是重复,也不是并列,如果都标注为“当事”说不通。

    核心角色 VS.非核心角色 核心角色和非核心角色是不能混为一谈的,必须有明确的界限。核心角色是句子中不可或缺的,而非核心角色可以缺失,如句子“我们在六点到家了”中,“家”并不是地点,而是客体角色受事。因为这里的“到”是及物动词,后

    面一定缺少东西。仅仅“我们到”不能表达出句子的浅层语义。而在句子“我们在家里做饭”中,“做饭”为谓词时,我们将“家”标为附加角色“处所”,“做饭”并不缺少客体角色,“家”标为附加角色使事件表达更加完整。还有句子“这一刻,他等了太久”中,“这一刻”是“等”的宾语,应标为核心论元受事,不能理解为“为了这一刻,他等了太久”而将“这一刻”判定为附加论元。

    与事 VS.对象 当与事标签与对象有交叠时,若谓词是典型的双宾语动词,则标注为与事。通常与事成分在一个物体或信息转移概念结构中扮演接

    收者或给与者角色。当对象和与事都可以标注的时候优先标注为与事。

    对象 VS.内容 ①如果论元成分是从句或者抽象名词,通常标注为内容;如果论元是表示具体的人或物的名词,通常标注为对象。例如,“发现秘密”和“发现武器”中的“秘密”和“武器”分别标注为内容和对象;②如果谓词所表达的动作或行为具有信息传递作用,通常标为内容;③采用自问自答的方式来帮助判断,即对其相应的论元成分进行提问。如“我喜欢的对象是谁?”的回答是“我喜欢的对象是你”,那么“你”标注为对象;而“我喜欢的内容是什么?”的回答是“我喜欢你的演讲”,那么“演讲”标注为内容。

    方式 VS.工具 方式和工具有时候会混淆,例如“他 用 英语 写 文章”,“英语”标为 manner和

    tool都可以,因manner标签应用更广泛、更容易理解,我们规定优先标注manner。

    “的”字结构 句子中有一些复杂结构,需要明确说明。“的”字结构是真实语料中经常遇到的,例如“买菜的走了”,我们可以明显感知到“的”字后面省略了“人或顾客”等,我们对于此类的省略不标注“隐藏主体”标签,而是在“的”字上标注施事,因为“的”字比较特殊,标在“的”字上我们就可以知道它后面缺少了东西。但是像“我很快乐的”,这个“的”是为了完善句子的句法结构。

    比较结构 在一些日常场景中,我们经常会用到“比较结构”,其中谓词通常为形容词,我们只把与谓词语义最相关的成分作为论元标注,例如“大西洋没有太平洋大”,“大”为谓词时,我们标“太平洋”为当事,由于我们是浅层语义角色标注分析,“太平洋大”将句子局部意思已经表达出来了,所以对于其参照物“大西洋”,我们目前暂不标注。

    疑问词 我们将疑问句中的疑问词也做了明确的规定。当无法判断“谁、哪里、怎么”等疑问词应该

    71

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 中 文 信 息 学 报 2020年

    标注为哪个角色时,我们规定:①核心角色中,优先标注为施事或受事;②时间角色中,论元优先标为时间点;③空间类角色中,论元优先标注为处所。

    5 标注实践

    为了更好地支持语义角色标注工作,我们将该任务添加到了自己开发的标注系统①中。根据我们的规范,在标注系统上标注了北大公开的约1.5万个谓词,并对数据的标注结果进行了分析。此外,基于本规范和北大规范对该数据的标注结果进行了对

    比分析。在给真实文本中的句子进行语义角色标注时,

    衡量标注质量的最重要的指标是角色标签的一致

    性。在标注系统中,为了提高标注的一致性,对于一个句子,我们会让两个标注者进行标注,如果所有的标注弧都一致,则将其确定为正确答案,否则让审核专家进行审核。如果对审核结果没有疑问,那么句子标注完成,否则让权威专家进行判定。我们对数据标注的结果进行统计分析发现,两个人标注相同弧数的一致率为84.4%,达到了预期的目标。

    与北大规范的标签相比,我们增加了隐藏标签(hidden-subject,hidden-object)和离合标签(separa-ted),去掉了北大规范中的路径标签(path)。通过对标注数据的结果进行统计分析发现,标注的隐藏标签数量占我们标注总标签数量的6.8%,其中

    5.3%是hidden-subject,1.5%是hidden-object,可以看出有不少的句子中存在缺省现象,且缺省的往往是主体角色。为了将句子的语义表达完整,显式地指出该句子存在缺省是非常有用的。此外,离合标签数量所占比重为0.1%,可见离合词的数量比较少。例如,“我 看 得 见 你”中当“看”为谓词、“见”为论元成分时,我们无法通过“看”和“见”的基本含义组合得到词语的含义。北大规范的谓词可以是片段,所以他们将“看得见”整体作为谓词进行标注,而我们的谓词是以词为单位的标注,所以只能通过离合标签将其连在一起。因为我们的标注是基于词的论元成分,对于北大规范中的path标签的标注,例如,“那 公共 汽车 是 顺着 朝 北京 去 的 道路 行驶”,一般都可以用其他标签loc、patient、manner、

    expe等进行代替,为了简化,则去掉了该标签。我们的规范和北大规范中对于谓词的定义不一

    样,所以在标注系统中,设置了“不是谓词”的选项。在标注者进行标注的过程中,如果该谓词不符合我

    们对于谓词的规定,标注人员可以选择“不是谓词”选项来帮助我们完成对谓词的判定。在标注的任务中不是谓词的任务占总任务的12.1%,这12.1%的句子中谓词主要是介词、特殊结构中的“是”或“有”、作为补语或状语的形容词。虽然北大规范对于谓词的定义是“动词、形容词、状态词”,但有时候他们将介词也作为谓词进行了标注,如“惊异 和 喜悦 交织在 一起”中的“在”。

    为了检验数据标注的合理性,我们将自己标注的标签和北大标注的标签进行了对比,结果显示我们与北大论元成分相同且标注标签相同的一致率为

    77.73%。在不一致的22.27%标签中,占全部不同标签比重较大的标签如表2所示,其他的比重都在

    5%以下。在我们和北大标注相同的论元中:①北大标expe而我们标agent的数量占全部不同标签数量的比重为14.6%,主要是因为我们认为“接受”“反对”等谓词也是行为,应该纳入施事的标注范围;

    ②北大标relative而我们标patient,主要是因为我们对于relative的定义和北大标注的不同,北大规范中“表达当事的属性、类别、身份或状态”的定义太模糊,为了容易区分relative和patient,我们将relative的定义进行了限制,只有存现动词或判断动词的客体才标为relative;③北大标loc而我们标expe或

    patient的比例为11.3%,主要是因为我们认为对于部分谓词来说,主体角色和客体角色是不可或缺的,例如“这 是 我 第一 次 来到 这里 。”中的谓词“来到”明显是缺少客体角色的,不应该将“这里”标为附加角色loc。

    表2 相同论元,标注不同标签的部分比重

    北大标签 苏大标签 占全部不同标签的比例/%

    expe agent 14.6

    relative patient 5.5

    content patient 5.8

    loc expe 5.7

    loc patient 5.6

    除了论元词相同的情况,我们还分析了论元词不在北大标注的论元片段内的情况。其中我们标注

    expe和reason的比重较大,分别为11.4%、20.4%。我们多标出的论元成分主要是因为以下两种情况:

    ①类似“A1是A2的A3”,当“A2”为谓词时,我们将

    81

    ① http://hlt.suda.edu.cn/index.php/COPAD

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 4期 刘亚慧等:一种轻量级的语义角色标注规范

    其修饰的A3标为相关论元,当谓词为“是”时,我们将A1和A3标注为相关论元,而北大只是将A1标注为相关论元。例如,“这 是 求之不得 的 好 机会”中“求之不得”为谓词,我们将“机会”作为当事论元,而北大标注将“这”标注为当事论元。②原因的定义本身就很模糊,例如,“我 对 你 的 成功 感到 非常高兴”中的“成功”可以说是谓词“感到”的原因,但是一般很难想到将其作为原因论元,所以我们规定存在明显原因标志词的论元成分才标为reason。例如,“因 健康 欠佳 而 被迫 辞去 此 职”中“辞去”作谓词,“欠佳”可以标为谓词相关的原因论元成分。另外,北大数据中有一些只标了谓词,但没有标注论元成分的句子。如“信息 频道 元月6日 和29日

    20:45播出”中“播出”为谓词时,我们认为该句中有与谓词相关的论元成分,“20:45”可以标注为时间,“频道”标为施事,“播出”后面缺少宾语,标为隐藏客体。

    通过对比分析我们和北大标注在1.5万条数据上的标注结果,可以发现本规范和北大规范之间的异同点。因为规范里面还存在很多问题,标注人员对于规范的理解程度也不够深入,所以标注结果中也存在一定的错误,但从总体来看,标注的效果达到预期的目标。

    6 总结与展望

    本文深入调研了PropBank规范、北大规范和其他相关语言学理论,充分融合了已有语义分析工作的优点,提出了一种轻量级的中文语义角色标注规范,“轻量“主要体现在:①不再根据谓词框架的编号标注谓词;②不维护谓词框架,标注时也无须考虑谓词框架,通过语义角色做基本的区分;③舍弃片段,以词作为论元单元,避免了对片段边界的确定。规范中,我们采用了28个语义角色标签,并针对各种复杂语言现象给出了明确的优先级规定,从而尽可能准确地区分和标注谓词相关的各种论元角

    色。以词为论元单位简化了标注,支持非语言学专业的非语言学背景的标注者使用,并保证标注一致性。最后,我们对北大公开的约1万句语义数据进行了重新标注,分析了数据上的标注一致性,并与基于北大规范标注的数据进行了对比分析。目前我们的规范应该还存在很多问题,随着后续大规模标注的展开,我们会根据标注中遇到的问题对其进行不断完善。同时也会尽快将规范发布,获得学术界同

    行的反馈。

    参考文献

    [1] AbendO,RappoportA.Universalconceptualcogni-tiveannotation(UCCA)[C]//Proceedingsofthe51stAnnualMeetingoftheAssociationforComputationalLinguistics,2013,1:228-238.

    [2] BanarescuL,BonialC,CaiS,etal.Abstractmeaningrepresentationforsembanking[C]//Proceedingsofthe7thLinguisticAnnotationWorkshop,Sophia,Bulgar-ia,2013:178-186.

    [3] CheW,LiZ,LiuT.Ltp:AChineselanguagetech-nologyplatform[C]//Proceedingsofthe23rdInterna-tionalConferenceonComputationalLinguistics:Dem-onstrations.AssociationforComputationalLinguis-tics,2010:13-16.

    [4] 车万翔,刘挺,李生.浅层语义分析[C]//全国第八届计算语 言 学 联 合 学 术 会 议 (JSCL-2005)论 文 集,

    2005.[5] 刘挺,车万翔,李生.基于最大熵分类器的语义角色

    标注[J].软件学报,2007(03):565-573.[6] SurdeanuM,HarabagiuS,WilliamsJ,etal.Using

    predicate-argumentstructuresforinformationextrac-tion[C]//Proceedingsofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics,2003:

    8-15.[7] NarayananS,HarabagiuS.Questionansweringbased

    onsemanticstructures[C]//Proceedingsofthe20thInternationalConferenceonComputationalLinguistics.AssociationforComputationalLinguistics,2004:693-701.

    [8] WuD,FungP.CansemanticrolelabelingimproveSMT[C]//Proceedingsofthe13thAnnualConferenceoftheEAMT,2009:218-225.

    [9] ZhouJ,XuW.End-to-endlearningofsemanticrolela-belingusingrecurrentneuralnetworks[C]//Proceed-ingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceon NaturalLanguage Processing,

    2015,1:1127-1137.[10] HeL,LeeK,LewisM,etal.Deepsemanticrolela-

    beling:Whatworksandwhatsnext[C]//Proceed-ingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics,2017:473-483.

    [11] TanZ,WangM,XieJ,etal.Deepsemanticrolela-beling withself-attention[C]//Proceedingsofthe32nd AAAIConferenceon ArtificialIntelligence,

    2018:4929-4936.[12] HeL,LeeK,LevyO,etal.Jointlypredictingpredi-

    91

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]

  • 中 文 信 息 学 报 2020年

    catesandargumentsinneuralsemanticrolelabeling[C]//Proceedingsofthe56thAnnualMeetingoftheAssociationfor Computational Linguistics,2018:

    364-369.[13] PalmerM,GildeaD,KingsburyP.Theproposition

    bank:Anannotatedcorpusofsemanticroles[J].ComputationalLinguistics,2005,31(1):71-106.

    [14] MeyersA,ReevesR,MacleodC,etal.AnnotatingnounargumentstructureforNomBank[C]//Proceed-ingsofthe2004LanguageResourcesandEvaluationConference,2004,4:803-806.

    [15] BakerCF,FillmoreCJ,LoweJB.TheBerkeleyframenetproject[C]//Proceedingsofthe17thInter-nationalConferenceon ComputationalLinguistics-Volume1.AssociationforComputationalLinguis-tics,1998:86-90.

    [16] XueN,PalmerM.AnnotatingthepropositionsinthePennChineseTreebank[C]//Proceedingsofthe2ndSIGHAN WorkshoponChineseLanguageProcess-ing-Volume17.AssociationforComputationalLin-

    guistics,2003:47-54.[17] XueN.Annotatingthepredicate-argumentstructure

    ofChinesenominalizations[C]//Proceedingsofthe2006LanguageResourcesandEvaluationConference,

    2006:1382-1387.[18] 杨敏,常宝宝.基于北大网库的语义角色分类[C].第

    五届全国青年计算语言学研讨会论文集,2010.[19] 夏乔林,穗志方,常宝宝,等.融合概念与逻辑的中

    文深层语义描述体系[J].中文信息学报,2019,33(8):1-11.

    [20] HajičJ,HajičováE,MikulováM,etal.Praguede-pendencytreebank[M].HandbookofLinguisticAn-notation,2011:555-594.

    [21] 郭丽娟,李正华,彭雪,等.适应多领域多来源文本的汉语依存句法数据标注规范[J].中文信息学报,

    2018,32(10):28-35,52.[22] 朱德熙.语法讲义[M].北京:商务印书馆,1982.[23] 丁伟伟,常宝宝.基于语义组块分析的汉语语义角色

    标注[J].中文信息学报,2009,23(5):53-62.

    刘亚慧(1996—),硕士研究生,主要研究领域为

    语义分析。

    E-mail:[email protected]

    杨浩苹(1997—),硕士研究生,主要研究领域为

    语义分析。

    E-mail:[email protected]

    李正华(1983—),通信作者,博士,副教授,主要

    研究领域为词法分析、句法分析、语义分析。

    E-mail:[email protected]

    02

    Please contact to Foxit Software for the licensed copy.

    Web Site:www.FoxitSoftware.com

    Sales and Information:[email protected]

    Techincal Support:[email protected]