报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语言处理实验室 nlp.suda

报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋

苏州大学自然语言处理实验室http://nlp.suda.edu.cn/

词汇语义资源在中文关系抽取中的应用

http://nlp.suda.edu.cn/



1. 问题描述

2. 研究现状

3. 研究内容

主要内容

2

4. 研究方法

5. 实验结果与分析

6. 总结与展望

1. 问题描述

33

实体语义关系抽取简称关系抽取，是信息抽取中的重要研究内容之一。其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如：关系实例“他的妻子”中的存在的PER-SOC关系。

研究意义关系抽取对自然语言处理的许多应用，如内容理解、问题回答、自动文摘以及社会关系网络构建等都具有重要的意义。

实体语义关系抽取简称关系抽取，是信息抽取中的重要研究内容之一。其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如：关系实例“他的妻子”中的存在的PER-SOC关系。

研究意义关系抽取对自然语言处理的许多应用，如内容理解、问题回答、自动文摘以及社会关系网络构建等都具有重要的意义。

2. 研究现状

44

中文关系抽取基于特征向量的方法

关系实例的特征包含词汇、组块、句法和语义等各种信息。如车万翔等 [2005]；董静等 [2007]； Li 等 [2008]

基于核函数将关系实例表示成的离散结构，如：

字符串： Che等 [2005]；刘克彬等 [2007]句法树：黄瑞红等 [2008]，虞欢欢等 [2010]

中文关系抽取基于特征向量的方法

关系实例的特征包含词汇、组块、句法和语义等各种信息。如车万翔等 [2005]；董静等 [2007]； Li 等 [2008]

基于核函数将关系实例表示成的离散结构，如：

字符串： Che等 [2005]；刘克彬等 [2007]句法树：黄瑞红等 [2008]，虞欢欢等 [2010]

词汇语义资源的作用

词汇语义信息对关系抽取具有重要的作用。词汇不同但是语义相近的两个词语，在句子中可表示相同的语义关系。如关系实例“毛泽东妻子杨开慧”和“周恩来夫人邓颖超”。

目前的解决方法Che 等 [2005] 等采用了编辑距离核函数，考虑了词汇之间在《同义词词林》中的语义相似度；刘克彬等 [2007]采用了字符串序列核函数，考虑了词汇之间在《知网》中的语义相似度；

不足之处两者都是在字符串核中考虑了词汇语义信息，而没有把词汇语义信息用在抽取性能最好的句法树核中。

词汇语义信息对关系抽取具有重要的作用。词汇不同但是语义相近的两个词语，在句子中可表示相同的语义关系。如关系实例“毛泽东妻子杨开慧”和“周恩来夫人邓颖超”。

目前的解决方法Che 等 [2005] 等采用了编辑距离核函数，考虑了词汇之间在《同义词词林》中的语义相似度；刘克彬等 [2007]采用了字符串序列核函数，考虑了词汇之间在《知网》中的语义相似度；

不足之处两者都是在字符串核中考虑了词汇语义信息，而没有把词汇语义信息用在抽取性能最好的句法树核中。

3. 研究内容

66

研究动机随着句法树的卷积树核在关系抽取中的广泛应用，很自然的问题是：词汇语义信息是否对基于卷积树核函数的关系抽取有用？词汇语义信息如何使用才更有益于关系抽取？

研究内容如何把词汇语义信息结合到基于树核函数的中文关系抽取中；

研究动机随着句法树的卷积树核在关系抽取中的广泛应用，很自然的问题是：词汇语义信息是否对基于卷积树核函数的关系抽取有用？词汇语义信息如何使用才更有益于关系抽取？

研究内容如何把词汇语义信息结合到基于树核函数的中文关系抽取中；

4. 研究方法

77

基于卷积树核的中文关系抽取关系实例的结构化表示关系实例的相似度计算将词汇语义类别嵌入到句法树中利用语义卷积树核函数

基于卷积树核的中文关系抽取关系实例的结构化表示关系实例的相似度计算将词汇语义类别嵌入到句法树中利用语义卷积树核函数

关系实例的结构化表示

88

合一句法和语义树 (Qian等 ,2008)将句法树和实体的语义信息 ( 实体类型等 ) 结合起来。如图所示为短语“银行总裁”的合一句法和语义树。

合一句法和语义树 (Qian等 ,2008)将句法树和实体的语义信息 ( 实体类型等 ) 结合起来。如图所示为短语“银行总裁”的合一句法和语义树。

NP

E1

NN

银行

E2

NN

总裁

TP

TP1 TP2

ORG PER

左边为句法树；

右边为实体语义树

左边为句法树；

右边为实体语义树

关系实例的相似度计算

99

卷积树核函数 (CTK, Convolution Tree Kernel) 两棵句法树的相似度为相似子树的个数，即

计算方法1) 如果 n1 和 n2 的产生式（采用上下文无关文法）不同，则

△ (n1,n2)=0；否则转 2 ；2) 如果 n1 和 n2 是词性（ POS）标记，则△ (n1,n2)= ；否则转

3 ；3) 按照如下公式递归计算

其中： #ch(n)是结点的子结点数目， ch(n,k)是结点的第 k个子结点，而(0< <1) 则是衰减因子，用来防止子树的相似度过度依赖于子树的大小。

卷积树核函数 (CTK, Convolution Tree Kernel) 两棵句法树的相似度为相似子树的个数，即

计算方法1) 如果 n1 和 n2 的产生式（采用上下文无关文法）不同，则

△ (n1,n2)=0；否则转 2 ；2) 如果 n1 和 n2 是词性（ POS）标记，则△ (n1,n2)= ；否则转

3 ；3) 按照如下公式递归计算

其中： #ch(n)是结点的子结点数目， ch(n,k)是结点的第 k个子结点，而(0< <1) 则是衰减因子，用来防止子树的相似度过度依赖于子树的大小。

2211 ,

2121 ),(),(NnNn

CTK nnTTK

)(#

12121

1

)),(),,((1(),(nch

k

knchknchnn

卷积树核函数 - 举例

下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。

NP

PN

他

NN

妻子

NP

PN

他

NN

妻子

NP

PN

他

NN

NP

PN NN

妻子

NP

PN NN

PN

他

NN

妻子

NP

PN

她

NN

丈夫

NP

PN

她

NN

丈夫

NP

PN

她

NN

NP

PN NN

丈夫

NP

PN NN

PN

她

NN

丈夫

由于两棵树在所有 6 个子树片段中有 1 个片段相同，所以两棵树的相似子树数量为 1 。

由于两棵树在所有 6 个子树片段中有 1 个片段相同，所以两棵树的相似子树数量为 1 。

语义资源 - 知网 HowNet

1111

《知网》用一系列的“义原”来对每一个“概念”进行描述。总共有 1500多个义原，这些义原分事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性等九大类。

义原的提取《知网》中每一个词语的概念定义也用多个义原来描述，不过第一基本义原反映了一个概念最主要的特征，因此我们仅抽取了词语的第一基本义原作为它的语义类别。

《知网》用一系列的“义原”来对每一个“概念”进行描述。总共有 1500多个义原，这些义原分事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性等九大类。

义原的提取《知网》中每一个词语的概念定义也用多个义原来描述，不过第一基本义原反映了一个概念最主要的特征，因此我们仅抽取了词语的第一基本义原作为它的语义类别。

方法一、将语义类别信息嵌入句法树中

1212

基本方法将实体中心词的词汇的第一义原直接嵌入到句法树中；如短语“台北大安森林公园”中，“台北”的第一义原是“地方”，“公园”的第一义原是“设施”。

基本方法将实体中心词的词汇的第一义原直接嵌入到句法树中；如短语“台北大安森林公园”中，“台北”的第一义原是“地方”，“公园”的第一义原是“设施”。

NP

E1

NR

台北

E2

NR

大安森林公园

SHN1

地方

SHN2

设施

NP

E1

NR

台北

E2

NR

大安森林公园

SHN

嵌入语义信息 - 举例

1313

NP

PN

他

NN

妻子

NP

PN

她

NN

丈夫

NP

PN

他

NN

妻子

NP

PN

她

NN

丈夫

SHN1

人

SHN2

人

SHN1

人

SHN2

人

嵌入语义信息后的相似度：嵌入语义信息后的相似度：

两棵树的相似子树数量为 3 。

两棵树的相似子树数量为 3 。

方法二、语义卷积树核函数

1414

基本思想（ SCTK ， Semantic Convolution Tree Kernel ）在匹配包含词语的子树时，考虑词汇间的语义相似度； Bloehdorn 和 Moschitti[2007]利用英文名词在 WordNet中的层次结构关系来计算词语之间的相似度，并通过语义卷积树核实现问题分类任务，取得了较好的效果。

实现方法将标准 CTK的第一步修改为：1) 如果 n1 和 n2 的产生式（采用上下文无关文法）相同，则转 2 ；否则，如果 n1 和 n2 是实体所对应的中心词的父结点，则△ (n1,n2)=

* LexSim(HW1,HW2) ；否则，△ (n1,n2)=0；

基本思想（ SCTK ， Semantic Convolution Tree Kernel ）在匹配包含词语的子树时，考虑词汇间的语义相似度； Bloehdorn 和 Moschitti[2007]利用英文名词在 WordNet中的层次结构关系来计算词语之间的相似度，并通过语义卷积树核实现问题分类任务，取得了较好的效果。

实现方法将标准 CTK的第一步修改为：1) 如果 n1 和 n2 的产生式（采用上下文无关文法）相同，则转 2 ；否则，如果 n1 和 n2 是实体所对应的中心词的父结点，则△ (n1,n2)=

* LexSim(HW1,HW2) ；否则，△ (n1,n2)=0；

词汇语义相似度的计算

1515

SCTK的核心是两个词汇之间的语义相似度计算采用的是刘群和李素建编写的基于《知网》的词汇相似度计算软件包。

软件包下载地址：http://code.google.com/p/xsimilarity/downloads/list

SCTK的核心是两个词汇之间的语义相似度计算采用的是刘群和李素建编写的基于《知网》的词汇相似度计算软件包。

软件包下载地址：http://code.google.com/p/xsimilarity/downloads/list

语义卷积树核函数 - 举例

下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。

由于使用了词汇语义相似度，两棵树的相似子树数量为 :3.72+2+1.86+1+1+0.86=10.44

由于使用了词汇语义相似度，两棵树的相似子树数量为 :3.72+2+1.86+1+1+0.86=10.44

NP

PN

他

NN

妻子

NP

PN

他

NN

妻子

NP

PN

他

NN

NP

PN NN

妻子

NP

PN NN

PN

他

NN

妻子

NP

PN

她

NN

丈夫

NP

PN

她

NN

丈夫

NP

PN

她

NN

NP

PN NN

丈夫

NP

PN NN

PN

她

NN

丈夫

(1) (1) (0.86)

(2) (1.86)(3.72)

5. 实验结果与分析

1717

语料库采用 ACE 2005中文语料库作为实验语料。该语料库定义了中文实体之间的 6 个关系大类， 18个关系小类。它包含 633个文件，其中广播新闻类 298个，新闻专线类 38个，微博和其它类等 97 个 ;

处理工具中科院计算所研制的分词系统 ICTCLAS进行分词 ; 采用支持卷积树核函数的 SVMLightTK工具包作为分类器；修改了其树核函数计算部分，以嵌入词汇之间的语义相似度；

评估方法采用五倍交叉验证策略，取 5 次平均值作为最终的性能；评估标准采用常用的准确率 (P)、召回率 (R) 和 F1指标 (F1)

。

语料库采用 ACE 2005中文语料库作为实验语料。该语料库定义了中文实体之间的 6 个关系大类， 18个关系小类。它包含 633个文件，其中广播新闻类 298个，新闻专线类 38个，微博和其它类等 97 个 ;

处理工具中科院计算所研制的分词系统 ICTCLAS进行分词 ; 采用支持卷积树核函数的 SVMLightTK工具包作为分类器；修改了其树核函数计算部分，以嵌入词汇之间的语义相似度；

评估方法采用五倍交叉验证策略，取 5 次平均值作为最终的性能；评估标准采用常用的准确率 (P)、召回率 (R) 和 F1指标 (F1)

。

实验结果 1- 嵌入语义类别信息

1818

BL：基准系统BL+HN：实体词汇义原BL+ET：加入实体类型BL+ET+HN：实体类型 + 词汇义原BL+ET+HN+HNV：上述基础上再考虑动词的义原

BL：基准系统BL+HN：实体词汇义原BL+ET：加入实体类型BL+ET+HN：实体类型 + 词汇义原BL+ET+HN+HNV：上述基础上再考虑动词的义原

50. 0

55. 0

60. 0

65. 0

70. 0

75. 0

BL BL+HN BL+ET BL+ET+HN BL+ET+HN+HNV

F1

RDMaj orSub

在没有实体类型信息的前提下，实体词汇的第一义原能显著提高性能；在已有实体类型信息的前提下，实体词汇和动词的义原降低了性能；大类和小类抽取性能的提高幅度明显大于关系检测性能，说明义原信息能辨别关系类型。

在没有实体类型信息的前提下，实体词汇的第一义原能显著提高性能；在已有实体类型信息的前提下，实体词汇和动词的义原降低了性能；大类和小类抽取性能的提高幅度明显大于关系检测性能，说明义原信息能辨别关系类型。

实验结果 2- 语义卷积树核函数

1919

BL：基准系统BL+HN：实体词汇相似度BL+ET：加入实体类型BL+ET+HN：实体类型 + 词汇相似度BL+ET+HN+HNV：上述基础上再考虑动词的相似度

BL：基准系统BL+HN：实体词汇相似度BL+ET：加入实体类型BL+ET+HN：实体类型 + 词汇相似度BL+ET+HN+HNV：上述基础上再考虑动词的相似度

50. 0

55. 0

60. 0

65. 0

70. 0

75. 0

BL BL+HN BL+ET BL+ET+HN BL+ET+HN+HNV

RDMaj orSub

在已有实体类型信息的前提下，实体词汇和动词的义原仍然提高性能，原因是第一义原只能反映主要含义，而相似度能反映总体含义；最佳性能大于直接嵌入句法树中的方法。

在已有实体类型信息的前提下，实体词汇和动词的义原仍然提高性能，原因是第一义原只能反映主要含义，而相似度能反映总体含义；最佳性能大于直接嵌入句法树中的方法。

实验结果 3- 与其它系统的比较

2020

由于语料库的规模不同，训练和测试的方法不同，比较仅供参考。

由于语料库的规模不同，训练和测试的方法不同，比较仅供参考。

系统 P(%) R(%) F1

Qian et al: Composite kernel (linear+tree) 80.9 61.8 71.1

Li et al: Feature-based 81.7 61.7 70.3

Qian et al: CTK with USST 79.8 61.0 69.2

Ours: SCTK with UPST 81.1 60.0 69.0

Yu et al: CTK with UPST 75.3 60.4 67.0

Zhang et al.: Composite kernel 81.83 49.79 61.91

6. 总结与展望

2121

在没有实体类型的前提下，词汇语义信息能显著提高中文关系抽取的性能；在已有实体类型的前提下，基于语义相似度的语义卷积树核函数能进一步提高中文抽取的性能；词汇语义信息的加入有助于小类关系抽取性能的提高，即语义信息能区分更细致的关系类型。

在没有实体类型的前提下，词汇语义信息能显著提高中文关系抽取的性能；在已有实体类型的前提下，基于语义相似度的语义卷积树核函数能进一步提高中文抽取的性能；词汇语义信息的加入有助于小类关系抽取性能的提高，即语义信息能区分更细致的关系类型。

下一步工作

2222

可利用英文语义资源 ( 如 WordNet)来提高英文关系抽取的性能。探索基于大规模语料库的词汇相似度计算方法对中英文关系抽取的影响，以缓解由于词汇语义资源的缺乏而引起的数据稀疏性问题。

可利用英文语义资源 ( 如 WordNet)来提高英文关系抽取的性能。探索基于大规模语料库的词汇相似度计算方法对中英文关系抽取的影响，以缓解由于词汇语义资源的缺乏而引起的数据稀疏性问题。

参考文献Zhou G.D., Qian L.H., Fan J.X.: Tree kernel-based Semantic Relation Extraction with Rich Syntactic and

Semantic Information. Information Sciences. Vol. 18(8). pp.1313-1325(2010)

Jiang J., Zhai C.X. : A Systematic Exploration of the Feature Space for Relation Extraction. NAACL-HLT’2007: Rochester, NY, USA. pp.113~120(2007)

Chan Y.S., Roth D.: Exploiting Background Knowledge for Relation Extraction. COLING’2010. pp. 152–160(2010)

Sun A., Grishman R., and Sekine S.: Semi-supervised Relation Extraction with Large-scale Word Clustering. ACL’2011. pp. 521-529(2011)

Zhang M., Zhang J., Su J. Zhou G.D.: A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features. COLING-ACL’2006. pp.825-832(2006)

Zhou G.D., Zhang M., Ji D.H., Zhu Q.M.: Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information. EMNLP/CoNLL’2007. pp.728-736(2007)

Qian L.H., Zhou G.D., Kong F., Zhu Q.M., Qian P.D.: Exploiting Constituent Dependencies for Tree Kernel-based Semantic Relation Extraction. COLING’2008. Manchester, pp. 697-704(2008)

Culotta A. and Sorensen J.: Dependency tree kernels for relation extraction. In Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics. ACL’2004. pp.423-439(2004)

Che W.X., Liu T., Li S.: Automatic Entity Relation Extraction. 19(2): 1-6(2005)

Dong J., Sun L., Feng Y.Y, Huang R.H.: Chinese Automatic Entity Relation Extraction. Journal of Chinese Information (in Chinese). Vol.21(4), pp. 80-85, 91(2007)

Li W.J., Zhang P., Wei F.R., Hou Y.X., Lu Q.: A Novel Feature-based Approach to Chinese Entity Relation Extraction. ACL’2008: 89-92(2008)

参考文献Che W.X., Jiang J., Su Z., Pan Y., Liu T.: Improved-Edit-Distance Kernel for Chinese Relation Extraction.

IJCNLP’2005: 132-137(2005)Liu K.B., Li F., Liu L., Han Y.: Implementation of a Kernel-Based Chinese Relation Extraction System. Computer

Research and Development(in Chinese), Vol.44(8), pp.1406-1411(2007)Huang R.H., Sun L., Feng Y.Y, Huang Y.P.: A Study on Kernel-based Chinese Relation Extraction. Journal of

Chinese Information(in Chinese), Vol.22(5), pp.102-108(2008)Yu H.H., Qian L.H., Zhou G.D. Zhu Q.M.: Chinese Semantic Relation Extraction Based on Unified Syntactic and

Entity Semantic Tree. Journal of Chinese Information(in Chinese), Vol.24(5). pp.17-23(2010)Mei J.J., Zhu Y.M., Gao Y.Q., Yin H.X.: TongYiCi CiLin second edition. Shanghai. Shanghai Lexicographic

Publishing House(in Chinese)(1996)Collins M., Duffy N.: Covolution Tree Kernels for Natural Language. NIPS’2001: 625-632(2001)Bloehdorn S., Moschitti A.: Exploiting Structure and Semantics for Expressive Text Kernels. Proceedings of the

sixteenth ACM conference on Conference on information and knowledge management, Lisbon, Portugal(2007)

Qian L.H., Zhou G.D., Zhu Q.M.: Employing Constituent Dependency Information for Tree Kernel-based Semantic Relation Extraction between Named Entities. ACM Transaction on Asian Language Information Processing. Vol.10(3), Article 15(24pages)(2011)

Lin D.: An Information-theoretic Definition of Similarity. In Proceedings of the 15th International Conference on Machine Learning. Madison, WI(1998)

Liu Q., Li S.J.: Word Similarity Computing Based on How-net. Computational Linguistics, Chinese information processing. pp. 59-76(2002)

Zhang J., Ouyang Y. and Li W.J.: A Novel Composite Approach to Chinese Relation Extraction. ICCPOL '09(2009)

Documents

报告人：钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋 苏州大学自然语言处理实验室 nlp.suda

报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋苏州大学自然语言处理实验室 nlp.suda