15
面面面面面面面面面面面面面面面面面 面面面 面面 2013 . 11 . 18

面向中文网络百科的属性和属性值抽取

Embed Size (px)

DESCRIPTION

面向中文网络百科的属性和属性值抽取. 汇报人:贾真 2013 . 11 . 18. 方法概述. 2. 主要算法. 3. 实验分析. 4. 相关定义. 1. 报告内容. 句子序列是由一系列二元组组成的有序序列 。 S = ,其中, w i 表示词语, t i 表示 w i 的 词性标注或实体标注 。. 句子序列. 由 k 个词语、词性标注或实体标注组成的有序序列 - PowerPoint PPT Presentation

Citation preview

Page 1: 面向中文网络百科的属性和属性值抽取

面向中文网络百科的属性和属性值抽取

汇报人:贾真

2013 . 11 . 18

Page 2: 面向中文网络百科的属性和属性值抽取

2

实验分析4

主要算法3

方法概述2

相关定义1

报告内容 报告内容

Page 3: 面向中文网络百科的属性和属性值抽取

3

句子序列 句子序列是由一系列二元组组成的有序序列。 S=<(w1, t1), …, (wi, ti), …, (wn, tn)> ,其中, wi 表示词语, ti 表示 wi 的词性标注或实体标注。

K元模式 由 k 个词语、词性标注或实体标注组成的有序序列 Pk=<x1, …, xi,…, xk> ,其中, xi 表示词语、词性标注或实体标注。

置信度 词语(或短语)与命名实体标注之间的关联程度

相关定义1

Page 4: 面向中文网络百科的属性和属性值抽取

4

实验分析4

主要算法3

相关定义1

方法概述2

报告内容 报告内容

Page 5: 面向中文网络百科的属性和属性值抽取

5

对文本进行分词、分句等自然语言预处理

将属性值看做命名实体,通过频繁模式挖掘和关联分析获取属性

采用自扩展方法获取属性触发词

机制

文本预处理

属性抽取

触发词抽取

模式挖掘 利用触发词自动获取模式,基于聚类算法过滤可信度低的模式

属性值抽取 利用模式从文本中抽取属性值

方法概述2

Page 6: 面向中文网络百科的属性和属性值抽取

6

实验分析4

相关定义1

主要算法3

方法概述2

报告内容 报告内容

Page 7: 面向中文网络百科的属性和属性值抽取

7

算法 1 k 元模式提取算法输入: k ;句子序列集合 Sset={S1, S2, ..., Sn} ;窗口 W ;词性 POS 集;命名实体标注集 ENE ;输出: k 元模式集合 Pkset

算法 2 词语语义相似度计算输入:经过细粒度分词后的种子 Seed={seg1, seg2, …segn} ;同义词词典 Syndictionary ;输出:扩充种子集合 Seedsynset

主要算法3

Page 8: 面向中文网络百科的属性和属性值抽取

8

算法 3 触发词提取算法输入:扩充种子词集合 Seedsynset; 属性值命名实体标注pos; k 元模式集合 Pkset 与支持度计数 ; 评分阈值 min_score;相似度权重系数 ; 置信度权重系数 β; 匹配系数 γ; 位置系数 δ 输出:属性触发词集合 Trigger.

算法 4 模式聚类算法输入:候选模式集合 Pattern ;相似度阈值 min_sim ;簇中模式最小个数 min_count ;模式最小支持度计数 min_supp输出:聚类后得到的簇 Cluster={cluster1, cluster2, …}

主要算法3

Page 9: 面向中文网络百科的属性和属性值抽取

9

主要算法3

相关定义1

实验分析4

方法概述2

报告内容 报告内容

Page 10: 面向中文网络百科的属性和属性值抽取

10

实验分析4

六类

乡镇工厂行政村

大学中小学公司

约 6万个百科条目

数据集数据集

预处理工具预处理工具

西南交通大学耶宝智慧中文分词平台http://www.yebol.com.cn

Page 11: 面向中文网络百科的属性和属性值抽取

11

属性抽取属性抽取实验分析4

类别 准确率 属性示例

大学 73.67%学校地址 , 建校年代 , 在校学生 , 现有教职工 , 纸质图书 , 本科学制 , 专任教师 , 学校占地面积 , 校舍建筑面积 , 校长

中小学 72.43%学校地址 , 学校占地面积 , 始建于 , 现有教职工 , 联系人 , 现有教学班 ,一级教师 , 校长 , 二级教师 , 建筑总面积

乡镇 65.46%位于 , 总面积 , 总人口 , 农民人均纯收入 , 辖行政村 , 总户数 , 主产 , 非农业人口 , 农业总产值 , 人均耕地面积

行政村 69.17%位于 , 隶属于 , 人均耕地 , 外出务工 , 主要种植 , 农户数 , 年平均气温 ,农田面积 , 农村经济总收入 , 种植业收入

工厂 81.47%员工人数 , 法定代表人 , 地址 , 成立时间 , 年营业额 , 厂房面积 , 月产量 ,年出口额 , 注册资本 , 联系人

公司 82.23%实现销售收入 , 公司总部位于 , 董事长 , 成立日期 , 注册地址 , 集团董事局主席 , 集团总裁 , 员工 , 股票代码 , 营业收入

表 1 类别属性抽取准确率与属性示例

Page 12: 面向中文网络百科的属性和属性值抽取

12

属性值抽取属性值抽取

实验分析4

属性 属性值总个数 准确率 召回率 F 值学校地址 3979 81.23% 80.33% 80.78%

建校年代 4103 76.26% 81.76% 78.91%

在校学生 13361 51.45% 90.43% 65.59%

现有教职工 2657 53.02% 90.78% 66.94%

纸质图书 3503 77.35% 86.11% 81.50%

本科学制 3508 74.57% 90.02% 81.57%

专任教师 8005 61.39% 85.78% 71.56%

学校占地面积 581 71.96% 88.66% 79.44%

校舍建筑面积 508 66.89% 90.75% 77.01%

校长 1840 76.06% 72.13% 74.04%

表 2 大学类别属性值抽取结果

Page 13: 面向中文网络百科的属性和属性值抽取

13

属性值抽取属性值抽取

实验结果4

类别 宏平均准确率 宏平均召回率 宏平均 F 值大学 69.02% 85.68% 77.35%

中小学 71.23% 87.68% 79.46%

乡镇 69.44% 88.76% 79.10%

行政村 71.76% 89.27% 80.52%

工厂 75.63% 91.54% 83.59%

公司 72.49% 90.03% 81.26%

表 3 类别属性值抽取结果

Page 14: 面向中文网络百科的属性和属性值抽取

14

进一步提高属性值抽取的准确率和召回率,构建能够面向实际应用的中文网络百科知识获取系统。

进一步提高属性值抽取的准确率和召回率,构建能够面向实际应用的中文网络百科知识获取系统。

今后努力方向今后努力方向

Page 15: 面向中文网络百科的属性和属性值抽取

15