14
实实实实实实 实实 实实 实实实 实实实 实实 2007.3

实体关系高效发现

Embed Size (px)

DESCRIPTION

实体关系高效发现. 何靖 刘源 涂启琛 姚从磊 邸楠 2007.3. 提纲 — 五个问题. 任务是什么 ?-- 实体关系发现 现有的方法是什么? -- 相关研究 如何定义实体间具有关系? -- 指标确定 如何有效地发现实体? -- 算法和实现 方法有效吗? -- 验证和实验 结论是什么?. 1. 任务是什么. 背景: Web v.s real life 目标:发现 Web 上的实体和他们的关系 本文重点: 提高发现实体之间关系的效率 不关心实体间关系的具体类型. 2. 已有的实体关系发现方法. 所有方法的思想 实体共现 实体关系 几个数量 - PowerPoint PPT Presentation

Citation preview

Page 1: 实体关系高效发现

实体关系高效发现实体关系高效发现

何靖 刘源 涂启琛 姚从磊 邸楠2007.3

何靖 刘源 涂启琛 姚从磊 邸楠2007.3

Page 2: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

提纲—五个问题提纲—五个问题任务是什么任务是什么 ?--?-- 实体关系发现实体关系发现现有的方法是什么?现有的方法是什么? ---- 相关研究相关研究如何定义实体间具有关系?如何定义实体间具有关系? ---- 指标确指标确定定

如何有效地发现实体?如何有效地发现实体? ---- 算法和实现算法和实现方法有效吗?方法有效吗? ---- 验证和实验验证和实验结论是什么?结论是什么?

Page 3: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

1.1. 任务是什么任务是什么背景:背景: Web v.s real lifeWeb v.s real life目标:发现目标:发现 WebWeb 上的实体和他们的关上的实体和他们的关系系

本文重点:本文重点: 提高发现实体之间关系的效率提高发现实体之间关系的效率 不关心实体间关系的具体类型不关心实体间关系的具体类型

Page 4: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

2.2. 已有的实体关系发现方法已有的实体关系发现方法 所有方法的思想所有方法的思想

实体共现实体共现实体关系实体关系 几个数量几个数量

文档集大小文档集大小 = N; = N; 感兴趣实体集合大小感兴趣实体集合大小 =n=n 方法一:方法一: O(N)O(N)

扫描文档集,获得所有实体的关系扫描文档集,获得所有实体的关系 方法二:方法二: O(n^2)O(n^2)

对兴趣实体集合,每对分别检索对兴趣实体集合,每对分别检索 方法三:方法三: O(n)O(n)

对兴趣实体集合,单个检索,发现包含共现实体的文档对兴趣实体集合,单个检索,发现包含共现实体的文档 Drawback: Drawback:

• 难以通过 search engine 获得包含实体的所有网页• 检索出来的网页依旧有很多是无用的—不包含感兴趣实体• 如果只选取 top 网页,表现出来的关系比应有关系稀疏

Page 5: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

3.3. 如何定义实体间具有关系?如何定义实体间具有关系?基本思路:采用共现基本思路:采用共现衡量共现的一些指标衡量共现的一些指标

Mutual InformationMutual Information Dice CoefficientDice Coefficient Overlap CoefficientOverlap Coefficient Jaccard CoefficientJaccard Coefficient Cosine CoefficientCosine Coefficient

Page 6: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

3.3. 如何定义实体间具有关系?如何定义实体间具有关系?测试共现有效性的实验测试共现有效性的实验

Step1:Step1: 根据指标获得两两实体的指标量根据指标获得两两实体的指标量 Step2:Step2: 对每个实体,根据指标量对相关实体进对每个实体,根据指标量对相关实体进行排序行排序

Step3: 5Step3: 5个指标选取个指标选取 topNtopN结果进入结果进入 poolingpooling Step4: Step4: 人工判断具有关系人工判断具有关系 // 不具有关系不具有关系 Step5: Step5: 用两个实验量:用两个实验量: MAP, PR11MAP, PR11测试共现测试共现有效性有效性

Page 7: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

3.3. 如何定义实体间具有关系?如何定义实体间具有关系?实验结果实验结果

采用采用 CosineCosine作为指标作为指标

Page 8: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

4.4. 有效地发现实体—基本思想有效地发现实体—基本思想基本思想基本思想

利用聚类系数比较大这一特征利用聚类系数比较大这一特征聚类系数定义聚类系数定义

|{ , | ( , ) ( , ) ( , ) } |

|{ , | ( , ) ( , ) } |u

v w v V w V w v E u v E u w EC

v w v V w V u v E u w E

Page 9: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

4.4. 有效地发现实体—基本思想有效地发现实体—基本思想验证以上直觉印象验证以上直觉印象

Page 10: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

4.4. 有效地发现实体—算法一有效地发现实体—算法一 图聚类算法:图聚类算法:

输入:兴趣实体集合输入:兴趣实体集合 初始化:初始化:

• 检索实体 i, 获得 top m 网页• 提取出现在这些网页中的实体• 设置关系矩阵 M[i][j] = 实体 j 在实体 i 的 top m 中出现的

次数 / 实体 i 的 top m 中出现的实体次数 迭代聚类:反复以下以致变化程度小于阈值迭代聚类:反复以下以致变化程度小于阈值

• 归一:一行所有元素和为 1

• 游走: Me

• 增距: M[i][j] = M[i][j]λ

每个实体的每个实体的 top ktop k 作为候选实体,采用作为候选实体,采用 cosinecosine 验证验证

Page 11: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

4.4. 有效地发现实体—算法二有效地发现实体—算法二算法一不能完全解决关系稀疏问题算法一不能完全解决关系稀疏问题算法二:概率算法算法二:概率算法

顺序加入实体顺序加入实体 ee,初始化它和其他实体关系概,初始化它和其他实体关系概率为平均关系密度率为平均关系密度

迭代过程:以致和其他所有实体关系概率低于迭代过程:以致和其他所有实体关系概率低于阈值阈值

• 测试 e 与已有集合中具有最高关系概率的实体的关系

• 采用聚类系数、反聚类系数扩散,更新与周围实体的关系概率

Page 12: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

5.5. 方法有效吗?方法有效吗?

Page 13: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

5.5. 方法有效吗?方法有效吗?

Page 14: 实体关系高效发现

信息科学技术学院 信息科学技术学院 · · 网络研究网络研究所所

6.6. 结论结论 CosineCosine 是衡量实体关系的有效指标是衡量实体关系的有效指标实体关系发现的算法选择实体关系发现的算法选择

需要高效率的时候—采用图聚类方法需要高效率的时候—采用图聚类方法 需要高召回率的时候—采用概率算法需要高召回率的时候—采用概率算法