Web 挖掘与信息抽取系统

WebWeb 挖掘与信息抽取系统挖掘与信息抽取系统

英国日用品零售商 GUS 需要准确预测未来的商品销售量，以便减少库存数量：

借助数据挖掘技术，使库存成本比原来减少了 3.8%

汇丰银行需要对不断增长的客户群进行分类，对每种产品找出最有价值的客户……

使营销费用减少了 30％

美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象……

发现可能存在欺诈的交易，节约了大量的调查成本

发现商品组合销售规律，提高销售率

我选择《货币战争》，当当又给我推荐《沉思录》、《资本战争 …》

11WebWeb 挖掘挖掘1.1 数据挖掘概述1.2Web 挖掘方法1.3Web 挖掘应用1.4Web 数据挖掘系统1.5 发展趋势

1.11.1 概述概述1.1.1 数据挖掘定义

狭义数据挖掘是知识发现 (KDD) 过程中的一个特定

步骤，是用专门算法从数据中抽取模式，然后通过解释和评价转换成最终用户可理解的知识

广义由于 KDD 的其他步骤对数据挖掘的运行性能和

结果正确性影响很大，因此 , 通常所说的数据挖掘往往包括 KDD 的全过程。

一般定义数据挖掘是从大量的、不完全的有噪声、模糊的、

随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。

特点有效性

– 保证挖掘出来的信息的可靠性；新颖性

– 要挖掘那些不能靠直觉发现的信息或知识潜在有用性

– 发现的知识有实用价值和可实现最终可理解性

– 发现的模式能被用户理解、接受、运用

1.1.2 数据挖掘涉及多学科领域数据库技术人工智能神经网络统计学模式识别知识库系统知识获取信息检索高性能计算可视化…

1.1.3 数据挖掘一般过程

数据收集：通过各种方式广泛收集用户的信息，建立必要的数据库与数据表，为数据挖掘做准备。数据处理：对收集到的信息进行诸如去噪等操作，从而确保数据能够真实反映待要挖掘的对象。数据变换：将经过去噪的数据进行一定的格式转换，使其适应数据挖掘系统或数据挖掘软件的处理要求数据挖掘：利用挖掘方法对数据进行分析，挖掘出需要的各种规则、趋势、类别、模型等模式评估：对发现的规则、趋势、类别、模型进行评估，从而保证发现的模式的正确性知识表示

数据收集

预处理

格式转换

数据挖掘

模式评估

知识表示

1.1.4 数据挖掘功能数据总结

数据压缩分类模型发现

学科分类聚类模型发现

主题聚类发现研究热点关联规则发现

如股市升降与突发事件的关联序列模式发现

如 DNA序列相似性发现依赖模型发现

如发现 A 事件发生前一定有 B 事件发生异常和趋势发现等

如：发现交易中的欺诈行为，或者根据主题词演变，发现学科研究走向等

11 网络信息挖掘网络信息挖掘

1.1 数据挖掘概述1.2Web 挖掘方法1.3Web 挖掘应用1.4Web 数据挖掘系统1.5 发展趋势

1.21.2WebWeb 挖掘挖掘1.2.1Web 挖掘（ Web Data

Mining)定义

利用数据挖掘技术，自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、有潜在应用价值的信息的过程。指从大量的 Web文档集合 C 中发现隐含模式 P 的过程： C->P

Web挖掘与传统数据挖掘

Web 挖掘传统挖掘挖掘对象

类型大量、异质、分布的Web文档。

结构化数据。

挖掘所得模式

可能是关于 Web内容的，也可能是关于 Web 结构的。

关于内容的。

预处理过程

半结构或无结构数据，预处理过程复杂、重要。

结构化数据，预处理简单。

Web挖掘与Web信息检索

Web 挖掘 Web 信息检索方法论随机的，其结果独立于

用户信息需求，也是用户无法预知的。

目标驱动的，用户需要明确提出查询要求

目的帮助用户发现文档中隐含的知识。

在于帮助用户发现资源

着眼点试图更多地理解其内容和结构。

着重于文档中显式存储的字词和链接；

评价方法收益 (Gain)

置信度 (Certainty)

简洁性 (Simplicity)

精度 (Precision)

召回率 (Recall)

1.2.2Web挖掘分类Web内容挖掘Web 结构挖掘Web 使用挖掘

WebWeb 内容挖掘内容挖掘什么是Web 内容挖掘

从网络的内容、数据、文档中发现有用信息的过程。网络信息资源由文本、图象、音频、视频等数据组成，因而 Web内容挖掘是一种多媒体数据挖掘。

挖掘策略利用搜索引擎技术直接挖掘文档的内容；在搜索引擎等工具处理基础上做进一步的处理，以便获得更为精确和有用的信息。

面临问题挖掘算法效率和可扩展性问题信息遗漏及噪声数据的处理问题私有数据保护问题数据安全问题等

WebWeb内容挖掘内容挖掘

主要应用研究内容文本摘要文本分类文本聚类关联分析分布分析趋势预测


文本摘要从文档中抽取关键信息，用简洁的形式对文档内容进行摘要或解释。这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容。有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。


文本分类文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。Yahoo!采用人工分类，大大影响了索引的页面

数目。利用自动文本分类技术可以对大量文档进行快速、

有效分类，大型搜索引擎都采用自动分类技术。


文本聚类文本聚类是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能地大，而不同簇间的相似度尽可能地小。“聚类假设”与用户查询相关的文档通常会聚类得比较靠近，而远离与

用户查询不相关的文档。意义利用文本聚类技术将搜索引擎的检索结果划分为若干个簇，

用户只需要考虑那些相关的簇，大大缩小了所需要浏览的结果数量。

WebWeb内容挖掘内容挖掘关联分析

从文档集合中找出不同词语之间的关系。实例：有人提出一种算法，可以从大量文档中发现一对词语同时出现的模式，利用该算法可在 Web 上寻找作者和书名的出现模式，从而发现了若干本在 Amazon 网站上找不到的新书籍。

以 Web 上的电影介绍作为测试文档，通过使用OEM 模型从页面中抽取词语，进而得到一些关于电影名称、导演、演员、编剧的出现模式。

从科技论文中挖掘主题词演变模式，发现学科发展趋势。


分布分析指通过对文档的分析，得到特定数据在某个历史时刻的分布情况。实例：Feldman 等人使用多种分布模型对路透社

的两万多篇新闻进行了挖掘，得到主题、国家、组织、人、股票交易之间的相对分布情况。


趋势预测指通过对文档的分析，得到特定数据将来的取值趋势。实例Wuthrich 等人通过分析 Web 上出版的权威性经济文章，对每天的股票市场指数进行预测，取得了良好的效果。

WebWeb结构挖掘结构挖掘

挖掘对象网站中超级链接结构之间的关系，它体现了文档之间的逻辑关系，与文档所处位置无关。

目标找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对 Web页面重新分类，用于寻找相似的网站，评价网站社会关系及其对应用影响。


Web 结构图

G=(V ， E)

V 是页面的集合，构成图的顶点；E是页面之间的超链集合，构成图的边。图形中，不仅顶点（页面）包含主题信息，而且，边（超链）也包含了大量潜在的语义，对它的分析构成了Web 挖掘的重要内容，即结构挖掘。


结构挖掘的主要方法PageRank

一个页面尽管没有被多次引用，但被一个重要页面引用，则这个页面很可能是重要的；一个页面的重要性被均分并被传递到它所引用的页面

HITS衡量网页重要性有两个要素（ ranking ）：权威级别（依赖于指向它的页面）、中心级别（依赖于它指向别人的页面）

ARC 基于主题相关性的挖掘，同时考虑锚点文字。

CLEVER 在计算网页权威度与中心度时，保留相关节点，裁剪无关节点。

WebWeb 使用挖掘使用挖掘挖掘对象

用户网络交互过程中产生的数据如服务器访问记录、日志记录、用户对话或交易信息、用户提问式等。

挖掘目的帮助人们理解用户行为和 Web 结构之间得关联；指导网站建设，改善网站服务效果。

挖掘方法一般访问模式跟踪通过分析 Web访问日志来理解访问倾向，获得Web 结构

信息及资源提供者分组情况。定制使用跟踪分析个人倾向，以便为每个用户定制符合其个人特色的

web站点、资源以及信息呈现方式等。

一个用户访问网络路线实例一个用户访问网络路线实例

网络信息挖掘

网络内容挖掘网络结构挖掘网络使用挖

掘信息检索观点数据库观点

数据形式非结构化、半结构化半结构化、数据库形式的网站链接结构交互形式

主要数据文本文档、超文本文档超文本文档链接结构服务器日志

记录浏览器日志

记录

表示

Bag of words 、 n-grams 、词、短语、概念或实体、关系型数

据边界标志图 (OEM) 、关

系型数据图形关系型表、图形

方法

TFIDF 和变体、机器学习、统计学( 包括自然语言处理 )

Proprietary 算法、 ILP 、 ( 修改后 ) 的

关联规则Proprietary 算法

机器学习、统计学、

( 修改后 ) 的关联规则

应用

归类、聚类、发掘抽取规则、发掘文本模式、建立模式

发掘高频的子结构、发掘网站体系结构归类、聚类

站点建设、改进与管理、营销、建立

用户模式



数据挖掘应用数据挖掘应用在金融领域中的应用

观察金融市场的变化趋势，进行贷款偿付预测和客户信用分析；对用户群体进行识别和目标市场分析；左图是 Altos 做的实时价格指数与房价指数的关联分析，可为房地产、金融机构提供参考。

数据挖掘应用数据挖掘应用在电信业中的应用

通过分析用户对电信服务的使用模式，划分用户群，使营销策略更有针对性；采用多维分析、聚类分析和孤立点分析等方法识别异常模式，追踪盗用行为；分析呼叫数据来规划和优化网络。

数据挖掘应用数据挖掘应用在销售领域的应用

有助于划分顾客群体，更精确地挑选潜在的顾客；识别顾客购买行为，发现顾客购买模式和趋势，通过关联分析更好地进行货架摆设；改进服务质量，获得更好的顾客忠诚度和满意程度。

数据挖掘应用数据挖掘应用在医学中的应用

DNA 分析利用数据挖掘技术可以进行 DNA序列间的相似搜索和比较，对同时出现的基因序列的相关分析，遗传研究中的路径分析等。

在搜索引擎中的应用对网页 Links 信息的挖掘，提高采集效率通过对网页内容挖掘，实现网页的聚类、分类、自动标引通过用户提问及操作历史记录分析，跟踪用户需求模型，提高用户的检索效果

数据挖掘应用数据挖掘应用

情报研究情报研究—— Google TrendsGoogle Trends

情报研究情报研究—— CNKICNKI 学术趋势学术趋势

其他应用银行：交叉销售分析百货公司 /超市：购物篮分析（关联规则）保险：交叉销售与客户流失原因分析信用卡：欺诈探测电子商务：网站日志分析税务部门：偷漏税行为探测警察机关：犯罪行为分析…

数据挖掘应用数据挖掘应用



Net percerptionsNet percerptions

Net Perceotion 公司的主要产品。它采用了一个叫做“实时建议”的技术，让它的产品对象（主要是网站）能够根据用户以往的浏览行为，找出与之相类似的行为，从而预测该用户后续的浏览操作，为用户提供个性化的浏览建议。

由于是实时运行的，随着浏览量的增加，它会变得越来越“聪明”。

AccrueAccrue 公司公司AccrueAccrue Insight Insight 和和 Accrue Hit ListAccrue Hit List

Accrue Insight 通过分析顾客的行为模式，帮助网站采取措施来提高顾客对于网站的忠诚度，从而建立长期顾客关系。

Accrue Hit List 是一个功能强大的 Web报表分析工具，主要运用于市场分析、信息采集等方面。

1 1 网络信息挖掘网络信息挖掘


发展趋势发展趋势

未来研究重点Web 数据挖掘的内在机制研究及其实现 Web 知识库的动态维护、更新半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法研究专门用于知识发现的数据挖掘语言及其标准化关联规则和序列模式的应用研究

2 2 信息抽取信息抽取2.1 信息抽取概述2.2 与 IE相关的研究活动2.3 信息抽取类型2.4 信息抽取系统介绍2.5 信息抽取系统设计2.6 信息抽取应用

##### ####### NHS TRUST - PATIENT CASE NOTE ########:######### ####### DOB: 1944 CLEF-RMH-Entry-Key: 52A4F6DB2B46E

AB 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. XXXXXXXXX could be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time.

5213A4F612F1

根据模版或相关的知识资源标识出重要的信息及其相关关系

recurrence

no signs of recurrence

bony lymphoedema

shooting pain in thedirection of ulna nerve

pain

Interventions

Problems

Problem Site

Locations

left arm

local, regional or distant

a year’s time

today

at this time

Time

pain clinic

clinic

pain clinic

General Surgical

pain clinic

mastectomy left open capsulotomyremoval of her prosthesis

management

management

从文本中抽取关键信息从文本中抽取关键信息

收集抽取出的信息…

Interventions

Problems

Problem Site

Locations

Time

recurrence


bony lymphoedema


pain

left arm


a year’s time

today

at this time

pain clinic

clinic

pain clinic

General Surgical

pain clinic

mastectomy left open capsulotomyremoval of her prosthesis

management

management

recurrence


bony lymphoedema


pain

left arm


a year’s time

today

at this time

pain clinic

clinic

pain clinic

General Surgical

pain clinic

mastectomyleft open capsulotomy

removal of her prosthesis

management

management

recurrence

no signs of recurrencebony lymphoedema


pain

left armlocal, regional or distant

a year’s timetoday

at this time

pain clinicclinic

pain clinicGeneral Surgical

pain clinic

mastectomy

left open capsulotomy


managementmanagement

也可跨越多个文档放射报告、病理学报告，或其它叙述性报告

来自于药品或实验中的信息

从文本中抽取关键信息从文本中抽取关键信息

自动实现相关事件的链接？What happened & why ?What was done & why ?

Interventions

Problems

Problem Site

Locations

Time

recurrenceno signs of recurrence

bony lymphoedema


pain

left armlocal, regional or distant

a year’s timetoday

at this time

pain clinic

General Surgical

pain clinic

mastectomy

left open capsulotomy


management

pain clinic

mastectomy

caused_by

bony lymphoedemaevi

dence

形成病历形成病历

CLEF-RMH-Entry-Key: 52A4F6DB2B46E Female 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, astheniaTx:imatinibMeds: unclear

Hospital EPREPR Drugs Refer Tools Help

Protocol 354Staging CT

BP

Haem Chem Immu Bact Xray ECG USS

12.10.20 Coryza: chest NAD: reassure13.10.20 URTI: wheezy: amoxycillin20.10.20 Anxiety: lump under arm: staging scan24.10.21 PEFR : 300 :10.11.21 PEFR : 400: CXR requested12.11.21 CXR Basal Consolidation: : erythromycin27.11.21 : Chest clear :07.03.30 Depression: recurrence: Paroxetine19.04.30 WCC OK01.06.31 : : rpt Rx paroxetine18.10.31 Pain L arm: : coproxamol03.03.31 Viral URTI: PEFR 350: salbutamol04.03.34 WCCAbnormal : :30.05.34 : BP, ECG NAD :

Results Letters ApptDrugs

形成一个非常简短的病历摘要CLEF-RMH-Entry-Key: 52A4F6DB2B46E

Female 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, astheniaTx:imatinibMeds: unclear

在首页上形成一个摘要

只有通过许可的人才可看到人名等信息

CLEF-RMH-Entry-Key: 52A4F6DB2B46EMaria Sklodowska-Curie

病历摘要病历摘要

2.12.1 信息抽取概述信息抽取概述信息抽取（ Information Extraction ， IE ）

信息抽取是一个输入 /输出过程输入：未知文本信息输出：固定格式、无二意性数据 ( 信息 )

这些被抽取出来的数据可以直接显示给用户存储于数据库或电子表格中以供随后分析被用于索引系统，以便于将来进行检索访问

2.12.1 信息抽取概述信息抽取概述IE目标

将信息点从各种各样的文档中抽取出来，以统一的形式集成在一起，形成结构化信息。信息抽取系统将把互联网变成巨大的数据库。

IE 特点并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，将由系统设计时定下的领域范围而定。IE 系统关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息。

2.12.1 信息抽取概述信息抽取概述

信息检索和信息抽取对比信息检索是从大量文献集（数据库）中找出相关子集的过程


信息检索和信息抽取对比信息抽取是抽取真正适合用户的那些信息片段（相关事实），并提供给用户。


与自动文摘、文本理解比较自动文摘和文本理解是广域的IE 是特定域的（“特定”程度需要用户协助确定）

2.12.1 信息抽取概述信息抽取概述IE 的历史

信息抽取技术的前身是文本理解，即把握整篇文档的精确内容。文本理解系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差。IE 不求整篇理解，只求片断抽取。过去几年IE研究成果丰硕，英语和日语姓名识别的成功率达到了人类专家的水平。

2.12.1 信息抽取概述信息抽取概述评价指标

IE 技术的评测起先采用经典的信息检索 (IR) 评价指标，即回召率 (Recall) 和查准率 (Precision) ，但稍稍改变了其定义。准确率 P= 抽出的正确信息点数 / 所有抽出的信息点数覆盖率 R= 抽出的正确信息点数 / 所有正确的信息点数 .综合算法：

其中是一个预设值，决定对 P侧重还是对 R侧重。通常设定为 1 。这样用 F 一个数值就可看出系统的好坏


信息抽取分类结构化文本抽取半结构化文本抽取自由式文本抽取


结构化文本的抽取结构化文本是一种数据库里的文本信息，或者是根据事先规定的严格格式生成的文本。从这样的文本中抽取信息是非常容易的，准确度也高，通过描述其格式即可达到目的。

2.12.1 信息抽取概述信息抽取概述半结构化文本的抽取

自然语言理解方法、结构化文本抽取方法对半结构文本不一定有效，抽取模式通常依赖字符和象 html标记那样的分隔标志，句法和语义信息的作用则非常有限。

2.12.1 信息抽取概述信息抽取概述自由式文本的抽取

从自由文本中析取有限的信息。例如，从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息。处理自由文本的 IE 系统通常使用自然语言处理技巧，其抽取规则主要建立在词或词间句法关系基础之上。处理步骤句法分析、语义标注、专有对象的识别（如人物、公司）和基于规则的抽取。

2.22.2 与与 IEIE 相关的研究活动相关的研究活动

MUC(Message Understanding for Comprehension)

MET(Multilingual Entity Task Evaluation)

ACE(Automatic Content Extraction)

DUC(Document Understanding Conferences)

MUCMUC(Message Understanding for Comprehension)(Message Understanding for Comprehension)

起源20世纪 80 年代未由美国国防部 DARPA ( Defense Advanced Research Projects Agency) 发起。

含义MUC之于 IE ，正如 TREC之于 IR

Message Understanding Conference

Message Understanding Competition

MUCMUC(Message Understanding for Comprehension)(Message Understanding for Comprehension)

MUC目标对自由文本进行分析，标识出某一特定类型的事件，并将有关这一事件的信息填写到相应的数据模板中。

MUC测试对电子邮件信息的抽取对新闻文章信息抽取，主题涉及恐怖活动、国际风险投资、企业成功管理经验等。

MUC 作用对信息抽取技术方法研究以及系统评价等都起到重要的促进作用。

METMETMultilingual Entity Task EvaluationMultilingual Entity Task Evaluation

起源也是 DARPA 发起的一个测评项目。主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取。MET-1 和 MET-2测试分别于 1996 年和 1998 年进行。

ACEACEAutomatic Content ExtractionAutomatic Content Extraction

起源这一项目由美国国家安全局（ NSA ），美国商务部技术管理部门（ NIST ），以及中央情报局（ CIA）一同主管。

关注三种信息内容抽取：网络上在线新闻通过 ASR（自动语音识别的）得到的广播新闻通过 OCR（光学字符识别）得到的报纸新闻

两个目的：希望在自动化内容抽取基础之上，为链接分析、自动摘要等打下基础。抽取相应信息提供给分析师，提高信息分析能力。

DUCDUCDocument Understanding ConferencesDocument Understanding Conferences

起源是在 DARPA 的 TIDES (Translingual Information Detection, Extraction, and Summarization program)基础之上发起的一个对“文本概括”进行研究测评的项目。

会议已经进行了 DUC 01-07 ， DUC 2008 In 2008, DUC 并入 Text Analysis Conference (TAC)

系统测评会议由美国商务部技术管理部门 NIST管理

其他研究机构其他研究机构国外研究机构有

新加坡肯特岗数字实验室英国谢菲尔德大学计算机系美国 BBN Technology公司 ……

国内研究机构台湾国立大学中科院自动化研究所模式识别国家实验室清华大学北京大学微软亚洲研究院 Intel 中国研究中心…….

2 2 信息抽取信息抽取2.1 信息抽取概述2.2 与 IE相关的研究活动2.3 信息抽取类型2.4 信息抽取系统介绍2.5 信息抽取系统设计2.6 信息抽取应用

信息抽取类型信息抽取类型MUC根据信息抽取内容以及所抽取出的信息的

集聚水平，将信息抽取分为以下几种主要类型：NE （ Named Entity Recognition ） :命名实体识别MET( Multi-lingual Entity Task):多语种实体识别TE （ Template Element ） : 模板元素信息抽取CO （ Coreference ） :参照信息抽取TR （ Template Relation ） : 模板关系信息抽取ST （ Scenario Template ） :情节模板信息抽取

NENE （（ Named Entity Named Entity RecognitionRecognition ））命名实体识别命名实体识别

NE 是最为基础的信息抽取类型，它需要系统能够识别出实体名，并将相应实体名进行归类。MUC测评可识别、抽取人名、组织名、日期、时间、地点、货币数量、百分数等，并在文本中对这些信息进行标注。NE具有非常直接的实用价值，它支持对文档中命名实体信息的检索。

NENE （（ Named Entity RecognitionNamed Entity Recognition ））

命名实体识别命名实体识别The shiny red rocket was fired on Tuesday.

It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc.

• NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets"

METMET （（ Multi-lingual Entity TaskMulti-lingual Entity Task ））多语种实体识别多语种实体识别

MET除了能够对英文命名实体进行识别之外，还能够对多语种的命名实体进行识别，例如可以对中文、日文或西班牙文进行命名实体识别。

TETE （（ Template ElementTemplate Element ））模板元素信息抽取模板元素信息抽取

TE 将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来，并将这些信息作为实体的属性进行聚集，形成实体对象。在 MUC 评测中， TE 系统需要能够从文本中抽取特定类型的实体信息，并将这些信息填写到预先定义的属性模板中。例如对人物实体的模板元素抽取，需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。

TETE （（ Template ElementTemplate Element ））模板元素信息抽取模板元素信息抽取

The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc.

NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets"

• TE: the rocket is "shiny red" and “Dr. Head's brainchild”.

CO CO （（ CoreferenceCoreference ））参照信息抽取参照信息抽取

CO涉及在进行 NE 或 TE任务时，从文本中标识出对同一实体的不同表达方式。例如连接某同一实体的不同称谓。 George W. Bush ,

US President将某一名词和其相应的代名词进行连接。

CO CO （（ CoreferenceCoreference ））参照信息抽取参照信息抽取

CO 可以将散布在文本中不同地方的同一实体的描述信息连接起来。分析实体在文本中不同地方出现的情况，以及分析实体在不同场合与其它实体之间的关系有助于情节信息的抽取。在 MUC 中， CO之所以得到重视，是因为它能够为创建 TE 和 ST(见下文 )打下基础。

COCO （（ CoreferenceCoreference ））参照信息抽取参照信息抽取



TE: the rocket is "shiny red" and Head's "brainchild".

•CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same

TR TR （（ Template RelationTemplate Relation ））模板关系抽取模板关系抽取

TR 需要在 TE 的基础之上标识出模板元素之间的关系。TR 是 MUC-7 定义的一项新任务，需要抽取模板元素之间的相互关系。例如 :职员和组织之间的关系（ employee_of ）产品和生产企业之间的关系（ product_of ）以及公司和地区之间的关系（ location_of ）…

TR TR （（ Template RelationTemplate Relation ））模板关系抽取模板关系抽取



CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same


•TR: Dr. Head works for We Build Rockets Inc.

ST ST ((Scenario Template)Scenario Template) 情节模板情节模板

ST 抽取某一事件中的事件信息，并将事件信息与某个组织、人物或其它实体相关联。ST 需要标识出特定事件及事件的相关属性，包括将事件中的各个实体填充到事件的相应角色中，通过各个对象之间的关系，能够还原出整个事件的“原型”。主要研究点在于模板的获取专家针对不同领域手工写模板自动获取模板（主流研究方向）

ST ST ((Scenario Template)Scenario Template) 情节模板情节模板



CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same


TR: Dr. Head works for We Build Rockets Inc. •ST: a rocket launching event occurred with the various participants.

主要内容主要内容2.1 信息抽取概述2.2 与 IE相关的研究活动2.3 信息抽取类型2.4 信息抽取系统2.5 信息抽取系统设计2.6 信息抽取应用

2.4.1 GATE2.4.1 GATE

简介GATE 是 University of Sheffield承担的信息抽取项目。是纯 Java语言的开源软件。支持对 XML 、 RTF 、 Email 、 HTML 、 SGML以及纯文本文档类型信息的抽取。

Gate项目认为，典型的信息抽取包括三个过程：预处理过程命名实体探测过程事件探测过程

GATEGATE 信息抽取过程信息抽取过程第一步：预处理

文本格式的检查（ Format Detection ）特征标记 (Tokenisation)分词 (Word Segmentation)句法分割 (Sentence Splitting)语法标记 (POS tagging) 等预处理后将文本分解成为有一定语言意义的语言片段，并对这些语言片段进行标记，使文本能够被转换成为更易于被信息抽取系统处理的模式。

GATEGATE 信息抽取过程信息抽取过程第二步：命名实体探测

借助辞典实现人物、组织、地点、时间等命名实体的探测。辞典中也可能会包括一些相应的指示词（如 Ltd.提示公司名称）用以指示相应的实体内容。

语义标记。如 ANNIE 系统通过 JAPE书写的规则，能够对实体进行更深入的语义标注。实体关联。通过参照实现实体之间的联系。

GATEGATE 信息抽取过程信息抽取过程第三步：事件探测

在命名实体探测基础上，抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联，构造出事件的概貌。完成句法分析、模板填充、模板合并、模板关联和事件探测等。

GATEGATE 命名实体探测命名实体探测

GATEGATE 信息抽取流程信息抽取流程

英文信息抽取相对成熟GATE 对中文信息抽取的支撑不足NSL 等在 GATE基础之上，开发出了一

个支持中文信息抽取的系统，初步解决了中文信息抽取问题。

2.4.22.4.2 中文信息抽取系统中文信息抽取系统

初步解决中文信息抽取


三个中文信息抽取的主要问题Chinese tokenizing

Chinese gazetteers

Chinese named entity recognition


相应的处理方案相应的处理方案

中文信息抽取

Chi TokenizingChi Tokenizing

Chi IEChi IE

Chi GazetteerChi Gazetteer

应用实验应用实验应用实例

Chi RulesChi Rules

用用 JavaJava 的的 JNIJNI调用计算所调用计算所ICTCLASICTCLAS 实现分词和词性标实现分词和词性标注。注。

通过网上免费语料或自己制作通过网上免费语料或自己制作获得。（目前已有英文词表获得。（目前已有英文词表 9595个；中文词表个；中文词表 7474 个）个）

重新构造中文重新构造中文 IEIE 的的 JAPEJAPE 规则。规则。

和现有信息系统结合，比如和现有信息系统结合，比如RSSRSS 信息聚合系统。信息聚合系统。

基于基于 GATEGATE 的英文、中文信息的英文、中文信息抽取，开发抽取，开发 Chinese AnnieChinese Annie 组组件。件。

2.4.32.4.3 其他其他 IEIE 系统系统KIMArtEquAKT www.aktors.org/technologies/artequakt/Amilcare nlp.shef.ac.uk/amilcare/Armadillo www.hrionline.ac.uk/armadillo/armadillo.htmlBioRAT http://bioinf.cs.ucl.ac.uk/software_downloads/biorat/ANP （ Arizona Noun Phraser）DELOS WP5: Knowledge Extraction and Semantic InteroperabilityTAKE: Toolkit for Agent-based Knowledge ExtractionSKIF ： A Distributed Knowledge Extraction Framework Based on Semantic Web Services BioMeKe ： BioMedical Knowledge Extraction project

主要内容主要内容2.1 信息抽取概述2.2 与 IE相关的研究活动2.3 信息抽取类型2.4 信息抽取系统介绍2.5 信息抽取系统设计2.6 信息抽取应用

IEIE系统设计方法系统设计方法知识工程法 (Knowledge Engineering Approach)靠手工编制规则，使系统能处理特定知识领域的信息抽取。要求编制规则的知识工程师对该知识领域有深入的了解。开发过程耗时耗力。自动训练法 (Automatic Training Approach)通过学习已经标记好的语料库自动获取规则，能处理没有见

过的新文本。对专业知识工程师要求不高，但需要足够数量的训练数据。实现上比知识工程方法快

分装器生成分装器生成分装器 (Wrapper ，也译“包装器” )

分装器是一个程序，用于从特定的信息源中抽取相关内容，并以特定形式加以表示。在网环境下，分装器的目的是把网页信息结构化，以方便进一步的处理。建造针对网页的分装器主要有两个好处：提高从某一特定信息源获取相关信息的能力实现异构资源整合，支持通用语言查询

分装器生成分装器生成 ((Wrapper Generation, Wrapper Generation, WGWG ））

分装器生成方法人工生成手工生成分装器通常需要编写专用的代码，要花很多时间

理解文档的结构并将其转换成程序代码。例如，对Springer资源的分装

半自动化生成使用图形向导让用户告诉系统那些信息需要抽取

全自动生成利用机器学习的技巧，开发学习算法，设计出从非常简单

到相对复杂的分装器

http://springerlink.lib.tsinghua.edu.cn/app/home/main.asp?wasp=dlycmmqhyr2wrxxtwc2l



分装器生成系统简介分装器生成系统简介处理结构化和半结构化网页系统

ShopBot

WIEN

SoftMealy

STALKER

处理半结构化和非结构化网页系统RAPIER

SRV

WHISK

主要内容主要内容2.1 信息抽取概述2.2 与 IE相关的研究活动2.3 信息抽取类型2.4 信息抽取系统介绍2.5 信息抽取系统设计2.6 信息抽取应用

JungleeJunglee

目标利用 HTML 和 XML混合形式表示从多个网站中获取的信息，为程序员提供一个单一数据库界面。

系统组成数据整合系统：完成数据的抽取一组分装器：连接数据源。一个影射器：器用预定义的影射规则，把抽取出来的数据

转换成统一的格式。一个抽取器：用字典和语言学规则从非结构化的文本中归纳出其组织结构。

数据发布系统：负责数据库更新服务发布等

JangoJango目标从多个购物网站抽取同一产品价格信息，供用户货比三家。

系统组成一个自然语言前端，能将用户请求转换成产品描述的逻辑

表示；一个查询路由器（ query router ），能判定产品类别，找

出相关的一系列网站；一个集成引擎，能平行向选定的网站提交查询；一个过滤器，能用类似于 ShopBot 的方法，把信息抽取出

来。处理过程在学习阶段， Jango根据网上商店首页的 URL 和产品领域

知识，学习如何在网站购物，能学得每个商店的产品描述的格式，获取价格等产品属性。

在购物阶段，这些学得的描述将被用于抽取用户指定产品信息。信息抽取是在线平行进行，结果以价格排序显示给用户。

其他应用其他应用产品描述ShopBot 用于比价购物，所抽取的产品信息按价格排序。餐厅指引STALKER 被用来抽取不同网站上的餐厅信息，如餐厅名称、菜肴种类、价格、烹调方法、地址、电话和评价。

讲座通知SRV试用在讲座信息的抽取任务上，把讲者、地点、时间

等信息抽取出来。招聘广告RAPIER 和 WHISK 被用于招聘广告的信息抽取。需抽取

的信息点包括职位名称、工资、地点等。人事更迭公告WHISK曾被用于从杂志文章中抽取公司名称、职位、新任人员的姓名、卸任人的姓名。

其他例如：租赁广告、地理信息、假日旅游信息、天气预报、参考书目信息等。

总结总结信息抽取技术近年来得到快速发展。自动化分装器生成是研究的难点。信息抽取技术在网页信息抽取应用会随开放式 Web融合、语义网络技术的发展而逐渐减弱。

信息抽取技术未来发展将更侧重对自由文档的信息抽取，并将与知识发现结合。

Documents

Web 挖掘与信息抽取系统