47
TEXT TEXT MINING MINING 文文文文文文文文TextMining TextMining 文文文 文文文 文文文 文文文 2002 /03/18

文本挖掘( TextMining)

Embed Size (px)

DESCRIPTION

TEXT MINING. 文本挖掘( TextMining). 报告人:张忠平 200 2 /03/18. 提纲. 文本挖掘的起源 文本挖掘的过程 特征建立 特征集缩减 知识模式提取 模型评价 国内外研究状况. 文本挖掘的起源. 文本数据库( web 文档数据) 半结构化数据( semistructure data) 信息检索技术( information retrieval). 特征的建立. 特征集的缩减. 学习与知识模式的提取. 模式质量的评价. 知识模式. 文档集. Web 文本挖掘的过程. Web 文本挖掘的一般处理过程. - PowerPoint PPT Presentation

Citation preview

Page 1: 文本挖掘( TextMining)

TEXTTEXTMININGMINING

文本挖掘文本挖掘(( TextMiningTextMining ))

报告人:张忠平 报告人:张忠平 2002 /03/18

Page 2: 文本挖掘( TextMining)

提纲提纲 文本挖掘的起源文本挖掘的起源 文本挖掘的过程文本挖掘的过程

特征建立特征建立 特征集缩减特征集缩减 知识模式提取知识模式提取 模型评价模型评价

国内外研究状况国内外研究状况

Page 3: 文本挖掘( TextMining)

文本挖掘的起源文本挖掘的起源 文本数据库(文本数据库( webweb 文档数据)文档数据) 半结构化数据(半结构化数据( semistructure datasemistructure data )) 信息检索技术(信息检索技术( information retrievalinformation retrieval ))

Page 4: 文本挖掘( TextMining)

WebWeb 文本挖掘的过程文本挖掘的过程

WebWeb 文本挖掘的一般处理过文本挖掘的一般处理过程程

特征的建立 特征集的缩减 学习与知识模式的提取 知识模式模式质量的评价文档集

Page 5: 文本挖掘( TextMining)

文本特征的建立文本特征的建立 定义:文本特征指的是关于文本的元数据。定义:文本特征指的是关于文本的元数据。 分类:分类:

描述性特征:文本的名称、日期、大小、类型等。描述性特征:文本的名称、日期、大小、类型等。 语义性特征:文本的作者、标题、机构、内容等。语义性特征:文本的作者、标题、机构、内容等。

表示(文档建模):表示(文档建模): 采用向量空间模型(采用向量空间模型( VSMVSM )()(矩阵)矩阵) 特征向量特征向量

(其中(其中 ttii 为词条项,为词条项, wwii(d)(d) 为为 ttii 在在 dd 中的权中的权值)值)))();...;();...;(()( ,,1,1 dwtdwtdwtdV nnii

Page 6: 文本挖掘( TextMining)

文本特征评价函数的数学表示文本特征评价函数的数学表示 信息增益(信息增益( information gaininformation gain ))

期望交叉熵(期望交叉熵( expected cross entropyexpected cross entropy ))

互信息(互信息( mutual informationmutual information ))

)(

)(log)()(

)()(

log)()()(

__

____

CC

CCCC

i

i

ii

i

i

ii P

WPWPWP

PWP

WPWPFInfGain

)()(

log)()()(CCC

i

i

ii P

WPWPWPFTxtCrossEntry

)(

)(log)()(

WP

WPPFTxtMutualInfo CC i

ii

F 是对应于单词 W 的特征;P(W) 为单词 W 出现的概率;P(Ci) 为第 i 类值的出现概率;p(Ci|W) 为单词 W 出现时属于第 i类的条件概率。

Page 7: 文本挖掘( TextMining)

文本特征评价函数的数学表示文本特征评价函数的数学表示 (( 续续)) 文本证据权(文本证据权( the weight of evidence for textthe weight of evidence for text ))

词频(词频( word frequencyword frequency ))

i ii

iii WPP

PWPPWPFidTxtWeightofEv

CCCCC ))(1)((

))(1)((log)()()(

) ( ) (W TF F Freg

P(W) 为单词 W 出现的概率;P(Ci) 为第 i 类值的出现概率;p(Ci|W) 为单词 W 出现时属于第 i 类的条件概率;TF(W) 为单词在文档集中出现的次数。

Page 8: 文本挖掘( TextMining)

文档建模文档建模 词频矩阵词频矩阵

行对应关键词行对应关键词 tt ,,列对应文档列对应文档 dd 向量向量 将每一个文档视为空间向量将每一个文档视为空间向量 vv 向量值反映单词向量值反映单词 tt 与文档与文档 dd 的关联度的关联度

表示文档词频的词频矩阵表示文档词频的词频矩阵dd11 dd22 dd33 dd44 dd55 dd66

tt11 322322 8585 3535 6969 1515 320320tt22 361361 9090 7676 5757 1313 370370tt33 2525 3333 160160 4848 221221 2626tt44 3030 140140 7070 201201 1616 3535

Page 9: 文本挖掘( TextMining)

文档相似度计算文档相似度计算 余弦计算法(余弦计算法( cosine measurecosine measure ))

余弦相似度定义:余弦相似度定义:其中 其中 为两个文档向量,为两个文档向量, 内积 为标准向量点积,定义为 内积 为标准向量点积,定义为 , , 定义为 。定义为 。

缺点:文档“无限”,导致矩阵增大,计算量增加缺点:文档“无限”,导致矩阵增大,计算量增加

vvvvvvsim

21

2121),(

vv 21

v1 vvv 111

vv i

t

i i 21 1

vv 21,

Page 10: 文本挖掘( TextMining)

特征集的缩减特征集的缩减 潜在语义标引(潜在语义标引( latent semantic indexinglatent semantic indexing ))方法方法

利用矩阵理论中的利用矩阵理论中的“奇异值分解(“奇异值分解( singular value singular value decomposition,SVDdecomposition,SVD ”)”) 技术,将词频矩阵转化为奇异矩阵技术,将词频矩阵转化为奇异矩阵(( K×KK×K ))

潜在语义标引方法基本步骤:潜在语义标引方法基本步骤: 1.1. 建立词频矩阵,建立词频矩阵, frequency matrixfrequency matrix 2.2. 计算计算 frequency matrixfrequency matrix 的奇异值分解的奇异值分解

• 分解分解 frequency matrixfrequency matrix 成成 33 个矩阵个矩阵 UU ,, SS ,, VV 。。 UU 和和 VV 是正交矩阵是正交矩阵(( UUTTU=IU=I ),), SS 是奇异值的对角矩阵(是奇异值的对角矩阵( K×KK×K ))

3.3. 对于每一个文档 对于每一个文档 dd ,,用排除了用排除了 SVDSVD 中消除后的词的新的中消除后的词的新的向量替换原有的向量向量替换原有的向量 4.4. 保存所有向量集合,用高级多维索引技术为其创建索引保存所有向量集合,用高级多维索引技术为其创建索引 5.5. 用转换后的文档向量进行相似度计算用转换后的文档向量进行相似度计算

Page 11: 文本挖掘( TextMining)

其他文本检索标引技术其他文本检索标引技术 倒排索引(倒排索引( inverted indexinverted index ))

一种索引结构,包含两个哈希表索引表或两个一种索引结构,包含两个哈希表索引表或两个 B+B+ 树索引表树索引表

• 找出与给定词集相关的所有文档找出与给定词集相关的所有文档• 找出与指定文档相关的所有词找出与指定文档相关的所有词• 易实现,但不能处理易实现,但不能处理同义词和多义词同义词和多义词问题,问题, posting_listposting_list 非常长,存非常长,存储开销大储开销大

签名文件(签名文件( signature filesignature file ))

文档表(文档表( document_tabledocument_table )) 词表词表 ((term_table)term_table)doc_IDdoc_ID posting_listposting_list term_IDterm_ID posting_listposting_listDoc_1Doc_1 tt11_1, ... ,t_1, ... ,t11_n_n Term_1Term_1 doc_1, ... , doc_idoc_1, ... , doc_iDoc_2Doc_2 tt22_1, ... ,t_1, ... ,t22_n_n Term_2Term_2 doc_1, ... , doc_ jdoc_1, ... , doc_ j┇┇ ┇┇ ┇┇ ┇┇ Doc_nDoc_n ttnn_1, ... ,t_1, ... ,tnn_n_n Term_nTerm_n doc_1, ... , doc_ndoc_1, ... , doc_n

Page 12: 文本挖掘( TextMining)

词性标注词性标注 定义:将句子中定义:将句子中兼类词兼类词的词性根据上下文的词性根据上下文唯一地确定下来。唯一地确定下来。 兼类词分类:兼类词分类:

同型异性异义兼类词:例如:领导(动词同型异性异义兼类词:例如:领导(动词 // 名词)名词) 同型异性同义兼类词:例如:小时(量词同型异性同义兼类词:例如:小时(量词 // 名词)名词) 异型同性同义兼类词:例如:电脑,计算机异型同性同义兼类词:例如:电脑,计算机

自动词性标注自动词性标注就是用计算机来自动地给文就是用计算机来自动地给文本中的词标注词类。本中的词标注词类。 在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。歧义,是文本自动词性标注研究的关键问题。

标注技术路线:基于概率统计和基于规则标注技术路线:基于概率统计和基于规则

Page 13: 文本挖掘( TextMining)

自动词类标注自动词类标注 早在早在 6060 年代,国外学者就开始研究英语文本的年代,国外学者就开始研究英语文本的自动词类标注问题,提出了一些消除兼类词歧义自动词类标注问题,提出了一些消除兼类词歧义的方法,建立了一些自动词性标注系统。的方法,建立了一些自动词性标注系统。

19711971 年,美国布朗大学的格林(年,美国布朗大学的格林( GreeneGreene ))和鲁宾(和鲁宾( RubinRubin ))建立了建立了 TAGGITTAGGIT 系统,采用了系统,采用了 8686 个词类标记,利用了个词类标记,利用了 33003300 条条上下文框架规则(上下文框架规则( context frame rulescontext frame rules ))来排除兼类词歧义,自来排除兼类词歧义,自动标注正确率达到动标注正确率达到 77%. 77%. 19831983 年,里奇(年,里奇( G. LeechG. Leech ))和加塞德(和加塞德( R. GarsideR. Garside ))等人建立等人建立

了了 CLAWSCLAWS 系统,用概率统计的方法来进行自动词性标注,他系统,用概率统计的方法来进行自动词性标注,他们使用了们使用了 133×133133×133 的词类共现概率矩阵,通过统计模型来消除的词类共现概率矩阵,通过统计模型来消除兼类词歧义,自动标注的正确率达到了兼类词歧义,自动标注的正确率达到了 96%. 96%. 19881988 年,德洛斯(年,德洛斯( S. J. DeRoseS. J. DeRose ))对对 CLAWSCLAWS 系统作了一些改系统作了一些改进 , 利 用 线 性 规划的 方 法 来降低系 统 的复杂性 , 提 出 了进 , 利 用 线 性 规划的 方 法 来降低系 统 的复杂性 , 提 出 了

VOLSUNGAVOLSUNGA 算法,大大地提高了处理效率,使自动词性标注算法,大大地提高了处理效率,使自动词性标注的正确率达到了实用的水平。的正确率达到了实用的水平。

Page 14: 文本挖掘( TextMining)

基于概率统计的基于概率统计的 CLAWSCLAWS 算法算法 CLAWSCLAWS 是英语是英语 Constituent-Likelihood Automatic Word-Constituent-Likelihood Automatic Word-

tagging Systemtagging System ((成分似然性自动词性自动标注系统)的成分似然性自动词性自动标注系统)的简称,它是简称,它是 19831983 年玛沙尔年玛沙尔 ((Mashall)Mashall) 在给在给 LOBLOB 语料库语料库((拥有各类文体的英国英语语料库,库容量为拥有各类文体的英国英语语料库,库容量为 100100 万词)万词)作自动词性标注时提出的一种算法。具体做法是:作自动词性标注时提出的一种算法。具体做法是: 先从待标注的先从待标注的 LOBLOB 语料库中选出来部分语料,叫做“训练集”语料库中选出来部分语料,叫做“训练集”

(( Training SetTraining Set )) , , 对训练集中的语料逐词进行词性的人工标注对训练集中的语料逐词进行词性的人工标注, , 然后利用计算机对训练集中的任意两个相邻标记的同现概率进然后利用计算机对训练集中的任意两个相邻标记的同现概率进行统计,形成一个相邻标记的同现概率矩阵。行统计,形成一个相邻标记的同现概率矩阵。

进行自动标注时,系统从输入文本中顺序地截取一个有限长度的进行自动标注时,系统从输入文本中顺序地截取一个有限长度的词串,这个词串的首词和尾词的词性应该是唯一的,这样的词串词串,这个词串的首词和尾词的词性应该是唯一的,这样的词串叫做跨段叫做跨段 ((span)span) ,,记为记为 WW00,W,W11,W,W22,…,W,…,Wnn,W,Wn+1n+1 。其中, 。其中, WW00 和和WWn+1n+1 都是非兼类词, 都是非兼类词, WW11,W,W22,…,W,…,Wnn 是是 nn 个兼类词。个兼类词。

利用同现概率矩阵提供的数据来计算这个跨段中由各个单词产生利用同现概率矩阵提供的数据来计算这个跨段中由各个单词产生的每个可能标记的概率积,并选择概率积最大的标记串作为选择的每个可能标记的概率积,并选择概率积最大的标记串作为选择路径路径 ((path),path),以这个路径作为最佳结果输出。以这个路径作为最佳结果输出。

Page 15: 文本挖掘( TextMining)

VOLSUNGAVOLSUNGA 算法算法 VOLSUNGA 算法对 CLAWS 算法的改进主要有两个方面

在最佳路径的选择方面,不是最后才来计算概率积最大的标记串,而是沿着从左至右的方向,采用“步步为营”的策略,对于当前考虑的词,只保留通往该词的最佳路径,舍弃其他路径,然后再从这个词出发,将这个路径同下一个词的所有标记进行匹配,继续找出最佳的路径,舍弃其他路径,这样一步一步地前进,直到整个跨段走完,得出整个跨段的最佳路径作为结果输出。 根据语料库统计出每个词的相对标注概率 (Relative Tag Probability) ,并用这种相对标注概率来辅助最佳路径的选择。

VOLSUNGA 算法大大地降低了 CLAWS 算法的时间复杂度和空间复杂度,提高了自动词性标注的准确率。

Page 16: 文本挖掘( TextMining)

统计方法的缺陷统计方法的缺陷 CLAWSCLAWS 算法和算法和 VOLSUNGAVOLSUNGA 算法都是基于统计算法都是基于统计的自动标注方法,仅仅根据同现概率来标注词性的自动标注方法,仅仅根据同现概率来标注词性。但是,同现概率仅只是最大的可能而不是唯一。但是,同现概率仅只是最大的可能而不是唯一的可能,以同现概率来判定兼类词,是以舍弃同的可能,以同现概率来判定兼类词,是以舍弃同现概率低的可能性前提的。现概率低的可能性前提的。 为了提高自动词性标注的正确率,还必须辅之以为了提高自动词性标注的正确率,还必须辅之以基于规则的方法,根据语言规则来判定兼类词。基于规则的方法,根据语言规则来判定兼类词。

Page 17: 文本挖掘( TextMining)

基于规则的标注基于规则的标注 基于规则的方法通过考虑上下文中的词及标记对基于规则的方法通过考虑上下文中的词及标记对兼类词的影响决定兼类词的词性,常常作为基于兼类词的影响决定兼类词的词性,常常作为基于概率统计方法的补充。将统计方法和规则方法结概率统计方法的补充。将统计方法和规则方法结合被认为是解决词性标注问题的最佳手段。合被认为是解决词性标注问题的最佳手段。 在统计语料规模较大的情况下,结合给定最小支在统计语料规模较大的情况下,结合给定最小支持度及最小可信度,首先发现大于最小支持度常持度及最小可信度,首先发现大于最小支持度常用模式集,然后生成关联规则。若此规则的可信用模式集,然后生成关联规则。若此规则的可信度大于给定的最小可信度,则得到词性规则。只度大于给定的最小可信度,则得到词性规则。只要最小可信度定义得足够高,获得的规则就可以要最小可信度定义得足够高,获得的规则就可以用于处理兼类词的情况。用于处理兼类词的情况。 (规则依赖于词与词性的各种组合,挖掘过程较为复杂)(规则依赖于词与词性的各种组合,挖掘过程较为复杂)

Page 18: 文本挖掘( TextMining)

基于规则的词性标注(续)基于规则的词性标注(续) 主要依靠上下文来判定兼类词。主要依靠上下文来判定兼类词。

这是一张白纸(“白”出现在名词”纸”之前,判定为形容词)这是一张白纸(“白”出现在名词”纸”之前,判定为形容词) 他白跑了一趟(“白”出现在动词“跑”之前,判定为副词)他白跑了一趟(“白”出现在动词“跑”之前,判定为副词)

词性连坐:在并列的联合结构中,联合的两个成分的词词性连坐:在并列的联合结构中,联合的两个成分的词类应该相同,如果其中一个为非兼类词,另一个为兼类类应该相同,如果其中一个为非兼类词,另一个为兼类词,则可把兼类词的词性判定为非兼类词的词性。词,则可把兼类词的词性判定为非兼类词的词性。 我读了几篇文章和报告我读了几篇文章和报告 “ “ 文章”为名词,是非兼类词,“报告”为动文章”为名词,是非兼类词,“报告”为动 -- 名兼类词,由于处于联合名兼类词,由于处于联合结构中,故可判定“报告”为名词。结构中,故可判定“报告”为名词。

清华大学计算机系黄昌宁等采用统计方法建立了清华大学计算机系黄昌宁等采用统计方法建立了一个自动词性标注系统,标注正确率达一个自动词性标注系统,标注正确率达 96.8%96.8%,自动标注的速度为每秒,自动标注的速度为每秒 175175 个汉字。个汉字。

Page 19: 文本挖掘( TextMining)

自动语义标注自动语义标注 一词多义,形成了词的多义现象,自动语义标注一词多义,形成了词的多义现象,自动语义标注主要是解决词的多义问题。主要是解决词的多义问题。 一词多义也是自然语言中的普遍现象,但是,在一词多义也是自然语言中的普遍现象,但是,在一定的上下文中,一个词一般只能解释为一种语一定的上下文中,一个词一般只能解释为一种语义。义。 所谓自动语义标注,就是计算机对出现在一定上所谓自动语义标注,就是计算机对出现在一定上下文中的词语的语义进行判定,确定其正确的语下文中的词语的语义进行判定,确定其正确的语义并加以标注。义并加以标注。

Page 20: 文本挖掘( TextMining)

语义自动标注的方法语义自动标注的方法 以字义定词义以字义定词义

词词 == 字字 +…++…+ 字字 利用检索上下文中出现的相关词的方法来确定多利用检索上下文中出现的相关词的方法来确定多义词的义项义词的义项

词之间的亲和程度(词之间的亲和程度( penpen ))

利用上下文搭配关系来确定多义词的词义利用上下文搭配关系来确定多义词的词义 词性搭配(词性搭配( planplan ))

用最大可能义项来消解多义用最大可能义项来消解多义 选择多义词各个义项中使用频度最高的义项为它在文本中的当前义项。这显然选择多义词各个义项中使用频度最高的义项为它在文本中的当前义项。这显然不是一种科学的办法,但仍然有一定的正确率。不是一种科学的办法,但仍然有一定的正确率。 据统计,用最大可能义项来消解多义,对于封闭文本,正确率仅为据统计,用最大可能义项来消解多义,对于封闭文本,正确率仅为 67.5%67.5% ,对,对于开放文本,正确率更低,仅为于开放文本,正确率更低,仅为 64.8%64.8% 。。 目前不少机器翻译系统,都采用这种最大可能义项来确定多义词的词义,,这目前不少机器翻译系统,都采用这种最大可能义项来确定多义词的词义,,这是这些机器翻译系统译文质量低劣的主要原因之一。是这些机器翻译系统译文质量低劣的主要原因之一。

Page 21: 文本挖掘( TextMining)

其他文本检索标引技术(续)其他文本检索标引技术(续) 签名文件(签名文件( signature filesignature file ))

定义:是一个存储数据库中每一个文档的特征记录的文件定义:是一个存储数据库中每一个文档的特征记录的文件 方法:每一个特征对应一个固定长度的位串,一个比特位方法:每一个特征对应一个固定长度的位串,一个比特位对应一个词汇,若某一位对应的词出现在文档中则,则该对应一个词汇,若某一位对应的词出现在文档中则,则该位置位置 11 ,否则置,否则置 00 。。 SS11

SS22• 按位操作进行匹配,确定文档的相似形按位操作进行匹配,确定文档的相似形• 可以多词对应一个比特位,来减少位串的长度,但增加搜素开销,可以多词对应一个比特位,来减少位串的长度,但增加搜素开销,存在多对一映射的缺点。存在多对一映射的缺点。

11 11 11 …… 11

11 11 00 …… 11

Page 22: 文本挖掘( TextMining)

学习与知识模式的提取学习与知识模式的提取文本源

文本结构分析器 文本分类器

中文文本挖掘模型结构示意图

分词及非用词处理

特征提取名字识别日期处理数字处理

文本摘要生成器

用户界面用

浏览

检索结果

Page 23: 文本挖掘( TextMining)

学习与知识模式的提取(续)学习与知识模式的提取(续) 分词分词

定义:在中文文本的词与词之间加上空格。定义:在中文文本的词与词之间加上空格。 非用词(停用词)非用词(停用词)

定义:在文本中起辅助作用的词。定义:在文本中起辅助作用的词。 分类:分类:

• 虚词:英文中的“虚词:英文中的“ a,the,of,for,with,in,at, …”a,the,of,for,with,in,at, …”

中文中的“的,地,得,…”中文中的“的,地,得,…”• 实词:数据库会议上的论文中的“数据库”一词,视为非用实词:数据库会议上的论文中的“数据库”一词,视为非用词词

词根问题词根问题 computecompute , , computecomputes , s , computecomputed d 视为同一个词(变形视为同一个词(变形而已)而已)

Page 24: 文本挖掘( TextMining)

自动分词自动分词 自动分词的用处:自动分词的用处:

中文文本的自动检索、过滤、分类及摘要中文文本的自动检索、过滤、分类及摘要 中文文本的自动校对中文文本的自动校对 汉外机器翻译汉外机器翻译 汉字识别与汉语语音识别的后处理汉字识别与汉语语音识别的后处理 汉语语音合成汉语语音合成 以句子为单位的汉字键盘输入以句子为单位的汉字键盘输入 汉字简繁体转换汉字简繁体转换

Page 25: 文本挖掘( TextMining)

主要的分词方法主要的分词方法 最大匹配法(最大匹配法( Maximum Matching method, MMMaximum Matching method, MM法):选取包含法):选取包含 6-86-8 个汉字的符号串作为最大符号串,个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。的单词为止。匹配的方向是从右向左。 逆向最大匹配法(逆向最大匹配法( Reverse Maximum method, Reverse Maximum method,

RMMRMM 法):匹配方向与法):匹配方向与 MMMM 法相反,是从左向右。实法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。更有效。 双向匹配法(双向匹配法( Bi-direction Matching method, Bi-direction Matching method,

BMBM 法):比较法):比较MMMM 法与法与 RMMRMM 法的分词结果,从而法的分词结果,从而决定正确的分词。决定正确的分词。 最佳匹配法(最佳匹配法( Optimum Matching method, OMOptimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。从而提高匹配的速度。 联想联想 -- 回溯法(回溯法( Association-Backtracking Association-Backtracking

method, ABmethod, AB 法):采用联想和回溯的机制来进行匹法):采用联想和回溯的机制来进行匹配。配。

Page 26: 文本挖掘( TextMining)

学习与知识模式的提取(续)学习与知识模式的提取(续) 特征提取特征提取

定义:对文本中出现的词汇、短语的特征提取。定义:对文本中出现的词汇、短语的特征提取。 分类:分类:

• 一般特征项:一般特征项:通常指一般名词的概念通常指一般名词的概念特征项权值函数:特征项权值函数:

其中: 表示特征项的权值函数;其中: 表示特征项的权值函数; 表示特征项在文本内的频数;表示特征项在文本内的频数; 表示特征项的段落频率,即包含表示特征项的段落频率,即包含 ttii

的段落数的段落数 // 文本总段落数。文本总段落数。• 专有特征项:专有特征项:通常指人名、日期、时间、数字和货币等概念通常指人名、日期、时间、数字和货币等概念

m

j

iviviw

tftftftf

tfjvjv

1

2

2

)))(1(log)((

log

2

))(1()()(

)(tf iw

)(tf jv

)(tf iv

Page 27: 文本挖掘( TextMining)

学习与知识模式的提取(续)学习与知识模式的提取(续) 中文姓名识别中文姓名识别

函数定义:若函数定义:若 xx 在在 TT 文本中确认为姓氏用字,则文本中确认为姓氏用字,则 first_name(T,x)first_name(T,x) 为真为真,, 否则为假。否则为假。 ……

序号序号 类型类型 属性属性 示例示例11 姓氏用字姓氏用字 SurnameSurname 张,王,李,…张,王,李,…22 名字禁用字名字禁用字 StopStop 死,吧,呢,…死,吧,呢,…33 姓名用词姓名用词 NameName 王学兵,…王学兵,…44 普通用词普通用词 CommonCommon 非姓名用词 翻阅,浏览,…非姓名用词 翻阅,浏览,…55 非普通用词非普通用词 NoneNone66 前称谓词前称谓词 LeftLeft 经理经理王学兵,王学兵,省长省长杨铮,…杨铮,…77 后称谓词后称谓词 rightright 王学兵王学兵经理经理,黄旭,黄旭主席主席,…,…┇┇ ┇┇ ┇┇ ┇┇

Page 28: 文本挖掘( TextMining)

模型质量的评价模型质量的评价 文本检索的基本度量文本检索的基本度量

{{relevant}relevant} ::与某查询相关的文档的集合。与某查询相关的文档的集合。 {{retrieved}retrieved} ::系统检索到的文档的集合。系统检索到的文档的集合。 {{relevant} ∩ relevant} ∩ {{retrieved}retrieved} ::既相关又被检索到的实际既相关又被检索到的实际

文档的集合文档的集合。。 查准率查准率 ((precision)precision) ::既相关又被检索到的实际文档既相关又被检索到的实际文档与与

检索到的文档的百检索到的文档的百分比。分比。

查全率查全率 ((recall)recall) ::既相关又被检索到的实际文档与查既相关又被检索到的实际文档与查 询相关的文档的百分询相关的文档的百分比。比。

}{retrieved}{retrieved {relevant}

precision

{relevant}}{retrieved {relevant}

recall

Page 29: 文本挖掘( TextMining)

模型质量的评价实例模型质量的评价实例

{{relevant} ={A,B,C,D,E,F,G,H,I,J} = 10relevant} ={A,B,C,D,E,F,G,H,I,J} = 10 {{retrieved} = {B, D, F,W,Y} = 5retrieved} = {B, D, F,W,Y} = 5 {{relevant} ∩ relevant} ∩ {{retrieved} ={B,D,F}retrieved} ={B,D,F} = 3 = 3 查准率:查准率: precision = 3/5 = 60%precision = 3/5 = 60% 查全率:查全率: recall = 3/10 = 30%recall = 3/10 = 30%

B,D,F相关并被检索到的文档所有文档

A,C,E,G,H, I, J相关的文档

W,Y 检索到 的文档

Page 30: 文本挖掘( TextMining)

文本分类文本分类 一般方法一般方法

将预先分类过的文档作为训练集将预先分类过的文档作为训练集 从训练集中得出分类模式(需要测试过程,不断细化)从训练集中得出分类模式(需要测试过程,不断细化) 用导出的分类模式对其它文档加以分类用导出的分类模式对其它文档加以分类

基于关联的分类方法基于关联的分类方法 通过信息检索技术和关联分析技术提出关键字和词汇通过信息检索技术和关联分析技术提出关键字和词汇 利用已有的词类生成关键字和词的概念层次利用已有的词类生成关键字和词的概念层次 (( 文档类别文档类别 )) 利用关联挖掘方法去发现关联词, 进而区分各类文档利用关联挖掘方法去发现关联词, 进而区分各类文档(每一类文档对应一组关联规则)(每一类文档对应一组关联规则) 用关联规则去对新的文档分类用关联规则去对新的文档分类

Page 31: 文本挖掘( TextMining)

WebWeb 文档的自动分类文档的自动分类 利用超链接中的信息进行分类利用超链接中的信息进行分类

统计方法 统计方法 马尔可夫随机场(马尔可夫随机场( Markov Random Field,MRFMarkov Random Field,MRF )) 结合宽松标识(结合宽松标识( Relaxation Labeling ,RL)Relaxation Labeling ,RL)

由由 WeblogWeblog 数据进行文档分类数据进行文档分类

Page 32: 文本挖掘( TextMining)

文本聚类文本聚类 层次聚类法层次聚类法 平面划分法(平面划分法( k-meansk-means 算法)算法) 简单贝叶斯聚类法简单贝叶斯聚类法 K-K-最近邻参照聚类法最近邻参照聚类法 分级聚类法分级聚类法 基于概念的文本聚类基于概念的文本聚类

Page 33: 文本挖掘( TextMining)

层次聚类法层次聚类法 具体过程具体过程

将文档集将文档集 D={D={dd11, , … ,d,di i , , … ,d,dnn}} 中的每一个文档中的每一个文档 ddii看作看作是一个具有单个成员的类是一个具有单个成员的类 CCii={={ddii}} ,,这些类构成了这些类构成了 DD 的的一个聚类一个聚类 C={C={cc11, , … ,c,ci i , , … ,c,cnn}} ;; 计算计算 CC 中每对类( 中每对类( cci i , c, cjj )之间的相似度)之间的相似度 sim(sim(cci i , ,

ccjj )) ;; 选取具有最大相似度的类对选取具有最大相似度的类对 arg max sim(arg max sim(cci i , c, cjj ),), 并将并将

cci i 和和 ccjj 合并为一个新的类合并为一个新的类 cckk=c=cii∪∪ccjj ,,从而构成从而构成 DD 的一的一个新的类个新的类 C={C={cc11, , … ,c,cn-1n-1}} ;; 重复上述步骤,直到重复上述步骤,直到 CC 中只剩下一个类为止。中只剩下一个类为止。

Page 34: 文本挖掘( TextMining)

平面划分法平面划分法 将文档集将文档集 D={D={dd11, , … ,d,di i , , … ,d,dnn}}水平地分水平地分割为的若干类,具体过程:割为的若干类,具体过程:

1. 1. 确定要生成的类的数目 确定要生成的类的数目 kk ;;2. 2. 按照某种原则生成按照某种原则生成 kk 个聚类中心作为聚类的种子 个聚类中心作为聚类的种子

S={S={ss11, , … ,s,sj j , , … ,s,skk}} ;;

3. 3. 对对 DD 中的每一个文档中的每一个文档 ddi i ,依次计算它与各个种子,依次计算它与各个种子 ssjj 的的相似度相似度 sim(sim(ddi i , s, sjj )) ;;

4. 4. 选取具有最大的相似度的种子选取具有最大的相似度的种子 arg max sim(arg max sim(ddi i , s, sjj ),), 将将 ddii归入以归入以 ssj j 为聚类中心的类为聚类中心的类 CCjj ,从而得到,从而得到 DD 的一的一个聚类个聚类 C={C={cc11, , … ,c,ckk}} ;;

5. 5. 重复步骤重复步骤 2~42~4若干次,以得到较为稳定的聚类结果。若干次,以得到较为稳定的聚类结果。该方法速度快,但该方法速度快,但 kk要预先确定,种子选取难要预先确定,种子选取难

Page 35: 文本挖掘( TextMining)

自动文摘自动文摘 定义:定义:

就是利用计算机自动地从原始文档中提取全面准确地反映该文档中就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。心内容的简单连贯的短文。 自动文摘系统自动文摘系统

自动文摘系统应能将原文的主题思想或中心内容自动提取出来。自动文摘系统应能将原文的主题思想或中心内容自动提取出来。 文摘应具有概况性、客观性、可理解性和可读性。文摘应具有概况性、客观性、可理解性和可读性。 系统适用于任意领域。系统适用于任意领域。

19951995年自动文摘系统评测年自动文摘系统评测 ⑴ ⑴ 33个系统都可以按指定的比率从原文中摘取一部分语句。个系统都可以按指定的比率从原文中摘取一部分语句。 ⑵ ⑵ 抽取的文摘都是原文中的语句,只有单位抽取的文摘都是原文中的语句,只有单位 22的文摘中剔除了一的文摘中剔除了一些中文数字。些中文数字。 ⑶ ⑶ 三个系统的文摘几乎完全不相重合。三个系统的文摘几乎完全不相重合。与专家的文摘完全不同与专家的文摘完全不同

Page 36: 文本挖掘( TextMining)

相关内容相关内容 汉字输入与汉语语料库汉字输入与汉语语料库 语料库中汉语书面文本的自动短语定界与句法标注语料库中汉语书面文本的自动短语定界与句法标注 机器词典的建造机器词典的建造 术语数据库术语数据库 机器翻译机器翻译 计算机辅助文本校对计算机辅助文本校对 情报自动检索系统情报自动检索系统 汉语语音识别系统汉语语音识别系统 汉语语音合成系统汉语语音合成系统 汉字识别系统汉字识别系统

Page 37: 文本挖掘( TextMining)

国内研究情况国内研究情况序号序号校、院、所校、院、所 带头人带头人 内容内容 主要期刊及发表数量主要期刊及发表数量11

中科院计算机语中科院计算机语言信息工程研究言信息工程研究中心中心 陈肇雄陈肇雄翻译、汉语分词、自然翻译、汉语分词、自然语言接口、句法分析、语言接口、句法分析、语义分析、音字转换、语义分析、音字转换、自动分词自动分词

《计算机研究与发展》《计算机研究与发展》 9988 (( 44 ))《软件学报》《软件学报》 9797 (( 11 ))其它其它 22

22 清华大学电子工清华大学电子工程系程系 丁晓青丁晓青吴佑寿吴佑寿

手写汉字识别(动态匹手写汉字识别(动态匹配)、配)、 汉字识别汉字识别 多分多分类器集成(综合识别法类器集成(综合识别法)、《名片自动录入系)、《名片自动录入系统的实现》统的实现》

33 清华大学计算机清华大学计算机科学与技术系科学与技术系 黄昌宁黄昌宁 汉语基本名词短语分析汉语基本名词短语分析模型、识别模型、文本模型、识别模型、文本词义标注、语言建模、词义标注、语言建模、分词歧义算法、上下文分词歧义算法、上下文无关分析、语素和构词无关分析、语素和构词研究研究

《计算机学报》《计算机学报》 9999 (( 11))《软件学报》《软件学报》 98-9998-99 (( 44))《清华大学学报》(《清华大学学报》( 44))

Page 38: 文本挖掘( TextMining)

序号序号校、院、所校、院、所 带头人带头人 内容内容 主要期刊及发表数量主要期刊及发表数量

44上海交通大学计上海交通大学计算机科学与工程算机科学与工程系系 陆汝占陆汝占

语句语义、自然语言模语句语义、自然语言模型、构造语义解释模型型、构造语义解释模型(增量式)、树形分层(增量式)、树形分层数据库方法(非结构化数据库方法(非结构化数据知识方法)、范例数据知识方法)、范例推理推理

《软件学报》《软件学报》 97-0097-00 (( 77))《上海交通大学学报》《上海交通大学学报》(( 33 ))

55哈尔滨工业大学哈尔滨工业大学计算机科学与工计算机科学与工程系程系

王开铸王开铸王小龙王小龙

音字转换、自动文摘、音字转换、自动文摘、手写汉字识别、自动分手写汉字识别、自动分词、《中文词句快速查词、《中文词句快速查找系统》找系统》《计算机研究与发展》《计算机研究与发展》97-9997-99 (( 55 ))《软件学报》《软件学报》 9898 (( 11 ))

66 上海交通大学电上海交通大学电脑应用研究所脑应用研究所 王永成王永成 《中文自动摘要系统》《中文自动摘要系统》、基于神经网络的自动、基于神经网络的自动分类优化算法分类优化算法

77 北京邮电大学信北京邮电大学信息工程系息工程系 钟义信钟义信自动标注汉语词类(神自动标注汉语词类(神经网络模型)、自动文经网络模型)、自动文摘(文摘语文本结构关摘(文摘语文本结构关系)、提出了基于言语系)、提出了基于言语行为理论的话语分析方行为理论的话语分析方法法

《北京邮电大学学报》《北京邮电大学学报》《情报学报》《情报学报》

国内研究情况(续)国内研究情况(续)

Page 39: 文本挖掘( TextMining)

序序号号 校、院、所校、院、所 带头人带头人 内容内容 主要期刊及发表数量主要期刊及发表数量88 复旦大学复旦大学 吴立德吴立德 部分汉语语法分析器部分汉语语法分析器 《计算机研究与发展》《计算机研究与发展》9797(( 11))

99 东北大学东北大学 姚天顺姚天顺朱靖波朱靖波

词性标注、继承理论(词性标注、继承理论(将无限的自然语言处理将无限的自然语言处理转换成有限的类别处理转换成有限的类别处理)、中文信息自动抽取)、中文信息自动抽取、词类搭配规则、语音、词类搭配规则、语音识别模型、文本的时间识别模型、文本的时间信息分析(时态逻辑)信息分析(时态逻辑)、短语结构规则自动获、短语结构规则自动获取方法、模糊聚类分析取方法、模糊聚类分析用于语音识别领域、语用于语音识别领域、语言异化、基于神经网络言异化、基于神经网络的模糊知识自动获取方的模糊知识自动获取方法、英文中动词的远程法、英文中动词的远程搭配、中文姓名识别、搭配、中文姓名识别、汉语文本自动分类模型汉语文本自动分类模型设计与实现、词汇消歧设计与实现、词汇消歧

《计算机研究与发展》《计算机研究与发展》97-9997-99 (( 55 ))《软件学报》《软件学报》 97-9997-99 ((33))《小型微型计算机系统《小型微型计算机系统》》 97-9997-99 (( 44 ))《东北大学学报》《东北大学学报》 97-997-999(( 1010 ) )

国内研究情况(续)国内研究情况(续)

Page 40: 文本挖掘( TextMining)

序号序号校、院、所校、院、所 带头人带头人 内容内容 主要期刊及发表数量主要期刊及发表数量1010 北京大学计算语北京大学计算语言研究所言研究所 俞志汶俞志汶

魏志方魏志方 汉语单句谓语中心词汉语单句谓语中心词识别识别 《北京大学学报》(《北京大学学报》( 11 ))《中文信息学报》(《中文信息学报》( 11 ))

1111 华南理工大学电华南理工大学电子与通信工程系子与通信工程系 徐秉铮徐秉铮手写汉字识别(弹性手写汉字识别(弹性网格方向分解特征、网格方向分解特征、动态衰减调节径向函动态衰减调节径向函数 (数 ( RBF RBF DDADDA ))))

《《电路与系统学报》(电路与系统学报》( 11))《华南理工大学学报》(《华南理工大学学报》( 11))

国内研究情况(续)国内研究情况(续)

Page 41: 文本挖掘( TextMining)

内容内容 校、院、所校、院、所

自动分词(自动分词( 6060 年代)年代)自动标引(自动标引( 7070 年代)年代)

上海交通大学电脑应用研究所上海交通大学电脑应用研究所东北大学东北大学清华大学计算机科学与技术系清华大学计算机科学与技术系北京邮电大学信息工程系北京邮电大学信息工程系中科院计算机语言信息工程研究中心中科院计算机语言信息工程研究中心哈尔滨工业大学计算机科学与工程系哈尔滨工业大学计算机科学与工程系

自动文摘自动文摘北京邮电大学信息工程系北京邮电大学信息工程系哈尔滨工业大学哈尔滨工业大学上海交通大学上海交通大学北京邮电大学信息工程系北京邮电大学信息工程系

英文中动词的远程搭配英文中动词的远程搭配 东北大学东北大学

Page 42: 文本挖掘( TextMining)

内容内容 校、院、所校、院、所

语义分析 语法分析 句法分析语义分析 语法分析 句法分析

中科院计算机语言信息工程研究中心中科院计算机语言信息工程研究中心复旦大学计算机科学系复旦大学计算机科学系上海交通大学计算机科学与工程系上海交通大学计算机科学与工程系东北大学东北大学清华大学计算机科学与技术系清华大学计算机科学与技术系

汉字识别 汉字识别

华南理工大学电子与通信工程系华南理工大学电子与通信工程系东北大学东北大学北京大学计算语言研究所北京大学计算语言研究所哈尔滨工业大学哈尔滨工业大学清华大学电子工程系清华大学电子工程系

音字转换 音字转换 哈尔滨工业大学计算机科学与工程系哈尔滨工业大学计算机科学与工程系中科院计算机语言信息工程研究中心中科院计算机语言信息工程研究中心

Page 43: 文本挖掘( TextMining)

内容内容 校、院、所校、院、所

识别模型识别模型清华大学计算机科学与技术系清华大学计算机科学与技术系东北大学东北大学上海交通大学计算机科学与工程系上海交通大学计算机科学与工程系

《自然语言人机接口的设计与实现》《自然语言人机接口的设计与实现》 中科院计算机语言信息工程研究中心中科院计算机语言信息工程研究中心《中文自动摘要系统》《中文自动摘要系统》 上海交通大学电脑应用研究所上海交通大学电脑应用研究所《中文词句快速查找系统》《中文词句快速查找系统》 哈尔滨工业大学计算机科学与工程系哈尔滨工业大学计算机科学与工程系《名片自动录入系统的实现》《名片自动录入系统的实现》

清华大学清华大学中文分词系统中文分词系统 Cseg&TagCseg&TagTH-OCRTH-OCR 汉字识别系 统 (汉字识别系 统 ( optical optical character recognitioncharacter recognition ))

Page 44: 文本挖掘( TextMining)

基于规则的机器翻译系统基于规则的机器翻译系统 (( 国外国外)) 乔治敦大学的机译系统乔治敦大学的机译系统 法国格勒诺布尔大学的俄法机译系统法国格勒诺布尔大学的俄法机译系统 加拿大的加拿大的 TAUM-METEOTAUM-METEO 系统系统 日本的日本的 ATLASATLAS 日本的其他实用性机译系统日本的其他实用性机译系统 法国纺织研究所的 法国纺织研究所的 TITUS-IV TITUS-IV 系统系统 美国的美国的 SYSTRANSYSTRAN 系统系统 美国的美国的 WEIDNERWEIDNER 系统系统 美国的美国的 PAHOPAHO 系统系统 德国的德国的 METALMETAL 系统系统 德国的德国的 SUSYSUSY 系统系统 EUROTRAEUROTRA 系统系统 日本的日本的 MuMu 系统与系统与 ODAODA 计划计划 DLTDLT 系统系统

Page 45: 文本挖掘( TextMining)

基于规则的机器翻译系统(国内)基于规则的机器翻译系统(国内) 俄汉机译系统俄汉机译系统 英汉题录机译系统英汉题录机译系统 TITLETITLE 汉汉 --法法 //英英 //日日 // 俄俄 //德多语言机器翻译系统德多语言机器翻译系统

FAJRAFAJRA ““译星”英汉系统译星”英汉系统 ““ 高立”英汉系统高立”英汉系统 863-863-IMT/ECIMT/EC 英汉系统英汉系统 MatrixMatrix 英汉系统英汉系统 通译英汉通译英汉 -- 汉英系统汉英系统 雅信英汉系统雅信英汉系统 ReadworldReadworld 英汉系统英汉系统 Sino-TransSino-Trans汉英汉英 -- 汉日机译系统汉日机译系统 E-to-JE-to-J 英日机器翻译系统英日机器翻译系统

Page 46: 文本挖掘( TextMining)

国外文本挖掘工具国外文本挖掘工具 IBMIBM 的文本智能挖掘机的文本智能挖掘机

高级搜索引擎高级搜索引擎 ((Advanced Search Engine)——TextMinerAdvanced Search Engine)——TextMiner ;; WebWeb访问工具访问工具 ((Web Access Tools)——Web Access Tools)—— 包括包括WebWeb搜索引擎搜索引擎

NetQuestionNetQuestion 和和 Web CrawlerWeb Crawler ;; 文本分析工具文本分析工具 ((Text Analysis Tools)Text Analysis Tools) 。。

IBMIBM 的的 TextMinerTextMiner ::其主要功能是特征抽取、其主要功能是特征抽取、文档聚集、文档分类和检索。文档聚集、文档分类和检索。 支持支持 1616 种语言的多种格式文本的数据检索;种语言的多种格式文本的数据检索; 采用深层次的文本分析与索引方法;采用深层次的文本分析与索引方法; 支持全文搜索及索引搜索,搜索的条件可以是自然语言和布尔逻支持全文搜索及索引搜索,搜索的条件可以是自然语言和布尔逻辑条件;辑条件; 是是 Client/ServerClient/Server 结构的工具,支持大量的并发用户做检索任务;结构的工具,支持大量的并发用户做检索任务; 联机更新索引,同时又能完成其它的搜索任务。联机更新索引,同时又能完成其它的搜索任务。

Page 47: 文本挖掘( TextMining)

国外文本挖掘工具(续)国外文本挖掘工具(续) AutonomyAutonomy 公司最核心的产品是公司最核心的产品是

Concept AgentsConcept Agents 。。 在经过训练以后,它能自动地从文本中抽取概念。在经过训练以后,它能自动地从文本中抽取概念。

TelTechTelTech 公司 公司 提供专家服务;提供专家服务; 专业文献检索服务;专业文献检索服务; 产品与厂商检索服务;产品与厂商检索服务; TelTechTelTech 成功的关键是建立了高性能的知识结构。它成功的关键是建立了高性能的知识结构。它采用主题法,其主题词表分为不同专业,共有采用主题法,其主题词表分为不同专业,共有 33万多万多个,由数位知识工程师维护,每周更新个,由数位知识工程师维护,每周更新 500500 ~~ 12001200个词。个词。