93
第第第 WEB 第第第第 (WEB IR) 第第 66134922 [email protected] mingler.ccshu.org

第五讲 WEB检索 研究 (WEB IR)

  • Upload
    amena

  • View
    93

  • Download
    7

Embed Size (px)

DESCRIPTION

第五讲 WEB检索 研究 (WEB IR). 陆铭 66134922 [email protected] mingler.ccshu.org. 内容提要. WEB IR 的基本概念 搜索引擎的组成 信息采集 信息分析及索引 信息搜索. WEB IR 的定义. 基于 WEB 的信息检索研究 搜索引擎是最典型的代表 搜索引擎 (Search Engine ,简称 SE) 是实现如下功能的一个系统 收集、整理和组织信息并为用户提供查询服务 面向 WEB 的 SE 是其中最典型的代表 三大特点:事先下载,事先组织,实时检索 - PowerPoint PPT Presentation

Citation preview

Page 1: 第五讲  WEB检索 研究 (WEB IR)

第五讲 WEB 检索研究 (WEB IR)

陆铭66134922richardlushueducnminglerccshuorg

2

内容提要

WEB IR 的基本概念 搜索引擎的组成 信息采集 信息分析及索引 信息搜索

3

WEB IR 的定义 基于 WEB 的信息检索研究 搜索引擎是最典型的代表

搜索引擎 (Search Engine 简称 SE) 是实现如下功能的一个系统

收集整理和组织信息并为用户提供查询服务 面向 WEB 的 SE 是其中最典型的代表

三大特点事先下载事先组织实时检索 搜索引擎也是信息检索 (Information Retrieval)

这门学科的典型应用

4

WEB 搜索引擎和一般 IR 的区别 检索对象不同 搜索引擎面向大规模半结构化质量不一位置分散

交叉互联冗余繁杂的 WEB 数据 一般检索通常只考虑较高质量自然语言表述的书面文本

( 如新闻等 ) 查询方式不尽相同 前者通常为 1~3 个词的短查询后者考虑各种方式的查询

用户对结果的反应不同 前者的用户通常只关心前几页的结果更关注准确度而

后者准确度和全面度并重

5

Web IR 结构图

6

WEB 图中的一些概念

节点 (Node) 指每个网页当图中每个连接的单位是网站时

每个网站看成一个 Node 入度 (In degree) 每个 Node 的入度指的是指向该 Node 的 Node

数目 出度 (Out degree) 每个 Node 的出度指的是该 Node 指向的 Node

数目

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 2: 第五讲  WEB检索 研究 (WEB IR)

2

内容提要

WEB IR 的基本概念 搜索引擎的组成 信息采集 信息分析及索引 信息搜索

3

WEB IR 的定义 基于 WEB 的信息检索研究 搜索引擎是最典型的代表

搜索引擎 (Search Engine 简称 SE) 是实现如下功能的一个系统

收集整理和组织信息并为用户提供查询服务 面向 WEB 的 SE 是其中最典型的代表

三大特点事先下载事先组织实时检索 搜索引擎也是信息检索 (Information Retrieval)

这门学科的典型应用

4

WEB 搜索引擎和一般 IR 的区别 检索对象不同 搜索引擎面向大规模半结构化质量不一位置分散

交叉互联冗余繁杂的 WEB 数据 一般检索通常只考虑较高质量自然语言表述的书面文本

( 如新闻等 ) 查询方式不尽相同 前者通常为 1~3 个词的短查询后者考虑各种方式的查询

用户对结果的反应不同 前者的用户通常只关心前几页的结果更关注准确度而

后者准确度和全面度并重

5

Web IR 结构图

6

WEB 图中的一些概念

节点 (Node) 指每个网页当图中每个连接的单位是网站时

每个网站看成一个 Node 入度 (In degree) 每个 Node 的入度指的是指向该 Node 的 Node

数目 出度 (Out degree) 每个 Node 的出度指的是该 Node 指向的 Node

数目

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 3: 第五讲  WEB检索 研究 (WEB IR)

3

WEB IR 的定义 基于 WEB 的信息检索研究 搜索引擎是最典型的代表

搜索引擎 (Search Engine 简称 SE) 是实现如下功能的一个系统

收集整理和组织信息并为用户提供查询服务 面向 WEB 的 SE 是其中最典型的代表

三大特点事先下载事先组织实时检索 搜索引擎也是信息检索 (Information Retrieval)

这门学科的典型应用

4

WEB 搜索引擎和一般 IR 的区别 检索对象不同 搜索引擎面向大规模半结构化质量不一位置分散

交叉互联冗余繁杂的 WEB 数据 一般检索通常只考虑较高质量自然语言表述的书面文本

( 如新闻等 ) 查询方式不尽相同 前者通常为 1~3 个词的短查询后者考虑各种方式的查询

用户对结果的反应不同 前者的用户通常只关心前几页的结果更关注准确度而

后者准确度和全面度并重

5

Web IR 结构图

6

WEB 图中的一些概念

节点 (Node) 指每个网页当图中每个连接的单位是网站时

每个网站看成一个 Node 入度 (In degree) 每个 Node 的入度指的是指向该 Node 的 Node

数目 出度 (Out degree) 每个 Node 的出度指的是该 Node 指向的 Node

数目

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 4: 第五讲  WEB检索 研究 (WEB IR)

4

WEB 搜索引擎和一般 IR 的区别 检索对象不同 搜索引擎面向大规模半结构化质量不一位置分散

交叉互联冗余繁杂的 WEB 数据 一般检索通常只考虑较高质量自然语言表述的书面文本

( 如新闻等 ) 查询方式不尽相同 前者通常为 1~3 个词的短查询后者考虑各种方式的查询

用户对结果的反应不同 前者的用户通常只关心前几页的结果更关注准确度而

后者准确度和全面度并重

5

Web IR 结构图

6

WEB 图中的一些概念

节点 (Node) 指每个网页当图中每个连接的单位是网站时

每个网站看成一个 Node 入度 (In degree) 每个 Node 的入度指的是指向该 Node 的 Node

数目 出度 (Out degree) 每个 Node 的出度指的是该 Node 指向的 Node

数目

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 5: 第五讲  WEB检索 研究 (WEB IR)

5

Web IR 结构图

6

WEB 图中的一些概念

节点 (Node) 指每个网页当图中每个连接的单位是网站时

每个网站看成一个 Node 入度 (In degree) 每个 Node 的入度指的是指向该 Node 的 Node

数目 出度 (Out degree) 每个 Node 的出度指的是该 Node 指向的 Node

数目

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 6: 第五讲  WEB检索 研究 (WEB IR)

6

WEB 图中的一些概念

节点 (Node) 指每个网页当图中每个连接的单位是网站时

每个网站看成一个 Node 入度 (In degree) 每个 Node 的入度指的是指向该 Node 的 Node

数目 出度 (Out degree) 每个 Node 的出度指的是该 Node 指向的 Node

数目

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 7: 第五讲  WEB检索 研究 (WEB IR)

7

WEB 的相关特性 (1)

Power Law( 幂分布定律 ) WEB 的很多属性满足 f(x)=x-λ λgt1

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 8: 第五讲  WEB检索 研究 (WEB IR)

8

WEB 的相关特性 (2)

Small world( 小世界 ) 理论 整个 WEB 虽然庞大但是任意两点之间的平均

距离却不大有人做过实验计算出整个 WEB 的平均距离约为 19 人类社会的六度分离理论人类社会至多

通过 6 人可以实现两人的互通

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 9: 第五讲  WEB检索 研究 (WEB IR)

9

WEB 的相关特性 (3)

WEB 的结构 蝴蝶结型 (Bow-tie)

SCC为连通部分 IN 中网页指向 SCC SCC指向 OUT中网页 非连通部分 (Tendrils)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 10: 第五讲  WEB检索 研究 (WEB IR)

10

基于 WEB 特性的一些研究

社区挖掘 社会计算 小世界模型

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 11: 第五讲  WEB检索 研究 (WEB IR)

11

搜索引擎类型

按照检索机制分类 检索型 目录型 混合型

按照检索内容分类 综合型 ( 通用型 ) 专题型 特定型

按照检索工具数量分类 单独型 集合型 (元搜索引擎 )

按照检索资源的类型分类 WEB 型 非WEB 型

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 12: 第五讲  WEB检索 研究 (WEB IR)

12

检索型 综合型搜索引擎

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 13: 第五讲  WEB检索 研究 (WEB IR)

13

目录型搜索引擎

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 14: 第五讲  WEB检索 研究 (WEB IR)

14

专题型搜索引擎

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 15: 第五讲  WEB检索 研究 (WEB IR)

15

特定型搜索引擎

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 16: 第五讲  WEB检索 研究 (WEB IR)

16

元搜索引擎

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 17: 第五讲  WEB检索 研究 (WEB IR)

17

非WEB 型搜索引擎

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 18: 第五讲  WEB检索 研究 (WEB IR)

18

搜索引擎简史回顾 1986年 Internet正式形成 现代搜索引擎的祖先

1990 年由加拿大蒙特利尔McGill 大学学生Alan Emtage发明的 Archie 是对 FTP文件名搜索首次采用ldquo机器人rdquo自动爬行程序 第一个用于监测互联网发展规模的ldquo机器人rdquo程序是 1993年MIT的Matthe

w Gray 开发的 World wide Web Wanderer刚开始它只用来统计互联网上的服务器数量后发展为能够检索网站域名

Lycos 第一个现代意义上的 WEB 搜索引擎 CMU机器翻译中心的Michael Mauldin 于 199

4年 7月创建 Yahoo

斯坦福大学博士生DavidFilo 和 Jerry Yang(杨致远 )创建 1995年 Google

斯坦福大学博士生 Larry Page与 Sergey Brin 于 1998年 9月创建目前是全世界最受欢迎的搜索引擎 Baidu

超链分析专利发明人前 Infoseek 资深工程师李彦宏与好友徐勇发布于 2001年 10月是目前最受欢迎的中文搜索引擎之一

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 19: 第五讲  WEB检索 研究 (WEB IR)

19

搜索引擎索引网页数目变化 (1)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 20: 第五讲  WEB检索 研究 (WEB IR)

20

搜索引擎索引网页数目变化 (2)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 21: 第五讲  WEB检索 研究 (WEB IR)

21

搜索引擎基本组成示意图

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 22: 第五讲  WEB检索 研究 (WEB IR)

22

Google 的组成

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 23: 第五讲  WEB检索 研究 (WEB IR)

23

组成模块的功能 信息收集或采集 (Information Gathering) 获取信息通常是指从 Internet上自动获取信息

信息整理和组织 (Information Organization) 预处理 文本分析和处理 信息标引mdashmdash将查询和文档表示成方便检索的某种方式

信息搜索 (Information Search) 查询的分析 相似度计算和排序 (Ranking) 结果摘要

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 24: 第五讲  WEB检索 研究 (WEB IR)

24

信息采集的概念 主要是指通过 Web 页面之间的链接关系从Web上自动获取页面信息 并且随着链接不断向所需要的 Web 页面扩展的过程信息采集系统也常常称为 Robot Spider Crawler 等等

信息采集是搜索引擎获得数据来源的过程地位相当重要 信息采集的目标快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程

不同的协议 不同的网络情况 时效性的要求 网页质量的要求

实际上是图的遍历过程 通过种子页面或站点 (Seed) 获取更多的链接将它们作为下一步

种子循环 这个过程一般永远不会结束

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 25: 第五讲  WEB检索 研究 (WEB IR)

25

信息采集的基本结构

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 26: 第五讲  WEB检索 研究 (WEB IR)

26

采集的遍历算法宽度优先 vs 深度优先

宽度优先先采集完同一层的网页再采集下一层网页 深度优先先沿一条路径采到叶节点再从同层其他路径进行采集 有研究表明宽度优先的方法得到的网页集合的重要性更好

网站采集 vs 全局URL 采集 网站采集一个网站一个网站采集 全局URL 采集将所有 URL放入一个 URL池从中使用某种方法进行选择

网站采集在支持应用方面灵活性大一些但是采集效率可能不如全局URL 采集通常的搜索引擎采用全局URL 采集的方法

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 27: 第五讲  WEB检索 研究 (WEB IR)

27

采集网页的更新策略 定期重采 一段时间以后重新采集所有网页全部采完以后替换原来的网页 增量采集 只按照某种策略采集那些可能新增变化的网页

并删除那些已经不存在的网页 定期重采非常简单但是浪费带宽周期

也长增量采集可以节省带宽网页更新周期相对较短但是系统的复杂性增大

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 28: 第五讲  WEB检索 研究 (WEB IR)

28

采集网页的速度保证措施

本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集

单机多程序并行 多进程并行 多线程并行

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 29: 第五讲  WEB检索 研究 (WEB IR)

29

采集网页的质量保证措施

减少重复页面的采集 URL 重复的检测和排除 内容重复的检测和排除

保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 30: 第五讲  WEB检索 研究 (WEB IR)

30

采集中的行为问题

遵守网站上发布的 Robottxt 采集限制协议

采集时尽量不要太过密集地采集某个网站这种密集访问类似于 DoS攻击导致普通用户正常浏览网站产生困难有些网站会严密控制这种密集访问行为

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 31: 第五讲  WEB检索 研究 (WEB IR)

31

信息采集的研究趋势

高速高质量的信息采集 个性化信息采集 只采集符合用户的兴趣的数据

基于主题的信息采集 采集某个领域的数据

信息的采集及抽取 采集后提取结构化信息

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 32: 第五讲  WEB检索 研究 (WEB IR)

32

信息分析

对原始数据的预处理 格式分析与转换 (htmlxmldocpdfrtf) 语种识别编码识别与转换 (GBBIG5Unicode) 噪声数据的清洗 冗余数据的处理

信息分类 amp聚类

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 33: 第五讲  WEB检索 研究 (WEB IR)

33

分类 聚类基本概念

分类 聚类是大自然的固有现象物以类聚人以群分

相似的对象往往聚集在一起 相对不相似的对象往往分开

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 34: 第五讲  WEB检索 研究 (WEB IR)

34

关于分类 简单地说分类 (Categorization or Classification)就是按照某种标准给对象贴标签 (label)

男 女老人 青年

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 35: 第五讲  WEB检索 研究 (WEB IR)

35

分类无处不在

性别籍贯民族学历年龄等等我们每个人身上贴满了ldquo标签rdquo

我们从孩提开始就具有分类能力爸爸妈妈好阿姨坏阿姨电影中的好人坏人等等

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 36: 第五讲  WEB检索 研究 (WEB IR)

36

思考题

从如下叙述中找出ldquo标签rdquo 你以为我穷不好看就没有感情吗我也会有

的如果上帝赋予我财富和美貌我一定要让你难于离开我就像我现在难于离开你上帝没有这样我们的精神是同等的就如同你跟我经过坟墓将同样地站在在上帝面前

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 37: 第五讲  WEB检索 研究 (WEB IR)

37

关于聚类

简单地说聚类是指事先没有ldquo标签rdquo而通过某种成团的分析找出事物之间存在聚集性原因的过程

在一个自习教室往往发现大家三三两两扎推地坐经过打听总能找出扎堆的原因

事先不知道ldquo标签rdquo根据对象之间的相似情况进行成团分析后加上ldquo标签rdquo的过程

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 38: 第五讲  WEB检索 研究 (WEB IR)

38

信息处理中分类和聚类的原因

分类 聚类的根本原因就是因为对象数目太多处理困难

一些信息处理部门一个工作人员一天要看上千份信息

分门别类将会大大减少处理难度提高处理效率和效果

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 39: 第五讲  WEB检索 研究 (WEB IR)

39

分类 聚类的过程

对对象进行表示 表示方法 特征选择

根据某种算法进行相似度计算 相似度计算方法 分类 聚类方法

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 40: 第五讲  WEB检索 研究 (WEB IR)

40

文本分类的定义 Text CategorizationClassification 事先给定分类体系和训练样例 (标注好类

别信息的文本 ) 将文本分到某个或者某几个类别中

计算机自动分类就是根据已经标注好类别信息的训练集合进行学习将学习到的规律用于新样本( 也叫测试样本 ) 的类别判定

分类是有监督 指导学习 (Supervised Learning) 的一种

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 41: 第五讲  WEB检索 研究 (WEB IR)

41

文本分类的模式 从类别数目来分 2类 (binary)问题类别体系由两个互补类构成一篇文

本属于或不属于某一类 多类 (multi-class)问题类别体系由三个或者以上的类

别构成一篇文本可以属于某一个或者多个类别通常可以通过拆分成多个 2类问题来实现也有直接面对多类问题的分类方法 从是否兼类看分 单标签 (single label)问题一个文本只属于一个类 多标签 (multi-label)问题一个文本可以属于多类即

出现兼类现象

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 42: 第五讲  WEB检索 研究 (WEB IR)

42

分类体系 分类体系的构建标准可以是按照语义 ( 如政治经济军事hellip ) 也可以是按照其他标准 ( 如垃圾 vs 非垃圾游戏网站 vs 非游戏网站 ) 完全取决于目标应用的需求

分类体系一般由人工构造可以是层次结构 Reuters 语料分类体系中图分类 Yahoo 分类目录

对于计算机而言分类体系就是一棵目录树训练样例文本就是最后的叶子节点而且对于计算机处理而言只需要训练样例文本及其对应类别信息整个过程通常并不会考虑类别标签的意义也就是说几篇文档合在一起表示某个类别

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 43: 第五讲  WEB检索 研究 (WEB IR)

43

分类的应用 垃圾邮件的判定 类别 spam not-spam

新闻出版按照栏目分类 类别 政治 体育 军事 hellip

词性标注 类别 名词 动词 形容词 hellip

词义排歧 类别 词义 1词义 2hellip

计算机论文的领域 类别 ACM system

H information systems H3 information retrieval and storage

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 44: 第五讲  WEB检索 研究 (WEB IR)

44

文本分类mdashmdash人工方法和自动方法 人工方法人工总结规则

优点 结果容易理解如足球 and 联赛1048774体育类

缺点 费时费力 难以保证一致性和准确性 (40左右的准确率 ) 专家有时候凭空想象没有基于真实语料的分布

代表方法人们曾经通过知识工程的方法建立专家系统 (80 年代末期 ) 用于分类 自动的方法 ( 学习 ) 从训练语料中学习规则

优点 快速 准确率相对高 ( 准确率可达 60或者更高 ) 来源于真实文本可信度高

缺点 结果可能不易理解 (比如有时是一个复杂的数学表达式 )

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 45: 第五讲  WEB检索 研究 (WEB IR)

45

文本分类mdashmdash规则方法和统计方法

规则方法通过得到某些规则来指导分类而这些规则往往是人可以理解的

统计方法通过计算得到一些数学表达式来指导分类 规则方法和统计方法没有本质的区别它们都是想得到某种规律性的东西来指导分类统计方法得到的数学表达式可以认为是某种隐式规则

在目前的文本分类当中统计方法占据了主流地位

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 46: 第五讲  WEB检索 研究 (WEB IR)

46

文本分类的过程 (1) 两个步骤 训练 (training)

即从训练样本中学习分类的规律 测试 (test或分类 classification)

根据学习到的规律对新来的文本进行类别判定 文本表示 (text representation) 不管是训练还是测试都要先分析出文本的某些

特征 (feature 也称为标引项 term) 然后把文本变成这些特征的某种适宜处理的表示形式通常都采用向量表示形式或者直接使用某些统计量

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 47: 第五讲  WEB检索 研究 (WEB IR)

47

文本分类的过程 (2)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 48: 第五讲  WEB检索 研究 (WEB IR)

48

特征抽取 (Feature Extraction) 预处理

去掉 html 一些 tag标记 禁用词 (stop words)去除词根还原 (stemming) ( 中文 ) 分词词性标注短语识别hellip 标引项频率统计 TFij 特征 i在文档 j中出现次数标引项频率 (Term Frequency) DFi 所有文档集合中出现特征 i 的文档数目文档频率 (Document Frequency)

数据清洗去掉不合适的噪声文档或文档内垃圾数据 文本表示

向量空间模型 降维技术 特征选择 (Feature Selection) 特征重构 (Re-parameterisation 如 LSI)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 49: 第五讲  WEB检索 研究 (WEB IR)

49

文本表示 向量空间模型 (Vector Space Model VSM)

m 个无序标引项 ti( 特征 ) 可以采用词根 词 短语 其他等单位

n 个训练文档 每个文档 dj可以用标引项向量 ( 每个 aij是权重 )来表示

(a1ja2jhellipamj) 通过向量的距离可以计算文档之间的相似度 ( 分类

的主要计算目标就是度量两篇文档之间的距离 )

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 50: 第五讲  WEB检索 研究 (WEB IR)

50

文本表示 文档-标引项矩阵 (Doc-Term Matrix) 文档之间的相似度计算

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 51: 第五讲  WEB检索 研究 (WEB IR)

51

Term 的粒度 Character 字中 Word 词中国 Phrase 短语中国人民银行 Concept 概念 同义词开心高兴兴奋 相关词 cluster word cluster 葛非 顾俊

N-gram N元组中国国人人民民银银行 某种规律性模式比如某个 window 中出现的固

定模式 David Lewis 等一致地认为 (英文分类中 )使用优化合并后的 Words比较合适

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 52: 第五讲  WEB检索 研究 (WEB IR)

52

权重计算方法 (1) (Term i在文档 j中的 ) 布尔权重 aij=1(TFijgt0) or 0 (TFij=0)

TFIDF型权重 TF aij=TFij TFIDF aij=TFijlog(NDFi) TFC 对上面进行归一化 LTC 降低 TF的作用

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 53: 第五讲  WEB检索 研究 (WEB IR)

53

权重计算方法 (2) 基于熵概念的权重 (Entropy weighting) ni 是 term i在整个文档集合中出现的总次数 (neDFi) Entropy(i) 称为 term i 的某种熵

如果 term i 分布极度均匀 Entropy(i) 等于 -1 如果只在一个文档中出现 Entropy(i) 等于 0

DumaisS T Improving the retrieval of information from external sources[J] Behavior ResMethamp Comp 199123229-236

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 54: 第五讲  WEB检索 研究 (WEB IR)

54

特征选择 Feature selection(1)

基于 DF的选择方法 (DF Thresholding) Term 的 DF小于某个阈值去掉 (太少没有代表

性 ) 信息增益 (Information Gain IG) 该 term 为整个分类所能提供的信息量 ( 不考虑

任何特征的熵和考虑该特征后的熵的差值 )

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 55: 第五讲  WEB检索 研究 (WEB IR)

55

特征选择 (2) Term 的某种熵

该值越大说明分布越均匀越有可能出现在较多的类别中该值越小说明分布越倾斜词可能出现在较少的类别中

相对熵 (not 交叉熵 ) 也称为 KL 距离 (Kullback-Leiblerdivergence) 反映了在出现了某

个特定词的条件下的文本类别的概率分布和无任何条件下的文本类别的概率分布之间的距离该值越大词对文本类别分布的影响也大

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 56: 第五讲  WEB检索 研究 (WEB IR)

56

特征选择 (3)χ2 统计量 ( 念 xi chi) 度量两者 (term 和类别 )独立性的缺乏程度 χ2 越大独立性越小相关性越大 (N=A+B+C+D)

互信息 (Mutual Information MI) MI越大 t 和 c共现程度越大

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 57: 第五讲  WEB检索 研究 (WEB IR)

57

特征选择 (4) Robertson amp SparckJones公式

其他 Odds Term Strength(TS)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 58: 第五讲  WEB检索 研究 (WEB IR)

58

特征重构 特征重构的目的是将现有的特征空间映射到其他

更合适的特征空间当中去以便获得更好的特征表示

隐性语义索引 (Latent Semantic Index) 是其中最有代表性的方法

另外 PCA(主成份分析 ) 也可以用于特征重构

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 59: 第五讲  WEB检索 研究 (WEB IR)

59

自动文本分类方法 决策树方法Decision Tree Decision Rule Classifiers 回归 (Regression) 方法 Rocchio 方法 kNN 方法 Naiumlve Bayes1048774Online LinearClassifiers 多重神经网络方法 Neural Networks 支持向量机 SVM 基于投票的方法 (Voting methods)

规则方法

统计方法

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 60: 第五讲  WEB检索 研究 (WEB IR)

60

文本聚类定义 聚类是一个无导的学习过程 是指根据样本之间的某种距离在无监督条件下的聚簇过程 利用聚类方法可以把大量的文档划分成用

户可迅速理解的簇 (cluster) 从而使用户可以更快地把握大量文档中所包含的内容加快分析速度并辅助决策

大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 61: 第五讲  WEB检索 研究 (WEB IR)

61

文本聚类的应用

TDT(TopicDetection and Tracking) 中主题事件的检测

将文档进行聚类从聚出的类中发现新的热点主题 检索结果的聚类显示 检索结果聚类以便用户浏览

大规模文档的组织和呈现

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 62: 第五讲  WEB检索 研究 (WEB IR)

62

文本聚类流程

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 63: 第五讲  WEB检索 研究 (WEB IR)

63

聚类算法 (1)层次方法(Hierarchical Methods) 凝聚算法( Agglomerative Algorithms) 分裂算法( Divisive Algorithms)

划分方法 (Partitioning Methods) Relocation Algorithms 概率聚类 (Probabilistic Clustering) K- 中心点算法 (K-medoidsMethods) K- 平均算法 (K-means Methods) 基于密度的算法( Density-Based Algorithms)

Density-Based Connectivity Clustering Density Functions Clustering

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 64: 第五讲  WEB检索 研究 (WEB IR)

64

聚类算法 (2) 基于网格的方法 (Grid-Based Methods) Methods Based on Co-Occurrence of Categorical Data Constraint-Based Clustering Clustering Algorithms Used in Machine Learning

Gradient Descent and Artificial Neural Networkds Evolutionary Methods

Scalable Clustering Algorithms Algorithms For High Dimensional Data

Subspace Clustering Projection Techniques Co-Clustering Techniques

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 65: 第五讲  WEB检索 研究 (WEB IR)

65

凝聚式层次聚类 (HAC)

算法流程 Step1 将所有的点各自单独形成一个簇 Step2 从现有所有的簇中选择最近 (或者最相似

的两个簇 ) 进行合并 Step3 如果只剩下一个簇或者达到终止条件 (比

如达到需要的簇的数目 )聚类结束 否则返回 Step2

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 66: 第五讲  WEB检索 研究 (WEB IR)

66

k-Means聚类分析 算法流程 Step1 初始化 k个簇中心 Step2 对于每个文档向量计算该文档向量与 k

个类中心的距离选择距离最小 ( 相似度最大 ) 的簇将该文档分入该簇

Step3 重新计算 k个簇的中心中心为该簇内所有点的算术平均

Step4 如果簇变化不大或者满足某种退出条件(达到最大迭代次数满足某种目标函数等 ) 那么结束聚类否则返回 Step2

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 67: 第五讲  WEB检索 研究 (WEB IR)

67

BiSectingk-Means聚类 (BiSect)

算法流程 Step1 将所有的点形成一个簇 Step2 从现有所有的簇中选择包含文档数最大

的簇进行拆分用 k-Means算法 (k=2)将该簇分成 2 个簇

Step3 如果达到了需要的簇的数目则结束

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 68: 第五讲  WEB检索 研究 (WEB IR)

68

最近邻聚类 (Nearest Neighbour)

算法流程 Step1 随机选择一个样本以该样本为中心建立一个新簇

Step2 取下一个要分析的对象如果没有对象需要聚类那么聚类结束

Step3 计算当前对象与当前所有簇的相似度得到相似度最大的簇及对应的相似度 d如果 dgt阈值 T 那么将该对象分配给选中的簇更新簇的中心否则以该对象为中心新建一个簇

Step4 返回 Step2

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 69: 第五讲  WEB检索 研究 (WEB IR)

69

MaxDist算法 算法流程 Step1 从Ds 中任取一个样本例如 D1 以D1作为簇中心新建一个簇

Step2 在Ds 中找一个与D1 最远的样本并以之为中心新建一个簇从而形成两个簇记录该最远距离为 max同时算出阈值 (可以为 max 的 p倍 12lt=plt1)

Step3 对于剩下的点顺序扫描 计算该点与所有的簇的距离的最小值

Step4 如果最小距离大于阈值并且未达到需要的类数 则以该点新建一个簇 返回 Step3 否则如果没有点了或者达到需要的类数 结束聚类

Step5 返回 Step3

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 70: 第五讲  WEB检索 研究 (WEB IR)

70

文本聚类评估mdashmdash纯度

用已有分类结果作为评测集合来评估 对于聚类结果中的类别 r nr 是 r 中文档

个数表示属于分类中第 i类在 r 中的文档个数

整个结果的纯度

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 71: 第五讲  WEB检索 研究 (WEB IR)

71

文本聚类评估mdashmdashF值 n(ir) 是属于 i类但是分到 r类中文档个数 nr 是

r类文档个数 ni 是测试集合中 i类中的文档个数F是 R 和 P 的调和平均

最终结果 n 是文档总数

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 72: 第五讲  WEB检索 研究 (WEB IR)

72

分类聚类在搜索引擎中的应用

将检索语料进行事先分类可以实现更准确的检索降低检索的消耗也便于检索结果的组织和显示

将检索语料进行事先聚类也可以在降低检索消耗的同时实现更准确的检索

将检索结果进行事后聚类便于快速用户定位所需要的结果

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 73: 第五讲  WEB检索 研究 (WEB IR)

73

信息索引 (indexing)

为加快搜索速度建立特定的数据结构 不可能是逐个文档扫描 (太慢 ) 倒排表后缀树签名表等等

大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 74: 第五讲  WEB检索 研究 (WEB IR)

74

前向索引 (Forward index)

文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 75: 第五讲  WEB检索 研究 (WEB IR)

75

倒排索引 (Inverted index) 文档 1 b d a b b c b a d c

文档 2 a b c d a c d b d a b

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 76: 第五讲  WEB检索 研究 (WEB IR)

76

信息搜索

查询的分析 词法分析 ( 分词 Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析

相关度计算mdash信息检索模型 (参见第三章 ) 查询扩展和相关反馈 摘要生成

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 77: 第五讲  WEB检索 研究 (WEB IR)

77

查询的分析和挖掘

查询的意图分析 查询的意图分类

informational 中国科学院 navigational 中国知识产权局主页 transactional 赴美签证表格下载

通过查询的意图分析可以指导后续的工作是一个新的研究方向 查询日志挖掘 发现用户的兴趣

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 78: 第五讲  WEB检索 研究 (WEB IR)

78

查询扩展 对用户的查询进行扩充 比如用户输入计算机我们扩充一个词电脑 同义词扩展

同义词词典 通过统计构造的同义词词典

相关词扩展 相关词ldquo 2006 世界杯rdquo与ldquo德国rdquo 基于全局分析的查询扩展对文档集合进行分析得到某种相关词典

查询重构 对用户的初始查询进行修改 (可以是加词减词或者

对于向量模型表示的初始查询进行权重的修改等等 ) 是比查询扩展更泛的一个概念

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 79: 第五讲  WEB检索 研究 (WEB IR)

79

相关反馈

指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等

伪相关反馈 系统假定一些相关的结果并根据这些结果来进行返回

相关反馈是一种手段目的可以是查询扩展或者重构也可以是模型的调整

基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 80: 第五讲  WEB检索 研究 (WEB IR)

80

摘要生成 静态摘要 一个网页事先生成其摘要

动态摘要 基于 Query的摘要不同的 Query 会生成不同

的摘要 静态摘要比较简单但是由于多 Topic问题的存在效果往往不好

现代搜索引擎往往采用动态摘要用户也认可这种方式

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 81: 第五讲  WEB检索 研究 (WEB IR)

81

信息搜索的研究趋势

更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 82: 第五讲  WEB检索 研究 (WEB IR)

82

Web作弊与反作弊 Web作弊 (Web Spam) 是指采取一些迷惑欺骗搜索引

擎的手段使某些 Web 页面在检索结果中的排名高于实际应得的排名的行为

有人估计 WEB 中有 10~15的作弊内容 搜索引擎优化 (Search Engine Optimizing) 行业的诞生

正当手段对网页进行优化 (标题布局 ) 作弊手段欺骗搜索引擎的手段

反作弊 (anti-spam) 是搜索引擎公司的一项重要任务 学术界 2005年开始就有 AIRWeb

Adversarial Information Retrieval 的 Workshop httpairwebcselehighedu其中最重要的一个任务就是 Web 反作弊

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 83: 第五讲  WEB检索 研究 (WEB IR)

83

Web作弊的危害

降低用户体验的满意程度降低用户对搜索引擎的信任

搜索引擎公司会因用户的满意度降低而使其商业价值受到损害

作弊或者垃圾页面也消耗了大量时间和空间

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 84: 第五讲  WEB检索 研究 (WEB IR)

84

Web作弊的方法

各种提高排名的技术 各种隐蔽技术用于使第一类技术的使用

不被发现

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 85: 第五讲  WEB检索 研究 (WEB IR)

85

利用关键词提高排名

内容匹配仍是大部分搜索引擎排名算法的重要组成部分 TFIDF仍是基本思想

作弊方法一 在网页 (标题或者元信息域 ) 中加入大量关键词使得

查询和目标网页匹配上的关键词个数增多从而提高排名 作弊方法二

在网页中 (标题或者元信息域 )加入大量与某些查询相关的重复ldquo关键词rdquo使得网页排名上升

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 86: 第五讲  WEB检索 研究 (WEB IR)

86

利用链接提高排名 (1)

根据搜索引擎所采用的链接分析算法构造具有某些链接结构的作弊网站迷惑搜索引擎提高排名

出链接作弊 (破坏HITS算法 ) 在网页上加入大量的出链接指向著名站点提高本网页的 Hub值

如采用目录克隆 (directory cloning) 方法直接拷贝 如 DMOZ Open Directory Project上的全部或者部分目录

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 87: 第五讲  WEB检索 研究 (WEB IR)

87

利用链接提高排名 (2) 入链接作弊

蜜罐诱饵 (honey pot) 一组提供有用资源的网页包含了许多指向目标作弊网页的链接它们像蜜罐一样引诱其他页面指向它们从而间接提高的目标作弊网页的排名 渗入 Web 目录 作弊者提交网页到一些著名的 WEB 目录编辑者可能没有严格审查而上述提交网页中含有指向目标作弊网页的链接由于 WEB分类目录通常具有很高的 PageRank和 Hub 所以目标网页的排名也能提高

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 88: 第五讲  WEB检索 研究 (WEB IR)

88

利用链接提高排名 (3) 入链接作弊

张贴法在 Blog BBS 留言板或Wiki上张贴链接指向目标作弊网页

链接交换作弊者联合作案作弊网站互相链接 购买过期域名过期域名指向作弊链接 构造链接农场 (link farm) 操作大量网站构造能够

提高 PageRank的任意网站现在投资已经很少 泛域名作弊 (二级域名作弊 ) 最低一级域名是随机生

成的这些域名代表的页面要么互相链接要么指向同一作弊网页要么重定向到一个作弊页面如中文互联网上的 oouvcom881166com 等

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 89: 第五讲  WEB检索 研究 (WEB IR)

89

隐蔽技术mdashmdash内容隐藏

浏览器显示页面时用户看不到作弊的关键词或者链接

通过颜色配置使得关键词和背景颜色一样 作弊链接不加上文字后不可见 将作弊链接加在非常小的透明或者和背景一样颜色的图片上

使用脚本技术来隐藏网页中的一些可见成分如将 HTML风格中的 Visible 属性设为 false

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 90: 第五讲  WEB检索 研究 (WEB IR)

90

隐蔽技术mdashmdash覆盖 (Cloaking)

通过识别网站的访问者是否搜索引擎的爬虫来提供不同的 URL 作弊网页被提供给搜索引擎用于建立索引而用户访问时显示为另一个正常页面

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 91: 第五讲  WEB检索 研究 (WEB IR)

91

隐蔽技术mdashmdash重定向

网页在被浏览器载入时自动重定向到另一个 URL 这样的网页仍然可以被搜索引擎抓取但是用户却看不到它

这样作弊网页被抓取而用户看到的却是重定向后的目标文件

简单的方法就是在网页头部meta 中的 refresh时间设为 0

更高级的方法采用一些脚本技术

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 92: 第五讲  WEB检索 研究 (WEB IR)

92

一些反作弊技术 TrustRank为网页建立信任值 改进的 PageRank方法识别链接农场作弊方法 语言模型方法根据不同类型网页内容的语言模

型的差别进行判别 网页版本差异判断方法采用浏览器方法和爬虫

方法同时抓取 目前这些方法的精度仍然不是很高因受各种限制很多方法在搜索引擎中并没大量使用

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning

Page 93: 第五讲  WEB检索 研究 (WEB IR)

93

分类聚类的文献及其他资源 Papers

黄萱菁等独立于语种的文本分类方法中文信息学报 2000 年第 6期 苏金树等基于机器学习的文本分类技术研究进展软件学报 Sept 200

617(9)1848- 1859 P Berkhin Survey of Clustering Data Mining Techniques Accrue Softw

are2002 httpciteseeristpsueduberkhin02surveyhtml 刘远超等文档聚类综述中文信息学报 2006年第 3期

Software Rainbow httpwww-2cscmuedu~mccallumbow BoosTexter httpwwwresearchattcom~schapireBoosTexter 1048774 TiMBL httpilkkubnlsoftwarehtmltimbl C45 httpwwwcsureginaca~dbdcs831notesmldtreesc45tutori

alhtml Corpus

httpwwwcscmuedu~textlearning