81
现现现现现现 现现 66134922 [email protected] mingler.ccshu.org/

现代信息检索

Embed Size (px)

DESCRIPTION

现代信息检索. 陆铭 66134922 [email protected] mingler.ccshu.org/xdxxjs.htm. 一、 引言. 课程概况 研究历史和现状 学科框架 基本概念. 1. 课程概况 (About the course). 设课目的 市场发展的需求 用户需要信息检索技术 互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术 - PowerPoint PPT Presentation

Citation preview

Page 1: 现代信息检索

现代信息检索陆铭[email protected]/

Page 2: 现代信息检索

2

一、 引言 课程概况 研究历史和现状 学科框架 基本概念

Page 3: 现代信息检索

3

1. 课程概况 (About the course)

设课目的 市场发展的需求 用户需要信息检索技术 互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术 信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式, Yahoo 、 Google 、 Baidu ,还有一些公司如Microsoft 、 Sina 、 Sohu 都加入到搜索技术的竞争 人才的竞争 搜索的技术人才出现缺口

2000 年的网络和现在的互联网有什么不同,搜索引擎在其中占什么位置?

Page 4: 现代信息检索

4

数字化信息量举例 音乐作品 ( 莫扎特 ) :约 100MB 报纸 ( 华尔街杂志 ) : 100MB/ 年 ( 文本 ) 卡片目录 ( 美国国会图书馆 ) : 17GB 广播 (WABC) : 270GB/ 年 ( 未经压缩 ) 网络论坛 (Netnews) : 300GB/ 年 地区图书馆 ( 加州大学图书馆 ) : 1.4TB( 图书扫描版 ) Internet 出版 (WWW) : 1997 年约 4TB 电视 (CNN 新闻 ) : 1GB/1 小时 , 6TB/ 年 ( 经压缩 ) 录像带出租 (Blockbuster Video) : 9TB 科研图书馆 ( 美国会图书馆 ) :全部图书馆数字化 20TB

来源:美国伯克利加州大学教授 Peter Lyman 和 Alex Internet 公司总裁 Brewster Kahle 所著《文化制品数字化存档行动纲要》

Page 5: 现代信息检索

5

信息检索的问题 信息超载 信息太多 , 需要过滤 检索结果垃圾太多 , 有害信息太多 查找非结构信息有困难 多数数据库在结构化字段上工作 多数商业信息是非结构化的 . 报告、电子邮件、来往公函 ... 美国商业每年产生 4500 亿份文件 波音 747 文件比飞机重量还重 标引是主观的 标引者之间不一致 , 经验统计表明标引者之间仅 20% 相同 作者与标引者之间、检索者与用户之间不一致

Page 6: 现代信息检索

6

信息检索的问题 语言问题 一词多意

Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free Rider: Economic game theory or urban transportation systems? 一意多词 car, automobile, vehicle, sedan, horseless carriage...

Page 7: 现代信息检索

7

1. 课程概况 (About the course)

课程性质 图书馆学研究生的必修课程 课程内容 本课程的教学目的是培养学生了解信息检索工具的基本原理和技术,使学生能够进行较深层的研究或应用开发 本课程不是一门讲授使用信息检索方法的课程,本课程是研究信息检索的技术实现的一门基础课程

Page 8: 现代信息检索

8

1. 课程概况——课程内容体系 引言 课程概况,研究历史和现状,学科框架,相关概念 检索理论

IR模型的形式化表示和类型,经典模型 检索语言,互操作,自然语言、本体论 文本检索 经典、现代文本处理和全文文本处理,分类和聚合 网络检索 网络检索、 PageRank 和 HITS算法 信息自动处理和系统评价 可视化、自动文摘、评价 多媒体检索 模型与语言,标引与检索,并行与分布式检索 数字图书馆 OPAC ,文献模型、表达与存取,元数据,云数据库检索技能

Page 9: 现代信息检索

9

1. 课程概况 (About the course)

授课方式 自学与课堂讨论相结合 课堂讲述和课后练习相结合 讲授内容既包含传统内容,也注意吸收最新研究成果 既考虑入门,也兼顾研究 考核方式 课程论文 按发表要求写作,课程结束,论文录用 成绩构成 平时成绩:课堂演讲讨论与 1篇小论文, 30% 考试: 1篇课程论文(约 5000 字), 70%

Page 10: 现代信息检索

10

1. 课程概况——参考书籍及文献详见教学大纲 Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 王知津等译 . 现代信息检索技术 . 机械工业出版社, 2005 苏新宁 . 信息检索理论与技术 . 科学技术文献出版社, 2004 焦玉英 . 信息检索进展,科学出版社, 2003 林培光等,面向Web 的个性化语义信息检索技术,中国财政经济出版社, 2009 解虹,数字化环境下交互式信息检索,机械工业出版社, 2010 于天恩,迅速搭建全文搜索平台,清华大学出版社, 2007

Page 11: 现代信息检索

11

1. 课程概况——参考书籍及文献 第一章 引言 吴慰慈 . 网络环境下信息存储与检索技术的发展 .四川图书馆学报 ,2003,(01) 王知津 ; 李明珍 .十年来我国信息检索研究述评 . 现代图书情报技术 ,2004,(12) 焦玉英 . 网络环境中信息检索理论与实践的发展 . 图书情报知识 ,2001,(01)

Page 12: 现代信息检索

12

一些重要的工具 Lemur :包含各种 IR模型的实验平台, C++ SMART :向量空间模型工具 , C编写 Weka :分类工具, Java编写 Lucene :开源检索工具,各种语言编写的版

本 Larbin :采集工具, C++ Firtex :检索平台, C++ ,计算所开发

Page 13: 现代信息检索

13

2. 研究历史和现状 历史分段:

计算机出现以前 计算机出现以后 Internet 出现以后

Page 14: 现代信息检索

14

2. 研究历史和现状——计算机出现以前约 4000 年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的“指针”。计算机问世以前,人们主要通过手工方式来建立索引。

Page 15: 现代信息检索

15

2. 研究历史和现状 ——计算机出现以后 1948 年 C. N. Mooers 在其 MIT硕士论文中第一次使用了“ Information Retrieval”这个术语。 1960 - 70 年代在建立文摘检索系统中,产生了布尔模型 (Boolean Model) 、向量空间模型 (Vector Space Model) 和概率检索模型 (Probabilistic Model) 1980 年代出现商用数据库检索系统:

Dialog , ORBIT, MEDLINE

Page 16: 现代信息检索

16

2. 研究历史和现状—— Internet 出现以后1986 年 Internet正式形成。1990’s第一个网络搜索工具: 1990 年加拿大蒙特利尔大学开发的 FTP 搜索工具 Archie。第一个WEB 搜索引擎:1994 年美国 CMU 开发的 Lycos。1995斯坦福大学博士生开发 Yahoo。1998斯坦福大学博士生开发的 Google ,提出PageRank 计算公式。1998 年基于语言模型的 IR模型提出。

Page 17: 现代信息检索

17

2. 研究历史和现状 1990 年代的其他重要事件 :

推荐系统的出现:Ringo , Amazon , NetPerceptions

文本分类和聚类的使用:信息抽取: Whizbang

Page 18: 现代信息检索

18

2. 研究历史和现状 2000’s 的重要事件

文本检索会议 TREC(Text Retrieval Conference ) 的发展问答系统评测专项 Q/A track(Question Answering Track)

2001 年,百度成立。

Page 19: 现代信息检索

19

2. 研究历史和现状 2000’s 以来的其他重要事件:多媒体 IR , Image , Video , Audio and

music ,跨语言 IR , DARPA Tides ,文本摘要, DUC评测

Page 20: 现代信息检索

20

2. 研究历史和现状国际著名研究机构和代表人物——

康奈尔大学的 Salton领导的研究小组是该领域研究的佼佼者。伦敦城市大学的Robertson及剑桥大学的 SparckJones 是概率模型的倡导者。美国 W. B. Croft , ACM Fellow :基于统计语言建模 IR模型的提出者和倡导者和

CMU共同开发了 Lemur 工具

Page 21: 现代信息检索

21

2. 研究历史和现状 1990 年代的其他重要事件 :

评测会议NIST: 机器翻译自动评测指标 文本检索会议 TREC(Text Retrieval Conference )

Page 22: 现代信息检索

22

2. 国际著名研究机构和代表人物 美国康奈尔大学 Salton(1927-1995) 现代信息检索的奠基人 SMART 的完成人 第一任 Salton奖得主, ACM Fellow 英国剑桥大学 SparckJones (1935-2007) 概率检索模型的提出者之一 NLP 和 IR 中的先辈 曾获 ACL终身成就奖和 Salton奖

Page 23: 现代信息检索

23

2. 国际著名研究机构和代表人物 美国 UMassCIIR W. B. Croft , ACM Fellow 基于统计语言建模 IR模型的提出者和倡导者 和 CMU共同开发了 Lemur 工具 Salton奖得主 英国 Glasgow 大学 Rijsbergen , ACM Fellow 信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决 IR 问题 Salton奖得主 英国微软剑桥研究院、伦敦城市大学 Robertson 概率检索模型的倡导者 开发了 OKAPI Salton奖得主

Page 24: 现代信息检索

24

2. 国际著名研究机构和代表人物 美国 CMU 美国 UIUC 微软研究院 IBM 研究院 Google 研究院

Page 25: 现代信息检索

25

2. 一些活跃的华裔学者 加拿大蒙特利尔大学聂建云教授 跨语言检索 IR模型 美国 UIUC ChengxiangZhai博士 IR模型 美国 CMU YimingYang 教授 文本分类 台湾中研院简立峰 号称“中文搜索”第一人 加入 Google 研究院

Page 26: 现代信息检索

26

2. 研究历史和现状国内一些活跃的研究机构—— 软件端 北京大学,复旦大学,清华大学,哈尔滨工业大学,中科院计算所,中科院软件所,中科院自动化所 应用端 武汉大学,南京大学,北京大学

Page 27: 现代信息检索

27

2. 研究历史和现状—国内 2000 ~2006 , CNKI

武汉大学信息管理学院 32

南京大学信息管理系 21

中山大学信息管理系 21

清华大学计算机科学与技术系 17

复旦大学计算机科学系 16

中国科学院计算技术研究所 15

北京大学信息管理系 14

南京农业大学信息管理系 11

华中师范大学信息管理系 10

上海交通大学计算机系 10

Page 28: 现代信息检索

28

2. 研究历史和现状—国内 2000 ~ 2006

武汉大学信息管理学院 网络信息检索: 2002 , 2004 情报检索模型理论: 2001 , 2004 , 2006 信息过滤: 2002 , 2006 文本知识的自动分类: 2003焦玉英,刘伟成

Page 29: 现代信息检索

29

2. 研究历史和现状—国内 2000 ~ 2006

中山大学信息管理系 网络信息过滤:2002 , 2003 , 2004 , 2005 黄晓斌 , 邱明辉 南京大学信息管理系 文本信息检索 杨建林

Page 30: 现代信息检索

30

2. 研究历史和现状—国内 2000 ~ 2006

清华大学计算机科学与技术系 文本自动分类,自动文摘: 2001 ~ 2006 陈群秀 复旦大学计算机系 文本过滤、音频视频检索 黄萱菁

Page 31: 现代信息检索

31

2. 研究历史和现状—国内 2000 ~ 2006

中国科学院计算技术研究所 文本自动分类 2001 , 2002 文本检索: 2002 , 2003 , 2004 , 2006 知识网格: 2002 , 2004 白硕北京大学信息管理系 图像检索 文本检索 赖茂生,黄崑,马张华

Page 32: 现代信息检索

32

2. 研究历史和现状南京农业大学信息管理系中文信息自动分类侯汉清

Page 33: 现代信息检索

33

2. 一些重要的会议 国际会议: SIGIR 、 ACL 、 WWW 、 SIGKDD CIKM 、 ICML TREC AIRS 国内会议: 全国信息检索及内容安全学术会议 (2 年一届 ) 全国计算语言学联合会议 (2 年一届 )

Page 34: 现代信息检索

34

2. 一些重要的期刊 国际 ACM Transactions on Information

Systems(TOIS) ACM Transactions on Asian Language

Information Processing(TALIP) Information Processing & Management(IP&M) Information Retrieval 国内 中文信息学报 情报学报

Page 35: 现代信息检索

35

2. 国内重要期刊 2000-2006

情报杂志 86

现代图书情报技术 81

情报学报 67

情报科学 64

现代情报 57

图书情报工作 47

情报理论与实践 49

情报探索 22

科技情报开发与经济 17

图书馆理论与实践 16

图书馆学研究 15

图书情报知识 15

医学情报工作 15

中国图书馆学报 15

Page 36: 现代信息检索

36

2. 研究历史和现状—国内重要期刊  2000 2001 2002 2003 2004 2005 2006 小计

计算机工程与应用 6 3 14 19 18 17 17 94情报杂志 2 5 4 13 20 20 22 86

现代图书情报技术 7 5 11 13 14 16 15 81计算机工程 2 5 6 8 22 17 12 72情报学报 8 5 12 11 11 7 13 67情报科学 5 8 11 7 12 11 10 64现代情报 0 1 3 7 11 23 12 57

图书情报工作 3 4 7 8 10 10 5 47情报理论与实践 9 5 5 2 12 5 11 49计算机应用研究 2 2 1 5 6 9 14 39

合计 44 43 74 93 136 135 131 656

Page 37: 现代信息检索

37

2. 研究历史和现状— 研究前沿数据库知识发现 开发各种软件系统,揭示数据库中不同领域知识的联系和问题的答案,找出知识发现的新途径。语义网研究 ——这方面的研究项目有面向自然语言处理的语法,语义计算机模式的研究,潜在的语义索引,复合词的分析模型研究,自动构成多语种词库,存取多语种信息,用户自适应集合分类法研究,知识共生现象研究,网络知识搜寻代理等

Page 38: 现代信息检索

38

2. 研究历史和现状— 研究前沿信息检索技术前沿课题包括:元数据技术、语料库技术、海量信息存储与压缩技术、信息可视化技术、图像检索技术、人机界面技术、多语言浏览器、跨语言信息检索、自然语言理解、人工智能、大规模真实文本评测、自动抽词、自动标引、自动分类、自动文摘、概念分类( Ontology)、“云”检索、信息安全和保护技术等。 当前要着重内容和知识开发利用的新技术和新应用的研究和探索,以及实现这些技术和应用不可或缺的基础研究、基础建设和标准规范的采用。

Page 39: 现代信息检索

39

3. 学科体系和相关研究领域—内涵 信息检索基础理论 标引理论 检索语言,词频统计,引文分析 检索模型 集合论,布尔代数,模糊数学 检索结果的可视化

Page 40: 现代信息检索

40

3. 学科体系和相关研究领域—内涵 检索模型 布尔模型 基于集合论和布尔代数,适用于普通用户,核心是二值相关,不能进行相关性排序 向量空间模型 以向量表示提问和文档,向量计算在后台进行,与用户无关,优点是可以进行相关性排序,也可产生文档文摘 概率模型 基于贝叶斯概率论,更具有普遍性,适应多媒体、语义文档的检索,具有逻辑推理能力 以上模型在实践中,常常混合使用,以达到最佳效果

Page 41: 现代信息检索

41

3. 学科体系和相关研究领域—内涵 信息处理与信息组织 自动标引 自动分类与聚类 自动摘要 视频音频信息索引 信息的组织

Page 42: 现代信息检索

42

3. 学科体系和相关研究领域—内涵 自动分类 研究历史

1964 年以前, HP Luhn 开创性工作, Maron第一篇论文,解决自动分类的可行性问题 1965-1974 年,试验性研究阶段 1975~至今,实用化研究阶段 研究内容:聚类,类号转换 自动文摘 语料库技术,词法分析,句法分析,信息抽取,评价

Page 43: 现代信息检索

43

3. 学科体系和相关研究领域—内涵 查询扩展与优化 检索词选择方案,控制词表技术,整体与局部分析技术 检索相关性分析 内涵:主题相关 ---系统相关 用户相关 --- 主观因素 实证: 1955 年 kent对查全率查准率的研究

Page 44: 现代信息检索

44

3. 学科体系和相关研究领域—内涵信息检索技术与方法 布尔检索 加权检索 全文检索 超文本检索

信息检索技术与方法 多媒体检索 智能检索 跨语言检索 跨平台检索

Page 45: 现代信息检索

45

3. 学科体系和相关研究领域—内涵 信息可视化 一维信息的可视化 (含有某种规律的一组数据,

具有与相关性排列的检索结果 ) 二维信息可视化 ( 地理信息系统,图形方法表示的调查统计数据 ) 三维信息可视化 (将查全率、查准率检索速度等指标进行可视化排序 )

Page 46: 现代信息检索

46

Visual Thesaurus

Page 47: 现代信息检索

47

Hyperbolic Tree

Page 48: 现代信息检索

48

Aqua Browserhttp://aqua.queenslibrary.org/

Page 49: 现代信息检索

49

X refer plus http://www.xreferplus.co.uk/

Page 50: 现代信息检索

50

Dewey decimal system

Page 51: 现代信息检索

51

OCLC Dewey Browser

Page 52: 现代信息检索

52

3. 学科体系和相关研究领域—外延相关研究领域—— 图书情报学 (Library & Info. Science)

数据库管理 (Database Management)

人工智能 (Artificial Intelligence)

自然语言处理 (Natural Language Processing)

机器学习 (Machine Learning)

关联开放数据 (Linked Open Dada, LOD)

Page 53: 现代信息检索

53

3. 学科体系和相关研究领域—外延 图书情报学 (Library and Information Science, LIS) IR最初起源于 LIS LIS 主要关注 IR 中的用户方 ( 人机交互、用户界面、可视化 ) 、高效分类、文献的引用分析 (citation analysis) 和文献计量

(bibliometrics)。 近年来数字图书馆方面的工作使得 LIS 和 IR日益融合。数据库管理系统 (Database Management, DM) 。 DM 主要面向关系表中的结构化数据而非文本。 DM 主要集中于高效解决形式化语言 ( 如 SQL)定义的查询。 DM 中不论是查询还是数据都具有明确的语义。近年来半结构化的 XML 数据的出现使 DM和 IR逐渐融合。

Page 54: 现代信息检索

54

3. 学科体系和相关研究领域—外延 人工智能 (Artificial Intelligence,AI) AI关注知识的表示、推理和智能行为。 AI 中知识的形式化表示、一阶谓词逻辑 (First Order

Predicate Logic) 、贝叶斯网络 (Bayesian Networks) 、以及近年来的 Web 本体及智能信息Agent 方面研究使得 IR 和 AI 相互融合。

Page 55: 现代信息检索

55

3. 学科体系和相关研究领域—外延 自然语言理解 (Natural Language

Processing,NLP) NLP关注自然语言文本的语法 (syntactic) 、语义

(semantic)及语用 (pragmatic)分析。 NLP 可以分析短语结构和语义,使得 IR 可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词。 NLP 和 IR天生就是融合的。 NLP 和 IR融合的其他方面:通过上下文词义消歧 (word

sense disambiguation) 来确定一个词在某个特定上下文的语义。通过一些 NLP 方法来获得文档中的一个语言片断(information extraction)。通过 NLP 方法可以从文档集合中返回一些问题的答案 (question answering)

Page 56: 现代信息检索

56

3. 学科体系和相关研究领域—外延 机器学习 (Machine Learning,ML) ML关注通过对经验的学习来提高计算机系统的性能。 从标注好的例子中学习相关概念,然后进行自动分类 ( 有监督的学习, supervised learning) ,将未标注的例子自动聚集到有意义的不同集合中 (无监督的学习, unsupervised

learning)。 ML 和 IR融合的方面:文本分类 (Text Categorization) ,自动层次分类 自适应过滤或推荐 (Adaptive filtering/recommending) ,垃圾过滤 (Spam filtering) ,文本聚类 (Text Clustering) , IR结果的自动聚类,层次型类别体系的自动构建

Page 57: 现代信息检索

57

4. 信息检索的相关概念 (IR concepts)

信息过载 (Information overload) “…全世界每年产生 1 到 2 EB(1 EB≈1018B)信息,相当于地球上每个人大概产生 250MB 信息。其中纸质信息仅占所有信息的

0.03%...”(Lyman & Vavian 2003 http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/) 静态网页有上百亿,动态及不可见网页至少是静态网页的 500倍。 Tom Landauer认为人的大脑只能存储 200M信息量,一辈子只能接触 6G 的信息量。

http://www.lesk.com/mlesk/ksg97/ksg.html

Page 58: 现代信息检索

58

4. 信息检索的相关概念 (IR concepts)

Internet 网站数量的增长 (1996.6.~2006.3.)http://www.zakon.org/robert/internet/timeline/#2000s

Page 59: 现代信息检索

59

4. 信息检索的相关概念 (IR concepts)

中国大陆 Internet 网站数量的增长 (1997~2006)

Page 60: 现代信息检索

60

4. 信息检索的相关概念 (IR concepts)

全球数字化进程加快。 1998 年,美国前副总统戈尔提出数字化地球的概念。 1998年,江泽民总书记提出数字中国战略构想。 世界启动了数字图书馆、数字博物馆在内

的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、 GPS等在内的服务或应用也产生大量文本和多媒体数据。

Page 61: 现代信息检索

61

4. 信息检索的相关概念 (IR concepts) 问题:一方面,人们可以获得的信息的来源非常

广泛。另一方面,人们如何快速、准确、全面地获得自己所需要的信息非常困难!信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多。用户需求的表达和理解非常困难 信息的理解非常困难—自然语言文本、图片、视频 信息检索是研究如何解决上述问题的一门学科 ,

理解用户需求,提供相关结果。

Page 62: 现代信息检索

62

4. 信息检索的相关概念 (IR concepts)

信息检索 (Information Retrieval) Information Retrieval这个术语产生于 Calvin

Mooers1948 年在 MIT 的硕士论文 Information Retrieval(IR) 从文档集合中返回满足用户需求的相关信息的过程 作为一门学科,是研究信息的获取 (acquisition) 、表示 (representation) 、存储 (storage) 、组织(organization) 和访问 (access) 的一门学问

Page 63: 现代信息检索

63

4. 信息检索的相关概念 (IR concepts)

信息检索可以看成计算机科学 (Computer Science) 和图书情报学 (Library & Info. Science) 的交叉学科。以计算机为手段,处理信息对象,和语言学、认知科学等其他学科融合。检索来自英文单词 Retrieval ,其本义是“获得与输入要求相匹配的输出”。和我们平时所理解的搜索意义上的检索不一样。

Page 64: 现代信息检索

64

4. 信息检索的相关概念 (IR concepts)

信息检索: IR 不仅仅是搜索, IR系统也不仅仅是搜索引擎。 例 1 :返回与信息检索相关的网页——搜索引擎 (Search Engine, SE) 例 2 :毛泽东的生日是哪天——问答系统 (Question Answering, QA) 例 3 :返回联想 PC 的型号、配置、价格等——信息抽取

(Information Extraction, IE) 例 4 :订阅有关 NBA 的新闻——信息过滤 (Information Filtering) 、信息推荐 (Information Recommending) 狭义的 IR通常是指 Information Search ,而广义的 IR包含非常多的内容 (SE, QA, IE, …)。本课程介绍的是广义的 IR。

Page 65: 现代信息检索

65Documents Stream

User 1Profile

User 2Profile

Docs Filteredfor User 2

Docs forUser 1

4. 信息检索的相关概念 (IR concepts)

Filtering( 过滤 : 用户需求不变 ,push)

Page 66: 现代信息检索

66

4. 信息检索的相关概念 (IR concepts)

用户需求 (User Need , UN) :用户需要获得的信息 严格地说, UN只存在于用户的内心,但是通常用文本来描述,如查找与 2006世界杯相关的新闻,有时也称为主题 (Topic)。 UN提交给检索系统时称为查询 (Query) ,如

2008奥运会,对同一个 UN ,不同人不同时候可以构造出不同的 Query 。 Query 在 IR系统中往往还有内部表示。

Page 67: 现代信息检索

67

4. 信息检索系统

Page 68: 现代信息检索

68

4. 信息检索系统的组成框架

Page 69: 现代信息检索

69

Docs

Information Need

Index Terms

query

Rankingmatch

4. 信息检索的相关概念——检索流程

Page 70: 现代信息检索

70

4. 信息检索的相关概念 (IR concepts)

IR系统的组成部分—— 用户接口 (User Interface) :用户和 IR系统的人机接口 输入查询 (Query) ,返回排序后的结果文档 (Ranked Docs)并对其进行可视化 (Visualization) ,支持用户进行相关反馈 (Feedback) 用户的两种任务: retrieval 或者 browsing

IR 的两种模式: pull (ad hoc) 和 push (filtering)。 Pull: 用户是主动的发起请求,在一个相对稳定的数据集合上进行查询。 Push: 用户事先定义自己的兴趣,系统在不断到来的流

动数据上进行操作,将满足用户兴趣的数据推送给用户

Page 71: 现代信息检索

71

4. 信息检索的相关概念 (IR concepts)

文档 (Document) :检索的对象 可以是文本,也可以是图像、视频、语音等多媒体文档, text retrieval/image retrieval/video retrieval/speech retrieval/multimedia retrieval 可以是无格式、半格式、有格式的 文档集合 (Collection) :所有待检索的文档

构成的集合。也称为 Repository , Corpus

Page 72: 现代信息检索

72

4. 信息检索的相关概念 (IR concepts)

相关 (relevant 、相关度 relevance) 相关取决于用户的判断,是一个主观概念,不同用户做出的判断很难保证一致,即使是同一用户在不同时期、不同环境下做出的判断也不尽相同。

Page 73: 现代信息检索

73

4. 信息检索的相关概念 (IR concepts) 定义“相关性”的两个角度 系统角度:系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位,基于这种理解,研究的重心落在系统本身。主题相关性:检索系统检出的文档的主题即核心内容与用户的信息需求相匹配。系统角度相关并不和用户脱节。系统角度定义的主题相关性可以计算 用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。用户角度定义的相关目前仍然难以计算 现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,也强调考虑用户的认知因素

Page 74: 现代信息检索

74

4. 信息检索的相关概念 (IR concepts) 形式上说,信息检索中的相关度是一个函数 R ,输入是查

询 Q 、文档 D 和文档集合 C ,返回的是一个实数值R=f(Q,D,C)信息检索就是给定一个查询 Q ,从文档集合 C 中计算每篇文档 D 与 Q 的相关度并排序 (Ranking)。相关度通常只有相对意义,对一个 Q ,不同文档的相关度可以比较,而对于不同的 Q 的相关度不便比较相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等等现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖度等度量。或者说这些因子都影响“相关度”。据说谷歌用了上百种排名因子

Page 75: 现代信息检索

75

4. 信息检索与数据库检索

近年来,随着 XML的出现,两种检索已经逐渐融合,边界越来越不明显。

Page 76: 现代信息检索

76

4. 信息检索的相关概念 (IR concepts)

文本检索 本课将主要介绍面向文本对象的检索,即文本检索(text retrieval) 文本是人们表达知识 ( 论文 ) 、交流 ( 口语 ) 的最常用的形式。文本可以用于描述其他媒体 其他媒体形式的检索的方法往往借鉴自文本检索。 信息检索的两种研究方式 以计算机为中心: IR 的工作主要是建立索引、对用户查询进行处理、排序算法等等 以用户为中心: IR 的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织

Page 77: 现代信息检索

77

4. 信息检索的相关概念 (IR concepts)

文本处理 (Text Operations) 对查询和文本进行的预处理操作中文分词 (Chinese Word Segmentation) ,词干还原(Stemming) ,停用词消除 (Stop word removal) ,查询处理(Query operations) :对经过文本处理后的查询进行进一步处理,得到查询的内部表示 (Query Representation) ,查询扩展 (Query Expansion) :利用同义词或者近义词对查询进行扩展,查询重构 (Query Reconstruction) :利用用户的相关反馈信息对查询进行修改,文本标引 (Indexing) :对经过文本处理后的文本进行进一步处理,得到文本的内部表示(Text Representation) ,通常基于标引项 (Term) 来表示 向量化、概率计算 组成倒排文档进行存储

Page 78: 现代信息检索

78

4. 信息检索的相关概念 (IR concepts)

搜索 (Searching) :从文本中查找包含查询中标引项的文本排序 (Ranking) :对搜索出的文本按照某种

方式来计算其相关度Logical View :指的是查询或者文本的表示,通常采用一些关键词或者标引项 (index term) 来表示一段查询或者文本。

Page 79: 现代信息检索

79

本章小结信息检索是一门交叉学科,不仅仅是搜索信息检索中的用户需求、查询、文档、文档集、相关度概念的含义 作为学科的信息检索的内涵和外延

Page 80: 现代信息检索

80

课后思考题 信息检索的定义? 信息检索中的用户需求、查询、相关度都是什么含义? 信息检索和其他相关学科是什么关系? 信息检索系统由哪些部分组成?各部分的功能是什么?信息检索的定义是什么?请列举几种信息检索的应用。信息检索的基本流程如何?各组成部分的功能是什么?

Page 81: 现代信息检索

81

供研究的课题 现代信息检索研究的方法论问题 现代信息检索的科学体系透视 可视化技术在信息检索中的应用和发展 向量空间模型在网络信息检索中的应用 网络信息检索模型研究和发展 网络信息资源分类的国际通用性研究 ……