第七讲检索可视化和检索评价

第八讲检索可视化和检索评价

陆铭

[email protected]

2

内容提要信息可视化研究一般概念，在图书馆应用，可视化检索

http://infovis.cs.vt.edu/cs5764/readings.html

检索评价研究信息检索评价的概念、研究历史、系统评价指标、用户评价指标、信息检索相关性模型

3

1 信息可视化研究——一般概念

看到什么了？

4

信息可视化研究的一般概念什么是可视化 ? 现代可视化技术是指运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术

Visualize: Interactive -- 互动式的Visual representation – 可视的Amplify cognition – 提高认知功能的

5

信息可视化研究的一般概念

参考模型

原始数据原始数据可视化结构视图数据信息可视化形式

数据交换可视化映射视图变换

人机交互

任务

6

信息可视化研究的一般概念信息可视化的三大支柱The power of Perception

感知的功能The power of Graphics

图形的功力The power of Associations

联想的潜力

7

信息可视化研究的一般概念信息可视化本质寻求人机合作一种新的途径

计算机将大量抽象的信息映射到图像上；人们通过图像的结构 , 特征等来理解认识从而获得知识。

让计算机与人各显神通电脑的高速信息处理能力远远超过人脑；人脑的识辨，理解能力是电脑所不可及的。

8

信息可视化研究——可视化工具http://iv.slis.indiana.edu/

9

信息可视化研究的一般概念Touchgraph工具

10

信息可视化应用研究信息可视化的应用数据分析

Visual inspection of data properties Dimensional deduction

海量数据的图形化表示Clustering and groupingDiscovery of hidden internal structures

实现与数据的可视化交互interactive online searching browse large amount of information

11

信息可视化应用研究在电子数字图书馆中的应用揭示信息的分布显示检索的结果为大量的信息分类帮助用户浏览提供个性化信息服务

12

信息可视化应用研究为大量的信息分类将整个数据库的内容用一个图表示出来图书情报专业群英图

13

信息可视化应用研究帮助浏览

14

信息可视化应用研究揭示信息的分布

15

信息可视化应用研究显示检索的结果

图书馆网络

用户界面

检索多媒体

数据库

数字图书馆

16

可视化检索可视化检索的必要性每个人的个人“信息空间”都在飞快地膨胀个人信息空间现在是“搜索引擎战”的前沿阵地

Google, Yahoo!, Microsoft 都提供免费的Desktop Search Solutions

但问题是单单检索已经不够！ (Search is not Enough!)

17

可视化检索可视化检索的必要性检索界面单一，当前的检索系统没有根据不同的查询，提供有针对性的、相关性可以调整的机制

界面死板不能揭示相关文档之间的关系

固有的关系被掩盖忽略了检索结果选取时的人机交互作用

无交互功能，或交互功能极弱

18

可视化检索可视化检索的必要性让用户做到“过目不忘”

只要看过的，就记下 – Keep-It-Button提供知识系统帮助组织，整理个人信息空间提供个人空间与其他信息空间的连接

强调“人机合作”既要“自动化”，又要“个性化”

19

可视化检索两个有影响的国际研讨会1995年起，每年 10月美国 IEEE信息可视化国际研讨会1997年起，每年 7 月英国信息可视化国际研讨会

国际上已经取得的成果可视化理论模型研究出现一批原型系统

20

可视化检索可视化信息检索的设计原则提供信息反馈

帮助用户掌握检索提问和信息检索之间的关系、命中文献之间的关系、命中文献和描述该文献的元数据之间的关系

减少工作记忆负担允许用户返回临时放弃的检索策略，或者从一个检索策略跳到另一个检索策略

提供一般用户和专家用户的界面选择采用“脚手架”（ scaffolding）技术：向初学者提供简易界面，向有经验的用户提供高级界面

21

可视化检索可视化检索技术格式刷和连接，颜色联动

两个和更多窗口的连接摇镜头

变换聚焦，变换景深魔幻镜头

通过点击代表不同的检索对象，实现覆盖对象和未覆盖对象之间的切换

22

可视化检索检索可视化模型信息晶体 (infoscrystal)超级图书 (superbook)信息可视化引擎 (NIRVE)

23

可视化检索——信息晶体 (infocrystal)

24

可视化检索——超级图书 (superbook)

25

可视化检索——可视化引擎 (NIRVE)

26

可视化 DIALOG检索将多次 DIALOG检索结果一次性图形表示用户从一个简单的检索开始系统将检索结果做多层次的分析

收集出现频率最高的主题词分析主题词之间的关系

系统将分析结果图形户化表现在介面上用户 interacts with 主题词图表以达到更好的检索效果

27

Interactive Query Construction

28

KEPT – Knowledge-Enabled Personalization Tools

InformationResources

Knowledge-Enabled Personalization Tool (KEPT)

Web Browser

HTTP Server

XML Application Server

RDF-ISOStandards

Search engines

OAI protocol

Knowledge RepositoryDrag and drop

Hierarchical Generator

Co-occurrence Mapping

Topic Map Editor

Searching/BrowsingInterface

Relational DatabaseThesauri

OntologiesTopic maps

…….

29

Visual Thesaurus

30

Hyperbolic Tree

31

Highwire: http://www.highwire.org

View Citation Map

32

检索评价信息检索评价的概念研究历史系统评价指标用户评价指标信息检索相关性模型

33

信息检索评价的概念信息检索的基本问题是评价相关性以二值表述的相关性不能反映文献相关的程度一些文献提供的相关信息多一些，而另外一些提供的相关信息少一些，但不是无关已经有一些研究按照相关性程度表述但是仅仅只有几个试验实际利用了不同的相关因素

34

信息检索评价的概念在现代的大型数据库条件下，对一个检索提问响应的相关文献量动辄远远超过用户的实际需要用户希望检索结果按照相关程度排序系统设计人员和图书情报工作者也希望通过评价不同检索方法的效果，以揭示其区别

35

信息检索评价的类型系统评价主要包括功能评价，即评价一个系统是否完成了它所侧重的目标。性能评价，主要指标是时间与空间的开销。（如：对数据检索系统的评价）响应时间越短，占用的空间越少，系统性能越好

信息检索系统还包括其他一些度量指标。这是由于用户的查询请求本身具有模糊性，检出的结果不一定是精确答案。需要依照与查询的相关度，对结果集合的准确度进行评价。

36

信息检索评价的类型检索性能评价批处理模式

用户提交提问，并得到检索结果产生检索结果集合的方法

交互模式用户通过于系统一系列交互步骤提交信息需求涉及的因素

用户因素界面性能系统的导引性能过程的时间

37

检索评测基础检索评测基础 : 建立在测试参考集和一定的评价测度基础之上。测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的一组相关文档（由专家提供）所组成。

检索策略的评价对一个给定检索策略 S ，对每个信息查询实例，评测由 S 检出的结果集合与由专家提供的相关文档集之间的相似性，量化这一指标。

38

国内外检索评价历史20世纪 30年代，美国 Bradford首先使用文献的主题相关概念(documents relevant to a subject)20世纪 50年代，美国 Taube,Mooers,Perry 和 Luhn等首先实现了基于集合论和布尔代数的信息检索系统。当时对于相关性的假设是，检出的结果就是相关的，没有检出的就是不相关的。稍后的相关性研究集中于非相关 (non-relevance) 。 Taube等认为相关性主要受系统内在特征与操作影响，影响因素包括分类表、索引、词汇的语义以及语法描述、文献组织以及检索提问的分析与检索策略等。此时的问题是没有注意文献选择过程，即没有考虑人的因素。 ( 系统观 )1958年科学信息国际会议 (ICSI)开始相关性研究中考虑了人的因素。 Vickery在会议上提出将相关性分为主题相关和用户相关两类。主题相关性定义为描述检索问题的主题词和描述文献的主题词之间的匹配关系 ( 系统观 ) ，用户相关性定义为用户检索相关信息的愿意程度 ( 用户观 )

39

国内外检索评价历史1959-1980，以 Saracevic发表的关于相关性研究的阶段性综述为标志，出现了大型实证研究和系列理论研究实证研究： 1957 和 1962年开始的美国科学基金会 (NSF)资助的Aslib Cranfield I 和 Cranfield II项目。 Cranfield I基于系统观，检索提问根据来源文献题目拟出，相关性判断由查询者将检索提问与文献号比对完成，不阅读文献 Cranfield II将实际检索提问提交给系统，提问者通过阅读检出的文摘判断相关性Cranfield 的意义找到了影响相关性判断的多种因素，为后续得到研究提供了测试数据首次采用查全率和查准率进行检索系统评估，同时发现两者之间存在的类反比关系 (inverse relationship)引发了相关性研究的论争， Cranfield的每个方面都收到批评和反驳，从而导致试验从实验室环境到自然真实的用户环境的转移

40

国内外检索评价历史1967年 Cuadra和 Katter的研究将相关性分为两类：一是用户兴趣主题与文献之间的关系，另一是系统输出和用户信息需求之间的关系研究设计阶段列出五类 38种可能影响相关判断的因素：文献类型 ( 含主题和难易程度 ) 、信息需求的陈述、判断者的经验背景和态度、判断条件 ( 时间压力输出顺序文献量等 ) 、表达方式研究结论认为，影响相关判断有 6 个因素 ( 变量 ) ：

焦点变量 (focusing variables)用户判断相关性的标准界限变量 (delimiting variables)对试验者施以不同的指导导致的结果情景变量 (situation variables)环境、时间、反馈等因素的影响刺激材料变量 (stimulus mat variables)文献的文体特征专业性等个体差异变量 (individual diff variables)用户知识水平和技能量化尺度模式 (available mode of quantitive expression)量化尺度的粗细

41

国内外检索评价历史1967 年 Cuadra 和 Katter的研究结论认为相关性判断应随着材料特征的不同而有所变化，也应随着用户状态 ( 包括需求、态度、偏见、以及知识储备等 ) 的不妥容而异。但是它们认为用户的真实需求不可及，用户的信息需求与文献之间无法建立起直接的方法学上的联系。

如何将用户的信息需求翻译成特定的可操作的表达式是非常紧迫的任务。

42

国内外检索评价历史Rees和 Schultz的研究

目的在于构建测试研究相关性的判断过程的方法。研究设计的基本理念在于严格限定的环境（生物医学专业）中相关性评估是可记录和可分析的。研究测试了 40个影响相关性判断的变量，含主要变量( 研究阶段、判断组、文献集以及文献描述等 ) 和次要变量 ( 用户的背景、专业经验以及研究经验等 )研究结果显示个体差异对于相关性判断的差异的影响很大。越是对主题的科学内涵熟悉的试验对象，被判断为相关的文献数量越少。因而建议相关性研究应引入认知方法

43

国内外检索评价历史1956～ 1980年间的理论研究Maron和 Kuhn的研究 ( 基于概率实现文献的相关性排序 )

提出用“相关量”作为相关性的量化值。该值的条件概率由用户的查询、查询的主题域、查询表示及系统检出的文献等四项因素共同决定。相关量即用户以“查询的主题域”、形成“查询表示”，系统检出的文献能满足“用户查询”的概率。如何得到这个概率是一个至今需要更多努力的问题

Goffman的研究 ( 基于集合论进行 )主要目的是探讨查询表达式与文献所载信息之间的相互关系数学上作为测量值必须满足 4 个条件：必须大于等于零、必须是有序的、应该有绝对零点、满足完全相加的原则。但是如果将相关性定义为所载信息与查询表达式之间的关系，则相关性不可能成为测量值因为它违背测量值的后三项条件。认为应突破系统观的相关性定义，考虑检索出的文献集而不是文献本身。

44

国内外检索评价历史Goffman和 Newill的研究 ( 流行病学理论 )

将知识的传播类比于疾病的传播。核心概念是有效接触(effective contact)如果想发挥信息传播的最大效益，从源到宿的信息必须是相关的，只有这样才能形成信宿的知识积累。以检索问题与文献间以及文献间关系决定相关性的条件概率（相关值）

Cooper的研究 ( 逻辑相关性理论 )聚焦于不同元素关系的本质，而不是简单地枚举影响相关性的因素。基本观点是句子是承载信息的基本语言单位，信息需求以及检索系统中的数据可以通过陈述句加以表示。一条语句 s 与另一条语句相关 r(或者是其逻辑非 -r)的前提是 s 属于包括 r 的最小前提组 M

45

国内外检索评价历史20世纪 90年代开始，是相关性研究的第二次高潮。这个阶段的研究大部分是面向用户展开的。Shamber的实证研究。

探讨信息源以及信息表现形式呈多样性的环境中，用户在其真实的信息查询以及信息利用活动中采用的相关性标准。研究方法通过对每名实验对象的访谈进行录音，然后通过转录并结合内容分析，建立相关性标准这些标准包括准确性、实时性、特异性、地理接近性、可靠性、可获取性、可验证性、简明性、动态性、表现形式的质量。

46

国内外检索评价历史Barry的实证研究。

基于用户自发的信息需求，评判用户对真实的信息需求所进行的相关性评估。实验对象包括 18名教师及学生。通过对实验结果的内容分析找出了 6 类 23种影响相关性判断的因素：文献内容、用户过去的经验和背景、信息环境中其他资源的关系、与文献的来源品质有关的因素、与文献实体部分有关的因素、与读者情景有关的因素。结论显示包括用户的经验、背景、知识素养、信仰和个人喜好等的许多情景因素事实上起着相当重要的作用。

47

国内外检索评价历史Wang的实证研究构建了文献选择的认知模型。模型包括 6 个组件：文献信息元素、用户标准、文献价值、个人知识、决策标准、决策自身

个人知识决策规则

文献文献信息元素用户标准价值决策

处理结合决定

48

国内外检索评价历史理论研究综述：

Shamber1994年的综述：相关性的意义及其在信息行为中扮演的角色归纳了 6 类 80个影响因素，偏重于定量的查全率和查准率，以及定性的效用 (utility)和满意度 (satisfaction)Saracevic1994年的综述归纳了系统、通信、情景、心理四种模型，据此提出了第 5 种模型：交互式模型，它借用了人机交互研究种的阐释理论和语言学中的分层理论Mizzaro1998年的综述以 4 维框架描述了所有的相关性概念和模型：信息资源维、用户信息需求的描述维、时间维、主题任务和背景维

思辨性论述Borlund的论述不能形成相关性定义的原因是相关性是一个多维的、认知的、动态的概念。通过重新引入情景相关性，构建整体的相关性框架

49

国内外检索评价历史纵观 80年的研究历史两个主要流派

面向系统和面向用户两个研究高峰

60年～ 79年代前期， 80年代中后期至今相关性是一个多维的、认知的、动态、可测度的概念，已经成为共识。国外实证研究是最基本的研究手段，国内则鲜有开展，这是国内研究没有实质性成果的一个关键原因。

50

国内外检索评价历史系统性

是目前信息检索系统的主要实现方式主观性

依赖于人的判断，不是文献和信息的内在特征认知性

最终依赖于人的知识和理解情景性

与个体用户的信息问题紧密相连多维性

受到多种因素的影响动态性

随着时间的推移不断变化可测度性

在某个特定的时间是可以观察的

51

国内外检索评价研究的遗憾面向系统的研究没有考虑用户层面面向用户的研究没有考虑系统层面融合两者研究，是将相关性研究引向深入的一大难题

52

检索性能评价评价的类型实验室评价和真实环境评价，两者不同。有时，结果出入也较大。由于在实验室封闭环境下的评价具有可重复性，目前仍是主流。还有对交互查询进行评测，需要考查界面的设计、系统引导、会话持续时间等因素。

53

系统评价指标传统的评价方法是批处理 P-R方法

RetrievedNot Retrieved

RelevantRelevant Retrieved

Relevant Rejected

Not relevant

Irrelevant Retrieved

Irrelevant Rejected

54

查全率和查准率评价指标对某个测试参考集 , 信息查询实例为 I ， I对应的相关文档集合为 R 。假设用某个检索策略对 I 进行处理后，得到一个结果集合 A 。令Ra表示 R 与 A 的交集。查全率 (Recall)：检出的相关文档个数与相关文档集合总数的比值，即 R=|Ra| / |R|查准率 (Precision)：检出的相关文档个数与检出文档总数的比值，即 P=|Ra| / |A|

RR AA

Ra

55

查准率 P=

The fraction of the retrieved documents which is relevant

查全率 R=

The fraction of the relevant documents which has been retrieved

查全率和查准率评价指标

||

||

A

Ra

collection

Relevant DocsIn Answer Set

|Ra|

Relevant Docs|R|

Answer Set|A|

||

||

R

Ra

56

面向用户的相关性信息观的相关性

判断主要基于信息问题与信息外在表现间的关系，判断的实质是判断者内在的知识储备

Ingwersen的研究： 4 种关于性 (aboutness)作者关于性

相关性与作者撰著的文档中的内容相联系，因而可以直接采用文档中的词汇表示信息，是自动标引和匹配技术的理论基础

标引者关于性相关性由标引者以控制词表描述作者自然语言的标引结果决定。理论上，这种相关性要优于作者关于性的，实践中不一致性客观存在。

查询关于性相关性由用户将查询七国求转换为查询表达式决定

用户关于性相关性由标引者在标引时对用户的所知和所想的考虑

57

用户评价指标——情景观的相关性

描述信息与用户信息问题情景之间的关系，认为只有用户才能完成有效的相关性判断，在主观性方面，比信息观的相关性前进了一步。Wilson的研究

判定情景相关的先决条件，必须先了解并描述信息需求者个人所处的情景。影响情景相关的要素偏好，用户偏好与问题和答案息息相关兴趣，用户所关心的事物多为其有兴趣的时间，相关会随着时间、时代的改变有所不同程度，相关应有程度上的不同显著信息，可改变认知状态的价值大的信息实用信息，

58

用户评价指标——情景观的相关性

Wilson的研究的影响将相关的范围延伸到个人的知识状态，和当今的信息系统设计理念不谋而合

情景相关研究面临的最大问题是如何描述个人的认知状态，文字与文字指甲的演绎与归纳关系需要研究者在认知心理学、学习理论、人类思维领域进行深入的研究，需要多学科的合作

59

Saracevic的归纳相关性是由 E 评估的存在于 C 与 D 之间的B 的 AA B C D E

测评一致性文献查询表达式

人

程度效用文章查询请求判断者维度联系文本格式所利用的

信息用户

估计满意度参考观点请求者评价适合度提供的信

息信息需求信息专家

关系关系事实陈述匹配

Documents

第七讲 检索可视化和检索评价

第七讲检索可视化和检索评价