26
网络时代的情报检索语言 ——进展及热点 侯汉清 (南京农业大学信息管理系)

进展及热点...数字 Dewey Decimal Classification (DDC) 20 Classification for Public Libraries (Finland) 1 Engineering Information (Ei) Classification Codes 1 Mathematics Subject

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

网络时代的情报检索语言

——进展及热点

侯汉清

(南京农业大学信息管理系)

网络时代的情报检索语言

一、网络时代情报检索语言过时了吗?

驳检索语言过时无用论

1.情报检索语言过时无用论

“……我们这个学科炼出的这样一套‘知识’组织方法,实在是过时了。……你可以说它曾经起到多大的作用,但是现在肯定没人会用这个东东了,特别是那些开发各类应用的计算机人士和各行各业的用户…… ”

Keven. 谈谈我们的分类主题词表.2006,7,17

http://blog.donews.com/kevenlw/category/68304.aspx

检索语言过时无用论的理由

驳检索语言过时无用论 2.检索语言在网络环境中的应用

元数据

DORC DC编辑栏 注释

Conference Name 会议名称作为主题

Corporate name 团体名称作为主题

DDC (国家机构)指定的《杜威十进分类法》分类号

DDC Local (地区性机构)指定的《杜威十进分类法》分类号

DDC Scorpion 由OCLC Scorpion软件指定的《杜威十进分类法》分类号

Geographic 《美国国会图书馆标题表》地理标目

Keyword 关键词

LCC (国家机构)指定的《国会图书馆分类法》分类号

LCC local (地区机构)指定的《国会图书馆分类法》分类号

LCSH 《国会图书馆标题表》标题词

MeSH 《医学主题词表》标题词

Name Personal 人名作主题

WSKeyword OCLC Wordsmith系统指定的关键词

驳检索语言过时无用论 2.检索语言在网络环境中的应用

网络数据库

数据库 使用的情报检索语言

美国教育资源信息数据库(http//searcheric.org/) ERIC主题词表

英国国家数字档案库(http://ndad.ulcc.ac.uk/search/ thesaurus. htm)

UNESCO主题词表

Pubmed数据库(http://www.ncbi.nlm.nih.gov/entrez/inesbbrows cc.cgi)

医学主题词表

STI数据库(http: //www.sti.nasa.gov/thesfrml.htm) NASA主题词表

UMI数据库(http: //www.umi.com/hp/support/Vocab/) ProQuest主题词表

重庆维普的中文科技期刊数据库 《中图法》

清华同方的中国期刊全文数据库(CNKI) 《中图法》

万方数据资源系统的学科分类浏览方式 《中图法》

北大方正集团的Apabi数字资源平台 《中图法》

驳检索语言过时无用论 2.检索语言在网络环境中的应用

网络检索工具 分类法 使用分类法的网络资源

字母 Göttinger Online Klassifikation (GOK) 3

Sveriges Allmänna Biblioteksförening (SAB) 2

数字 Dewey Decimal Classification (DDC) 20

Classification for Public Libraries (Finland) 1

Engineering Information (Ei) Classification Codes

1

Mathematics Subject Classification 2

Nederlandse Basisclassificatie 1

Universal Decimal Classification (UDC) 5

字母 -- 数字

AGRICOLA Subject Category Codes 1

ACM Computing Classification System 3

Library of Congress Classification (LCC) 7

National Library of Medicine (NLM) 2

驳检索语言过时无用论

2.检索语言在网络环境中的应用

数字图书馆

司莉国内调查

数字图书馆 使用词表 使用CLC

27 13 12

驳检索语言过时无用论 2.检索语言在网络环境中的应用

数字图书馆

曾蕾国外介绍 使用类型 使用检索语言的系统或工程

Digital Gazetteer Alexandria Digital Library (ADL Feature Type Thesaurus)

Machine Aided Indexing (MAI) NASA Thesaurus Machine Aided Indexing(NASA Thesaurus)

Machine-Aided-Indexing, Rule-based

Data Harmony(词表由用户选择)

Multilingual term bank Asian Vegetables Thesaurus

Illustrated Thesaurus English-Heritage; National Monuments Record Thesauri

Visual thesaurus PlumbDesign

Search engine Froogle

Commercial website BestCellars.com

Cross-country and Cross-language Online Bibliographic Catalogs

MACS Multilingual Access to Subjects (SWD/RSWK,RAMEAU, LCSH)

Multilingual Thesaurus Food and Agriculture Organization of the United Nations(Agrovoc Thesaurus - agriculture.)

驳检索语言过时无用论

2.检索语言在网络环境中的应用

其他应用

主题网关(英国SOSIG ,EELS,OMNI, Kuopio,ADAM 和Renardus 等)

电子政务(英、澳、加等国)

电子商务(当当网,中国高校教材图书 网 ,北京市新华书店网站等 )

自动分类(Scorpion Project)

网络时代的情报检索语言

二、网络时代检索语言进展调查

1.国内检索语言调查(130部词表调查)

◆编制年代

项目数量

年代

词表数量 所占比例

(%)

年平均编制表数

1976-1985 22 16.92 2.2

1986-1995 82 63.08 8.2

1996-2005 24 18.46 2.4

1.国内检索语言调查(130部词表调查)

◆学科分布

社科 31部 23.85%

自科 26部 58.46%

综合 23部 17.69%

1.国内检索语言调查(130部词表调查)

◆词表规模

项目数量

年代

大型词表 中型词表 小型词表

词表数量

所占该类比例

(%)

年平均词表数

词表数量

所占该类比例

(%)

年平均词表数

词表数量

所占该类比例

(%)

年平均词表数

1986-1995 17 53.13 1.7 32 65.31 3.2 2 25 0.2

1996-2005 7 21.87 0.7 11 22.45 1.1 5 62.5 0.5

1.国内检索语言调查(130部词表调查)

◆大型词表及类表问世

※1997年 国防科学技术叙词表 (电子版,31816)

※2000年 中图法 (电子版)

※2002年 军用主题词表 (第2版)(52500 81890)

※2005年 中国分类主题词表 (电子版)(110837+59738)

※2005年 综合电子政务主题词表 (20252)

※2005年 中文新闻信息分类法

※2005年 军事信息分类法

※ …. 音像资料叙词表

1.国内检索语言调查(130部词表调查)

◆词表技术标准 GB13190—1991 单语种叙词表编制规则

GB15417—1994 多语种叙词表编制规则

信产部标准 网络信息分类系统(2002)

GB19486—2004 电子政务主题词表编制规则

GTB5098—2004 军用电子叙词表编制规则

(替代1993,1999年版)

2.国外检索语言进展调查

Taxonomy Warehouse收录510部词表统计

&词表数量

叙词表 分类表 规范文档 词典 总计

220 148 10 67 445

2.国外检索语言进展调查

&学科分布

2006年学科分布图

社会科学43%

自然科学37%

综合20%

1989年学科分布图

社会科学41%

自然科学48%

综合11%

&词表载体版本

词表数 占总词表比例

传统介质

印刷 53 34.4

缩微 3 0.7

共计 156 35.0

电子介质

光盘 26 5.8

磁盘 13 2.9

任何电子形式 45 10.1

特定电子形式 42 9.4

共计 126 28.3

网络介质

HTML下载 8 1.8

XML下载 12 2.7

其他格式下载 21 4.7

PDF下载 40 9.0

相关数据下载 3 0.7

CSV/TXT下载 18 4.0

网络联机 253 56.9

在线定制 3 7.4

共计 367 82.5

2.国外检索语言进展调查

&词表更新

0

20

40

60

80

1978 1981 1982 1986 1987 1990 1991 1992 1993 1995 1996 1997 1998 1999 2000 2001 2002 2003

更新词表数

3.网络时代检索的发展趋向

▲检索语言自然语言化

98部国外词表的等同率

大型词表 4部 等同率>1

中型词表 9部 等同率>1

小型词表 2部 等同率>1

词表数 叙词总数 非叙词总数 等同率%

大型词

(10000以上) 33 2918962 464302 15.9

中型表

(1000到10000) 50 123069 65270 53.0

小型词表

(1000以内) 15 4509 1944 43.1

3.网络时代检索的发展趋向

国内大型词表等同率的改进

第1版 第2版

中分表 (14690条)14% (35690条)32%

军表 (5160条)10.8% (26785条)48%

3.网络时代检索的发展趋向

▲检索语言商业化(编制单位的变化)

三家专业词表公司

1.Gale Group, Inc. 52部

2.WAND,Inc. 36部

3.Cycorp,Inc. 11部

10.6

18.515 12.8 13.2

5.71.8

21.1

0 1.3

13.3

27.4

6.79 8.1

2.5

19.3

5.6 5.6 3.8

051015202530

联合国

政府机构

科研机构

学校

学术团体

个人

公司

文摘&情

互联网

其他

1989年统计比例 2006年统计比例

3.网络时代检索的发展趋向

▲检索语言电子化,网络化

词表电子化,网络化情况

3.网络时代检索的发展趋向

纸本词表 → 纸质文献

纸本词表 → 电子文献;电子词表 →纸质文献

网络词表 → 网络信息资源

1989 2006

印刷版 (221/227) 97.4% (53/445) 11.8%

缩微版 (29/227) 12.8% (3/445) 0.67%

机读版 (79/227) 34.8%

网络版 (367/445) 82.5%

3.网络时代检索的发展趋向

▲检索语言本体化

检索工具书(thesauri) ——→ 知识组织系统(KOS)

本体 = 概念集 + 概念关系 + 形式化

※形式化(语义描述)

XML/RDF/SKOS/OWL ※功能多样化、集成化 (浏览、检索、标引、知识发现、 自动映射、 自动翻译、语义推理等技术服务) ※显示多样化、可视化 (词间关系显示有三种到几十种、上百种)

谢谢诸位

批评指正!

联系地址:南京卫岗南京农业大学信息管理系 Email: [email protected]