Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
用於標引、瀏覽、檢索的知識組織系統
Knowledge Organization Systems (KOS) for Indexing, Browsing, and Retrieval
曾蕾
Kent State University
「數位圖書館發展」國際研討會, 台灣大學, 2006.8.10-11
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
2
1. 知識組織系統(KOS)一覽
“知識組織系統”(knowledge organization systems, 或簡稱KOS) 是我們用來定義並組織表述真實世界物體的術語和符號的系統
在具體應用中我們往往將它們泛指為語義工具
大型數據庫中使用的眾多的敘詞表
檢索引擎內部使用的分類表、自動擴檢詞表
網站導航瀏覽用的等級體系結構
新一代萬維網—語義網的實用分類系統。。。
1. 知識組織系統(KOS)一覽St
rong
ly -s tr
uctur
ed强結構
詞單term lists
Synonym Rings 同義詞環Authority Files 權威文檔Glossaries/Dictionaries 詞匯/字典Gazetteers 地名表
Natural language 自然語言 Controlled language 受控語言
We a
kly-st
ructu
red
弱結
構
分類與大致歸類Classification &Categorization: Subject Headings 標題表
Classification schemes (圖書)分類法Taxonomies 知識分類表
Categorization schemes大致歸類類表
關聯組織
Relationship Groups
Ontologies 實用分類法Semantic networks 語義網絡
Concept maps 概念地圖Thesauri 敘詞表
Pick lists 可選詞單
© Marcia Zeng, 2002-2006
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
4
2. KOS 的基本方法
2.1詞義消歧即對同形異義、一詞多義、詞義含糊的詞的控制
2.2 對同義詞和近義詞的控制2.3 對概念之間關系進行顯示
等級關系+其他相關關系2.4 表達概念之間關系以及概念的特征
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
5
2.1 詞義消歧
對同形異義、一詞多義、詞義含糊的詞的控制
同形異義的問題就像不同的人卻是同名同姓,同形詞 (homographs) 中每個詞的意義截然不同
“谷”(用於稻谷或山谷)“米”(代表一種糧食或一個度量衡概念)杜鹃(植物)杜鹃(鸟类)
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
6
可選詞單 Pick Lists一種簡單有效的詞意消歧的方法
一個詞單中的成員詞應該都屬於同一集合(例如都是國家名稱、或都是產品名稱、或者事物名稱),在意義上沒有重復,在專指度(詳盡程度)上也是一致的
詞單中的詞可以按照年代、字順、大小、或其它邏輯順序排列。
定義:根據某種順序排列的有限詞匯的集合
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
7
可选词单
(pick list)
Waterford County Image Archivehttp://www.waterfordcountyimages.org
1. 在分面结构中采用可选词单 (pick list)
http://www.waterfordcountyimages.org/
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
8
可选词单(pick list)
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
9
2.2 對同義詞、近義詞進行控制同一個人或事物卻有不同的姓名
同義詞
“馬鈴薯”和“土豆”“激光”和“鐳射”“薩斯”和“非典”
近義詞
“經濟擴張”和“經濟滲透”、“經濟侵略”、 “經濟奴役”
… …150 World War, 1939-1945 450 European War, 1939-1945 450 Second World War, 1939-1945 450 World War 2, 1939-1945 450 World War II, 1939-1945 450 World War Two, 1939-1945
Source: FAST: Faceted Application of Subject Terminologyhttp://fast.oclc.org/
規范文檔(authority file) 是被用來控制同一人或事物的不同名稱的一種基本手段
or:
World War, 1939-1945 UF European War, 1939-1945 UF Second World War, 1939-1945 UF World War 2, 1939-1945 UF World War II, 1939-1945 UF World War Two, 1939-1945
European War, 1939-1945USE World War, 1939-1945
Second World War, 1939-1945USE World War, 1939-1945
World War 2, 1939-1945USE World War, 1939-1945
World War II, 1939-1945USE World War, 1939-1945
World War Two, 1939-1945USE World War, 1939-1945
http://fast.oclc.org/
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
13
2.2 同義詞環 Synonym Rings
相對來說是一種較新的結構通常與檢索引擎一起使用,幫助擴充檢索式用戶隻要使用了同義詞環中的任何一個詞,就可以找到這一類的資源。
打“電話“ -- “電話”、”手機”、“傳呼”、“大哥大”、“小靈通”喝“咖啡” -- “滴濾咖啡”、“美式咖啡”、“濃縮咖啡”、“拿鐵咖啡”、“卡布奇諾”、“摩卡咖啡”等看“星星” -- “恆星”、“行星”、“星座”、“星雲”、“銀河”等交叉概念,如“醫藥”和“藥品”,“樹林”和“森林還有很多簡寫詞,外語名稱,專用詞等
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
14
astronaut
spaceman cosmonaut
spationaut taikonaut
從原理上講,同義詞環中所包含的語詞是從檢索目的
來看等價的詞.
查找: Tilenol, 結果: Tylenol
檢索引擎可以將同義詞自動並入系統查找
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
16
An example from International SEMATECH;
a search for Silicon would look like this:
Your search was submitted as “SILICON” or “SI”檢索系統自動將檢索詞擴充,此例中是‘硅’的全稱和代號
同義詞環在元數據的關鍵詞項中也很常見
IBM公司網頁元數據
http://www.ibm.com
IBM公司網頁元數據 關鍵詞:
http://www.ibm.com/
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
20
同義詞環--與眾不同之處:不強行要求環中某一個詞被當作“正式詞”,在同義詞環中每一個詞都可以是正式詞。
同義詞環可以一組一組詞逐步建立,可以隻給整個詞匯中的10%或20%的詞建立同義詞環,視需要而定,量力而行,分期行動。
可隨著檢索環境的變化和網站內容的變化而隨時增加新的同義詞環。
投資小、效益高、實用性強。
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
21
2.3 對概念之間關系進行顯示-- 等級關系
通常在知識組織系統中顯示的等級關系包括三種:1)屬-種關系(A是B的一種)2)類-例關系(A是B的一個實例)3)整體-部分關系 (A是B的一部分)
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
22
知識分類表Taxonomies
最早有生物分類學的嚴格的分類體系根據生物類群之間的異同程度闡明生物物種之間的親緣關系,按門、綱、目、科、屬、種來排列
在網站、數據庫、信息中心,人們用這種原理對概念和主題進行層層劃分,展現其間的等級關系
是一種幫助找到更合適、更專指的概念的有效結構
等級分類體系例如: Leatherback turtle棱皮龟
Phylum: Chordata 脊索动物门Class: Reptilia 爬行纲
Subclass: Anapsida 无孔亚纲Order: Testudines 龟鳖目
Suborder: Cryptodira 潜颈龟亚目Family: Dermochelyidae棱皮龟科
Genus: Dermochelys 棱皮龟属Species: Dermochelys coriacea 棱皮龟种
(Leatherback turtle)
门、纲、目、科、属、种
聯合國商品分類表,5級傘狀結構
IBM的3个分類表
IBM公司網頁元數據
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
26
2.3 對概念之間關系進行顯示--其它相關關系
事物及其應用:溫度調節器 -- 溫度控制原因-結果:廢氣-- 空氣污染事物與其特性:液體--表面張力原材料與產品:小麥--面粉過程及其控制該過程的事物:燙傷--(治)燙傷藥兩個互相補充的行動:教--學成反對關系的行動:贊成--否決行為與某種特性:彎曲--可朔性行為與行為促發者: 吸煙 -- 煙草、香煙行為與行為的結果:織--布學科領域與該學科的研究人員: 數學-- 數學家學科領域與該學科的研究對象:生物學--植物
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
27
敘詞表Thesauri
對詞匯進行控制(同義、近義、多義等)
其大量的入口詞幫助用戶從自己的詞出發找到正確的描述資源的敘詞
詞表對敘詞之間的各種關系進行揭示,而且常常採用一對一的對應形式
以“用(Y)”--“代(D)”表現等價關系 USE-UF“屬(S)”--“分(F)”表現等級關系 BT-NT“參(C)”--“參(C)”表現其它相關關系 RT-RT
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
28
實例
檢疫D 衛生檢疫F 出口檢疫
國境檢疫海港檢疫交通檢疫進口檢疫疫區檢疫
C 留驗
非正式詞UF
下位詞NT
相關詞RT
《英國國家紀念建筑記錄數據庫》的一系列敘詞表
詞族表
詞条
正式詞和非正式詞、定義充分顯示詞間各種關系:用代屬分參
聯合國糧農組織的多語種《農業詞匯敘詞表》
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
31
敘詞表常被用來進行檢索和查詢
在所有受控結構中,它提供一種最豐富的結構和相互參照的環境
敘詞表的范圍可以是很專門的、狹窄的領域,但也有應用於不同內容的較廣泛的應用領域
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
32
NASA Thesaurus-based Machine Aided Indexing (MAI)
Build-in a thesaurus for automatically assigning subject terms
1
2
3
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
33
Alexandria Digital Library (ADL) Gazetteer Server sitehttp://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsp
Feature Type Thesaurus
Built-in thesaurus to assist searching
http://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsphttp://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsphttp://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Illustrated Thesaurus http://hitite.adlibsoft.com/ (no longer accessible in April 2006)
Build-in an illustrated thesaurus to assist searching
http://hitite.adlibsoft.com/
Search results. (Chose 'Arched' shape, 'Many' storyes, situated in 'Country' )
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
36
Source: Z39.19-2005, p.29
詞匯控制圖譜
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
37
2.4 表達概念之間關系以及概念的属性特征
概念實體類型 Entity types概念關系類型 Relationship types概念的属性特征 Properties
UMLS Semantic Network
135 Semantic Types (link) and 54 Semantic Relation Types (link)
http://www.nlm.nih.gov/research/umls/META3_current_semantic_types.htmlhttp://www.nlm.nih.gov/research/umls/META3_current_relations.html
http://www.visualthesaurus.com/
FACET’s Semantic query expansion and matching
FACET - Faceted Access to Cultural hEritage Terminology http://www.comp.glam.ac.uk/~FACET/webdemo/
不同顏色代表不同類型的概念:物體、材料、屬性、時間、空間等等
http://www.comp.glam.ac.uk/~FACET/webdemo/
Source: Noy, N. F. and Tu, S.W. (2003).
Ontology example (using Protégé)
The Gene Ontology -- http://www.geneontology.org/
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
47
PubMed –-- 多种显示格式、直接与标引的特殊内容连接起来,以此开拓查询途径
知識組織系統(KOS)一覽St
rong
ly -s tr
uctur
ed强结构
詞單term lists
Synonym Rings 同義詞環Authority Files 權威文檔Glossaries/Dictionaries 詞匯/字典Gazetteers 地名表
Natural language 自然語言 Controlled language 受控語言
We a
kly-st
ructu
red
弱结
构
分類與大致歸類Classification &Categorization: Subject Headings 標題表
Classification schemes (圖書)分類法Taxonomies 知識分類表
Categorization schemes大致歸類類表
關聯組織
Relationship Groups
Ontologies 實用分類法Semantic networks 語義網絡
Concept maps 概念地圖Thesauri 敘詞表
Pick lists 可選詞單
© Marcia Zeng, 2002-2006
一维 二维 三维+
Term Lists词单
Classification Categorization分类、归类
Thesauri 叙词表concept maps 概念地图
semantic networks语义网络
ontologies实用分类法
Relationship Groups 相关组织
Continuum of Structured Modeling
總結:KOS結構化模型譜
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
50
3. KOS NKOS Semantic Tools向強結構的語義系統發展
新一代的語義工具的特點:吸取不同知識組織系統的特長,集中起來優化使用
等級結構與元數據式的“特征”的結合 Taxonomy + metadata (or attribute-value pairs)
Ontology for knowledge based systemsKOS、元數據與專用置標語言 (domain-specific markup languages)的結合使用多個知識組織系統結構在學習科學概念中的結合使用 (e.g.,
ADEPT KB)對計算機可讀性的強調 –-多種編碼(encoding)系統的應用
可視化(visualization)與傳統形式的結合使用
受控與非受控方式的結合
Figure 3: Furniture description template. This template contains the 17 VRA data elements plus 8 additional elements.
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
52
多种KOS原理和方法的综合利用 -- 李1:纽约大都会博物馆
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
53
主題
主題標題
等級體系
參照系統
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
54
時間
時間地理等級顯示色彩區分圖示
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
55
大類類别
二級細分類別
三級細分類別
可選詞單
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
56
http://viewfinder.english-heritage.org.uk/search/advanced.asp
ViewFinder, image resource for England's history
例2:英国文化遗产数字图书馆的图像资源查找
物体 组成部分
时间
空间
http://viewfinder.english-heritage.org.uk/search/advanced.asp
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
57
大类
多种途径
充分利用元数据记录中的内容
例2: 纽约公共图书馆数字画廊
http://digitalgallery.nypl.org/nypldigital/index.cfm
http://digitalgallery.nypl.org/nypldigital/index.cfm
Learning environment display (lecture mode)
The Alexandria Digital Earth Prototype (ADEPT) University of California, Santa Barbara
多种KOS原理和方法的综合利用 -- UC Santa Barbara
Lecture window
Knowledge window –View of learning material by concepts
Knowledge windowLecture window
Collection window
Full paper: http://jodi.ecs.soton.ac.uk/Articles/v04/i04/Smith/
http://jodi.ecs.soton.ac.uk/Articles/v04/i04/Smith/
c o n c e p t u a l m o d e l e l e m e n t s
ADEPT Model & Conventional KOS and other Semantic ToolsID
Terms
Descriptions
Examples
Historical Origins
Domain Context
Class Of Concept (Type, Facet)
Conceptualization
Causality
Hierarchical Relations
Co-Relations
Applications
Properties
Scientific Classification
Scientific Representation
Defining Operations
THES
AU
RU
S
CLA
SSIF
ICA
TIO
N
SEM
AN
TIC
NET
WO
RK
,
CO
NC
EPT
MA
P
FAC
ETED
AN
ALY
SIS,
C
LASS
IFIC
ATI
ON
INST
AN
CES
(TA
XON
OM
Y)
AD
EPT
AD
DED
ELE
MEN
TS
ADEPT 模型框架中採用了來自敘詞表、分類法、概念地圖等多種系統的子結構,並增加了特別的元素。Source: Smith, et al. (2004).
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
63
3. KOS NKOS Semantic Tools向強結構的語義系統發展
新一代的語義工具的特點:吸取不同知識組織系統的特長,集中起來優化使用
等級結構與元數據式的“特征”的結合 Taxonomy + metadata (or attribute-value pairs)
Ontology for knowledge based systemsKOS、元數據與專用置標語言 (domain-specific markup languages)的結合使用多個知識組織系統結構在學習科學概念中的結合使用 (e.g.,
ADEPT KB)對計算機可讀性的強調:多種編碼(encoding)系統的應用
可視化(visualization)與傳統形式的結合使用
受控與非受控方式的結合
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
64
时间
主题
大类
有关此物件的基本信息
在有限的第一空间内,从多种角度充分展示典藏的内容
例:史密森尼博物院 “有线历史” History Wired: A few of our favorite things.” http://historywired.si.edu/
http://historywired.si.edu/
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
65
根据主题来浏览,显示各类中的有关物件及其时间分布
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
66
也可以用关键词检索
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
67
Zoom-in 4x
通过2倍到32倍的推进,可以看到每个小块的内容
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
68
相关图片
相关录音:歌曲,讲话录音
相关网页
借一个入口点来显示所有相关的、不同媒体的资源
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
69
非受控詞匯: 從分眾分類法(folksonomy)中採集詞匯Mob indexing / Folk categorization / Social tagging /
分眾分類法(Folksonomy)是由Folks和Taxonomy組合而來,指“群眾”自發性定義的平面非等級標簽分類。有“分眾分類法”,“通俗分類法”,“大眾分類法”, “民眾分類法”等不同翻譯
特點:這種分類法是由個人自發性定義。標簽分類是公開共享的,可以被所有人看到。這種分類法是由用戶群體定義的頻率來決定。
Source: 维基百科
Source: Bearman and Trant, 2005
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
70
藝術博物館社會標簽項目
www.steve.museum
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
71
在這裡放入你的描述本照片的關鍵詞
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
72
克裡夫蘭藝術博物館的藝術詞匯收集界面v.1,連接到物件的聯機目錄記錄
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
73
益處:收集到一些意想不到的好詞,還有審視同一作品的不同角度問題:同義詞、近義詞、詞形規范、概念深淺度等
Source: Trant (2006)
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
74
del.icio.us/書簽分享網站
益處:收集到相關性很高的詞,從這些詞入口可以找到更多的相關網站問題:同義詞、近義詞、詞形規范等,例如global warming 和global-warming 兩者帶出的內容不一樣,隻用一個詞,可能漏掉一些好的內容。
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
75
http://tags.library.upenn.edu/
賓西法尼亞大學圖書館 PennTags書簽活動
http://tags.library.upenn.edu/
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
76
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
77
4.語義工具與語義技術-- 研究、發展、未來趨勢
Semantic Web 語義網http://www.slis.kent.edu/~mzeng/metadata/semanticweb/intro-en.htm
Semantic Grid 語義網格http://www.semanticgrid.org/
Semantic Technology 語義技術Semantic Technology Conference:http://www.semantic-conference.com/http://www.semantic-conference.com/Presentations_2up_bw.html
http://www.slis.kent.edu/~mzeng/metadata/semanticweb/intro-en.htmhttp://www.slis.kent.edu/~mzeng/metadata/semanticweb/intro-en.htmhttp://www.semanticgrid.org/http://www.semantic-conference.com/http://www.semantic-conference.com/Presentations_2up_bw.htmlhttp://www.semantic-conference.com/Presentations_2up_bw.html
Semantic technologies impact all layers of the Information and Communication Technologies (ICT) stack
Semantic Technology Primer. http://www.semantic-conference.com/primer.html
http://www.semantic-conference.com/primer.html
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
79
總結
語義工具在標引、瀏覽、檢索中的作用是不容忽視的
多種語義工具可以結合使用,提高檢索效率
應該在更多過程中考慮自動處理
在我們的網絡時代邁向下一代互聯網--語義網(Semantic Web)的進程中,知識組織系統的發展和應用再一次走向高潮
Marcia Lei Zeng, @2006「數位圖書館發展」國際研討會, 台灣大學2006.8.10-11
80
谢谢
全文見:
曾蕾:“知識組織系統”,曾民族主編《知識技術及其應用》第五章,北京:科技文獻出版社,2006。
Marcia Lei Zeng
用於標引、瀏覽、檢索的�知識組織系統1. 知識組織系統(KOS)一覽 1. 知識組織系統(KOS)一覽2. KOS 的基本方法 2.1 詞義消歧 �可選詞單 Pick Lists 2.2 對同義詞、近義詞進行控制 2.2 同義詞環 Synonym Rings 同義詞環--與眾不同之處:2.3 對概念之間關系進行顯示�-- 等級關系知識分類表Taxonomies�等級分類體系�例如: Leatherback turtle 棱皮龟2.3 對概念之間關系進行顯示�--其它相關關系敘詞表Thesauri 實例�2.4 表達概念之間關系�以及概念的属性特征FACET’s Semantic query expansion and matching 知識組織系統(KOS)一覽3. KOS NKOS Semantic Tools�向強結構的語義系統發展 Learning environment display (lecture mode) 3. KOS NKOS Semantic Tools�向強結構的語義系統發展 4.語義工具與語義技術 �-- 研究、發展、未來趨勢Semantic technologies impact all layers of the Information and Communication Technologies (ICT) stack總結谢谢