60
理理理理理理理理理 理理理理理 --( LAM 理理理理理理理理理理理理理理 Marcia Lei Zeng 曾曾 Kent State University 曾曾曾曾曾曾曾曾曾曾曾曾曾曾 2012.07.20-23, 曾曾曾

理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者

Embed Size (px)

DESCRIPTION

Presentation in Chinese on: Understanding and Using Linked Data – Libraries, Archives, and Museums (LAM) as the contributors and consumers of Linked Data

Citation preview

理解和利用关联数据--图情档博( LAM)作为关联数据的提供者和消费者

Marcia Lei Zeng 曾蕾Kent State University

关联数据技术与应用专题研讨班2012.07.20-23, 上海图书馆

大纲: 12345

• 1 个目的• 2 种要回答的问题• 3 段式 triples• 4 项基本原则• 5 星排行

• +“关联”的不同层次

1

1 个目的:关联

1 个目的:关联将数据从 silo 中解放出来,通过关联得到最大利用,再利用,产生新的数据、信息、知识

Image: Slide from T.B.Lee at TED 2009 conference, "The Great Unveiling" in Long Beach, CA. USA, 4, Feb 2009

2

需要回答的 2 种问题这个 thing 是什么?

(属性 - 值)

这个 thing 是什么?

(属性 - 值)

这个 thing 和别的 thing 有什么

关系?

这个 thing 和别的 thing 有什么

关系?

3这 2 种问题的答案

都可以用 3 段式( triples )来描述这个 thing 是什么?

(属性 - 值)

这个 thing 是什么?

(属性 - 值)

[属性] [值]名字: 姚明 @zh名字: Yao Ming@en出生日期: 1980 - 09 -12身高: 7' 6" (2.29 m)效力球队: 上海大鲨鱼效力球队: 休斯顿火箭出身地: 上海退役时间: 2011 - 07 -20获奖: 。。。 。。。参赛: 。。。 。。。RDF triples:

主体 - 谓词 - 客体( subject-predicate-object )结构

这个 thing 和别的 thing 有什么

关系?

这个 thing 和别的 thing 有什么

关系?

[属性] [值]名字: 姚明 @zh名字: Yao Ming@en出生日期: 1980 - 09 - 12身高: 7' 6" (2.29 m)效力球队: 上海大鲨鱼效力球队: 休斯顿火箭出身地: 上海退役时间: 2011 - 07 - 20获奖: NBA All-Star奖牌: 2002 亚运会银牌

这里面有多少是独立的 thing ?

( 有自己的属性)

这里面有多少是独立的 thing ?

( 有自己的属性)

如果我们将能独立的 thing 都用特定的 ID来表示,就可以产生无歧义的 3 段式

[属性] [值]名字: 姚明 @zh名字: Yao Ming@en出生日期: 1980 - 09 - 12身高: 7' 6" (2.29 m)效力球队: 上海大鲨鱼效力球队: 休斯顿火箭出身地: 上海退役时间: 2011 - 07 - 20获奖: NBA All-Star奖牌: 2002 亚运会银牌

ex :shsharkex : htrockets

ex : shanghai

ex :NBA_AllStar

ex:yaomingex:yaoming

ex:yaominglabel: 姚明

ex:yaoming draftTeam: ex:htrockets

ex:yaomingbirthPlace: ex:shanghai

ex:yaoming award: ex:NBA_AllStar

ex:yaomingex:yaoming

ex:yaomingex:yaoming

ex:yaomingex:yaoming

ex:yaomingex:yaoming

RDF triples: 主体 - 谓词 - 客体( subject-predicate-object )结构

一个 3 段式能回答什么问题?

ex:yaominglabel: ?

ex:yaoming ? ex:htrockets

ex:yaomingbirthPlace: ex:shanghai

ex:yaoming award: ex:NBA_AllStar

ex:yaomingex:yaoming

ex:yaomingex:yaoming

??? ???

??? ???

这个人叫什么名字?

这个人与休斯顿火箭队是什么关系?

上海是哪些[名]人的出身地?

NBA All Star 的名单上都有哪些人?

3 段式中的客体部分也能变为主体么?

能由之再产生新的 3 段式么?ex:yaoming

label: ?

ex:yaoming ? ex:htrockets

ex:yaomingbirthPlace: ex:shanghai

ex:yaoming award: ex:NBA_AllStar

ex :yaomingex :yaoming

ex :yaomingex :yaoming

??? ???

??? ???

关于上海这个城市,你能想到的属性和值有哪些?

其中又有哪些客体是可以辨识的 thing ?

图示 1. thing 的描述和无限联接

subjects predicates subjectsobjects

predicates objects

17

3

3

1

2

1 2

Backgroud image borrowed from Andrea Kosavic: The Semantic Web, (some of) what you need to know. OLA Superconference 2009.01.30. Compiled by mzeng 2009-03-06.

Image source: Dan Brickley http://farm4.static.flickr.com/3613/3384528143_8304792836_b.jpg

图示 2. 联接的内容是来自不同资源的

注意:•是格式化数据的相联,不是文本的相联;•是机器可理解和可处理的数据;•是对现有数据的再利用;•产生新的资源;其又被利用、再利用•可无限扩展下去

4

4 项基本原则

将这个实例放到 4 项基本原则来看

四项基本原则:

1. 使用 URI 作为任何事物的标识名称– Use URIs as names for things

2. 使用 HTTP URI 使任何人都可以访问名称– Use HTTP URIs so that people can look up those

names

3. 当有人访问名称时,提供有用的 [rdf] 信息– When someone looks up a name, provide useful

information

4. 尽可能提供相关的 URI 以使人们发现更多的信息– Include links to other URIs so that they can

discover more things

Translated by Liu Wei, 2008 12

http://www.w3.org/DesignIssues/LinkedData.html

1

2 3

1. 使用 URI 作为任何事物的标识名称

2. 使用 HTTP URI 使任何人都可以访问名称

3. 当有人访问名称时,提供有用的 [rdf] 信息

4. 尽可能提供相关的 URI以使人们发现更多的信

Source: dbpedia

机器可理解、可处理

http://dbpedia.org/page/Yao_Minghttp://dbpedia.org/page/

Shanghai_Sharks

<RDF:RDF> <RDF:Description RDF:HREF=”http://dbpedia.org/page/Yao_Ming”> < dbpprop:president

rdf:resource= "http://dbpedia.org/page/Shanghai_Sharks"> </RDF:Description></RDF:RDF>

取出其中一截,其结构是:

RDF triples

12

3

1

2

3

thingproperties values

is president of

只要遵循有 URI 命名, HTTP 途径,凡是有可能的地方对联接的 properties 合理管理,则可以被考虑为关联数据。

•这是一种为 Web 所用的含义更丰富的联结方式,使我们从超文本链接(文献到文献)发展到超数据的联结(文献中所讨论的内容资源( thing) 的联结) ;•人们可以通过 HTTP/URI 机制,直接获得数字资源(Thing) 。

Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html参考刘炜 2008-12 的翻译

相对于传统的图书馆数据来说,关联的图书馆数据有如下优点

• Shareable 可分享– 不管谁都能解析的唯一标识- URI– 可信赖的数据和元数据供大家使用

• Extensible 可无限伸展– “ 无边无际的世界” - 没有什么描述是完成了的,任何人都可

以从他自己发布的空间添加描述信息

• Re-usable 可再利用– 各种来源的描述谈的是同样的 thing – 完善、加注、等等

• Internationalizable 国际化– 多语种、翻译等都没有问题– 自然语言词串( strings )不被用来指代 things 。

This slide is based on a summary prepared by Antoine Isaac, for Talis Linked Data and Libraries day, London, July 14th 2011;built on the W3C Library Linked Data Incubator Group Final Report, draft

5

5 星排行表

Image source: http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006

李爵士在提出关联数据时借用过这样一个五星排行表: From InkDroid, a nice summary (and CSS) of the star scheme

★ make your stuff available on the web (whatever format) 把你的东西发布在网上(以任何格式)

★★ make it available as structured data (e.g. excel instead of image scan of a table)

把你的东西变成有结构的数据 ( excel 格式的表格而不是扫描的图像)

★★★ non-proprietary format (e.g. csv instead of excel) 非商家格式,(如 csv 而不是 excel )

★★★★ use URLs to identify things, so that people can point at your stuff

用 URLs 来指代和辨识事物,这样别人就能指点到你的东西 ★★★★★ link your data to other people’s data to provide context

将你的数据联到其他人的 数据 -- http://www.w3.org/DesignIssues/LinkedData.html. TBL, 2006

04/10/23 20

网上有很多数据资源和知识组织系统•网上开放•机器可读 •非专属权格式(html, xml)

★★★★★★

越来越多 4 星级的数据集和知识组织系统• 采用了 RDF 标准

• 用 URI指代名称• 数据用三段式 triples 发布

★★★★

其中仅有一部分达到 5 星

•关联的 RDF★★★★★

用五星排行表理解与 LAM 有关的资源

越来越多 4 星级的数据集、知识组织系统• 采用了 RDF 标准

• 用 URI指代名称• 数据用三段式 triples 发布

★★★★

当前主要关联数据资源(根据 2012 年 7 月 16 日数据)

CKAN = Comprehensive Knowledge Archive Network

CKAN 关联数据中心 CKAN - the Data Hub ( 共有 3880 datasets ) •其中最有名的一个组是关联的开放数据 LOD云组, 云图中现含 295 个数据集 http://ckan.net/group/lodcloud 实际上该组已有 327 个。

•其它几十个组见 : http://ckan.net/group. 一个数据集可以注册到多个组,其中有些数据集也上了 LOD云。

• 图书馆关联数据组 http://ckan.net/group/lld (现含 57 个数据集,大多数联接都是与非图书馆数据的联接)

• 文献书目数据组 : (现含 77 个数据集)• 艺术、气象数据、实验数据、考古、经济、能源数据、

地理、语言、国际发展数据、政府数据(加拿大、澳大利亚、英国等)。有些在试验阶段,有些还不开放。

•数据集的发行格式(可获取格式): CSV | RDF | XML | XBRL | SDMX | HTML+RDFa | 其它 LOD Cloud group

327 datasets

Linking Open Data cloud diagram by RichardCyganiak and Anja Jentzsch. http://lod-cloud.net/

Linking Open Data ( LOD ) 数据集云图 (as of 2011-09, dataset: 295) ; 实际组里已有 327 。

跨专业

生命科学

政府

媒体

地理

出版物

入云要求:•可解的 http URIs•数据可解为常用 RDF格式 (RDFa, RDF/XML, Turtle, N-Triples).•至少有 1000 条 triples(所以你的 FOAF 文档不行)•必须通过 RDF 与本图中一个数据集相联(含其它数据集来的 URIs ,反之亦然。至少 50条联接)•必须能通过 RDF crawling, RDF dump,或 SPARQL endpoint 得到整个数据集的数据

“关联”的不同层次

“关联”是有不同层次的,从简单到复杂-- 以值词汇 (value vocabularies) 为例

References: Linked Data: Evolving the Web into a Global Data Space, by Tom Heath and Christian Bizer. Linked Data FAQ, by Structured Dynamics. http://structureddynamics.com/linked_data.html#question_8

同指 ‘关于’相似的主题

用结构化的 RDF图表达 ' 类 '

相联的各类

• 用 owl:sameAs 来表达同一性联接(identity links )两个数据资源指的是具有同一性的一种实体( entity )或者个体( instance (individual) 。 如:你和我提到的是同一种实体或者个体(个人、事件、物体等),尽管名称不同。

• 同一性联接 指向另一资源所采用的 URI

• 辨识同样的真实世界的物体 • 或者辨识相同的抽象概念

客户端可以从另一资源中检索到更多的描述。

纽约时报词表里‘苹果公司’的概念 = 》 纽约时报‘苹果公司’专业专栏

http://sw.opencyc.org/concept/Mx4rvVjfjpwpEbGdrcN5Y29ycA

http://dbpedia.org/resource/Apple_Inc.

http://www.freebase.com/view/en/apple_inc

http://

data.nytimes.com/

6145302702357875852

http://www4.wiwiss.fu-berlin.de/flickrwrappr/photos/Apple_Inc.

CYC 本体

纽约时报

dbpedia

Freebase

dbpedia 图像

练习:艺术家徐冰 (1)如果:•艺术资源库 ARTstor 的艺术作品数据里有“艺术家为”:

“Xu Bing (Chinese installation artist, born 1955)” ( ID: 500125592@ulan )

•另外一个数据集采用了中国国家图书馆的规范数据, “ 徐冰 ( 版画家 , 1955~)” ( ID: 000190318@nlc )

•这两个数据集里关于这个艺术家的数据都指的是同一个人则: 可以用一个 identify link 来表达这两个是同指一人。请你写下来

哪个对?[ 1 ] Xu Bing (Chinese installation artist, born 1955) owl:sameAs 徐冰 ( 版画家 , 1955~)

[ 2 ] 500125592@ulan owl:sameAs 000190318@nlc

练习:艺术家徐冰 (2)很多数据都与 dbpedia 和 freebase 相联,徐冰的同样,不管谁有徐冰的数据都可以继续联接:• dbpedia 的:{ http://dbpedia.org/page/Xu_Bing }• Freebase 的{ http://www.freebase.com/view/en/xu_bing }

这四个代号指代的 thing 是同一个,可以用 owl : sameAs 来联:

在 LOD 云里很多数据都指向 dbpedia ,其联接大多是 owl:sameAs ,而且是个体。

http://dbpedia.org/page/Xu_Bing owl:sameAs: http://www.freebase.com/view/en/xu_bing ; owl:sameAs: {http://..... 500125592@ulan} ; owl:sameAs:{http://... 000190318@nlc}}.

同指 ‘关于’相似的主题

用结构化的 RDF图表达 ' 类 '

相联的各类

• 在这种情况下,重点在于关联有关相似的主题或概念的数据资源

• 通常采用被定义好了的类( classes )和概念,例如在本体中定义的类、分类法类目、词表系统里的概念

‘关于’相似的主题或概念

Xu Bing:Background Story 7

徐冰《背后的故事: 7 》

British Museum, 2011大英博物馆, 2011

Image source: An installation by Xu Bing: Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722

Image source: An installation by Xu Bing: Background Story 7By British Museum (Albums)http://www.facebook.com/media/set/?set=a.10150184112629723.318031.72228529722

在 AAT 和 LCSH 中,装置艺术的概念都得到完整的定义,有注解,不同名称,语义关系,资料来源等。但是二者不完全一样,只能算‘相似’,不能用‘ sameAs’

‘about’ similar concepts

建筑与艺术词表

(通常为博物馆所用)

LCSH concept: sh85066731@lcshsubject heading: “Installations (Art)”

国会标题表

通常在图书馆目录中用

01159407@ndl

01159407@ndl

xl:prefLabel: インスタレーション ( インスタレーション )@ja

xl:altLabel:Installations (Art)

Cb121017792@rameau

Cb121017792@rameau

sh85066731 @lcsh

sh85066731 @lcsh

4131808-0@swd

4131808-0@swd

skos:prefLabel: Installations (Art)@en

skos:prefLabel: Installations (Art)@frskos:prefLabel: FRBNF121017790@x-notation

skos:prefLabel: Installation <Kunst> @de

closeMatch

closeMatch

Concept from NDL isconnected via skosxl:altLabelto LCSH's label

‘about’ similar concepts

美国国会标题表

法国国家图书馆的标题表

德国国家图书馆的主题词汇

日本国家 Diet 图书馆标题表

这几个词表的 {installations (visual works)} 概念可以用 skos : closeMatch 来关联

采用了这些概念描述的文献和物件得以通过相似概念而关联

同指 ‘关于’相似的主题

用结构化的 RDF图表达 ' 类 '

相联的各类

• 比个体的联接更上一层的,是将类( Classes )或概念用SKOS做成结构化的 RDF

source: extracted from id.loc.gov/authorities/subjects/sh85066731

用结构化的 RDF 表达‘类’或概念

:sh85066731

Installations (Art)Installations (Art)

"……" "……"

sh85007805

prefLabel

note

broaderbroader

Environment (Art)Environment (Art)"……" "……"

sh85044164

" ……"" ……"

sh2001001631narrow

er

Art, Modern--20th century

"……" "……"

Site-specific installations (Art)

related

•RDF 图的结构能表征概念之间的关系

•其中有些固定的可联接的节点,通过它们能将四处分散的数据系在一起

Slide from Tom Baker "The concepts of knowledge organization systems as hubs in the Web of data". UDC 2011 Seminar. http://seminar.udcc.org/2011/index.htm

知识组织系统里定义的概念能够起到‘汇合点’的作用,令分散的资源很容易地通过已发布的三段式用 URI 来关联起来

schema.org 定义了无数的类、属性,而且还在增加

Image source: Dan Brickley. http://philarcher.org/inc/showImage.php?src=/diary/2012/danbri/schema.org.png&float=0&w=689&h=524

同指 ‘关于’相似的主题

用结构化的 RDF图表达 ' 类 '

相联的各类

超出那些 RDF 中的固定点,则是通过概念结构(例如揭示概念类之间语义关系的本体)来将各种类型的 things 相互关联起来。 这不仅仅是发布自己的数据,而是产生新的信息和知识。通过 RDF可以联通涉及到的人物、地点、事物、组织、事件、统计资料、基因、理论、思想等)

Image source: Open Knowledge Foundation. http://okfn.org/

Freebase example例 1 : Freebase查 Xu Bing

根据多种属性(谓词)将个人的有关

信息进行显示

根据多种属性(谓词)将个人的有关

信息进行显示

根据所获奖励这个属性显示

其他获奖者

根据所获奖励这个属性显示

其他获奖者

由此可关联历年所有获奖者由此可关联历年所有获奖者

source: freebase

例: Freebase MacArthur 奖获得者

获奖者概况统一显示获奖者概况统一显示

根据多种属性(谓词)对获奖者有选择性的显示

根据多种属性(谓词)对获奖者有选择性的显示

source: freebase

获奖者概况表格形式显示获奖者概况表格形式显示

获奖者概况的时间隧道形式显示获奖者概况的时间隧道形式显示

source: freebase

案例 1 方法小结• 定义本体 (schema.org 前身 )• 从维基百科抓取结构化数据• 发动群众(注册了的机构和个人)完善数据• 通过各种界面显示数据

source: freebase

[1] Use case: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Civil_War_Data_150[2] About page source: http://www.civilwardata150.net/

注意:•是格式化数据的相联,不是文本的相联;•是机器可理解和可处理的数据;•是对现有数据的再利用;•产生新的资源;其又被利用、再利用•可无限扩展下去

通过本体结构、采用 RDF 关联所有涉及到的人物、地点、队伍、伤亡、物品 (如旗帜)、组织、事件 (战役)、统计资料、个人档案等。

例 2 :美国国内战争 150周年项目

案例 2 方法小结• 搜集原始资料(来源于联邦、州、地方 LAM 、政府机构、 开放数字

化学术著作、多种媒体等),做成结构化数据 • 利用 dbpedia等资源,集中一些数据• 定义本体(类,子类,以及各类的属性)• 在已有资源基础上完善名称和主题规范词汇• 通过关联数据来组织这些过去分散的研究和历史资料。• 对数据进行组织、利用

(例如,自动 tweet 战役和伤亡)

Image Source: http://www.civilwardata150.net/category/applications/

柏拉图柏拉图亚里士

多德亚里士

多德黑格尔黑格尔

马克思马克思

康德康德

例 3 :哲学史图示( simonraper 6 月 13 日贴)

围绕历代哲学家间的影响、传承、学派为线索而展开

Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/

属性: 受谁影响 Influenced By

影响了谁 Influenced

值: 各哲学家的条 目

例:关于柏拉图的维基百科条目

内容来源 Source: Wikipedia

dbpedia 已经将这些关系都做成 RDF了

Source: dbpedia

到 dbpedia 的检索界面输入检索提问

找出凡是在‘哲学家’类有‘影响过’的所有受影响者。(‘哲学家’是 dbpedia本体定义的;属性(谓词)为‘ influenced’ )。

Source: dbpedia

得到数据后,装到 Spreadsheet 里,分三栏: | Philosopher A | Philosopher B | Weight |

然后用开源软件 Gephi ( http://gephi.org/ )做出来

Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/

讨论:要产生这样的新信息和知识,需要什么条件?

案例 3 特点: 完全是利用已有关联数据; 重在揭示某种’关系‘。

Source: http://drunks-and-lampposts.com/2012/06/13/graphing-the-history-of-philosophy/

启示:图情博档在关联数据浪潮中属于什么角色?

• 作为关联数据的提供者– 书目资源、受控名称规范文档、词表类表、本体– 可供别人使用;直接利用规范成果

• 作为关联数据的消费者– 最起码的:将外面的 URI请进来,或让自己资源的 URI

被外面拿去联接– 利用已有资源,扩充知识组织系统,充实元数据– 将各类文献目录和元数据变为知识服务的新起点,而

不光是提供查到、拿到文献的工具– 充分利用各种发布的关联数据资源去生产新的知识

关联数据是大趋势• Google 全面展开 Knowledge-graphs 服务• WorldCat在书目数据页面增加关联数据• 政府部门大数据和开放数据已成现实• 各国图情机构、博物馆、档案馆已经发布不少数据集, 数字图书馆则在消费和开发上努力

与时俱进吧!

Questions ???• 1 个目的• 2 种要回答的问题• 3 段式 triples• 4 项基本原则• 5 星排行

• “关联”的不同层次– sameAs – 'about' similar concepts ( closeMatch )– Classes expressed in RDF graph structure – Connected various classes