Transcript
Page 1: 문화유산 정보와 시맨틱웹 응용

문화유산 정보와 시맨틱웹 응용

오 원 석

Page 2: 문화유산 정보와 시맨틱웹 응용

2

Linked Data 소개1

Page 3: 문화유산 정보와 시맨틱웹 응용

The Web : The World’s Largest Information System

3

Page 4: 문화유산 정보와 시맨틱웹 응용

4

The Web : The World’s Largest Information System

Page 5: 문화유산 정보와 시맨틱웹 응용

5

질의

Semantic Web & Linked Data

Page 6: 문화유산 정보와 시맨틱웹 응용

6

인간이 이해할 수 있는 (human-readable) 웹

참고 : Chris Bizer / The Emerging Web of Linked Data

• 문서 (Document) 로 이루어진 글로벌 네트워크

• HTML 문서가 기본 단위• 인간 가독형 (human-readable) – Pre-

sentation

• 문서간 단순 링크 (untyped links)

단순 링크로 , 연결은 되어 있지만 서로가 어떤 내용을 포함하고 있는지는 모름

YES

???

Current Web – Document Web

Page 7: 문화유산 정보와 시맨틱웹 응용

7

기계가 이해하고 처리 할 수 있는 (machine-readable) 웹

참고 : Chris Bizer / The Emerging Web of Linked Data

YES

YES

• 데이터 (Data) 로 이루어진 글로벌 네트워크• RDF 데이터가 기본 단위• 기계 가독형 (machine-readable)

• 데이터간 의미있는 링크 (typed links)

개체 (thing) 들 간의 연결로 서로가 개체에 대한 참조 속성으로 연결됨

Data Web

Page 8: 문화유산 정보와 시맨틱웹 응용

8

미래의 웹 데이터 웹 Linked Data Global Database

질의 , 탐색 , 활용

Data Web Semantic Web : Linked Data

Page 9: 문화유산 정보와 시맨틱웹 응용

Linked Data 예시

9

HongGilDong

Hong, Gil Dong

35

Seoul

Seman-ticWeb

[hasPhotoCollection]

http://dbpedia.org/resource/Semantic_Web

http://www4.wiwiss.fu-berlin.de/flickr-wrappr/photos/Semantic_Web

[sameAs]

http://dbpedia.org/resource/Seoul

http://sws.geonames.org/1835848/

http://sws.geonames.org/1835848/near-by.rdf

[nearbyFeatures]

[residences]

[researches]

[name] [age]

시맨틱웹은 단지 데이터를 웹으로 제공하는 것이 아니라 , 데이터 간의 링크를 만듦으로써 , 인간이나 기계 모두

데이터의 웹을 탐험할 수 있도록 해준다 . Linked Data 를 통해 유용한 데이터를 얻게 되면 , 그 데이터에

관계된 데이터로 계속되는 항해가 가능하다 .

- Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html

Page 10: 문화유산 정보와 시맨틱웹 응용

Linked Data 4 원칙

10

1. Use URIs as names for things.

2. Use HTTP URIs so that people can look up those names.

3. When someone looks up a URI, provide useful information, using the standards. (RDF*, SPARQL)

4. Include links to other URIs. so that they can discover more things.

Page 11: 문화유산 정보와 시맨틱웹 응용

Linked Data 4 원칙 – 제 1 원칙

11

1. Use URIs as names for things.

URI

Page 12: 문화유산 정보와 시맨틱웹 응용

Linked Data 4 원칙 – 제 2 원칙

12

2. Use HTTP URIs so that people can look up those names.

HTTP

Page 13: 문화유산 정보와 시맨틱웹 응용

Linked Data 4 원칙 – 제 3 원칙

13

3. When someone looks up a URI, provide useful information, using the standards. (RDF*, SPARQL)

RDF

Page 14: 문화유산 정보와 시맨틱웹 응용

Linked Data 4 원칙 – 제 3 원칙 ( 계속 )

14

3. When someone looks up a URI, provide useful information, using the standards. (RDF*, SPARQL)

SPARQL

Page 15: 문화유산 정보와 시맨틱웹 응용

Linked Data 4 원칙 – 제 4 원칙

15

4. Include links to other URIs. so that they can discover more things.

interlink-ing

Page 16: 문화유산 정보와 시맨틱웹 응용

Linked Data 5 Star

16

http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/

Page 17: 문화유산 정보와 시맨틱웹 응용

현재의 웹

17

• 지금도 많은 데이터들이 웹에 있습니다 .

HTML

Page 18: 문화유산 정보와 시맨틱웹 응용

18

현재의 웹

• 지금도 많은 데이터들이 웹에 있습니다 .

Page 19: 문화유산 정보와 시맨틱웹 응용

데이터를 갖고 있는 곳들

19

Page 20: 문화유산 정보와 시맨틱웹 응용

Linked Data 로 연결하면 ??

20

data.-go.kr

Page 21: 문화유산 정보와 시맨틱웹 응용

데이터를 보는 관점

21

데이터주인

이 데이터는 이렇게 쓸려고 만들었어

관점

이 데이터는 이렇게 보면 이렇게 쓸 수도 있겠군 ..흑 ㅠㅠ 그런데 사용할 수가 없네 ??

데이터주인

이 데이터는 이렇게 쓸려고 만들었어

관점

이 2 개의 데이터를 섞으면 내가 원하는 결과를 얻을 수 있는데… 우잉 !!

저 데이터가 있어야 내가 기획한 서비스가 동작하는데 .. 아쉽다 ..!!!

관점

관점

관점

관점

관점

관점

Page 22: 문화유산 정보와 시맨틱웹 응용

데이터를 보는 관점

데이터주인

내 데이터랑 개방된 웹상의 저 데이터를 융합하면 좋은것이 나오겠군… !! 내 데이터도 꺼내 놓으라고 ?? 그건 안

돼 !!

왜냐고 ??

음 !!!

품질도 안 좋고…비밀스러운 데이터이고…누가 볼까 걱정되고 ..우리 서버 느려질테고…등등

이유는 백만가지도 넘어 ..

난 그냥 누가 꺼내 놓으면 그걸 가져다가만 쓸꺼야… !!!

Page 23: 문화유산 정보와 시맨틱웹 응용

데이터를 보는 관점

데이터주인

데이터 좀 쓰기 좋게 오픈해 주심 안돼요 ?

안됩니다 . 비밀 데이터입니다 .

홈페이지에 다 있던데요 ?? 그런데 HTML 포맷이라 쓰기가 불편해요 ..

헉 .. 그래요 ?? 음…그건 오픈하면 안되는거라 막아야 합니다 .. 조치하겠습니다 .

앗 .. 우잉…그럼 그거라도 그냥 쓸께요…막지는 마세요 .. ㅠㅠ

Page 24: 문화유산 정보와 시맨틱웹 응용

24

Linked Data 현황2

Page 25: 문화유산 정보와 시맨틱웹 응용

25

•시소러스 , 택사노미 , 분류체계와 주제명표목 같은 지식어휘체계를 웹에 표현하기 위한 RDF 용어집 (vocabulary)

•Enterprise 환경의 표준 용어 관리나 , Linked Data 서비스에서 개체들을 표현하기 위한 용어들간의 관계 표현에 주로 활용

•미국 의회도서관의 LCSH 등과 함께 Linked Data 를 위한 거의 모든 RDF 에서 활용되고 있음

•W3C 는 Linked Data 데이터 셋에서 용어간의 관계 표현과 함께 기존의 택사노미 , 시소러스 , 분류체계 등을 Linked Data 로 발행하고자 할 경우 SKOS 를 사용할 것을 권고하고 있음

Vocabulary - SKOS

SKOS 로 표현된 World Wide Web

DBpedia 에서의 SKOS 활용 예시

Page 26: 문화유산 정보와 시맨틱웹 응용

26

•사람간의 관계 기술을 위한 RDF 기반의 명세 용어집 (vocabulary)

•RDF 구문을 기반으로 하고 있으며 , 그룹 (group) 에 소속되어 있는 개인 (person), 조직 (organization) 에 의해 생성된 문서 (document), 한 개인과 연결된 다른 개인의 연결 등의 처리에 활용

•FOAF-a-matic 과 같은 간단한 어플리케이션을 통해 누구라도 손쉽게 자신의 FOAF 를 만들 수 있음

Vocabulary - FOAF

FOAF 를 이용한 Social Network 의 통합(Sheila Kinsella, Applications of Social Network Analysis

2007)

Page 27: 문화유산 정보와 시맨틱웹 응용

27

•시맨틱웹 기술을 이용하여 SNS 등의 커뮤니티를 연결하고자 하는 목적의 RDF 기반 용어집 (vocabulary)

•2004 년 DERI 를 중심으로 시작된 온라인 커뮤니티를 의미적으로 연결하기 위한 시도 중 하나로 , 커뮤니티 사이의 관계를 표현하기 위해 RDF/RDFS 를 이용하는 SIOC 온톨로지를 사용하며 FOAF, RSS 등을 이용해 확장 가능하도록 하고 있음

Vocabulary - SIOC

SIOC 의 주요 클래스와 속성

Page 28: 문화유산 정보와 시맨틱웹 응용

28

•기본적인 메타데이터의 속성을 표현하기 위한 용어집

•동영상 , 소리 , 이미지 , 텍스트 , 웹 페이지 등의 디지털 매체들을 기술하는 데 널리 사용되며 , XML 과 RDF 를 사용하여 구현되어 있음

•데이터의 형식과 구조를 단순화하여 원문의 저자나 발행자가 메타데이터를 직접 작성하고 , 이를 바탕으로 특정분야에서 요구되는 수준으로 확장하여 사용할 수 있도록 하는 것이 Dublin Core 의 목적

Vocabulary - Dublin Core

Drupal 에서의 Dublin Core 예시 Dublin Core 메타데이터 요소

Page 29: 문화유산 정보와 시맨틱웹 응용

LOD Cloud

29

2009.032008.092007.05

2011.09

Page 30: 문화유산 정보와 시맨틱웹 응용

30

http://lcsubjects.org/subjects/sh95000541

미국 의회 도서관

•도서관 자료의 주제목록 (subject cataloging) 을 위한 Subject Headings 를 Linked Data 로 발행

•MARC21(MARCXML) 포맷으로 되어 있는 전거 데이터 (authority record) 를 RDF 포맷의 SKOS 를 이용하여 RDF 화

•전거 레코드의 각 항목 (entry) 을 skos:Concept 의 인스턴스로 대응하고 LCCN(Library Congress Control Number) 을 이용하여 URI 부여

World Wide Web 을 표현한 Linked DataLCSH 에서 MARC 와 SKOS 의 매핑 관계

Page 31: 문화유산 정보와 시맨틱웹 응용

VIAF(Virtual International Authority File)• 목적

- 전거 데이터의 공유 증진

- 목록 비용 절감

- 국제적인 전거 통제

• Linked Data 의 활용- 항목마다 URI 를 부여하여 linked data 로 이용

가능

- UNIMARC 과 MARC21, RDF 지원

31

VIAF 에서의 Steve Jobshttp://viaf.org/viaf/84237107/#Jobs,_Steve,_1955-

2011

VIAF

VIAF 에서 지원하는동일 개체의 표현 방법

Page 32: 문화유산 정보와 시맨틱웹 응용

32

LIBRIS

•스웨덴 국립도서관으로 도서관 전체 데이터를 Linked Data 로 구축한 최초의 종합목록 (2008 년 )

•대학도서관 및 연구도서관 , 박물관 , 아카이브 , 공공도서관 등 170 여개 도서관 기관이 이용하는 종합목록시스템 .

•RDF파일 포맷을 제공하여 Linked Data 를 구현 .

• “아래는 Linked data : evolving the web into a global data space / Tom Heath, Christian Bizer” 예시

http://libris.kb.se/bib/12130810 http://libris.kb.se/data/bib/12130810

Page 33: 문화유산 정보와 시맨틱웹 응용

33

data.gov.uk

•영국 정부는 정책의 투명성을 높이고 , 국민의 알 권리를 향상시키며 , 공공정보의 재사용성 증진을 통해 경제적 사회적 가치 증대를 유발시키고자 공공 정보 개방

•차세대 웹 (web of data, 즉 , Semantic Web) 기술에서 자국의 인지도를 상승시키고 , 데이터를 보다 윤택하게 제공하기 위해 Linked Data 기술 적용

Page 34: 문화유산 정보와 시맨틱웹 응용

34

LinkedBrainz

Page 35: 문화유산 정보와 시맨틱웹 응용

BBC

35

BBC Music BBC Worldcup

• BBC 의 대표적 Linked Data 서비스인 BBC Music 과 BBC Worldcup

Page 36: 문화유산 정보와 시맨틱웹 응용

Linked Data 기술 : 기술 개념도

36

ERP DW CRM 2. 온톨로지 ( 트리플 ) 변환 매핑 설계

1. 온톨로지 설계

온톨로지변환 규칙

개념 모델( 온톨로지 )

3. 온톨로지 ( 트리플 ) 변환

4. 온톨로지 ( 트리플 ) 저장

6. Linked Data 서비스 구현

Mashup Browsing Search …

관리5. 추론

Page 37: 문화유산 정보와 시맨틱웹 응용

Linked Data 솔루션

37

•기존의 온톨로지 레파지토리 시스템 중심의 OpenLink 통합 솔루션•다양한 RDBMS, ODBMS, File Server 의 데이터 뿐만 아니라 텍스트 , XML, HTML 데이터를 하나로 통합하는 미들웨어•DBPedia, MusicBrainz, Bio2RDF 등의 Linked Data 프로젝트에 활용•현재 세계에서 가장 주목 받고 있는 Linked Data 솔루션 중의 하나

•영국 Talis 사의 통합 솔루션•영국의 data.gov.uk, ordnancesurvey 와 BBC Music 서비스 구축에 도입•구조적 , 비구조적 데이터의 RDF 변환 기능 제공•SPARQL Endpoint 등의 Cloud 기반 Linked Data 호스팅 서비스 기능 제공•영국의 data.gov.uk 등과 함께 현재 세계에서 가장 주목 받고 있는 Linked Data 솔루션 중의 하나

Page 38: 문화유산 정보와 시맨틱웹 응용

38

•독일 Ontotext 사의 LDSR(Linked Data Se-mantic Repository)•LOD 데이터 셋 중 생명공학 분야데이터 셋 40억개의 Linked Data 서비스를 제공하는 linkedlifedata 서비스 구축에 도입•오픈소스 Sesame 구조 위에 SAIL 추론 계층 등을 두어 솔루션 제공•추론 지원정도나 대용량 지원 정도에 따라 OWLIM-Lite, OWLIM-SE, OWLIM-Enterprise로 구분

•D2R Server 는 베를린 대학의 오픈소스 프로젝트로 주로 Linked Data 의 허브 역할을 하는 것으로 다양한 원천 데이터로 부터 트리플을 생성 , 변환해주는 기능 제공 – DB-Pedia, BBC Worldcup 등에서 활용• AllegroGraph 는 미국 Franz 사의 Linked Data 구축을 지원하는 대용량 트리플 스토어•OntoBase2.0 은 한국 탑쿼드란트코리아의 Linked Data 서비스 구축에 최적화된 대용량 트리플 스토어

Linked Data 솔루션

Page 39: 문화유산 정보와 시맨틱웹 응용

39

Linked Data for Cultural Her-itage

3

Page 40: 문화유산 정보와 시맨틱웹 응용

thedatahub

40

The Comprehensive Knowledge Archive Net-work

Page 41: 문화유산 정보와 시맨틱웹 응용

Why semantic web for Cultural Her-itage

41

• Many C.H. institutions have a data integration problem, since data about the same artifacts is scattered in separate silos:– cataloging data – acquisition data – conservation data – scientific data, …

Page 42: 문화유산 정보와 시맨틱웹 응용

Why semantic web for Cultural Her-itage

42

• Global 환경의 데이터 활용 – Giant Global Graph

Page 43: 문화유산 정보와 시맨틱웹 응용

Cultural Heritage Data Standards

43

• Dublin Core (DC)– Simple resource descriptions: author, date created, etc– ISO 15836

• Conceptual Reference Model (CRM)– 국제박물관협의회 (ICOM-International Council of Museums) 의 국제문서화위원회

(CIDOC-International Committee on Documentation) 가 이질적인 문화유산 정보의 통합 , 교환 , 연결 하기 위해 만든 온톨로지

– ISO 21127 (2006) "Information and documentation — A reference ontology for the interchange of cultural heritage information"

• Functional Requirements for Bibliographic Records (FRBR)– by International Federation of Library Associations and Institutions(IFLA) -

국제도서관협회연맹– Conceptual entity-relationship model

• Europeana Data Model (EDM)– Structuring the data that Europeana is ingesting, managing and publishing– Refined until the end of 2010, will be implemented during 2011– Open, cross-domain framework, adheres to Semantic Web modeling principles

Page 44: 문화유산 정보와 시맨틱웹 응용

MOLTO

44

• Requirements:- the ability to handle generic knowledge, such as people, institutions, and

locations- the ability to handle specific subject domains, such as the cultural

heritage and museums

• Ontology & Interlinking- DBpedia - the RDF-ized version of Wikipedia, describing more than 3.5

million things and covers 97 languages. - Geonames - a geographic database that covers 6 million of the most

significant geographical features on Earth. - PROTON - an light weight upper-level ontology, 542 entity classes and

183 properties. PROTON is encoded in OWL Lite- CIDOC-CRM- Painting Ontology (Time Ontology, Mid-Level-Ontology SUMO)- Linkages to DBpedia

• http://www.molto-project.eu

Page 45: 문화유산 정보와 시맨틱웹 응용

MOLTO – Museum Data Models

45

MuseumObject - ForemalsnumberURI:http://molto.ontotext.com/GSM_NrURI:http://molto.ontotext.com/GIM_Nr

ptop:Objectcrm:E22_Man_Made-Object

“GSM”/”GIM”

“painting”“portret”

“sculpture”

rdfs:label

rdf:type

mao:from

Collection

“kontor” - “office”“livsmedelsindustri” - “food”

“grafisk industri” - “graphics industry”

mao:relatedCategory

crm:E54_Dimension

mao:itemMeasurement

mao:Quantity(Antal)

mao:Length(Langd)

mao:Bredth(Bredd)

mao:Height(Hojd)

mao:Diam(Diam)

mao:Weight(Vikt)

mao:hasLength (Langd)

mao:hasBredth (Bredd)

mao:hasHeight (Hojd)

mao:hasDiam (Diam)

mao:hasWeight (Vikt)

ptop:Personcrm:E21_Person

pext:author“firstname lastname”

rdfs:label ptop:TimeIntervalcrm:E52_Time-Span

“time”

mao:fromPeriod

rdfs:label

crm:E58_Measurement_Unitcrm:P91_has_unitmao:hasQuantity (Antal)

“value”“value”“value”“value”“value”“value”

mao:valuemao:valuemao:valuemao:valuemao:value mao:value

crm:E57_Material

“material”

rdfs:label

mao:hasM

aterial ptop:Locationcrm:E53_Place

ptop:locatedIn

pext:Address

pext:hasAddress

“address”

rdfs:label

출처 : A Framework for Improved Access to Museum Databases in the Semantic Web

Page 46: 문화유산 정보와 시맨틱웹 응용

MOLTO – Gothenburg City Museum Data

46

• 8,900 museum objects in two museum collections - GSM(Gothenburg Stads Museum) and GIM(Gothenburg Industry

Museum)

• 39 properties describe each museum object

MAO – Finland

http://www.seco.tkk.fi/projects/finnonto/

Page 47: 문화유산 정보와 시맨틱웹 응용

MOLTO

47

• http://museum.ontotext.com

Page 48: 문화유산 정보와 시맨틱웹 응용

MOLTO

48

Page 49: 문화유산 정보와 시맨틱웹 응용

MOLTO

49

Page 50: 문화유산 정보와 시맨틱웹 응용

FactForge

50

Page 51: 문화유산 정보와 시맨틱웹 응용

FactForge

51

PREFIX fb: <http://rdf.freebase.com/ns/>PREFIX ff: <http://factforge.net/>PREFIX dbpedia: <http://dbpedia.org/resource/>PREFIX umbel: <http://umbel.org/umbel#>PREFIX dbp-prop: <http://dbpedia.org/property/>PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX umbel-sc: <http://umbel.org/umbel/sc/>PREFIX dbp-ont: <http://dbpedia.org/ontology/>

SELECT DISTINCT ?painting_l ?owner_l ?city_fb_con ?city_db_loc ?city_db_citWHERE {

?p fb:visual_art.artwork.artist dbpedia:Amedeo_Modigliani ;fb:visual_art.artwork.owners [ fb:visual_art.artwork_owner_relationship.owner ?ow ] ;

ff:preferredLabel ?painting_l.?ow ff:preferredLabel ?owner_l .OPTIONAL { ?ow fb:location.location.containedby [ ff:preferredLabel ?city_fb_con ] } .OPTIONAL { ?ow dbp-prop:location ?loc.

?loc rdf:type umbel-sc:City ; ff:preferredLabel ?city_db_loc }OPTIONAL { ?ow dbp-ont:city [ ff:preferredLabel ?city_db_cit ] }

}

Page 52: 문화유산 정보와 시맨틱웹 응용

52

FactForge

Page 53: 문화유산 정보와 시맨틱웹 응용

Europeana

53

• http://europeana.eu• Pan-European Digital Museum• People can explore the digital resources of Europe's

museums, libraries, archives, audio-visual collections• And be inspired by the rich diversity of Europe's cultural and

scientific heritage• Promotes discovery and networking opportunities in

a multilingual space• Around 1500 institutions contributed

– Includes over 15 M items

Page 54: 문화유산 정보와 시맨틱웹 응용

Europeana and Semantic Web

54

• Europeana adopts semantic web for all future development– EDM is based on semweb, which makes it easily extensible– Current holdings will be converted to semweb format

• Europeana's first White Paper Knowledge = Information in Context looks at the key role LOD will play in Europeana's development– "Linked data gives machines the ability to make associations and put search terms

into context. Without linked data, Europeana could be seen as a simple collection of digital objects. With linked data, the potential is far greater"

• LOD Experiment in Europeana Thought Lab:– Data and metadata from the Amsterdam Museum (AM)

• 70k cultural heritage objects related to the city

– Retrieved from an XML API of the museum's collection (database by AdLib UK)– Converted to LOD compliant with EDM by Vrije Universiteit (VU): 5M facts

• Conversion software is available as open source

– Linked to existing datasets• Dutch Art and Architecture Thesaurus (AATNed)• Getty's Union List of Artists Names (ULAN)• DBpedia (data version of Wikipedia) • GeoNames (structured geographical data)

– Published to the Comprehensive Knowledge Archives Network (CKAN)– Prime example the type of LOD that Europeana will be producing

Page 55: 문화유산 정보와 시맨틱웹 응용

Europeana – Technical Architecture

55

The Europeana Semantic elementsThe Europeana Data Models

Page 56: 문화유산 정보와 시맨틱웹 응용

Europeana – Linked Data

56

Page 57: 문화유산 정보와 시맨틱웹 응용

Europeana – Linked Data

57

http://data.europeana.eu/item/92056/BD9D5C6C6B02248F187238E9D7CC09EAF17BEA59

Page 58: 문화유산 정보와 시맨틱웹 응용

Amsterdam Museum object

58• http://semanticweb.cs.vu.nl/europeana/browse/list_resource?r=http://purl.org/collections/nl/am/proxy-23182

1

2 3

Page 59: 문화유산 정보와 시맨틱웹 응용

59

1

2

3

Amsterdam Museum object

Page 60: 문화유산 정보와 시맨틱웹 응용

60

Linked Heritage

• Coordination of Standards and Technologies for the enrichment of Europeana- www.linkedheritage.org- Linked Heritage is a 30 month EU project, started on 1st April 2011

• 38 partners from 24 countries and 4 external contributors• Contribution of content Europeana: 3 millions objects• 5 key areas of development and innovation:

- Linked Data- Persistent identifiers - Metadata and standards- Cooperation with the private sector- Multilingual and cross-domain combination of terminologies


Recommended