28
20101129탑쿼드란트 코리아 전략팀 추윤미 [email protected] 홈페이지 : http://www.topquadrant.co.kr 블로그 : http://blog.topquadrant.co.kr

Statistics and linked data

  • Upload
    ymchu88

  • View
    1.938

  • Download
    4

Embed Size (px)

Citation preview

2010년 11월 29일탑쿼드란트 코리아 전략팀 추윤미

[email protected]

홈페이지 : http://www.topquadrant.co.kr

블로그 : http://blog.topquadrant.co.kr

• 통계 정보의 상호운용성

• 시맨틱 웹과 링크드 데이터– 개요

– LOD 프로젝트

• 해외 사례– US census 2000

– data.gov/semantic

– OpenEI

– data.gov.uk

• 결론

목차

Official Statistics

– “실세계(real world)”를 기술(description)하는 도구• 다양한 도표와 수치를 통해 사회의 상황과 현상의 발달 추이를 표현

• raw data의 분석과 가공으로 새로운 지식을 얻어냄

• 통계 분석의 결과는 예측, 계획 수립, 정책의 방향 결정 등에 영향을 줌

Open Government Data와 통계

–정부 데이터 공개 운동• 미국(data.gov), 영국(data.gov.uk)에서 시작된 공공 데이터의 공개와공유가 전세계적으로 확산되고 있음(호주, 프랑스, 캐나다, 핀란드 등)

–정부 데이터의 많은 부분이 통계 정보임• 통계 정보를 공공에게 제공함으로써

• 정부의 투명성 제고 및

• 다양한 컨텍스트에서 다양한 분야의 정보와 융합한 새로운 지식 생성의효과 기대

공공 데이터로서의 통계

multidimensional data

–다양한 데이터의 aggregation• Numeric

• Time series

• Geographical etc...

dissemination의 중요성

–기술 발전에 따라 새로운 매체를 통해 배포되어 옴• 인쇄, 출판

• 디지털화

• 웹을 통한 정보의 배포

– raw data를 결합, 분석하여 유용한 정보로 만들기 위해• 적절한 이용자에게 제공되어야 하고

• 다양한 정보 및 컨텍스트와 연계 가능해야 함

통계 정보의 특성

급격한 ICT의 발전

– 데이터의 폭발적 증가• 특히, 웹의 등장으로

– 정보 처리 성능의 향상• 수치 정보의 분석과 다양한 시각화

• 데이터 중심의 다학제간(multidisciplinary) 연구

데이터의 globalisation

–통계 정보 생산자의 다양화• 정부, 국제 기구, 연구소, 여론 조사 기관 등

–웹을 통한 생산과 배포• 다양한 정보 접근 채널을 통한 자유로운 통계 정보의 생산과 배포

• 매쉬업(mash-up)과 시각화(visualisation)를 통한 통계 정보의 가공

• -> 통계 정보는 혈액과 같은 주요 역할

통계 정보의 환경 변화

Information Interoperability

통계 정보의 상호 교환(exchange)에 대한 요구

– 정부 기관 내, 또는 외부 기관 과의 정보 교환 필요• 데이터의 공유(open)와 협업(collaboration) – 정부 2.0의 주요 키워드

• 통계 정보의 상호 교환을 위한 국제 표준 제정

• SDMX(Statistical Data and Metadata eXchange) - 유럽중앙은행, Eurostat, WHO, IMF, OECD, UN,...

– 웹에서의 데이터 교환과 융복합을 위한 공통의 포맷이 필요• PDF, SpreadSheet, 또는 HTML 형태의 수치 정보는 분석과 가공이 어려움

• SDMX는 syntactic level의 표준(XML 기반)

통계 정보 간의 통합 및 다양한 정보와의 융합을 위한

통계 정보의 상호운용성(interoperability) 에 대한 요구

2010-12-07

“The Semantic Web is a vision: the idea of having data on the Web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications.[W3C 2001] ”

데이터의 웹the Web of

Linked Data

시맨틱 웹

시맨틱 웹

시맨틱 웹은 상호운용성에 관한 기술

–시맨틱 웹 표준인 RDF(Resource Description Framework)로 데이터를 표현함으로써 이질적인 정보 간의 통합이 가능

지식 교환을 위한 표준과 아키텍처

– URI(Uniform Resource Identifier)를 이용한 웹에서의 정보접근

– RDFS, OWL, SKOS(Simple Knowledge Organization System), FOAF(Friends of a Friend), etc...

– Sparql 질의 언어를 이용한 분산된 정보에 대한 통합 질의

– Linked Data

RDF - 데이터 모델

정의란 무엇인가마이크 샌델create

subject predicate object

RDF(Resource Description Framework)

트리플(Triple)

Source: Ivan Herman

graph representation using RDF data model

시맨틱 웹- integration

SPARQL as a Unifying Source

Source: Ivan Herman

DB DB DB DBX X X

SPARQL Engine

Application

Sparql query return data

시맨틱 웹 – Linked Data

Many common things are represented in multiple data sets

Linking identifiers connects these data sets

Linked data opens the doors of the silos

Data Silos on the Web

Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY

Linked Data

1. Use URIs as names for things

2. Use HTTP URIs so that people can look up those names

3. When someone looks up a URI, provide useful RDF Information

4. Include RDF statements that link to other URIs so that they can discover related things

Tim Berners-Lee, “Linked Data- Design Issues(2006)”, http://www.w3.org/DesignIssues/LinkedData.html

Linked data는 웹 상의 데이터들에 URI를 이용해 이름을 붙이고, RDF로 데이터를 기술할 뿐만 아니라 데이터 간의 관계를 부여하여

HTTP를 통해 웹으로 발행함으로써 데이터가 인간 뿐만 아니라 기계에의해 사용되고 이해될 수 있도록 하는 방법

Linked Data – RDF Data Link

B C

Thing

typedlinks

A D E

typedlinks

typedlinks

typedlinks

Thing

Thing

Thing

Thing

Thing Thing

Thing

Thing

Thing

Search Engines

Linked DataMashups

Linked DataBrowsers

참고 : Chris Bizer / The Emerging Web of Linked Data

W3C – Linking Open Data Project

W3C SWEO Community (Semantic Web Education & Outreach Interest Group) 다양한 공개 데이터 셋을 RDF형태로 웹에 퍼블리싱하여, 다양한 데이터 소스 간의

RDF 링크를 설정함으로써, 공유 데이터(data common)를 통해 웹을 확장하고자 하는목적

Over 500 million RDF triples Around 120,000 RDF links between data sources

LOD Cloud – 2008. 2

July 2009

LOD Cloud – 2009. 7

2010-12-07

LOD Cloud – 2010. 9

LOD Cloud의 통계 데이터 셋

Linked Data로 발행된 통계 데이터

– US Census 2000• http://www.rdfabout.com/demo/cens

us/

– Riese(RDFizing and Interlinkingthe EuroStat Data Set Effort)from EuroStat

• http://riese.joanneum.at/data/

– Statistics.data.gov.uk(data.gov.uk)

• http://statistics.data.gov.uk/

– TWC LOGD(data.gov)

• http://data.gov/semantic

US Census 2000 –rdfabout.com

US Census 2000 데이터 셋– 미 통계청에서 발행한 인구 통계(2000년 기준)

• states, counties, sub-counties 등의 다양한 지리적 수준에 대한인종, 성별, 연령 등으로 조직화된 인구 통계

– 10억 개의 트리플로 구성

– Sparql Endpoint를 통해 데이터를 공개• http://www.rdfabout.com/demo/census/sparql.xpd

– Census Data 구조

미국의 data.gov

data.gov의 목적– 미국 연방정부의 고부가가치 기계가독형 데이터셋을 대국민을 위해 개방

– 국민 스스로 창조적으로 이용하도록 함.

data.gov를 활용하여 국민들은– RAW DATA를 보거나 다운로드

– 위젯이나 다른 툴을 이용하여 특정 데이터를가공, 융합한 챠트나 지도, 스냅샷을 만들 수도있음

data.gov의 Linked Data화(data.gov/semantic)– 구축된 data.gov 의 일부를 시맨틱 웹 표준 포맷인 RDF(Resource Description

Framework)로 변환하여 링크드 데이터로 공개

– Tim Berners-Lee와 함께 시맨틱 웹의 창시자인 Jim Hendler 교수가 프로젝트 수행

– 다양한 통계 데이터가 포함되어 있으며 지리 정보 등과 융합한 다수의 매쉬업 사례포함

Open EI (data.gov)

Open Energy Initiative– Linked Open Data Platform을 통해 에너지 데이터를 공개하고 다양한 에너지 정보를 융합, 분석, 제공하고자 하는 목적

– 궁극적으로 에너지 분야의 창조와 혁신을 유도

Open EI의 데이터 셋– 215개의 데이터 셋이 LOD에 상호 연계됨

– 25억개의 RDF 트리플로 구성됨

Open EI와 Census 데이터 매쉬업 사례

– Data.gov의 OpenEI.org 데이터 및 U.S. Census 데이터 , SmartGrid.gov 의데이터를 매쉬업

• 7개 도시의 전력 사용률, 소득수준, 스마트 그리드 프로그램의 에너지 관련인센티브와 타입을 연결시켜 새로운 에너지 마켓플레이스 도입

영국의 data.gov.uk

data.gov.uk의 목적–정부의 투명성을 높이기 위해

–국민의 권리 향상(Citizen empowerment)

–데이터의 공개를 통한 경제적 사회적 가치 증대

–영국이 차세대 웹(web of data, 즉, Semantic Web)에서 세계적으로 앞서나가기 위해

비전– 정부가 수집한 데이터의 원스톱샵(one-stop-

shop for data collected by the government)

• 시맨틱 웹 기술을 이용하여 링크를 통해 데이터를 융합하고 검색을 확장하도록 제공• data.gov.uk의 이용자들은 이용가능한 정보를 이용해 자신만의 매쉬업을 만들수 있을 것으로 기대

2010년 1월 공식적으로 data.gov.uk 서비스 운영– 현재 3,000 개 이상의 Linked Data 셋을 서비스하고 있음

statistic.data.gov.uk

영국 정부의 통계 데이터 정책–통계 데이터를 통계 데이터 표준인 SDMX 기반의 다른 통계와 함께 Linked Data 표준을 이용하여 웹에 발행하고 재사용하고자 함.

구현 사례– Timetric

• 영국 통계청의 데이터(data.gov.uk)와 Eurostat 의 데이터를 포함, 세계의 다양한 거시경제 데이터를 시계열을 통해 다양하게 볼 수 있는어플리케이션

결론공공 데이터의 많은 부분이 통계 정보임– 다양한 기관들이 통계 정보를 생산하고 있음

– 통계 정보를 웹으로 생산하고 배포하는데 많은 예산과 노력을 소요

통계 정보의 상호운용성(interoperability)이 요구됨– XML, CSV, Excel, PDF 등 다양한 형식으로 발행됨

– 웹을 통한 기계간(with mashine-readable format)의 교환(exchange)과 재사용(reuse)이 어려움

Linked Data기반의 통계 정보– W3C 표준인 RDF 기반으로 데이터를 발행함으로써 다양한 데이터간의 통합이 용이

• 통계 데이터를 외부 이용자도 쉽게 접근, 이용 가능

• 웹 표준 기반의 통계 데이터 간의 통합 및 다른 분야의 LinkedData와 융합할 수 있음

통계 정보의 공개를 통한 데이터의 가치 증대– 데이터의 질(quality)적 보장 – URI를 통한 데이터의 Provenance

– 데이터를 웹으로 공개(expose)함으로써 다른 컨텍스트의 데이터와 융합(fusion)을 통해 더욱 풍부해지고,

– 데이터의 활용도가 높아짐으로 인해 데이터 가치가 상승

결론 - 기대효과

Global Standard를 기반으로 한Data Integration과 Exchange

Data Anaysis와 Fusion

Innovation, Knowledge

지식 기반 경제 사회의 동력

Transparencybetter Service

better LifeCreativity

산업, 경제, 연구 개발 정부 국민

탑쿼드란트 코리아 전략팀 추윤미[email protected]

홈페이지 : http://www.topquadrant.co.kr

블로그 : http://blog.topquadrant.co.kr