29
링링링 링링링 링링 링링 링링링 v1.0 링링 2014.6.19. 링링링 ([email protected]) 2014 링링 DB 링링 링링링링 링링링링

LOD 구축 공정 가이드라인

Embed Size (px)

DESCRIPTION

2014 국가DB사업 관계기관 합동교육 장소: 광화문 KT빌딩 1층 드림엔터

Citation preview

Page 1: LOD 구축 공정 가이드라인

링크드 데이터 구축 공정 가이드 v1.0 안내2014.6.19. 박진호 ([email protected])

2014 국가 DB 사업 관계기관 합동교육

Page 2: LOD 구축 공정 가이드라인

01. 개요

02. 가이드라인 구성

03. 전체공정도

04. 상세 내용

05. 부록 설명

목차

06. 향후 계획

Page 3: LOD 구축 공정 가이드라인

Linked Open Data?

거대한 정 보 덩 어 리 웹을

거대한 가 능 성 덩 어 웹으로리

Page 4: LOD 구축 공정 가이드라인

링크드 데이터 구축 공정 가이드 ?

거대한 가 능 성 덩 어 웹을리

누구나 활 용 할 수 있

데이터 웹으로 만들기 위한 유연한 표준

Page 5: LOD 구축 공정 가이드라인

5

Web of

Data

Page 6: LOD 구축 공정 가이드라인
Page 7: LOD 구축 공정 가이드라인

7

• 추진배경– 세계 각 국의 열린 정부 (Gov2.0) 정책과 데이터개방 , 새정부의

정부 3.0 정책 추진으로 공공데이터에 대한 개방 , 활용을 위한 노력 가속

– 시맨틱 웹 , 링크드 데이터의 확산으로 기존 문서 중심의 웹에 데이터 중심의 새로운 생태계 구성을 위한 세계적인 노력 확산

– 이를 구현하기 위한 새로운 기술 표준인 Linked Data 의 이해와 공유 필요

– 기존 데이터베이스구축방법론은 디지털화 자료와 메타데이터 구축에 초점을 두고 있어 링크드 데이터에 대한 새로운 가이드라인 필요

1. 개요

Page 8: LOD 구축 공정 가이드라인

8

• 목적– 링크드 데이터 (Linked Data) 원칙에 맞추어 기존에 보유하고 있는

데이터를 웹에 발행하고자 하는 기관이나 사업자들에게 표준적인 링크드 데이터 발행 공정을 제공함

1. 개요

링크드 데이터 구축 사업 추진에 실제적으로 적용 가능한 가이드라인 개발

체계적이고 효율적인 구축 과정 제공

일관성 있는 공정관리를 통해 시행착오 최소화 및 품질제고

Page 9: LOD 구축 공정 가이드라인

9

• 추진방법– 전문가와 현장 담당자를 중심으로 한 작업반 (Working Group) 을

중심으로 가이드라인 작성

• 범위– 링크드 데이터 구축을 위한 사업수행에 직접적으로 활용이 가능한

작업공정을 중심으로 한 가이드라인 개발에 초점• 링크드 데이터 (Linked Data) 원칙에 맞추어 기존에 보유하고 있는

데이터를 웹에 발행하고자 하는 기관이나 사업자들에게 표준적인 링크드 데이터 발행 공정을 제공함

• 추진일정– 내용구성 : 2013 년 10 월 ~ 2014 년 2 월– 출판 : 2014 년 4 월

1. 개요

Page 10: LOD 구축 공정 가이드라인

10

1. 개요

• 주요 고려사항– 기존의 데이터베이스구축방법론에 익숙한 이용자 계층을 고려하여

기존 구성방식을 유지– 가장 일반적인 개발방법 ( 온톨로지 개발 ) 의 채용– 링크드 데이터 발행에 실제 현장에서 적용하고 있는 방법의 채용

Page 11: LOD 구축 공정 가이드라인

11

2. 가이드라인 구성

• 다운로드 : Koea DB 자료실• http://koreadb.data.go.kr/

01. 개요추진배경 , 가이드 구성 , 기대효과 설명

02. 링크드데이터 구축공정전체 , 세부 공정 절차도 제공

03. 태스크별 상세내용준비 , 구축 및 발행단계별 상세 수행내용 제공

04. 산출물 상세내용단계별 산출물 형식 및 예시 제공

부록링크드 데이터 선정기준 , URI 생성 관리지침 , 발행 후 체크리스트

Page 12: LOD 구축 공정 가이드라인

12

2. 가이드라인 구성

3 2 1 C

단계 세그먼트 태스크 원천자료유형

• 현재 가이드라인에서는 원천자료유형 구분이 공통과정 (Common) 으로

통일됨 .

• 향후 링크드 데이터 사업의 확산에 발맞추어 다양한 데이터유형 , 다양한

조직적 특성 등이 반영될 경우 공정 세구분 추진

Page 13: LOD 구축 공정 가이드라인

13

3. 전체공정도

110C

현황조사

120C

구축대상선정

130C

계획수립

210C

실행계획

310C

명세화

410C

용어 설계

510C

온톨로지 설계

610C

데이터변환 (RDF화 )

710C

저장 및 발행

720C

등록

220C

원천데이터 준비

230C

원천데이터 반입

준비단계 구축 및 발행 단계

Page 14: LOD 구축 공정 가이드라인

14

4. 상세내용

외부데이터는 현재 변환 대상 데이터가 다른 기관과 연계되어 있는 경우 혹은 본 사업의 추진 대상이 2 개 이상 기관간의 공동추진인 경우의 데이터로 새로운 외부 데이터와의 인터 링킹을 의미하지 않음

세그먼트 태스크번호

태스크정의 주요활동 산출물

현황조사

110C

111C 요구사항 분석

사용자 요구사항 분석

– RFP, 사업수행계획서의 명시된 요구사항 체계화

•요구사항분석서

112C 기초 조사

내부 데이터 분석

– 링크드 데이터에 적합한 내부 자원 파악 (데이터 형태 , 분류 등 )

외부 데이터 분석

– 연계가능한 도메인에 대한 고려 ( 적합성 , 협조가능 , 공개 여부 등 )

•기초현황조사서

•원천데이터 목록

1. 준비단계

Page 15: LOD 구축 공정 가이드라인

15

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

구축대상선정120C

121C 기준 정의•링크드 데이터 구축 기준 정의

– 링크드 데이터 구축 대상 데이터 선정 기준 마련– 데이터 발행을 위한 구축 및 공개 범위 정의

122C구축 대상 자료

세부 조사

•대상데이터 상세 조사– 선정기준표– 구축 대상 데이터에 대한 저작권 조사– 원천 데이터의 형태 조사– 원천 데이터 내 사용 가능한 메타데이터의 특징

조사

•선정 데이터 조사서

123C구축 대상 자료

선정•구축 대상 자료 선정

– 구축 및 연계 대상 및 건수 확정

124C 구축방안 정의•구축대상 자료에 대한 구축방안 정의

– 링크드 데이터 구축 및 서비스 방향 설정– 데이터 모델링 가이드 확립

•구축계획서

1. 준비단계

Page 16: LOD 구축 공정 가이드라인

16

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

계획수립130C

131C 요건정의

링크드 데이터 구축 및 서비스 시 고려사항 및 요건 정의– 원천 데이터 입수 시 고려사항 및 요건 정의– 구축 대상의 형태 및 포맷 정의 – 의미관계 모델링 설계를 위한 제약 및 규칙 정의– 데이터 변환 및 연계 시 고려해야 할 사항을 정의– 자료 검사 및 품질 ( 원천데이터에 대한 ) 요건

정의– 서비스를 위한 저작권 처리방안 정의

구축계획서

132C 공정설계

구축 대상별 상세 공정 설계– 자료 준비 및 실행 단계에 대한 계획 수립– 구축 각 단계에 대한 태스크 및 작업 내용 정의– 단계별 공정 산출물 정의– 각 단계별 사용툴 ( 및 장비 ) 선정

공정도

133C 시범 데이터 구축

• 시범 데이터 구축– 시범 구축 대상 데이터 선정– 시범 데이터 자료 준비– 모델링 가이드에 따른 테스트 모델링 수행– 시범 데이터 결과물에 따른 모델링 지침 및

산출물 보완– 실 구축 중 발생 예상 문제점 정의 및

해결방안 준비 ( 원천데이터의 구조적 , 데이터 양적 문제로 변환 후 재활용 , 연계 등에 문제 발생 가능성 파악 )

시범데이터 구축 보고서

1. 준비단계

Page 17: LOD 구축 공정 가이드라인

17

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

실행계획210C

211C구축 대상 데이터 반출계획 수립

구축 대상 데이터 반출에 따른 계획안 정의– 구축 대상 데이터 보유 기관 및 담당자와 반출에

따른 협의 진행– 구축 대상 데이터 반출에 따른 시기 , 방법 ,

조건에 대한 정의– 반출에 따른 지침 확립

구축 대상 데이터 반출지침서

212C 연계 계획 수립

외부 데이터 연계를 위한 계획 수립– 연계를 위한 외부 링크드 데이터 목록 정의– 대상 데이터의 건수 및 내용 확인– 외부 데이터 연계를 위한 모델링 가이드 보완

원천데이터 준비220C

221C구축 대상 데이터 목록작성

원천 데이터 목록 작성– 반입되는 원천데이터에 대한 목록 작성– 데이터에 대한 중복성 검토 – 관리번호 ( 제어번호 ) 부여 구축 대상 데이터

목록

222C구축 대상 데이터 이관 점검

구축 대상 데이터 이관 점검– 구축 대상 데이터 보수 , 구축 대상 데이터 목록

변경 및 대체

1. 준비단계

Page 18: LOD 구축 공정 가이드라인

18

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

원천데이터

반입

230C

231C 데이터 반입

반입 데이터 확인

– 구축 대상 목표 데이터 목록표에 근거한 반입

자료량 확인

– 미 반입 , 추가 반입 될 데이터에 대한 확인 인수인계증

232C 추가 반입• 추가 반입 작업

– 반입 시 누락되거나 잘못된 자료에 대한 추가 반입

1. 준비단계

Page 19: LOD 구축 공정 가이드라인

19

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

명세화

310C

311C 목적 및 범위설정 링크드 데이터로 구축하고자 하는 목적과 범위

설정

• 구축명세서

312C 도메인기술 해당 도메인의 특징 등을 상세 기술

313C 시나리오구성 관리자 , 이용자 시나리오 구성

314C

적합질의

(competency

questions)

구성

추론 등 링크드 데이터로 변환하는 시스템이

응답해야 하는 적합질의를 구성

2. 구축 및 발행 단계

Page 20: LOD 구축 공정 가이드라인

20

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

용어설계410C

411C 기존 체계분석

데이터모델 , 온톨로지 현황조사• 기 구축된 표준 데이터모델 , 온톨로지 확인 및

재활용 확인– 기존에 존재하는 온톨로지 , 어휘집 분석

온톨로지 ,

어휘 분석서412C 어휘분석

구축 대상 데이터가 사용하고 있는 어휘분석– 기관에서 정의한 어휘 사용 여부 조사– 표준어휘집 사용 여부 조사

413C 용어선정 • 변환대상 용어선정

414C 표준용어집 구축

국내외 표준 용어집 선정– 원천데이터를 가장 잘 표현할 수 있는 용어집

선정– 기관에서 정의한 어휘 선정 표준 용어집

415C 용어 매핑 원천데이터 용어를 표준용어로 매핑

– 매핑규칙 구축

2. 구축 및 발행 단계

Page 21: LOD 구축 공정 가이드라인

21

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

온톨로지설

510C

511C 모델정의 도메인 개념 모델 정의 개념 모델 명세서

512C 계층화 클래스 계층화 상향식 / 하향식 / 조합식

온톨로지모델 명세서513C 관계정의 속성 , 관계 정의

514C제약설계

(restriction)

클래스 제약 (class restrictions) 설계

속성 제약 (property restrictions) 설계

2. 구축 및 발행 단계

Page 22: LOD 구축 공정 가이드라인

22

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

데이터변환

(RDF 화 )

610C

611C 매핑규칙 점검 원천데이터와 변환대상 데이터 요소 간의 매핑 규칙

점검

612C 변환규칙 점검 변환기를 통해 변환될 변환규칙 점검

613C 데이터 변환 데이터 변환 수행

614C 인스턴스 생성 인스턴스 생성

615C 일관성 확인 온톨로지 일관성 확인

616C 유효성 검증 변환데이터 품질 검증

적합질의 유효성 검증데이터 검증서

2. 구축 및 발행 단계

Page 23: LOD 구축 공정 가이드라인

23

4. 상세내용

세그먼트태스크번

호태스크정의 주요활동 산출물

저장 및 발행

710C

711C데이터 저장방식

결정

데이터 저장방식 결정

– 관계형 DB, RDF 저장소 , file 시스템

712C 데이터 저장 데이터 저장

713C데이터 발행 방식

결정

데이터 발행방식 결정

– RDB2RDF(D2R)

– RDFa 활용 CMS

– 링크드 데이터 인터페이스

– 웹서버 (Web Server)

714C 데이터 발행 • 데이터 발행 발행명세서

등록

720C721C 추후 국내 데이터 등록 플랫폼 구축 후 추가 예정

2. 구축 및 발행 단계

Page 24: LOD 구축 공정 가이드라인

5. 부록 설명

• 공개하고자 하는 데이터가 높은 이용가치를 가지고 있는가 ?

• 데이터에 대한 저작권 문제는 없는가 ?

• 개인정보에 위배되지 않는가 ?

• 구축 후 오픈 라이선스 (Creative Commons 와 같은 ) 로 활용이 가능한가 ?

• 데이터 제공자는 참조사이트를 보유하고 있는가 ?

• 데이터의 확보가 가능한가 ?

• 데이터 오픈에 대한 정책을 보유하고 있는가 ?

Check Point: 누구나 자유롭게 쓸 수 있는 형태의 데이터를 가지고 있고 , 이를 뒷받침해 줄 수 있는 성문화된 정책이 존재하는가 ?

Page 25: LOD 구축 공정 가이드라인

5. 부록 설명

Check Point: URI 가 나타내는 객체 , 개념 , 관계가 서비스 목적에 부합하고 누구나 쉽게 이해할 수 있는 분류방식과 추측이 가능한 형태인가 ?

Page 26: LOD 구축 공정 가이드라인

5. 부록 설명

Check Point: 웹에서 제공하는 서비스로서 불편함이 없고 , 데이터를 활용하기에 충분하고 안정적인 정보를 제공하고 있는가 ?

Page 27: LOD 구축 공정 가이드라인

27

• 가이드라인의 주 사용자 확대 설정– 링크드 데이터 사업을 준비하는 주관기관 , 혹은 사업담당자가 사업

준비 단계부터 참고할 수 있는 단계 추가 필요– 링크드 데이터 구축 방법 외 하나의 정보화 사업으로써 특징을

반영할 수 있는 단계 추가 필요– 기존 데이터베이스 구축 가이드라인에 익숙한 사용자 ( 고착화된

업무 처리 절차 , 구체적인 산출물과 업무처리 절차 등 )임을 고려

• 가이드라인은 사업이 계속되고 데이터 발굴작업 등이 계속되면서 각 데이터의 특성이나 보유 기관의 특성이 지속적으로 반영되고 수정 , 업데이트 되는 과정 필요– 매년 사업종료 후 내용 수정 필요 , 현장에서 문제점등을 즉시

파악할 수 있도록 소통채널 개설 필요 )

6. 향후 계획

Page 28: LOD 구축 공정 가이드라인

28

참고자료

[참고자료 ]• 한국정보화진흥원 지식자원활용부 . (2014). 링크드 데이터 구축 공정 가이드 v1.0,

서울 : 한국정보화진흥원 .

[ 이미지 ]• https://www.flickr.com/photos/38659004@N03/9488756175/• https://www.flickr.com/photos/ltdemartinet/7496758316/

Page 29: LOD 구축 공정 가이드라인

감사합니다 .