19
1 / 19 과과 과과과 과과 과과과 , 2010-06-14 과과과과과과 과과과과 과 과과 과과 2010. 06. 03. 한한한한한한한한한한한 (KISTI) 한한한한한 한한한 [email protected], Tel : 042-869-1765

2010 0603 이상호_과학데이터 아카이빙-이상호

Embed Size (px)

Citation preview

Page 1: 2010 0603 이상호_과학데이터 아카이빙-이상호

1 / 19과학 데이터 관련 세미나 , 2010-06-14

과학데이터의 아카이빙 및 관련 자료

2010. 06. 03.한국과학기술정보연구원 (KISTI)

지식기반실 이상호[email protected], Tel : 042-869-1765

Page 2: 2010 0603 이상호_과학데이터 아카이빙-이상호

2 / 19과학 데이터 관련 세미나 , 2010-06-14

과학데이터의 정의

과학 데이터 (Scientic Data, Research Data)란 ? 과학기술 연구활동 ( 관찰 , 모니터링 , 조사 , 실험 , 연구 분석 등 )

의 산출물 ( 수치 , 공간 , 도표 , 문서 등 )

관찰 ( 자연세계의 직접 관찰과 실험 결과의 관찰 )

데이터의 내용 규정은 사용자에 의함지진학자

– 지진파에 관심을 가지며 지진계에서 나온 데이터가 자신의 데이터토목공학자

– 빌딩에 미치는 지진의 위험에 관심을 가지며 지진 목록이 자신의 데이터

Page 3: 2010 0603 이상호_과학데이터 아카이빙-이상호

3 / 19과학 데이터 관련 세미나 , 2010-06-14

관찰 데이터와 실험 데이터

아카이빙 관점에서 관찰 데이터와 실험 데이터의 차이 관찰 데이터

특정 시간과 특정 장소에서 위성 또는 관측기구에 의해 현장에서 수집됨관찰 데이터는 재현될 수가 없으므로 저장할 필요가 있음

실험 ( 컴퓨터 실험 포함 ) 데이터실험실의 실험 데이터는 재생산 가능하고 어떤 데이터들은 저장할 필요가

없음대규모 실험 데이터 : 실험 규모가 크고 비용이 많이 들며 많은 연구자와

여러 프로젝트가 참여하는 실험의 결과 데이터는 당연히 저장되고 접근 가능해야 함

물리적 과학 데이터와 인간 관련 데이터 아이스 코어 샘플 ( 기후 연구 관련 ), 조직 샘플 ( 생물학 ), 비디오로 찍은

인간의 상호 작용 , 질문 및 대답 등

Page 4: 2010 0603 이상호_과학데이터 아카이빙-이상호

4 / 19과학 데이터 관련 세미나 , 2010-06-14

과학 데이터의 수집 및 이용 과정Capture 주로 과학자에 의해 연구 현장에서 획득됨 많은 데이터가 관리되지 못하여 시간 경과에 따라 유실되고 있으며 연구자간

데이터 공유도 제한적임 현재의 과학 데이터 논의는 여기에 주로 초점이 맞추어져 있으며 많은

국가과학기술정보기관이 참여하고 있음 Curation 디지털 과학 데이터의 생명 주기를 통해 데이터의 유지 , 보존 , 가치 부가

등의 활동을 말함 연구 데이터의 가치를 보존하고 데이터의 중복 생성을 방지하며

레포지토리에 저장하여 연구자 커뮤니티에서 재사용 되도록 함 이 분야도 향후 국가과학기술정보기관이 참여해야 할 영역임

Analysis 과학 데이터의 분석은 과학자의 영역이며 공공기관 영역이 아님

Visualization 과학 데이터의 가시화 등도 과학자의 영역이며 공공기관의 영역이 아님

Page 5: 2010 0603 이상호_과학데이터 아카이빙-이상호

5 / 19과학 데이터 관련 세미나 , 2010-06-14

과학 데이터의 생명 주기

Data Production 연구 설계의 선정 , 데이터 획득을 위한 관측 기구 설치 , 데이터 획득

/ 생성 , 데이터 편집 / 검증 , 데이터 해석 , 데이터 버전 백업 및 메타데이터 작성

Data Dissemination 데이터의 확산 절차와 방법의 확립 , 보안 / 프라이버시 및 지적재산권

등을 고려한 접근 방법 조정 , 데이터 포맷 및 메타데이터 Long-Term Data Management 데이터의 평가 및 선정 , 리파지토리에의 저장 , 신뢰성 검증 ,

데이터와 메타데이터의 수집 및 관리 , 디지털 미디어 갱신 및 새로운 디지털 미디어에 데이터의 마이그레이션

Data Discovery and Repurposing 표준 메타데이터를 활용한 검색도구 개발 및 지원 , 데이터의 코딩

조정 , 데이터의 결합과 새로운 데이터 수집 방법 검토

Page 6: 2010 0603 이상호_과학데이터 아카이빙-이상호

6 / 19과학 데이터 관련 세미나 , 2010-06-14

디지털 큐레이션의 생명 주기 1/3

데이터 획득 계획 수립 (Conceptualise) 데이터 획득 방법 및 저장 옵션을 포함한 디지털 데이터 ( 객체 ) 의

생성에 대한 계획 수립 데이터 생성 (Create) 디지털 데이터의 생성과 저장용 메타데이터 ( 관리 , 기술 , 구조 ,

보존적 측면 ) 의 작성 데이터 접근 및 사용 (Access and Use) 이용자는 상시 디지털 데이터에 쉽게 접근할 수 있어야 하며 데이터에

따라 일반 공개 및 패스워드에 의한 제한 공개가 가능검증 및 선정 (Appraise and Select) 디지털 데이터의 검증을 통해 장기 큐레이션 및 보존이 필요한

데이터의 선정 문서화 된 지침서와 데이터 정책 , 법적 요건 등이 첨부

Page 7: 2010 0603 이상호_과학데이터 아카이빙-이상호

7 / 19과학 데이터 관련 세미나 , 2010-06-14

디지털 큐레이션의 생명 주기 2/3

폐기 (Dispose) 장기 큐레이션 및 보존용으로 선정되지 않은 디지털 데이터의 폐기 안전한 폐기를 위해 문서화 된 지침서 , 데이터 폐기 정책 , 법적 요건

등이 첨부 전송 (Ingest) 아카이브 , 안전한 디지털 리파지토리 , 데이터센터 및 이와 유사한

곳에 디지털 데이터를 전송 문서화 된 지침서 , 데이터 보관 정책 , 법적 요건 등이 첨부

장기 보존 (Preservation Action) 디지털 데이터 및 그 특성의 장기 보존

재평가 (Reappraise) 평가 및 선정을 위한 검증 단계를 통과하지 못한 디지털 데이터의

재평가

Page 8: 2010 0603 이상호_과학데이터 아카이빙-이상호

8 / 19과학 데이터 관련 세미나 , 2010-06-14

디지털 큐레이션의 생명 주기 3/3

보관 (Store) 관련 표준에 의해 안전한 방법으로 데이터 보관

( 접근 및 재사용 )Access and Reuse 이용자에 의한 데이터에의 접근 및 재사용이 가능한지 확인 데이터에 따라 일반 공개 및 패스워드에 의한 제한 공개가 가능

전환 (Transform) 다른 형태로 데이터를 마이그레이션 함으로써 기존 데이터를 새로운

디지털 데이터로 다시 전환 ( 생성 )

Page 9: 2010 0603 이상호_과학데이터 아카이빙-이상호

9 / 19과학 데이터 관련 세미나 , 2010-06-14

현재의 연구개발 과정

analysedsynthesisedinterpreted

are

become Information

is

published

becomes Knowledge

Publication

… is accessible

… is traceable

… is lost!Data

Page 10: 2010 0603 이상호_과학데이터 아카이빙-이상호

10 / 19과학 데이터 관련 세미나 , 2010-06-14

문제점과 해결책문제점 시간이 경과됨에 따라 데이터의 유실이 발생함 관련 데이터의 부족으로 연구자간 연구결과의 검증이 어려움 불필요한 중복실험 , 중복연구가 이루어짐 해마다 많은 연구예산이 투입되어 데이터는 생산되었으나 이것이 발굴되지 않아 어딘가에 미이용 상태로 남아

있음

해결책 생성되는 데이터의 현황 조사 (종류 , 용량 , 관리상태 , 보유자 , 품질 , 표준 등 )

과학 데이터센터의 설립 데이터 셋에 대한 접근을 위한 메타데이터 작성 및 유통 식별자 (DOI 혹은 KOI) 부여를 통한 영구적인 데이터 관리

과학 데이터센터의 효과 원시 데이터의 인용이 가능 데이터의 활용성 (가독성 ) 향상 데이터 셋의 재활용 및 연구자간 데이터 검증이 가능 원시 데이터의 수집 및 메타데이터 작성으로 새로운 서비스 영역 탄생 데이터의 중복 실험 방지 새로운 연구를 유발

Page 11: 2010 0603 이상호_과학데이터 아카이빙-이상호

11 / 19과학 데이터 관련 세미나 , 2010-06-14

새로운 연구개발 과정

Page 12: 2010 0603 이상호_과학데이터 아카이빙-이상호

12 / 19과학 데이터 관련 세미나 , 2010-06-14

과학 데이터는 어디에 ?

출판된 연구성과물 ( 논문 등 ) 과 연구에 사용된 과학데이터 사이에는 큰 괴리가 존재 연구성과물 ( 학술논문 , 보고서 , 학위논문 등 ) 은 도서관이 보유 여기에 사용된 데이터 셋은 데이터센터가 보유 학술논문과 데이터 셋을 연결해 줄 수단이 없음 데이터 셋을 확인할 수 있는 보편적인 방법이 없음 데이터 셋을 인용할 수 있는 보편적인 방법이 없음

결과적으로 데이터 셋은 발견하기 어렵고 접근하기 어렵고 학술논문에서는 부차적인 요소로 간주되고 있음

Page 13: 2010 0603 이상호_과학데이터 아카이빙-이상호

13 / 19과학 데이터 관련 세미나 , 2010-06-14

데이터 셋은 아직까지 부차적인 요소

데이터 셋 출판된 학술논문- 데이터는 연구과제가 끝나면 관리하기가 어려움

- 도서관이 장기간 보존과 관리의 역할을 함

- 비공식적인 네트워크에 의해 데이터의 1 차적인 공유가 이루어짐

- 정규 예산을 들여 1 차 접근 서비스를 제공함

- 단지 21%만이 국가 또는 국제적 인프라를 사용하여 보관함

- 거의 모든 출판된 학술논문은 복수의 국가 도서관에 의해 소장됨

- 데이터 셋은 학술논문의 임팩트 팩터에 포함되지 않음

- 학술논문과 인용은 임팩트 팩터의 근간을 이룸

- 운좋게 데이터 셋을 발견할 기회를 얻거나 사용할 허락을 얻음

- 목차 검색 또는 원문 검색을 통해 접근이 가능함

Source : UKRDS Study

Page 14: 2010 0603 이상호_과학데이터 아카이빙-이상호

14 / 19과학 데이터 관련 세미나 , 2010-06-14

DOI 를 사용한 데이터 셋의 인용

DOI 시스템 학술논문과 해당 논문에 사용된 데이터를 연결하는 가장 손쉬운 방법

데이터 셋에 DOI 를 부여하고 있는 기관 IUCR, ICPSR, OECD 는 CrossRef 을 통해 Pangaea, Mare 및 기 타 몇 개 의 기 관 들 은 TIB( 독 일

국립과학기술도서관 ) 를 통해

학술논문G. Yancheva, N. R. Nowaczyk et at (2007), Influence of the intertropical convergence zone on the East Asian mon-soon, Nature, 445, 74-77Doi : 10.1038/nature05431

데이터 셋G. Yancheva, N. R. Nowaczyk et at (2007), Rock magnetism and X-ray flourescence spec-trometry analyses on sedi-ment cores of the Lake Huguang Maar, Southeast China, PANGAEADoi : 10.1594/PANGAEA.587840

인용

Page 15: 2010 0603 이상호_과학데이터 아카이빙-이상호

15 / 19과학 데이터 관련 세미나 , 2010-06-14

DataCite : 국제적 데이터 인용 기구

과학자를 지원함 DataCite 의 장기 비젼은 과학자들에게 연구 데이터 셋의 소재와

확인 , 그리고 연구 데이터 셋을 인용하는 방법을 제공함으로써 과학자를 돕는 것임

경과2005년 하노버에서 TIB 가 데이터 셋에 대해 DOI 를 부여하기

시작함2009년 3월 파리 ICSTI 회의에서 정관에 사인2009년 12월 런던에서 DataCite Association 이 설립됨

DataCite : 데이터센터 CrossRef : 출판사

Page 16: 2010 0603 이상호_과학데이터 아카이빙-이상호

16 / 19과학 데이터 관련 세미나 , 2010-06-14

DataCite 회원 현황

국제적 파트너쉽 독일 : Technische Informationsbibliothek (TIB) 영국 : The British Library (BL) 프랑스 : L’Institut de I’Information Scientifique et Tech-

nique (INIST) 스위스 : Library of the ETH Zurich 덴마크 : Library of TU Delft 네덜란드 : Technical Information Center 캐나다 : Canadian institute for Scientific and Technical In-

formation (CISTI) 호주 : National Data Service (ANDS) 미국 : California Digital Library 미국 : Purdue University

Page 17: 2010 0603 이상호_과학데이터 아카이빙-이상호

17 / 19과학 데이터 관련 세미나 , 2010-06-14

DataCite 등록기관과 출판기관의 임무

DataCite Registration Agency 레졸루션 인프라 스트럭쳐의 유지 , 관리 검색 가능한 메타데이터의 데이터베이스를 유지 , 관리 장기간에 걸친 식별자 관리 최적 사례의 발굴 , 공유 및 국제 협력 촉진

Publishing Agents ( 각국의 데이터센터 , 연구소 , 출판사 등 ) 품질 보증 콘텐트 저장과 접근 식별자 작성 메타데이터의 작성과 갱신

Page 18: 2010 0603 이상호_과학데이터 아카이빙-이상호

18 / 19과학 데이터 관련 세미나 , 2010-06-14

DataCite 구조

국제 DOI 기구

AssociateStakeholder

회원 기관 회원 기관(KISTI)

DataCite

회원 기관회원 기관데이터센터 , 연구소 등

회원 기관회원 기관데이터센터 , 연구소 등

관리 기관(TIB)

회원

전달

협력

Page 19: 2010 0603 이상호_과학데이터 아카이빙-이상호

19 / 19과학 데이터 관련 세미나 , 2010-06-14

경청해 주셔서 감사합니다 ^ ^

질문하실 분 ?