45
Open Access 정정정정정 정정정정 정정 2004. 11. 19. 정정정 정정정정정 정정정정정정 [email protected]

Open Access 정보자원의 장기보존 전략

Embed Size (px)

DESCRIPTION

Open Access 정보자원의 장기보존 전략. 2004. 11. 19. 이규철 충남대학교 컴퓨터공학과 [email protected]. User/Application Level. User. Search. 부가가치 서비스. 메타데이터 수확. OAI Harvester. Service Provider Level. 통합 메타 DB. Results. Service Provider Interface. Query. Data Provider Level. Local Repository. Remote - PowerPoint PPT Presentation

Citation preview

Page 1: Open Access  정보자원의  장기보존 전략

Open Access 정보자원의 장기보존 전략

2004. 11. 19.

이규철충남대학교 컴퓨터공학과

[email protected]

Page 2: Open Access  정보자원의  장기보존 전략

2

OAI 아키텍처

Service Provider Interface

User

Search

통합메타 DBQuery

Results

User/Application Level

Service Provider Level OAI Harvester

Data Provider Level

RemoteRepository

LocalRepository

institutionalRepository

부가가치 서비스 메타데이터 수확

메타데이터 노출 OAI Repository

Page 3: Open Access  정보자원의  장기보존 전략

3

장기 보존 (Long-Term Preservation): 개념

기계가 읽을 수 있는 컴퓨터 파일의 사용할 수 있는 기간을 연장하고 , 무용화 되는 것을 막기 위해 고안된 다양한 행위

비트 스트림 (Bit Stream) 의 장기 유지

파일의 내용에 대한 지속적인 접근성 제공

Page 4: Open Access  정보자원의  장기보존 전략

4

장기 보존 ( 계속 ) 기능

Viability 비트 스트림 유지 : 저장 미디어로부터 정보를 읽어 올 수 있음을

의미 Renderability

인간 사용자에게 보여질 수 있거나 컴퓨터에 의해 처리될 수 있는 폼으로 비트 스트림을 변환할 수 있는 가능성

Understandability 사용자에 의해 해석되고 이해 될 수 있도록 충분한 정보를 제공

비트 스트림과 컨텐츠 , 폼 , 스타일 , 모양 , 기능성을 보존

Page 5: Open Access  정보자원의  장기보존 전략

5

디지털 기록물의 기본 특성 기록물 : 기록 보관인들이 보존 , 정리 , 저장 , 접근 ( 열람 ) 가능하게

만드는 객체 종이 기록물

특정 시간에 한 장소에서만 접근 가능 기록물 보존 = 기록 개체 ( 기록 재료 : 종이 ) 의 보존 기록의 열람을 원하는 경우 직접 접근 원본성 (originality) 존재

디지털 기록물 기술 (technology) 를 통해 접근

열람을 위해 하드웨어와 소프트웨어로 조합된 도구 사용 디지털 기록물 = 기술 + 데이터 ≠ 물리적 개체 열람 가능한 기록물 = 원본 복사본 (original copy) 원본성 (originality) 부재

종이 기록물 열람자

Page 6: Open Access  정보자원의  장기보존 전략

6

디지털 기록물의 실행 모델 프로세스 (process)

원시자료로부터 의미를 표현하기 위해 요구되는 기술 (technology)

디지털 기록물의 원시자료는 데이터 파일

원시자료 (source)

프로세스 (process)

실행 (performance)

열람자(researcher)

데이터 파일 (data file)

H/W & S/W화면 표시

(rendering on screen)

열람자(researcher)

실행모델 : 원시자료(source)-프로세스(process) 컴포넌트

실행모델 : 디지털 기록물

Page 7: Open Access  정보자원의  장기보존 전략

7

디지털 보존의 문제들 디지털 기록물 보존 업무

원시자료와 프로세스의 보존 요청 시 원시자료와 프로세스가 실행될 수 있도록 하는 것

보존의 현실성 원시자료의 보존은 가능 프로세스의 보존은 비현실적

IT 의 역동적 발전 기술 (technology) 의 생명주기가 점점 짧아짐

저장매체의 급격한 퇴화 디스크 , 테이프 , 카트리지 등 짧은 수명 : 매체 재수록 (refreshment) 전략으로 극복

실행모델의 시사점 진본성을 가진 기록물의 실행을 위해 소스와 프로세스 모두

원본성을 가질 필요는 없다 . 실행의 필수 부분들이 복제 된다면 소스와 프로세스는 대체 가능

Page 8: Open Access  정보자원의  장기보존 전략

8

디지털 보존 접근 방법들 마이그레이션 (migration)

하나의 데이터 포맷 (format) 으로부터 다른 데이터 포맷으로 변환하는 것 예 : MS 워드 8.0 버전에서 Adobe 사의 PDF 로의 변환

일반적으로 소프트웨어가 구형화될 때 디지털 기록물의 접근가능성을 보장하는 방법으로 이용

실행모델에서 원시 자료 객체를 쓸모 없는 구형 데이터 포맷 (format) 으로부터 현재의 데이터 포맷으로 변환하는 것 현재의 프로세스 ( 하드웨어 및 소프트웨어 결합체 ) 가 새로운

원시자료를 표현 디지털 객체의 일부 속성은 마이그레이션 과정에서 소실될 수

있음 마이그레이션 이후의 실행은 예전과 동일하지 않을 수 있음 데이터 손실 정도에 영향을 주는 요소

보존처리 횟수 , 선택한 마이그레이션 방법 , 새로운 데이터 포맷 , 사람의 개입 정도 , 마이그레이션 이후 기술 ( 記述 ) 작업

Page 9: Open Access  정보자원의  장기보존 전략

9

에뮬레이션 (emulation) 원시 자료 객체를 원래 (original) 데이터 포맷으로 보존

프로세스의 일부 또는 모두를 현재 사용하는 컴퓨터에서 재현 기록물의 ‘외형과 느낌 (look and feel)' 보존

원래 (original) 프로세스의 기능을 올바르게 재생산하는 것만이 최선의 방법

기록물의 내용 , 실질적인 외형 ( 표현모습 ) 을 모두 유지 단점

사용자들이 적절한 에뮬레이션 환경에 접속하지 못하는 경우 접근이 어려움

기록물 열람자가 기록물이 생산된 시기의 컴퓨팅 환경을 배워야 함 . 예 : 2050 년에 살고 있는 기록물 열람자가 1990 년대 초에 생산된

기록물을 열람하기 위해서는 DOS 의 시스템 명령어를 익혀야 함 에뮬레이션 (emulation) : 마이그레이션 (migration)

= “ 외형과 느낌 (Look and Feel)” 중시 : “ 실제 내용 (Content)” 중시

Page 10: Open Access  정보자원의  장기보존 전략

10

본질 (essence) 의 개념 기록물이 의미를 유지하는데 필요로 하는 “필수적인 보존 특

성” 예

워드프로세스 문서 = 원문 내용 (textual content) + 문서 형태 정보( 글꼴 , 색상 , 문서 레이아웃 등 )

본질 (essence) 원문 내용 (textual content) 업무 활동의 법정 증거 제공

실행 특성을 모두를 보존할 경우 기록물 영구 보존 의미에 부합하지 않는 요소들을 보존하는데 많은

비용을 요구 기록물의 의미를 유지하는데 필수적인 본질 (essence) 결정

본질을 보존하는데 중점을 둬야 함

Page 11: Open Access  정보자원의  장기보존 전략

11

디지털 기록물 보존 원리 (principles) 디지털 보존프로그램은 디지털 기록물을 생산한 애플리케이션 ,

시스템 , 저장포맷 등에 관계없이 보존할 수 있어야 함 디지털 기록물의 영구보존 가치

생산 , 사용했던 맥락 (context) 보존 최고의 기록관리 : 영구보존 자료를 보다 쉽게 확인토록 해주는 것 디지털 보존프로그램이 포괄적이기 위해서는 , 모든 환경으로부터

이관되는 기록물을 보존할 수 있어야 함 .

디지털 보존프로그램은 디지털 기록물의 본질 (essence) 을 결정 , 보존하여야 하며 , 언제든지 필수 실행요소들을 재생산해야 함

Page 12: Open Access  정보자원의  장기보존 전략

12

디지털 기록물 보존 원리 ( 계속 ) 디지털 보존프로그램은 비 - 독점기술을 기반으로 하여야 함

독점 데이터포맷은 디지털 기록물의 장기보존 및 접근용으로는 부적절 독점 포맷으로 구성 된 디지털 기록물에 대한 열람은 궁극적으로

지적재산권 소유자의 권한 기록물의 무결성에 대한 위험을 줄이기 위하여 ,

보존프로그램은 각 디지털 기록물에 적용하는 보존처리의 횟수를 최소화해야 함 높은 적용비용 기록물 무결성에 잠재적인 위협

디지털 보존프로그램은 기록물 열람자들의 접근방법을 강제하지 않아야 함 기록물이 어떤 컴퓨터 플랫폼을 통해서도 접근할 수 있어야 함

Page 13: Open Access  정보자원의  장기보존 전략

13

ISO 14721 : OAIS(Open Archival Information System) 전자 정보 영구 보존을 위하여 개발된 보존 시스템에 대한

권고사항 정보 (Information) 의 정의 정보를 정보 패키지 (Information Package) 로 표현 OAIS 에서의 단계별에 따른 각각의 정보패키지 정의 OAIS 에서의 기능적 모델 제시 보존전략 제시

Open 공개용으로 어느 기관이나 사람들이 사용할 수 있는 참조 모델

표준

Archival Information System 정보를 생산 , 보존 , 전달하는 신뢰할 수 있는 하드웨어 ,

소프트웨어 , 사람

Page 14: Open Access  정보자원의  장기보존 전략

14

OAIS 개발 기관 National Space Science Data Center

NASA 의 첫 번째 디지털 아카이브

Consultative Committee for Space Data Systems 국제적 항공 우주 기관

아카이브 표준을 ISO 제안 항공 우주와 관련된 데이터 제안 디지털 데이터를 장기 보존하는 방법 제안

Page 15: Open Access  정보자원의  장기보존 전략

15

OAIS 표준화 과정 1995 년 10 월 첫 번째 심포지엄 개최

전자정보 영구 보존을 위한 참조 모형 개발 필요성에 동의

1999 년 5 월 Red Book 발표 CCSDS 의 권고 초안

2002 년 1 월 Blue Book 발표

2003 년 3 월 1 일 Blue Book 이 ISO 14721 국제 표준으로 제정

Page 16: Open Access  정보자원의  장기보존 전략

16

정보 객체의 정의 정보의 정의

교환할 수 있는 모든 유형의 지식 표현 정보를 사용하여 해석한 데이터

데이터객체(Data Object)

표현정보(Representation

Information)

정보객체(Information

Object)

표현정보를

이용하여 해석 산출

Page 17: Open Access  정보자원의  장기보존 전략

17

정보 패키지

내용정보(Content

Information)

보존설명정보(Preservation Description

Information)

패키징정보 (Packaging Information)

패키지 설명정보(Descriptive

Information about Package 1)

패키지 (Package)

정보 패키지 구성 내용정보 (CI)

내용 정보 자체 내용정보 생산 이유 다른 내용정보객체와의 관계 정보 포함

보존설명정보 (PDI) 내용정보의 식별자

패키징정보 내용정보와 보존설명정보를 하나의 묶음으로 보호

패키지 설명정보 (DI) 내용정보를 가진 패키지를 검색할 때 이용

Page 18: Open Access  정보자원의  장기보존 전략

18

정보 패키지 정보 패키지 종류

제공 정보 패키지 (SIP) 생산자와 OAIS 사이의 협의 생산자가 OAIS 에게 보내는 정보

영구 보존 정보 패키지 (AIP) 보존하기 위한 정보 패키지 내용 정보와 PDI 로 구성

보급 정보 패키지 (DIP) 하나 이상의 AIP 전체나 일부분을 포함 OAIS 가 열람 요청자에게 보내는 정보

정보 패키지를 3 가지로 나눈 이유 생산자가 제공하는 표현 정보가 OAIS 의 보존요구를 충족시키지

못하는 경우 발생 생산자가 제공하는 표현 정보의 구성이 OAIS 의 것과 다른 경우 발생 열람요청자에게 OAIS 에서 영구 보존하는 모든 정보를 제공할 필요가

없기 때문에

Page 19: Open Access  정보자원의  장기보존 전략

19

생산자(Producer

)

열람요청자(Consumer)

제공정보패키지(SubmissionInformationPackages)

보급정보패키지(Dissemination

InformationPackages)

질 의

결과집합

주 문

OAIS

영구보존정보패키지(Archival Information

Packages)

Legend

= 객체

InformationPackage종류

= 데이터 흐름

=

단계별 정보 패키지의 흐름

Page 20: Open Access  정보자원의  장기보존 전략

20

Archival Information Package

패키지 설명

영구 보존정보

패키지패키징 정보

내용 정보

보존설명정보

데이터 객체

물리객체 전자

객체

표현 정보

참조 정보

인증정보

문맥정보

출처정보

의미정보

구조정보

Page 21: Open Access  정보자원의  장기보존 전략

21

SIP

설명 정보

AIP AIP DIP

운영 (Administration)

질의결과 집합

관리자 (Management)

흡수 (Ingest)접근

(Access)

데이터 관리(Data

Management)

보존(ArchivalStorage)

설명 정보

보존 계획 (Preservation Planning)

주문

OAIS 기능적 모델

Page 22: Open Access  정보자원의  장기보존 전략

22

OAIS 기능적 요소 흡수

제공정보패키지 (SIPs) 를 받아서 처리하는 기능을 제공 보존

영구보존정보패키지 (AIPs) 의 저장 , 유지 , 검색을 위한 기능 및 서비스를 제공

데이터 관리 보존 정보를 확인 아카이브를 운영하는데 필요한 모든 행정정보를 유지하고 이에 접근하는

서비스와 기능 수행 운영

아카이브 시스템의 전반적인 운영 담당 보존 계획

OAIS 전체를 모니터링 및 장기 보존을 위한 계획 및 방법을 제시 접근

OAIS 에서 저장하고 있는 정보의 가용성 , 위치 , 설명 정보 , 존재 여부를 결정하여 열람 요청자에게 제공

Page 23: Open Access  정보자원의  장기보존 전략

23

보존 계획 보존 계획의 핵심 기능 2 가지

보존전략과 표준을 개발 패키지 디자인과 마이그레이션 계획 개발

보존 대상 내용정보 , 보존설명정보 , 패키지 정보 , 보존 정보 패키지

OAIS 에서 취하는 마이그레이션 의 유형 갱신 (Refreshment) : 보존저장 객체의 모든 H/W 나 S/W 를 다른

것으로 대체 복제 (Replication) : 정보패키지를 같거나 다른 매체로 복제 재패키징 (Repackaging)

내용정보 , 보존 설명 정보의 비트들이 한 CD 내에서 3 개의 다른 파일에 담겨 있는 경우

3 개의 파일 내용을 새로운 디렉토리와 다른 파일로 이전 패키지 정보가 변하게 됨

변환 (Transformation) 내용정보나 보존 설명 정보의 변화가 필요한 경우

Page 24: Open Access  정보자원의  장기보존 전략

24

4-6.5

Administration

PRODUCER

Approved standardsMigration goals

Develop Packaging Designs & Migration Plans

CONSUMER

Develop Preservation Strategies

and Standards

Monitor Technology

Monitor Designated Community

ProposalsRecommendations

Technology alertsExternal data standardsProtoype resultsReports

ReportsRequirement alertsEmerging standards

Product technologies

Surveys

Surveys

Service requirments

AIP/SIP templatesAIP/SIP review

Migration packagesCustomization advice

Inventory reportsPerformance infoConsumer comments

Prototype requests

Preservation requirements

Advice

Issues

Protoype results

Prototype requests

보존 계획 기능관리자

보존 전략과표준을 개발

패키지 디자인과마이그레이션 계획

개발

기술 모니터링

제공자 모니터링열람 요청자

생산자

프로토타입 결과

영구 보존요구 사항

영구보존정보 / 보급정보 패키지 템플릿

영구보존정보 / 보급정보 패키지 리뷰마이그레이션 패키지요구조건 맞춤 권고

권고사항추천

표준 선택마이그레이션 목적

열람 요청자 요구사항 목록

포로토타입 요청

포로토타입 요청

제품 기술

서비스요구사항

조사

권고사항

조사

결과물

새로운 표준의등장에 필요한

요구사항

기술 정보외부 데이터 표준프로토 타임 결과

목록

Page 25: Open Access  정보자원의  장기보존 전략

25

CEDARS (CURL Exemplars in Digital ARchives)

CURL (Consortium of University Research Libraries )

1998.4. – 2002.3.

연구 영역 디지털 보존과 관계된 현실적인 방법 및 전략 수립 디지털 보존 전략과 기술 발견 컬렉션 개발과 권한 관리와 관계된 연구 진행 디지털 정보 객체를 보존 하기 위해 요구되는 메타데이터 정의 도서 기록물 관리 및 보존을 위한 방법 및 고려사항 등을 제공

OAIS 를 기반으로 분산형 구조를 채택

기록물 보존 방법 에뮬레이션 : CAMiLEON 프로젝트

Page 26: Open Access  정보자원의  장기보존 전략

26

메타데이터 CEDARS 디지털 아카이브에서 사용하기 위한 스킴

개발되거나 개발중인 보존 메타데이터 표준과의 호환성을 위한 메타데이터

디지털 리소스의 장기간 보존을 위한 메타데이터

디지털 컨텐트의 의미를 표현하기 위한 메타데이터

기술적 , 관리적 , 설명적 요소를 모두 기술할 수 있는 메타데이터

Page 27: Open Access  정보자원의  장기보존 전략

27

메타데이터 종류 기술적 메타데이터

보존 전략을 제공하기 위한 H/W 와 S/W 의 환경에 관한 기술 정보를 기록

권한 관리 메타데이터 기록물의 권한 및 협약 사항들을 기록

지적 보전 메타데이터 무결성과 진본성을 보존하기 위해

자원 발견 메타데이터

Page 28: Open Access  정보자원의  장기보존 전략

28

메타데이터 항목 보존 설명 정보

Reference Information Resource description Existing metadata

Context Information Related information objects

Provenance Information History origin Management history Rights management

Fixity Information Authentication indicator

Page 29: Open Access  정보자원의  장기보존 전략

29

메타데이터 항목 내용정보

Representation Information Structure Information

Underlying abstract form description Transformer objects Render/analyze/covert object

Semantic Information Render/analyze objects

Data object

Page 30: Open Access  정보자원의  장기보존 전략

30

도서 기록물 관리 과정

Page 31: Open Access  정보자원의  장기보존 전략

31

도서 기록물 권한 관리 정보 패키지에 대한 메타데이터를 포함

OAIS 보존 설명 정보 부분을 기반으로 함

Page 32: Open Access  정보자원의  장기보존 전략

32

CAMiLEON Creative Archiving at Michigan & Leeds: Emulating th

e Old on the New (CAMiLEON)

연구 영역 S/W 의 영구성 에뮬레이션 Migration on Request

CAMiLEON 에뮬레이션 연구 참여기관 Universities of Michigan (USA) Leeds (UK) JISC 와 NSF 재정적 지원

Page 33: Open Access  정보자원의  장기보존 전략

33

CAMiLEON 의 에뮬레이션 방법 추진단계

1999 년 10 월 1 일 시작 UK : 2002 년 12 월 31 일에 끝날 예정 USA : 2003 년 9 월 30 일에 끝날 예정

목적 에뮬레이션의 효과 및 구현 가능 여부 검증 에뮬레이션을 실질적인 보존 전략으로 활용하기 위한 실험 수행

Page 34: Open Access  정보자원의  장기보존 전략

34

CAMiLEON 의 에뮬레이션 방법 ( 계속 ) 방법

1970 년대와 1980 년대 생산된 자료들을 중심으로 어떻게 아키텍처로 매핑 되는지를 실험

Page 35: Open Access  정보자원의  장기보존 전략

35

The OCLC and RLG 2000 년 Preservation Metadata 워킹 그룹을 구성하기

위해 협조하기로 결정

OAIS 정보 모델 메타데이터 보존을 위한 광범위한 분류체계 제공 정보 형태는 실제 구현에 적합한 메타데이터 요소의 리스트로

제공하지는 않음

2001 년 : 현재의 Preservation Metadata for Digital Object 기술에 대한 검토서 작성

2002 년 : 실제적인 메타데이터 프레임워크 개발

Page 36: Open Access  정보자원의  장기보존 전략

36

메타데이터 프레임워크 메타데이터 보존 영역에서 향후 작업을 위한 기반 제공

메타데이터 보존을 구현하기 위한 전략과 Best Practice 를 포함

다양한 형태의 디지털 보존 행위에 요구되는 풍부한 설명의 정도를 평가

자동화된 보존 메타데이터를 생성하기 위한 알고리즘 개발

도서관의 보존 프로세스 관리를 가능케 함

실질적인 접근 방법

Page 37: Open Access  정보자원의  장기보존 전략

37

메타데이터 항목 : 내용 정보 내용 데이터 객체

표현 정보 Content data object description

Underlying abstract from description Structural type Technical infrastructure of complex object File description Installation requirements Size Access inhibitors Access facilitators Significant properties Functionality

Page 38: Open Access  정보자원의  장기보존 전략

38

메타데이터 항목 : 내용 정보 ( 계속 ) Description of rendered content Quirks Documentation

Environment description Software environment

Rendering programs Transformation process Display/access application

Operating system OS name OS version Location, documentation

Page 39: Open Access  정보자원의  장기보존 전략

39

메타데이터 항목 : 내용 정보 ( 계속 ) Hardware environment

Location Computational resources

Microprocessor requirements Memory requirements Documentation

Storage Storage information Documentation

Peripherals Peripheral requirements Documentation

Page 40: Open Access  정보자원의  장기보존 전략

40

메타데이터 항목 : 보존 설명 정보 Reference Information

Archival system identification Global identification Resource description

Context information Reason for creation Relationships

Manifestation Intellectual content

Page 41: Open Access  정보자원의  장기보존 전략

41

메타데이터 항목 : 보존 설명 정보 ( 계속 ) Provenance Information

Origin Event

Pre-ingest Event

Ingest Event

Archival retention Event

Rights management Event

Fixity Information Object authentication

Page 42: Open Access  정보자원의  장기보존 전략

전자기록물 영구보존 기반기술 용역 과제- 국가기록원 & 한국정보과학회 -

Page 43: Open Access  정보자원의  장기보존 전략

43

1 차년도 추진 계획

외국 선진 사례 분석

외국 선진 사례 분석

전자기록물 영구보존 방안 분석 , 정의( 법 / 제도 , 기록관리 , 시스템 측면 )

전자기록물 영구보존 방안 분석 , 정의( 법 / 제도 , 기록관리 , 시스템 측면 )

전자기록물 요소 분석↓

영구보존 항목 추출방안

전자기록물 요소 분석↓

영구보존 항목 추출방안 이상적 보존 체계 제시이상적 보존 체계 제시

기생산된 전자 문서의 보존 방안 제시기생산된 전자 문서의 보존 방안 제시

디지털 아카이브 발전을 위한 로드맵 제시

디지털 아카이브 발전을 위한 로드맵 제시

원본성 , 진본성 유지를 위한

기술적 방안 법적 방안

영구보존포맷보존 메타데이터

Security 및 인증

법적증거저작권

개인 보호

Page 44: Open Access  정보자원의  장기보존 전략

44

2 차년도 추진 내용

영구 보존 포맷 등 보존 방안 구체화 및 적용 방법 제시영구 보존 포맷 등 보존 방안 구체화 및 적용 방법 제시

영구보존포맷영구보존포맷 보존메타데이터보존메타데이터 보존매체보존매체 보호 및 인증보호 및 인증 법적증거 /저작권법적증거 /저작권

현시스템을디지털 아카이브로 발전방안

현시스템을디지털 아카이브로 발전방안

전자기록물 지식자원화 방안전자기록물 지식자원화 방안 기록보존 ITA 틀 정의기록보존 ITA 틀 정의

디지털 아카이브 기능분담 모델(기능 , 정보구조 , 운용시나리오 )

디지털 아카이브 기능분담 모델(기능 , 정보구조 , 운용시나리오 )

보존방안 표준화 및 적용 시험보존방안 표준화 및 적용 시험

Page 45: Open Access  정보자원의  장기보존 전략

45

용역 수행 조직: 국가기록원의 실무추진팀과 상시 협의

총괄이규철

XML 팀이규철

데이터 저장 / 관리 기술팀송병호

기록관리 팀서혜란

연구보조원황윤영임혁수이태경

연구 ( 보조 ) 원연구원 : 김종원

정양모이영선

연구 ( 보조 ) 원연구원 : 서은경연구원 : 설문원

이지연