Upload
glorykim
View
986
Download
8
Embed Size (px)
DESCRIPTION
Citation preview
Web Archiving
2010. 6. 3최 명 석
2
웹 기록물
정 의공공기관에서 운영 · 관리하는 홈페이지 등 웹사이트에 포함된모든 형태의 기록정보와 관련 문서, 매뉴얼 등을 말함
보존 방안
공공 Web
Access
생성
소멸
Archiving
Format
현재 Data (접근)
Old Data
※ 소멸되기 전 웹 기록물을 자동 수집하여 보존포맷 변환을
통해 보존·서비스
웹기록 자동수집기
자동수집
대 상
콘텐츠
CSS
플래쉬
자바 스크립트
메타정보
HTML
AJAX
통계정보
해외 사례PANDORA
미국 의회도서관
국제 프로그램
호주
영국 TNA UK Government Web Archive
MINERVA
IIPC, Internet Archive
IIPC : International Internet Preservation Consortium
Way Back (1)
( 이규철 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)
3
Way Back (2)
( 박진호 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)
4
Way Back (3)
( 박진호 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)
5
Way Back (4)
( 노경란 , 아카이빙 TF 이슈토론 3 차 , 2010. 05. 26)
6
Web (1)
지속적인 수정과 삭제가 발생하는 휘발성
하이퍼링크 기반의 불연속적인 연결로 이루어진 불연속성
복제와 전송이 용이하여 여러 가지 형태로 증가하는 증식성
텍스트 / 이미지 / 오디오 등 동시에 존재할 수 있는 다양성
( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
7
Web (2)
정적 웹사이트와 웹자원
서식에 기반한 상호작용이 있는 정적 웹사이트와 웹자원
동적 데이터 접근에 기반한 웹사이트와 웹자원
동적으로 생성된 웹사이트와 웹자원
( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
( 호주 국립기록보존소 )
8
Web (3)
( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
표면웹 (Surface Web) 은 현재 15 억 개의 웹페이지 정도이지만 ,
중요한 내용을 담고 있지만 접근이 불가한 심층웹 (Deep Web*) 은
무려 5500 억 개에 달한다고 한다 .
* Invisible Web, Dr. Jill Ellsworth(1994)
9( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
10
Web (4)
일반적인 웹페이지의 수명은 평균 75 일이고
30% 가 조금 넘는 URL 들만이 1 년 이상 유지되는 것으로조사된 바 있다 . (Lawrence 2001; Koehler 2004)
단행본 책의 경우 한 장에서 인용된 웹문서의 약 65% 는
1 년 안에 사라지거나 URL 이 변경되며 ,
한 학술지 논문이 인용된 웹 문서의 50% 는 논문이 발행되기도 전에원래의 위치에 변동이 생긴다 (Charlesworth 2003b)
11
12
( 표면 ) 웹 아카이빙의 어려움
• 자바스크립트 또는 플래쉬와의 관계• 크롤러의 제약사항• 로그인 후 가져와야 하는 데이터들• 데이터베이스로부터 생성된 동적인 페이지 정보• 접근이 되지 않는 페이지들의 존재
( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
13
웹 아카이빙의 유형
( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
14
웹 아카이빙의 특성 비교
( 김유승 , 복합적 웹 아카이빙 정책에 관한 고찰 , 2008)
Kulturarw
Internet Archive
Minerva
프랑스 국립도서관노르웨이
15
프랑스 국립도서관 사례
( 김유승 , 복합적 웹 아카이빙 정책에 관한 고찰 , 2008)
16
국회도서관 사례
• 입법관련 304 개 기관 (325 개 웹사이트 ) 대상– 평균 3 depth– 구성포맷 : html, jpeg, gif 등– 콘텐츠 유형 : flash, pdf, MS office, java applets,
php, jsp, asp, 스트리밍 미디어 등– 정보유형 : 게시형 / 웹보드 / 등록 / 검색 등– 원격 하베스팅 방식– 수집주기
• 입법활동기관과 입법활동 지원 기관 : 기본 1 년• 국회의원 웹사이트 : 기본 2 년
( 정은진 , 국회 각 기관 웹사이트 아카이빙 방안 연구 , 2009)
17
웹 아카이빙 도구
• Remote Harvesting– Hertrix: Internet Archive– NEDLIB Harvester( 유럽 도서관 ), HTTrack, Wget
• On-demand– WebCite, Archive-It, Hanzo Archives, BackupURL.-
com, freezePAGE snapshots, Website-Archive.com, Iterasi
• Datebase Archiving– DeepArc( 프랑스 국립도서관 ), Xinq( 호주 국립도서관 )
• Transactional Archiving– PageVault, Vignette WebCapture
(Web Archiving in Wikipedia)
18
저작권
미국의 1998 년 디지털 밀레니엄 저작권법 (Digital Millennium Copyright Act) 과유럽연합의 2001 년 저작권 지침 (Copyright Directive 2001/29/EC) 은
저작권자의 허가 없이 디지털 저작물을 복제하는 것을불법으로 규정하고 있는 것뿐만 아니라 ,
저작권자가 복제 방지를 위해 저작물에 설치한
어떠한 기술적 통제를 제거하거나 우회하는 것조차도범죄 행위로 규정하고 있다 .
19
웹 정보자원의 납본 법제화
• 캐나다 , 덴마크 , 프랑스 , 독일 , 노르웨이 , 남아프리카공화국 , 스웨덴 , 영국 , 아이슬란드 등– 납본의 대상을 기존의 오프라인 매체에서 온라인
정보자원으로 확대– 그 권한과 책임을 국립도서관에 위임
( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)
20
아카이빙 대상
• 웹기록물– 기록의 속성 ( 내용 , 구조 , 맥락 ) 을 통한 증거능력을
확보할 수 있는 특징을 가진웹사이트
– 공공기관의 특성상진본성 제공이 중요
21
1. Twitter feeds—all of them
2. National Election Candidates’ Internet Presences
3. Facebook Pages—A Selective Few
4. Notable Historical Events
5. News Sites That Give Permission
22
23
24
25
26
시사점
• 대상 분석을 통한 설득력 있는 실례 발굴 필요– 공공기관의 웹 기록물 아카이빙
• 납본 ( 법제화 ) 필요– Deep Web 에 중점을 둔 복합적 웹 아카이빙
• 저작권 및 개인정보에 대한 고려– 기초기술연구회를 통한 대상기관과의 협약 체결