32
© 2002 IBM Corporation Problematika digitálních archivů Miroslav Cink 26/02/2007

Problematika digitálních archivů

  • Upload
    xanti

  • View
    41

  • Download
    1

Embed Size (px)

DESCRIPTION

Problematika digitálních archivů. Miroslav Cink 26/02/2007. Agenda. Základní principy archivace, role IBM Struktura digitálního archivu Uchovávací metody pro dlouhodobou archivaci Vývoj DIAS na základě dlouhodobých potřeb klientů Implementované projekty Popis řešení DIAS - PowerPoint PPT Presentation

Citation preview

Page 1: Problematika digitálních archivů

© 2002 IBM Corporation

Problematika digitálních archivů

Miroslav Cink

26/02/2007

Page 2: Problematika digitálních archivů

2

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 3: Problematika digitálních archivů

3

Potřeby řešení dlouhodobé archivace

Dlouhodobá archivace – dlouhodobé uchování intelektuálního kapitálu a kulturního dědictví (100 let)

Podpora formátů – informace uložená ve starém formátu často není dostupná či podporovaná v novém formátu

Uchování různých typů dat – statických textových, obrazových, dynamických, elektronických

Objemy dat – stovky tisíc elektronických publikací, desítky milionů textových

Legislativa – normy a standardy zatím spíše komplikuje, daná Zákonem 499/2004 Sb. a Vyhláškou 646/2004 Sb.

Page 4: Problematika digitálních archivů

4

Základní principy elektronické archivace

Elektronická archivace není ani zálohování ani digitalizace

Hlavní důraz = autenticita a dlouhodobé uchování

V podstatě procesně odpovídá tradičnímu uchovávání, liší se jen způsob uložení

V systému jsou odděleny technická a archivní metadata (archivní metadata uložena v databázi u dokumentu)

Není třeba online přístup, zpřístupňují se elektronické kopie

Page 5: Problematika digitálních archivů

5

Role IBM v oblasti archivace dokumentů

IBM se oblasti dlouhodobé archivace věnuje systematicky od pol.90.let

IBM je dlouhodobě nejvýznamnějším inovátorem v oblasti IT nové postupy a řešení pro oblast uchovávání dokumentů

Spolupodíleli jsme se na vytvoření referenčního modelu pro dlouhodobou archivaci OAIS

IBM přijala společně s Evropskou komisí standard pro fungování systémů el. spisové služby a modelových požadavků pro správu el. dokumentů - MoReq

vyvinuli jsme a uvolnili k volnému použití koncept UVC (Universal Virtual Computer)

Vyvinuli jsme unikátní nástroj na dlouhodobou archivaci dokumentů – DIAS

Vlastní SW pro oblast archivace dokumentů – IBM Content manager; FileNet

Máme za sebou zkušenosti z reálných projektů – knihovny a archivy

Page 6: Problematika digitálních archivů

6

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 7: Problematika digitálních archivů

7

Struktura digitálního archivuFormátování & Poskytnutí

Vydavatel

Zákazník

Původce dokumentu

Katalogizačnípracovník

Systémová manipulace(emulace, migrace, kontrola integrity atd.)

Archivní zpracováníZpřístupnění

Digitální spisovna

Fyzické úložiště

dokumentů

Page 8: Problematika digitálních archivů

8

Referenční Model OAIS „Open Archival Information System" – ISO 14721

4-1.

2

MANAGEMENT

Ingest

Data Management

SIP

AIPDIP

queriesresult sets

Access

PRODUCER

CONSUMER

Descriptive Info

AIP

orders

Descriptive Info

Archival Storage

Administration

Preservation Planning

Page 9: Problematika digitálních archivů

9

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 10: Problematika digitálních archivů

10

Způsob uchovávání elektronických dokumentů

Migrace- mění se objekt, přizpůsobuje se novému prostředí- výhoda - relativní jednoduchost- nevýhody – možnost ztráty informace, šíření chyb

Emulace- zachovává se původní objekt, prostředí se emuluje- výhoda – zachování funkčnosti, vhodné pro komplexní dokumenty- nevýhoda – komplexnost emulovaného prostředí

UVC (Universal Virtual Computer) - tato metoda spojuje výhody migrace a emulace a eliminuje jejich

nevýhody- Navrženo IBM v roce 2000, ověřeno v projektu DIAS

Page 11: Problematika digitálních archivů

11

Metoda UVC – ukládání

Dokument

Dekodér formátu(program pro UVC,

převádí dokument na jeho logickou podobu LDV)-vytvoří se 1x při ukládání

Definice UVC

Typ dokumentu

(obrázek, bitmapa, text…)Formát

dokumentu(např. tiff, png, jpeg, gif)

Popisformátu

LDS(Logical Document

scheme)-Obecný popis, schéma

Dokumentu jednoho typuVytvoří se 1x při ukládání

Page 12: Problematika digitálních archivů

12

Metoda UVC – zpřístupnění

Dokument

Dekodér formátu(program pro UVC,

převádí dokument na jeho logickou podobu LDV)-vytvoří se 1x při ukládání

Definice UVC

Prohlížečformátu

LDV formát (např. XML) prohlíženo pomocí

LDS

Zákazník

Page 13: Problematika digitálních archivů

13

Životní cyklus ED a procesy v digitálním archivu Vstup dokumentu do digitálního archivu

- Přijetí k archivaci, validace dokumentu, přiřazení identifikace- Způsob uchování, migrace na archivní formát- Generování technických metadat, získání a úprava popisných metadat- Publikace v katalogu, vložení do archivního systému, notifikace o vložení

Zpřístupnění dokumentu z digitálního archivu- Vyhledání dokumentu v katalogu- Žádost o dokument- Ověření přístupu a autorizace- Získání dokumentu z archivního systému- Migrace na zobrazovací formát, či zobrazení dokumentu přímo

Údržba dat- Zajištění uchovávání a případně manipulace s ED- Zánik dokumentu, skartace- Proces uchovávání nezměněné podoby, záloha dat

Page 14: Problematika digitálních archivů

14

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 15: Problematika digitálních archivů

15

Vytvoření DIAS řešení v roce 2004

Rostoucí zájem na řešení pro dlouhodobé uchování informací

DIAS je vytvořen na základě řešení pro Národní knihovnu v Holandsku (KB) a sestává z :- jádro řešení DIAS-Core - specifické komponenty navržené pro Národní knihovnu (mohou být použity i ostatními klienty customizace dle potřeb klienta)

DIAS byl vytvořen IBM na základě modifikace OAIS vytvořené v Networked European Deposit Library (EU-Projekt 2000 – 2002)

Vytvoření skupiny uživatelů DIAS společné rozhodování na vývoji a prioritizaci budoucích požadavků, tvorba jediného standardu DIAS řešení

Page 16: Problematika digitálních archivů

16

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 17: Problematika digitálních archivů

17

Archivační systém - Návrh a dodávka

Provoz a rozvoj systémuna 10 let

Studie & Výzkumohledně strategie dlouhodobé archivace

Pilotní systém na archivaci -

Návrh a dodávka

DNEP – Pilot archivačního systému (Deposit systém of Netherlands Electronic publications)

Implementace DIAS v1

DIAS pro Národní knihovnu Holandsko (Koninklijke Bibliothek)

Page 18: Problematika digitálních archivů

18

Co to je kopal projekt? Projekt zastřešený Spolkovým ministrstvem pro vzdělání a výzkum (BMBF) Trvání : 01/07/2004 – 30/06/2007 Cíl : vývoj řešení a potřebné infrastruktury pro dlouhodobé uchovávání

elektronických publikací Produkt : DIAS-Core

Partneři projektu: Die Deutsche Bibliothek (DDB) - Frankfurt - project management Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB) Gesellchaft für wissenschafliche Datenverarbeitung (GWDG) IBM Deutschland GmbH

kopal projekt

Page 19: Problematika digitálních archivů

19

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 20: Problematika digitálních archivů

20

DIAS : Architektura

DIAS-Core(OAIS model)

Získání&

Uložení

Poskytnutí & Získání Formátování & Poskytnutí

ISIP IDIPIngest

Data Management

Přístup

Archivní Storage

Plánování uchování

Administrace

PreservationProcessor

PreservationToolbox

Bibliografickýkatalog

Sběr&

Sklizeň

Poskytnutí

Hledání&

Vyvolání

Vydavatel Zákazník

Bibliografickýpopis

SecurityAutentizačníslužby

Uživatelské skupiny&

Uživatelská práva

Autorizačníslužby

ICIP ICSR

Katalogizačnípracovník

Pre-process Post-process

Page 21: Problematika digitálních archivů

21

Komponenty řešení DIAS

ISIP IDIP

Ingest Access

Archival Storage

Preservation Planning

Administration

CM Resource Manager TSM Storage Server

Loader Retriever

Data Management

AccessManager

CM Library Server Logging

Reporting

Preservation Manager

Monitoring and Control

Page 22: Problematika digitálních archivů

22

DIAS-Core: Aplikační architektura

Client Layer

Midtier Layer

Server Layer

Physical Storage Layer

Admin Client

Admin Access Manager Server

Retriever Client

Retriever

DB2 CM LS CM RM1..n

TapeMagnetic

Disk

SAN

Loader

TSM

Optical

Disk

Access ManagerLoggerPersistent

Identifier

Generator

Monitoring & Control

Page 23: Problematika digitálních archivů

23

DIAS-Core: Uložení a struktura metadat

structMapdiv

fileSec

fileGrp

file

amdSec techMD

File Section

Administrativní metadata

Structurální mapa

mdWrap

FLocat

Popisná metadata

dmdSecmdWrap

dmdSecmdWrap

LmerObject

digiprovMDmdWrap

LmerProcessFyzicky uložené

soubory

fptr

techMDmdWrap

LmerFile

digiprovMDmdWrap

LmerProcess

Page 24: Problematika digitálních archivů

24

Používané standardy a HW / SW

DIAS řešení je vytvořeno na základě IBM Content manager for Mutiplatforms

Využívá open standardy – J2EE, HTTP, HTML, FTP a XML

Možné HW platformy – IBM AIX, Sun Solaris, Win2000, Linux

SW požadavky – IBM Content Manager for Multiplatforms, IBM Information Integrator, Business Objects, WebIntelligence

Page 25: Problematika digitálních archivů

25

Agenda

Základní principy archivace, role IBM

Struktura digitálního archivu

Uchovávací metody pro dlouhodobou archivaci

Vývoj DIAS na základě dlouhodobých potřeb klientů

Implementované projekty

Popis řešení DIAS

Typický scénář při implementaci

Page 26: Problematika digitálních archivů

26

Klíčové problémy při řešení systému dlouhodobé archivace

Typy vstupních souborů které budou zpracovávány

Jak systém rozčlenit na jednotlivé samostatné moduly?

Jak rozdělit objekty s digitálním obsahem na archivní soubory (AIP)?

Požadavky na přijímaná a získávaná data (SIP)

Požadavky na vlastní popis formátů SIP, AIP and DIP

Management obsahu bibliografických metadat

Management uchování technických metadat

Page 27: Problematika digitálních archivů

27

Komplexnost a datové typy

Datové typy

Komplexnost

Statická data• Závislá pouze na aplikaci prohlížeče• Migrace formátu uchová digitální obkekt• Samostatný digitální objekt

Aplikace / CDROM:• závislé na operačním systému a na

perifériích• Potřebuje interakci s uživatelem• Potentciální závislost na sw –

ovladače, knihovny atd.

Webové stránky:• Dynamicky generované stránky• Proměnlivé externí odkazy• Komplikace – bezpečnost webu• Potřebuje prostředí web serveru

Page 28: Problematika digitálních archivů

28

Strategie při odlišných prioritách řešení

Rozpad na moduly Rozčlenění AIP SIP požadavky Vlastní popis formátů Obsah bibliografických metadat Uchování technických metadat

Pohled zákazníka

Cesta k získání dat (složitost)Obsah a kvalita metadatBezpečnost (identifikace, autentizace, autorizace)

Pohled dodavatele

Quality assuranceAutomatické získání dat

Bezpečnost (identifikace, autentizace, autorizace)

Pohled archivátora

Uchování médiíTechnická metadata

Nástroje na migraci datNástroje na emulaci dat

Page 29: Problematika digitálních archivů

29

Typický postup při implementaci DIAS

Analýza požadavkůProjekt začíná analýzou požadavků, fit-gap analýzou a projekcí pokrytí požadavků řešením DIAS

Případný aplikační vývojNové kompomenty které mají být navrženy, vytvořeny a otestovány

Návrh a implementace infrastrukturyDefinice a implementace prostředí DIAS u klienta, dle požadovaného návrhu infrastruktury

Dodávka řešení

Akceptační testyOdsouhlasení klientem že systém běží dle požadavků a přání

Page 30: Problematika digitálních archivů

30

Důležité odkazy k IBM řešení dlouhodobé archivace :

DIAS řešení: http://www.ibm.com/nl/dias/

IBM POC (demo) archivace: http://www.alphaworks.ibm.com/tech/uvc

REFERENCE:

Královská knihovna Holandsko - DIAS: http://www.kb.nl/site/sitemap-en.html

Německá knihovna – projekt Kopal: http://kopal.langzeitarchivierung.de/

Page 31: Problematika digitálních archivů

31

Reference ohledně dlouhdodobé archivace Raymond Lorie and Raymond J. van Diessen: Long-Term Preservation of Complex

Processes in IS&T Archiving Conference, Washington, DC, April 26-29, 2005. Hoeven, J.R. van der, Diessen, R.J. van en Meer, K. van der, Development of a

Universal Virtual Computer (UVC) for long-term preservation of digital objects, Journal of Information Science, vol. 31(3), p. 196-208, 2005.

Raymond van Diessen and Raymond Lorie, UVC: A Universal Computer for Long-Term Preservation of Digital Information, RJ 10338, IBM Almaden Research Center, San Jose, CA, 2005

Eric Oltmans, Raymond J. van Diessen, Hilde van Wijngaarden: Preservation Functionality in a Digital Archive in ACM/IEEE Joint Conference on Digital Libraries,Tucson, AZ, June 7-11, 2004

Raymond J. van Diessen and Titia van der Werf - Davelaar: Authenticity in a Digital Environment, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-155-8

Raymond J. van Diessen: Preservation Requirements in a Deposit System, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-156-6

Raymond J. van Diessen and Ben J. van Rijnsoever: Managing Media Migration in a Deposit System, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-158-2

Raymond J. van Diessen and Johan F. Steenbakkers: The Long-Term Preservation Study of the DNEP Project - an Overview of the Results, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-154-X

Page 32: Problematika digitálních archivů

32

Děkuji za pozornost

Miroslav Cink

[email protected]