Upload
xanti
View
41
Download
1
Embed Size (px)
DESCRIPTION
Problematika digitálních archivů. Miroslav Cink 26/02/2007. Agenda. Základní principy archivace, role IBM Struktura digitálního archivu Uchovávací metody pro dlouhodobou archivaci Vývoj DIAS na základě dlouhodobých potřeb klientů Implementované projekty Popis řešení DIAS - PowerPoint PPT Presentation
Citation preview
© 2002 IBM Corporation
Problematika digitálních archivů
Miroslav Cink
26/02/2007
2
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
3
Potřeby řešení dlouhodobé archivace
Dlouhodobá archivace – dlouhodobé uchování intelektuálního kapitálu a kulturního dědictví (100 let)
Podpora formátů – informace uložená ve starém formátu často není dostupná či podporovaná v novém formátu
Uchování různých typů dat – statických textových, obrazových, dynamických, elektronických
Objemy dat – stovky tisíc elektronických publikací, desítky milionů textových
Legislativa – normy a standardy zatím spíše komplikuje, daná Zákonem 499/2004 Sb. a Vyhláškou 646/2004 Sb.
4
Základní principy elektronické archivace
Elektronická archivace není ani zálohování ani digitalizace
Hlavní důraz = autenticita a dlouhodobé uchování
V podstatě procesně odpovídá tradičnímu uchovávání, liší se jen způsob uložení
V systému jsou odděleny technická a archivní metadata (archivní metadata uložena v databázi u dokumentu)
Není třeba online přístup, zpřístupňují se elektronické kopie
5
Role IBM v oblasti archivace dokumentů
IBM se oblasti dlouhodobé archivace věnuje systematicky od pol.90.let
IBM je dlouhodobě nejvýznamnějším inovátorem v oblasti IT nové postupy a řešení pro oblast uchovávání dokumentů
Spolupodíleli jsme se na vytvoření referenčního modelu pro dlouhodobou archivaci OAIS
IBM přijala společně s Evropskou komisí standard pro fungování systémů el. spisové služby a modelových požadavků pro správu el. dokumentů - MoReq
vyvinuli jsme a uvolnili k volnému použití koncept UVC (Universal Virtual Computer)
Vyvinuli jsme unikátní nástroj na dlouhodobou archivaci dokumentů – DIAS
Vlastní SW pro oblast archivace dokumentů – IBM Content manager; FileNet
Máme za sebou zkušenosti z reálných projektů – knihovny a archivy
6
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
7
Struktura digitálního archivuFormátování & Poskytnutí
Vydavatel
Zákazník
Původce dokumentu
Katalogizačnípracovník
Systémová manipulace(emulace, migrace, kontrola integrity atd.)
Archivní zpracováníZpřístupnění
Digitální spisovna
Fyzické úložiště
dokumentů
8
Referenční Model OAIS „Open Archival Information System" – ISO 14721
4-1.
2
MANAGEMENT
Ingest
Data Management
SIP
AIPDIP
queriesresult sets
Access
PRODUCER
CONSUMER
Descriptive Info
AIP
orders
Descriptive Info
Archival Storage
Administration
Preservation Planning
9
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
10
Způsob uchovávání elektronických dokumentů
Migrace- mění se objekt, přizpůsobuje se novému prostředí- výhoda - relativní jednoduchost- nevýhody – možnost ztráty informace, šíření chyb
Emulace- zachovává se původní objekt, prostředí se emuluje- výhoda – zachování funkčnosti, vhodné pro komplexní dokumenty- nevýhoda – komplexnost emulovaného prostředí
UVC (Universal Virtual Computer) - tato metoda spojuje výhody migrace a emulace a eliminuje jejich
nevýhody- Navrženo IBM v roce 2000, ověřeno v projektu DIAS
11
Metoda UVC – ukládání
Dokument
Dekodér formátu(program pro UVC,
převádí dokument na jeho logickou podobu LDV)-vytvoří se 1x při ukládání
Definice UVC
Typ dokumentu
(obrázek, bitmapa, text…)Formát
dokumentu(např. tiff, png, jpeg, gif)
Popisformátu
LDS(Logical Document
scheme)-Obecný popis, schéma
Dokumentu jednoho typuVytvoří se 1x při ukládání
12
Metoda UVC – zpřístupnění
Dokument
Dekodér formátu(program pro UVC,
převádí dokument na jeho logickou podobu LDV)-vytvoří se 1x při ukládání
Definice UVC
Prohlížečformátu
LDV formát (např. XML) prohlíženo pomocí
LDS
Zákazník
13
Životní cyklus ED a procesy v digitálním archivu Vstup dokumentu do digitálního archivu
- Přijetí k archivaci, validace dokumentu, přiřazení identifikace- Způsob uchování, migrace na archivní formát- Generování technických metadat, získání a úprava popisných metadat- Publikace v katalogu, vložení do archivního systému, notifikace o vložení
Zpřístupnění dokumentu z digitálního archivu- Vyhledání dokumentu v katalogu- Žádost o dokument- Ověření přístupu a autorizace- Získání dokumentu z archivního systému- Migrace na zobrazovací formát, či zobrazení dokumentu přímo
Údržba dat- Zajištění uchovávání a případně manipulace s ED- Zánik dokumentu, skartace- Proces uchovávání nezměněné podoby, záloha dat
14
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
15
Vytvoření DIAS řešení v roce 2004
Rostoucí zájem na řešení pro dlouhodobé uchování informací
DIAS je vytvořen na základě řešení pro Národní knihovnu v Holandsku (KB) a sestává z :- jádro řešení DIAS-Core - specifické komponenty navržené pro Národní knihovnu (mohou být použity i ostatními klienty customizace dle potřeb klienta)
DIAS byl vytvořen IBM na základě modifikace OAIS vytvořené v Networked European Deposit Library (EU-Projekt 2000 – 2002)
Vytvoření skupiny uživatelů DIAS společné rozhodování na vývoji a prioritizaci budoucích požadavků, tvorba jediného standardu DIAS řešení
16
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
17
Archivační systém - Návrh a dodávka
Provoz a rozvoj systémuna 10 let
Studie & Výzkumohledně strategie dlouhodobé archivace
Pilotní systém na archivaci -
Návrh a dodávka
DNEP – Pilot archivačního systému (Deposit systém of Netherlands Electronic publications)
Implementace DIAS v1
DIAS pro Národní knihovnu Holandsko (Koninklijke Bibliothek)
18
Co to je kopal projekt? Projekt zastřešený Spolkovým ministrstvem pro vzdělání a výzkum (BMBF) Trvání : 01/07/2004 – 30/06/2007 Cíl : vývoj řešení a potřebné infrastruktury pro dlouhodobé uchovávání
elektronických publikací Produkt : DIAS-Core
Partneři projektu: Die Deutsche Bibliothek (DDB) - Frankfurt - project management Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB) Gesellchaft für wissenschafliche Datenverarbeitung (GWDG) IBM Deutschland GmbH
kopal projekt
19
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
20
DIAS : Architektura
DIAS-Core(OAIS model)
Získání&
Uložení
Poskytnutí & Získání Formátování & Poskytnutí
ISIP IDIPIngest
Data Management
Přístup
Archivní Storage
Plánování uchování
Administrace
PreservationProcessor
PreservationToolbox
Bibliografickýkatalog
Sběr&
Sklizeň
Poskytnutí
Hledání&
Vyvolání
Vydavatel Zákazník
Bibliografickýpopis
SecurityAutentizačníslužby
Uživatelské skupiny&
Uživatelská práva
Autorizačníslužby
ICIP ICSR
Katalogizačnípracovník
Pre-process Post-process
21
Komponenty řešení DIAS
ISIP IDIP
Ingest Access
Archival Storage
Preservation Planning
Administration
CM Resource Manager TSM Storage Server
Loader Retriever
Data Management
AccessManager
CM Library Server Logging
Reporting
Preservation Manager
Monitoring and Control
22
DIAS-Core: Aplikační architektura
Client Layer
Midtier Layer
Server Layer
Physical Storage Layer
Admin Client
Admin Access Manager Server
Retriever Client
Retriever
DB2 CM LS CM RM1..n
TapeMagnetic
Disk
SAN
Loader
TSM
Optical
Disk
Access ManagerLoggerPersistent
Identifier
Generator
Monitoring & Control
23
DIAS-Core: Uložení a struktura metadat
structMapdiv
fileSec
fileGrp
file
amdSec techMD
File Section
Administrativní metadata
Structurální mapa
mdWrap
FLocat
Popisná metadata
dmdSecmdWrap
dmdSecmdWrap
LmerObject
digiprovMDmdWrap
LmerProcessFyzicky uložené
soubory
fptr
techMDmdWrap
LmerFile
digiprovMDmdWrap
LmerProcess
24
Používané standardy a HW / SW
DIAS řešení je vytvořeno na základě IBM Content manager for Mutiplatforms
Využívá open standardy – J2EE, HTTP, HTML, FTP a XML
Možné HW platformy – IBM AIX, Sun Solaris, Win2000, Linux
SW požadavky – IBM Content Manager for Multiplatforms, IBM Information Integrator, Business Objects, WebIntelligence
25
Agenda
Základní principy archivace, role IBM
Struktura digitálního archivu
Uchovávací metody pro dlouhodobou archivaci
Vývoj DIAS na základě dlouhodobých potřeb klientů
Implementované projekty
Popis řešení DIAS
Typický scénář při implementaci
26
Klíčové problémy při řešení systému dlouhodobé archivace
Typy vstupních souborů které budou zpracovávány
Jak systém rozčlenit na jednotlivé samostatné moduly?
Jak rozdělit objekty s digitálním obsahem na archivní soubory (AIP)?
Požadavky na přijímaná a získávaná data (SIP)
Požadavky na vlastní popis formátů SIP, AIP and DIP
Management obsahu bibliografických metadat
Management uchování technických metadat
27
Komplexnost a datové typy
Datové typy
Komplexnost
Statická data• Závislá pouze na aplikaci prohlížeče• Migrace formátu uchová digitální obkekt• Samostatný digitální objekt
Aplikace / CDROM:• závislé na operačním systému a na
perifériích• Potřebuje interakci s uživatelem• Potentciální závislost na sw –
ovladače, knihovny atd.
Webové stránky:• Dynamicky generované stránky• Proměnlivé externí odkazy• Komplikace – bezpečnost webu• Potřebuje prostředí web serveru
28
Strategie při odlišných prioritách řešení
Rozpad na moduly Rozčlenění AIP SIP požadavky Vlastní popis formátů Obsah bibliografických metadat Uchování technických metadat
Pohled zákazníka
Cesta k získání dat (složitost)Obsah a kvalita metadatBezpečnost (identifikace, autentizace, autorizace)
Pohled dodavatele
Quality assuranceAutomatické získání dat
Bezpečnost (identifikace, autentizace, autorizace)
Pohled archivátora
Uchování médiíTechnická metadata
Nástroje na migraci datNástroje na emulaci dat
29
Typický postup při implementaci DIAS
Analýza požadavkůProjekt začíná analýzou požadavků, fit-gap analýzou a projekcí pokrytí požadavků řešením DIAS
Případný aplikační vývojNové kompomenty které mají být navrženy, vytvořeny a otestovány
Návrh a implementace infrastrukturyDefinice a implementace prostředí DIAS u klienta, dle požadovaného návrhu infrastruktury
Dodávka řešení
Akceptační testyOdsouhlasení klientem že systém běží dle požadavků a přání
30
Důležité odkazy k IBM řešení dlouhodobé archivace :
DIAS řešení: http://www.ibm.com/nl/dias/
IBM POC (demo) archivace: http://www.alphaworks.ibm.com/tech/uvc
REFERENCE:
Královská knihovna Holandsko - DIAS: http://www.kb.nl/site/sitemap-en.html
Německá knihovna – projekt Kopal: http://kopal.langzeitarchivierung.de/
31
Reference ohledně dlouhdodobé archivace Raymond Lorie and Raymond J. van Diessen: Long-Term Preservation of Complex
Processes in IS&T Archiving Conference, Washington, DC, April 26-29, 2005. Hoeven, J.R. van der, Diessen, R.J. van en Meer, K. van der, Development of a
Universal Virtual Computer (UVC) for long-term preservation of digital objects, Journal of Information Science, vol. 31(3), p. 196-208, 2005.
Raymond van Diessen and Raymond Lorie, UVC: A Universal Computer for Long-Term Preservation of Digital Information, RJ 10338, IBM Almaden Research Center, San Jose, CA, 2005
Eric Oltmans, Raymond J. van Diessen, Hilde van Wijngaarden: Preservation Functionality in a Digital Archive in ACM/IEEE Joint Conference on Digital Libraries,Tucson, AZ, June 7-11, 2004
Raymond J. van Diessen and Titia van der Werf - Davelaar: Authenticity in a Digital Environment, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-155-8
Raymond J. van Diessen: Preservation Requirements in a Deposit System, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-156-6
Raymond J. van Diessen and Ben J. van Rijnsoever: Managing Media Migration in a Deposit System, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-158-2
Raymond J. van Diessen and Johan F. Steenbakkers: The Long-Term Preservation Study of the DNEP Project - an Overview of the Results, in: IBM / KB Long-term Preservation Study Report Series, IBM Global Services Netherlands, 2002, ISBN/ISSN: 90-6259-154-X