View
854
Download
2
Category
Preview:
Citation preview
Dlouhodobá ochrana digitálních informací v Národním archivu
Nového Zélandu
Jan HutařDigital Preservation Analyst
Archives New Zealand / Te Rua Mahara o te Kāwanatanga
Praha 27.5.2015
Témata
• Úvod – Archives New Zealand• Digital Continuity – vývoj, projekty• Současný stav digitálního archivu• Infrastructure as a Service • Digital Preservation as a Service• Plánování a akce dlouhodobé ochrany• Born- digital dokumenty a jejich transfer• Čemu dalšímu se věnujeme?
4
Archives New Zealand
• zodpovědnost za veřejné archivy (státní správa)• 125 zaměstnanců• centrální archiv a 3 regionální pobočky• rozpočet 25 mil. NZD (380 mil. Kč) na rok• 96 km papírových archiválií• 2.4 milionu fotografií a negativů• 552.000 map a plánů • 21.500 filmových kotoučů• 1.000 video pásek atd.
Praha, 21.2.2013 5http://upload.wikimedia.org/wikipedia/commons/8/80/Archives_New_Zealand_building_in_Wellington.JPG
7
Public Record Act 2005
• zahrnuty i dokumenty v digitální podobě• získávat, uchovat, zpřístupňovat• agentury musí posílat dokumenty starší 25 let do archivu
(skartační řízení atd.)• „Informace z vládního sektoru identifikované jako
archiválie musí být bezpečně dlouhodobě chráněny tak, aby se neztratily, nebyly pozměněny nebo neoprávněně užívány. Musejí zůstat vyhledatelné a čitelné, procesy a systémy toto zajišťující musejí být nenáročné na náklady a údržbu a musejí vyhovovat uživatelům.“
• informace musí být autentické – audit událostí
9
Digital Continuity v Archives NZ
• Public Record Act 2005 > plán > získat/vychovat odborníky pro digitální archiválie, ERDM systémy apod.
• nepřidávat tuto problematiku stávajícím archivářům • 2006 vzniklo oddělení Digital Continuity• 2007 schváleno financování tohoto oddělení v rámci vládní
podpory uchování digitálních informací • 2008 – vznikl dočasný digitální archiv IDA• 2009 - první hlavní výstup akční plán - Digital Continuity
Action Plan, DCAP – v platnosti dodnes
10
IDA (Interim Digital Archive)
• IDA – dočasné řešení pro data z digitalizace, 2008-2012, 45TB– Fedora SW na správu dat– žádné procesy dlouhodobé ochrany (identifikace
formátů etc.)– ochrana bit-streamu, kontrola přístupů, kontr. součty
apod. – propojení do systému na popis archiválií, vyhledávání a
zpřístupnění (Archway Staff a Public)• 2012-2013 migrace dat do LTP systému Rosetta
11
Digital Continuity Action Plan
• schválen vládou v roce 2009• cíle:
– poskytnutí metodiky– vytvoření standardů, návodů– sdílení znalostí a další podpory vládním a jiným veřejným institucím
• vedoucí úlohu v provádění akčního plánu má Archiv NZ ve spolupráci s regiony
• Government Digital Archive Programme (GDAP) byl jedním z výsledků akčního plánu
12
Government Digital Archive Programme – GDAP (1)
• projekt na implementaci digitálního archivu + transformaci ANZ
• instituce veřejného i soukromého sektoru přecházejí na digitální dokumenty– ANZ nebylo schopno digitální dokumenty
organizovaně přijmout, zpracovat, zpřístupnit• dlouhodobé uchování – samostatný problém• tj. celková neschopnost dostát povinnostem z
Public Record Act 2005
13
Government Digital Archive Programme – GDAP (2)
• projekt na 4 roky (2010-2013); náklady 12,6 mil. NZD (200 milionů Kč) na 4 roky (přechod na běžný provoz)
• financování po 2014 je plánovanou součástí rozpočtu vlády• od počátku byla cílem aktivní dlouhodobá ochrana (vs.
pasivní ochrana bit-streamu – IDA)• cílem co nejrychlejší implementace existujícího a
funkčního LTP systému + transformace instituce + změnit myšlení lidí i původců + umožnit born-digital transfery
GDAP výsledky• máme digitální archiv – Government Digital Archive • máme long-term preservation systém Rosetta• sdílený s NK (infrastruktura, částečně i nastavení)• migrace z dočasného archivu dokončena• jsme schopni poskytnout dlouhodobou ochranu pro
„cokoliv“• digitalizátoři vkládají data do Rosetty/GDA• obsah GDA je vyhledatelný a dostupný online• procesy, policies, organizační změny• proces pro born-digital transfer nedotažen
16
Personální obsazení – provoz LTP systému
• 1 PÚ admin – primární nastavení infrastruktury pro LTP Rosetta; správa serverů a databází; skripty na hromadné opravy dat z migrace co se chytí do TAW; architektury etc.
• 2 PÚ DP analytik – nastavení LTP systému, koncepce ochrany, policies, specialisté na formáty dat; komunikuje s archiváři co chtějí, řeší TA problémy, plány rozvoje funkcionality LTP, spolupráce s ExL, analýzy formátů …
• 0,5 PÚ sys admin - DB, servery, storage, restarty, updaty apod. (NK NZ)
• 2 PÚ digitální archivář (recordkeeping) - domluva transferů s původci, analýzy archivního popisu, mapování metadat, archivní standardy, omezená manipulace s daty v LTP
• 0,2 PÚ vývojář – stará se o aplikaci pro ingest (vývoj, opravy atd.)
17
Podpora LTP a Digital Continuity
NK NZ • sys admin na úrovni consorcia - DB, servery, storage,
restarty, updaty apod. – 2x• DP analytici – 2 x• testeři a data management 2x
DIA Technology services and support• vývojář – vztah klient/služba – dostupní 3 vývojáři• HW a SW infrastruktura, nákupy• podpora aplikací (Ingestor, Archway)
Stačí mít LTP systém?
• je vlastnictví LTP systému řešením dlouhodobé ochrany?
• LTP je první krok, nezbytní jsou lidé, procesy, které LTP využijí
• Rolls Royce bez garáže, bez mechanika a benzínu daleko nedojede
• nutné jsou znalosti a podpora vedení• DP závisí na lidech a zájmu instituce
Standardy
• národní standard pro metadata a formáty dig. dokumentů• ISO 16363 - Audit and certification of trustworthy digital
repositories– budoucnost– není v současné době prioritou– dělali jsme externí TRAC 2011 – jen pro zjištění stavu
• ISO 14721 - Open archival information system (OAIS) – LTP Rosetta vznikla dle OAIS v NK NZ– cílem bylo a stále je mít kompletní OAIS systém – nejen podle OAIS –
systém se všemi moduly a funkcionalitou
• ISO 27000 – Information Security Management– poskytovatel HW a SW infrastruktury – externí firma
Preservation Policies• sada policies pro podporu fungování LTP systému• 20 na seznamu, 6 hotových, 4 rozpracované• sdílený proces a policies s NK NZ• tvorba - zdlouhavý proces - draft, připomínkování, schválení• Digital Preservation Strategy obecná > detaily jsou v policies
– Pre-conditioning policy– Access policy– Preservation action policy– Metadata policy– Virus (Malware) policy– Fixity policy etc.
• poskytují rámec pro rozhodování – nemusíme o stejném problému uvažovat znovu a znovu
Procesní dokumentace
• v GDAP vznikla a dále se vyvíjí• procesy jsou zdokumentované• rozhodnutí jsou uchovávána a následována (precedens)• knowledge base o jednotlivých problémech (formáty, Rosetta)• security, eskalace, externí komunikace, nastavení, data
management (vymazání z archivu apod.)• formuláře• nástroje Confluence, JIRA
Autenticita dokumentů
• na NZ neexistují elektronická razítka ani elektronické podpisy• razítka a podpisy jsou DP komunitou vnímany jako další vrstva
problémů pro dlouhodobou ochranu (jako např. DRM)• Archive NZ zodpovídá za autenticitu dokumentu od okamžiku
kdy se stane jeho kustodem (tedy oficiální transfer)– musí přijít s kontrolním součtem– LTP systém vytváří na vše metadata událostí (eventy)– preservation action musí zachovat autenticitu dokumentu (tj.
intelektuální obsah, ne nutně formu)
• ve zkratce – ANZ musí být schopen původci a uživateli doložit, že dokument je autentický, tedy obsah je stejný jaký byl v okamžiku předání do archivu
Government Digital Archive –současný stav
• sdílení LTP Rosetta s NK NZ – 1 konsorcium, 2 instituce
• 3 prostředíprodukčnítestovacívývojářské
Statistiky – obsah GDA• 4,500,000 individuálních souborů (přírůstek 1.100.000 za
poslední rok)• 175.000 logických entit (přírůstek 40.000)• hlavně digitalizované věci• nově born-digital• 27 PUIDs (duben 2015)
2011
-201
2
2012
-201
3
2013
-201
4
2014
-201
50
1,000,000
2,000,000
3,000,000
4,000,000
5,000,000
Total Intellectual Entities and Files in Permanent Repository
Intelectual Entities
Files
Financial Year
Statistiky - storage• 70 TB květen 2015 – dokumenty, ne DB etc.• 3 zálohy
2010-2011 2011-2012 2012-2013 2013-2014 2014-2015Vę660ob660cný
Vę660ob660cný
Vę660ob660cný
Total Size of Permanent Repository
Financial Year
(TB
)
Infrastructure as a Service (1)
• Infrastructure as a Service – pro celou vládu, vede DIA• zastřešuje Storage aaS a Backup aaS• vládní politika – saving money through investment• zbavit se in-house provozovaných úložišť a infrastruktury,
přesun k modelu poskytování a využívání služeb• přesun dat (2012/2013) > přesun serverů/aplikací (2015)
Infrastructure as a Service (2)
• poskytovatel – konsorcium 3 firem (Revera)• vztahy: IT, instituce a poskytovatel• nový koncept – NZ jeden z prvních dig.
archivů, kt. outsourcoval data soukromé firmě
Infrastructure as a Service (3)
• cloud je zaklínadlo (cloud = úspora peněz?)– spíše ne v případě Amazon, MS cloud etc
• vládní cloud – určitý druh soukromého cloudu– garance ze strany vlády– SLA na služby– unifikace – vše pod jednou střechou (není synonymem
pro utíkající miliony)– cíl: ušetřit finance– vztah instituce a cloud – zákazník/klient– flexibilita
IaaS výhodypo 3 letech využívání• IaaS přišlo pro ANZ/NLNZ v pravou chvíli (obměna storage zařízení)• „neomezená“ kapacita• neustále obnovovaný HW a technologie• záruka „stálého“ standardu• tailor made řešení poskytovatele vs. in-house IT• flexibilita – potřebujeme víc prostoru, můžeme ho mít hned• volitelnost služeb – zálohy, atd.• transparentnost nákladů – platby 1 poskytovateli• security• podpora• normy/audity jako ISO 27000 etc jsou starostí dodavatele• SLA katalogy
DPaaS nevýhody/výzvy• střet kultur – IT a knihovníci/achiváři• IT mají sklon dělat rozhodnutí bez knihovníků/archivářů• výzva je být účasten jednání, mít podíl na rozhodování• pro IT je uvažování knihovníků/archivářů hodně matoucí
– nechápali proč chceme tolik detailů o řešení a účtování, normální zákazník nechá vše na poskytovateli
– knihovník/archivář chce mít větší míru kontroly nad uloženými informacemi než je běžné
– z pohledu IT se knihovníci/archiváři pletou do věcí co nemusejí• účtování – změna z nákupu na službu (capex > opex), účetní pravidla
nepřipravena, nesprávné položky v rozpočtu• těžké rozklíčovat „jeden účet“ od poskytovatele• instituce vidí, kolik to vlastně celé stojí (výhoda i nevýhoda)
IaaS – odlišné nároky knihoven/archivů?
• z pohledu IT poskytovatele jsou archiváři a knihovníci „netypičtí zákazníci“
• více podrobností o uložených datech• zájem na neměnnosti dat, zárukách – asi více než
běžné IT• ztráta souboru a jeho náhrada je problém z pohledu
autenticity etc, pro normálního zákazníka ne• workload může být opravdu velký
Digital Preservation as a Service (1)
• příprava od 2013• Finsko, Francie, Bavorsko, NZ?• jaro 2015 série workshopů s CEO a Informačními
manažery ministerstev, velkých firem a institucí• prezentace projektu, dotazníky o zájmu o tuto službu
– výsledky do konce 2015 > business case
Digital Preservation as a Service (2)
• DPaaS má podporu ministerstev, je ale nutno vše naplánovat– kdo komu– rozsah služeb– rozsah změn infrastruktury– organizační otázky – NK, ANZ? Nová organizační entita?
• Rosetta je na toto řešení připravena• DPaaS bude mít přínos i pro NK a ANZ – zákazník platí
za službu, nutno vyvinout nástroje pro konkrétní formáty > ty pak využije i NK a ANZ
Preservation Planning a Preservation Action (1)
• plánování dlouhodobé ochrany a akce dlouhodobé ochrany– plánování zatím omezeně – klestíme si cestu procesem,
problém není v technologiích– NK NZ ostrý provoz 2008, preservation planning reálně v
roce 2014 (Wordstar)– vytváříme plán na následující 2 roky– ingest obsahuje krok „risk assessment“, ten ale potřebuje
intelektuální vklad (znalost) přidaná do formátové knihovny– ingest má kroky, které PP napomáhají (identifikace formátů,
validace apod.)
Preservation Planning a Preservation Action (2)
• tedy plánování zatím probíhá spíše na bázi:– co máme starého? co nemůžeme otevřít? z čeho nemůžeme
vytvořit uživatelskou kopii? Jaké soubory mají technický problém?
– to ale může platit i pro formát, který není technicky zastaralý a stále se užívá, jen není běžný (targa, ppp)
– otázka: kdy se proces vytváření uživatelské kopie stane procesem vytváření masteru, tedy ochrany a tvorby nových PM?
– kdy se problém se zpřístupněním promění v problém s ochranou?
• když specialista má problém formát otevřít?
Preservation Planning a Preservation Action (3)
• ideální proces by byl – dát znalosti o rizicích do formátové knihovny Rosetty > systém je na ingestu vyhodnotí > a ozve se během ingestu nebo později
• to se ale neděje: informace nezvládáme do systému doplňovat - takže děláme spíše ad hoc přístup – víme že formát xy je starý > vyhledat > naplánovat migraci > test v systému
42
Born digital transfery
• GDAP (2011-2014) – 2 cíle– vybudovat digitální archiv (LTP systém)– vybudovat schopnost přijmout, zpracovat a dlouhodobě
ochránit born-digital archiválie• Royal Commissions pilotní transfery
– příliš velké sousto, reakce na akutní stav– nový informační model, vývojáři dostupní v projektu– Pike River RC obsahovala 400.000 souborů
• GDAP skončil a cíl 2 nebyl splněn• rozhodnutí začít znovu, v malém, se stávajícími nástroji a
‘no extra money’
43
eAccessions
• 5 starých transferů, uloženo na SAN, přijato v letech 2008-2009 > eAccessions E1 až E5
• hlavně kancelářské dokumenty z ministerstev• E1 – 175 souborů, 2002-2008, 7 formátů• E4 – 1295 souborů, 2002-2008, 12 formátů• E6 – 84 Tiff souborů• E2 – 2519 souborů, 1999-2008, 22 formátů• E3 – 1743 souborů, 2000-2009, 12 formátů
44
Analýza eAccessions
Windows Bitmap 3.0 Microsoft Powerpoint Presentation 97-2003
Windows Media Audio no value Windows Media Video no value
Acrobat PDF 1.2 - Portable Document Format 1.2 Acrobat PDF 1.3 - Portable Document Format 1.3
Acrobat PDF 1.4 - Portable Document Format 1.4 Acrobat PDF 1.6 - Portable Document Format 1.6
Autorun Configuration File no value Microsoft Word Document 6.0/95
Graphics Interchange Format 89a Microsoft Word Document 97-2003
Raw JPEG Stream no value Microsoft Word for Windows 2007 onwards
JPEG File Interchange Format 1.00 JPEG File Interchange Format 1.01
JPEG File Interchange Format 1.02 Microsoft Office Owner File no value
Rich Text Format 1.5-1.6 Adobe InDesign Document CS2
Adobe Illustrator 9.0 Vector Markup Language no value
Microsoft Excel 97 Workbook (xls) 8 Serif PagePlus Publication 9
Thumbs DB file XP Hypertext Markup Language no value
Hypertext Markup Language 4.0 Truevision TGA Bitmap 1.0
Exchangeable Image File Format (Compressed) 2.1 Exchangeable Image File Format (Compressed) 2.2
Windows Portable Executable no value Microsoft Windows Shortcut no value
Tagged Image File Format
95% MS Word 97-2003
45
Jak dostat born-digital do LTP?
• naše ingest aplikace je designovaná pro digitalizované dokumenty s metadaty
• test sbírky nemají žádná metadata• nutno využít název souboru, jména složek• využití CSV ingestu (1 z mnoha způsobů ingestu v
Rosettě)
47
Nástroje využívané v transferu
• DROID• Archway šablona na import metadat• in-house:
– CSV/Import generator (python skripty) na:• vytvoření importního CSV pro Archway (názvy etc)• vytvoření CSV pro Rosettu• validační procesy
– sqlite analysis tool• provádí analýzu souborů, html výstup
49
Nalezené problémy se soubory• chybějící přípony• nesprávné přípony• „nové“ formáty (DROID nezná)• neznámé formáty (nelze identifikovat)• nejednoznačné signatures (.wbk, .dot, Adobe Illustrator)• prázdné složky• „prázdné“ soubory (nula bytů)• duplikáty – soubory – stejný kontrolní součet• duplicitní názvy souborů• chybějící obsah – externí vazby, např. na gify• dynamický obsah – datum ve Wordu• citlivé údaje
50
Poučení - analýza souborů
• ruční analýza souborů je extrémně časově náročná, i pokud je souborů málo (stovky)
• různé nástroje extrahují různá metadata – čím více nástrojů se použije, tím přesnější analýza
• nedostatek a „nedospělost“ dostupných nástrojů, nekonzistentnost
• na některé věci nástroje nejsou – chybějící obsah, dynamický obsah, nebo jsme je nestihli otestovat
Z pohledu archiváře
• archivní zpracování digitálních dat je jiné – nelze použít běžné postupy z papírového světa – nové problémy
• co je a co není archiválie? duplikáty v různých složkách – různý kontext, prázdné soubory aj.
• zpracování a pořádání „po letech“ je problémové bez podpory původce – např. různé verze jednoho dokumentu
Obecné postřehy• analýza souborů je první krok – nutno vědět co máme• ušetří práci v LTP – vše je možno připravit pro hladký ingest• nutno použít testovací prostředí – jak bude reagovat LTP systém?
nalezne další problémy?• metoda přes CSV je polo automatizovaná – náchylné na lidskou
chybu • keep it simple – pouze základní popisná metadata, žádná
metadata nebyla vytvářena ručně• autenticita – audit událostí, metadata událostí – toto je klíčové a
vlastně zdroj všech komplikací• http://www.archway.archives.govt.nz/ViewFullItem.do?code
=24684617&digital=yes
Format Library Working Group (1)
• NK NZ a ANZ jsou správci formátové knihovny pro Rosettu
• příprava updatů globální knihovny pro Rosetta zákazníky
• kooperace s Ex Libris a TNA (Pronom)• posuzování navržených změn v knihovně
Format Library Working Group (2)
• formátová knihovna je „jádro“ LTP systému• kontroluje mnoho aspektů funkcionality Rosetty• je to knowledge base, která řídí a vede aktivity
dlouhodobé ochrany• je sdílená mezi všemi instalacemi Rosetty• Rosetta má lokální a globální formátovou knihovnu
Format Library Working Group (3)
• Formátová knihovna obsahuje:– informace o formátech dat– extraktorech metadat (i samotné pluginy)– risk management– seznam dostupných aplikací– seznamy tzv. signifikantních vlastností– pravidla – pro identifikaci formátů, validace, extrakce
metadat– mapování metadat z extraktorů do vnitřního
metadatového schématu (DNX)
Výzkum
• PREMIS – PREMIS conformance WG• Ochrana databází• Formáty dat – vytváření nových signatures pro
PRONOM• Problematické soubory• Podpora digitalizace – doporučení formátů, validace,
testování výstupů pro digitalizační projekty
New Zealand Defence Force - NZDF
• velký projekt digitalizace 3 miliony stran, 160.000 archivních dokumentů vojáků 1. sv. v.
• otevřena zajímavá debata – má vše digitalizované končit v GDA?
• začínáme uvažovat o různých úrovních ochrany • ingest 2012-2014 – podpora ingestu, workflow,
řešení problémů (TIFF a JP2)• vše dostupné online
http://archives.govt.nz/world-war-one
Digital Preservation Technical Registry
• snaha navrhnout nový registr pro DP – od 2013• NK NZ, ANZ, NARA, University of Portsmouth, NLA• pod hlavičkou organizace NSLA (National and State Libraries
of Australoasia)• obsahuje formáty dat, SW, HW, nosič a IO device ve
strukturální podobě• decentralizovaný registr – více institucí, každý může přispět• využitelný pro jakýkoliv LTP• mezinárodní review > v současné době se hledá vhodný
způsob financování• více viz iPRES 2014
Plány do budoucna• DPaaS – co se změní?• ingest dat z fyzických nosičů (127.000 souborů, 108
formátů, 15.000 neidentifikovaných souborů)• born-digital – CSV > XML • vyvinout a zapojit pluginy – extraktory, validátory,
prohlížeče• konsolidace storage nákladů – backupy etc.
Děkuji za pozornost
jan.hutar@dia.govt.nz
Použité a další zdroje k tématupoužité• http://mirror.dlib.org/dlib/march15/oliver/03oliver.html• http://www.imaging.org/ist/publications/reporter/articles/Rep28_3_ARCH2013_WU_PG176.pdf• https://www.nationalarchives.gov.uk/documents/archives/cloud-storage-guidance.pdf
relevatní zdroje• Peter McKinney , Steve Knight , Jay Gattuso , David Pearson , Libor Coufal , David Anderson , Janet Delve , Kevin De
Vorsey , Ross Spencer , Jan Hutař. Reimagining the Format Model: Introducing the Work of the NSLA Digital Preservation Technical Registry. New Review of Information Networking Vol. 19, Iss. 2, 2014. pp. 96-123. DOI:10.1080/13614576.2014.972718
• Jan Hutar, Ross Spencer, Libor Coufal, Kevin DeVorsey, Jay Gattuso, Steve Knight, Peter McKinney. Modelling file formats and technical environments using the NSLA Digital Preservation Technical Registry (DPTR). iPRES 2014, Melbourne 6-10. října 2014. s. 322-323. Workshop. ISBN 978-0-642-27881-4. http://ipres2014.org/sites/default/files/upload/iPres-Proceedings-final.pdf
• HUTAŘ, Jan. Archives New Zeland – budování digitálního archivu pro dlouhodobou ochranu digitálních dokumentů. Archivni casopis, vydava archivni sprava MV, rocnik 63, č. 1, 2013. s. 5-24.
• HUTAŘ, Jan. Archives New Zealand Migration from Fedora Commons to the Rosetta Digital Preservation System. iPRES 2013, 4.9. 2013 Lisabon. http://purl.pt/24107/1/iPres2013_PDF/iPres2013-Proceedings.pdf. p. 166-171. ISBN 978-972-565-493-4
• HUTAŘ, Jan. Assessing Digital Preservation Strategies. In International Council of Archives Congress 2012. Brisbane, 22. 8. 2012. 10 s. Dostupné z WWW: http://www.ica2012.com/files/data/Full%20papers%20upload/ica12Final00155.pdf
Recommended