62
Dlouhodobá ochrana digitálních informací v Národním archivu Nového Zélandu Jan Hutař Digital Preservation Analyst Archives New Zealand / Te Rua Mahara o te Kāwanatanga Praha 27.5.2015

Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na Novém Zélandu

Embed Size (px)

Citation preview

Dlouhodobá ochrana digitálních informací v Národním archivu

Nového Zélandu

Jan HutařDigital Preservation Analyst

Archives New Zealand / Te Rua Mahara o te Kāwanatanga

Praha 27.5.2015

Témata

• Úvod – Archives New Zealand• Digital Continuity – vývoj, projekty• Současný stav digitálního archivu• Infrastructure as a Service • Digital Preservation as a Service• Plánování a akce dlouhodobé ochrany• Born- digital dokumenty a jejich transfer• Čemu dalšímu se věnujeme?

Něco málo o Archives New Zealand

4

Archives New Zealand

• zodpovědnost za veřejné archivy (státní správa)• 125 zaměstnanců• centrální archiv a 3 regionální pobočky• rozpočet 25 mil. NZD (380 mil. Kč) na rok• 96 km papírových archiválií• 2.4 milionu fotografií a negativů• 552.000 map a plánů • 21.500 filmových kotoučů• 1.000 video pásek atd.

Praha, 21.2.2013 5http://upload.wikimedia.org/wikipedia/commons/8/80/Archives_New_Zealand_building_in_Wellington.JPG

6

Struktura Department of Internal Affairs

7

Public Record Act 2005

• zahrnuty i dokumenty v digitální podobě• získávat, uchovat, zpřístupňovat• agentury musí posílat dokumenty starší 25 let do archivu

(skartační řízení atd.)• „Informace z vládního sektoru identifikované jako

archiválie musí být bezpečně dlouhodobě chráněny tak, aby se neztratily, nebyly pozměněny nebo neoprávněně užívány. Musejí zůstat vyhledatelné a čitelné, procesy a systémy toto zajišťující musejí být nenáročné na náklady a údržbu a musejí vyhovovat uživatelům.“

• informace musí být autentické – audit událostí

Digital Continuity v Archives NZ

9

Digital Continuity v Archives NZ

• Public Record Act 2005 > plán > získat/vychovat odborníky pro digitální archiválie, ERDM systémy apod.

• nepřidávat tuto problematiku stávajícím archivářům • 2006 vzniklo oddělení Digital Continuity• 2007 schváleno financování tohoto oddělení v rámci vládní

podpory uchování digitálních informací • 2008 – vznikl dočasný digitální archiv IDA• 2009 - první hlavní výstup akční plán - Digital Continuity

Action Plan, DCAP – v platnosti dodnes

10

IDA (Interim Digital Archive)

• IDA – dočasné řešení pro data z digitalizace, 2008-2012, 45TB– Fedora SW na správu dat– žádné procesy dlouhodobé ochrany (identifikace

formátů etc.)– ochrana bit-streamu, kontrola přístupů, kontr. součty

apod. – propojení do systému na popis archiválií, vyhledávání a

zpřístupnění (Archway Staff a Public)• 2012-2013 migrace dat do LTP systému Rosetta

11

Digital Continuity Action Plan

• schválen vládou v roce 2009• cíle:

– poskytnutí metodiky– vytvoření standardů, návodů– sdílení znalostí a další podpory vládním a jiným veřejným institucím

• vedoucí úlohu v provádění akčního plánu má Archiv NZ ve spolupráci s regiony

• Government Digital Archive Programme (GDAP) byl jedním z výsledků akčního plánu

12

Government Digital Archive Programme – GDAP (1)

• projekt na implementaci digitálního archivu + transformaci ANZ

• instituce veřejného i soukromého sektoru přecházejí na digitální dokumenty– ANZ nebylo schopno digitální dokumenty

organizovaně přijmout, zpracovat, zpřístupnit• dlouhodobé uchování – samostatný problém• tj. celková neschopnost dostát povinnostem z

Public Record Act 2005

13

Government Digital Archive Programme – GDAP (2)

• projekt na 4 roky (2010-2013); náklady 12,6 mil. NZD (200 milionů Kč) na 4 roky (přechod na běžný provoz)

• financování po 2014 je plánovanou součástí rozpočtu vlády• od počátku byla cílem aktivní dlouhodobá ochrana (vs.

pasivní ochrana bit-streamu – IDA)• cílem co nejrychlejší implementace existujícího a

funkčního LTP systému + transformace instituce + změnit myšlení lidí i původců + umožnit born-digital transfery

GDAP výsledky• máme digitální archiv – Government Digital Archive • máme long-term preservation systém Rosetta• sdílený s NK (infrastruktura, částečně i nastavení)• migrace z dočasného archivu dokončena• jsme schopni poskytnout dlouhodobou ochranu pro

„cokoliv“• digitalizátoři vkládají data do Rosetty/GDA• obsah GDA je vyhledatelný a dostupný online• procesy, policies, organizační změny• proces pro born-digital transfer nedotažen

15

16

Personální obsazení – provoz LTP systému

• 1 PÚ admin – primární nastavení infrastruktury pro LTP Rosetta; správa serverů a databází; skripty na hromadné opravy dat z migrace co se chytí do TAW; architektury etc.

• 2 PÚ DP analytik – nastavení LTP systému, koncepce ochrany, policies, specialisté na formáty dat; komunikuje s archiváři co chtějí, řeší TA problémy, plány rozvoje funkcionality LTP, spolupráce s ExL, analýzy formátů …

• 0,5 PÚ sys admin - DB, servery, storage, restarty, updaty apod. (NK NZ)

• 2 PÚ digitální archivář (recordkeeping) - domluva transferů s původci, analýzy archivního popisu, mapování metadat, archivní standardy, omezená manipulace s daty v LTP

• 0,2 PÚ vývojář – stará se o aplikaci pro ingest (vývoj, opravy atd.)

17

Podpora LTP a Digital Continuity

NK NZ • sys admin na úrovni consorcia - DB, servery, storage,

restarty, updaty apod. – 2x• DP analytici – 2 x• testeři a data management 2x

DIA Technology services and support• vývojář – vztah klient/služba – dostupní 3 vývojáři• HW a SW infrastruktura, nákupy• podpora aplikací (Ingestor, Archway)

Stačí mít LTP systém?

• je vlastnictví LTP systému řešením dlouhodobé ochrany?

• LTP je první krok, nezbytní jsou lidé, procesy, které LTP využijí

• Rolls Royce bez garáže, bez mechanika a benzínu daleko nedojede

• nutné jsou znalosti a podpora vedení• DP závisí na lidech a zájmu instituce

Standardy

• národní standard pro metadata a formáty dig. dokumentů• ISO 16363 - Audit and certification of trustworthy digital

repositories– budoucnost– není v současné době prioritou– dělali jsme externí TRAC 2011 – jen pro zjištění stavu

• ISO 14721 - Open archival information system (OAIS) – LTP Rosetta vznikla dle OAIS v NK NZ– cílem bylo a stále je mít kompletní OAIS systém – nejen podle OAIS –

systém se všemi moduly a funkcionalitou

• ISO 27000 – Information Security Management– poskytovatel HW a SW infrastruktury – externí firma

Preservation Policies• sada policies pro podporu fungování LTP systému• 20 na seznamu, 6 hotových, 4 rozpracované• sdílený proces a policies s NK NZ• tvorba - zdlouhavý proces - draft, připomínkování, schválení• Digital Preservation Strategy obecná > detaily jsou v policies

– Pre-conditioning policy– Access policy– Preservation action policy– Metadata policy– Virus (Malware) policy– Fixity policy etc.

• poskytují rámec pro rozhodování – nemusíme o stejném problému uvažovat znovu a znovu

Procesní dokumentace

• v GDAP vznikla a dále se vyvíjí• procesy jsou zdokumentované• rozhodnutí jsou uchovávána a následována (precedens)• knowledge base o jednotlivých problémech (formáty, Rosetta)• security, eskalace, externí komunikace, nastavení, data

management (vymazání z archivu apod.)• formuláře• nástroje Confluence, JIRA

Autenticita dokumentů

• na NZ neexistují elektronická razítka ani elektronické podpisy• razítka a podpisy jsou DP komunitou vnímany jako další vrstva

problémů pro dlouhodobou ochranu (jako např. DRM)• Archive NZ zodpovídá za autenticitu dokumentu od okamžiku

kdy se stane jeho kustodem (tedy oficiální transfer)– musí přijít s kontrolním součtem– LTP systém vytváří na vše metadata událostí (eventy)– preservation action musí zachovat autenticitu dokumentu (tj.

intelektuální obsah, ne nutně formu)

• ve zkratce – ANZ musí být schopen původci a uživateli doložit, že dokument je autentický, tedy obsah je stejný jaký byl v okamžiku předání do archivu

Government Digital Archive –současný stav

• sdílení LTP Rosetta s NK NZ – 1 konsorcium, 2 instituce

• 3 prostředíprodukčnítestovacívývojářské

Statistiky – obsah GDA• 4,500,000 individuálních souborů (přírůstek 1.100.000 za

poslední rok)• 175.000 logických entit (přírůstek 40.000)• hlavně digitalizované věci• nově born-digital• 27 PUIDs (duben 2015)

2011

-201

2

2012

-201

3

2013

-201

4

2014

-201

50

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

Total Intellectual Entities and Files in Permanent Repository

Intelectual Entities

Files

Financial Year

Statistiky - storage• 70 TB květen 2015 – dokumenty, ne DB etc.• 3 zálohy

2010-2011 2011-2012 2012-2013 2013-2014 2014-2015Vę660ob660cný

Vę660ob660cný

Vę660ob660cný

Total Size of Permanent Repository

Financial Year

(TB

)

Formáty dat - přehled

Formáty dat – 1%

Infrastructure as a Servicea

Digital Preservation as a Service

Infrastructure as a Service (1)

• Infrastructure as a Service – pro celou vládu, vede DIA• zastřešuje Storage aaS a Backup aaS• vládní politika – saving money through investment• zbavit se in-house provozovaných úložišť a infrastruktury,

přesun k modelu poskytování a využívání služeb• přesun dat (2012/2013) > přesun serverů/aplikací (2015)

Infrastructure as a Service (2)

• poskytovatel – konsorcium 3 firem (Revera)• vztahy: IT, instituce a poskytovatel• nový koncept – NZ jeden z prvních dig.

archivů, kt. outsourcoval data soukromé firmě

Infrastructure as a Service (3)

• cloud je zaklínadlo (cloud = úspora peněz?)– spíše ne v případě Amazon, MS cloud etc

• vládní cloud – určitý druh soukromého cloudu– garance ze strany vlády– SLA na služby– unifikace – vše pod jednou střechou (není synonymem

pro utíkající miliony)– cíl: ušetřit finance– vztah instituce a cloud – zákazník/klient– flexibilita

IaaS výhodypo 3 letech využívání• IaaS přišlo pro ANZ/NLNZ v pravou chvíli (obměna storage zařízení)• „neomezená“ kapacita• neustále obnovovaný HW a technologie• záruka „stálého“ standardu• tailor made řešení poskytovatele vs. in-house IT• flexibilita – potřebujeme víc prostoru, můžeme ho mít hned• volitelnost služeb – zálohy, atd.• transparentnost nákladů – platby 1 poskytovateli• security• podpora• normy/audity jako ISO 27000 etc jsou starostí dodavatele• SLA katalogy

DPaaS nevýhody/výzvy• střet kultur – IT a knihovníci/achiváři• IT mají sklon dělat rozhodnutí bez knihovníků/archivářů• výzva je být účasten jednání, mít podíl na rozhodování• pro IT je uvažování knihovníků/archivářů hodně matoucí

– nechápali proč chceme tolik detailů o řešení a účtování, normální zákazník nechá vše na poskytovateli

– knihovník/archivář chce mít větší míru kontroly nad uloženými informacemi než je běžné

– z pohledu IT se knihovníci/archiváři pletou do věcí co nemusejí• účtování – změna z nákupu na službu (capex > opex), účetní pravidla

nepřipravena, nesprávné položky v rozpočtu• těžké rozklíčovat „jeden účet“ od poskytovatele• instituce vidí, kolik to vlastně celé stojí (výhoda i nevýhoda)

IaaS – odlišné nároky knihoven/archivů?

• z pohledu IT poskytovatele jsou archiváři a knihovníci „netypičtí zákazníci“

• více podrobností o uložených datech• zájem na neměnnosti dat, zárukách – asi více než

běžné IT• ztráta souboru a jeho náhrada je problém z pohledu

autenticity etc, pro normálního zákazníka ne• workload může být opravdu velký

Digital Preservation as a Service (1)

• příprava od 2013• Finsko, Francie, Bavorsko, NZ?• jaro 2015 série workshopů s CEO a Informačními

manažery ministerstev, velkých firem a institucí• prezentace projektu, dotazníky o zájmu o tuto službu

– výsledky do konce 2015 > business case

Digital Preservation as a Service (2)

• DPaaS má podporu ministerstev, je ale nutno vše naplánovat– kdo komu– rozsah služeb– rozsah změn infrastruktury– organizační otázky – NK, ANZ? Nová organizační entita?

• Rosetta je na toto řešení připravena• DPaaS bude mít přínos i pro NK a ANZ – zákazník platí

za službu, nutno vyvinout nástroje pro konkrétní formáty > ty pak využije i NK a ANZ

Plánování a akce dlouhodobé ochrany

Preservation Planning a Preservation Action (1)

• plánování dlouhodobé ochrany a akce dlouhodobé ochrany– plánování zatím omezeně – klestíme si cestu procesem,

problém není v technologiích– NK NZ ostrý provoz 2008, preservation planning reálně v

roce 2014 (Wordstar)– vytváříme plán na následující 2 roky– ingest obsahuje krok „risk assessment“, ten ale potřebuje

intelektuální vklad (znalost) přidaná do formátové knihovny– ingest má kroky, které PP napomáhají (identifikace formátů,

validace apod.)

Preservation Planning a Preservation Action (2)

• tedy plánování zatím probíhá spíše na bázi:– co máme starého? co nemůžeme otevřít? z čeho nemůžeme

vytvořit uživatelskou kopii? Jaké soubory mají technický problém?

– to ale může platit i pro formát, který není technicky zastaralý a stále se užívá, jen není běžný (targa, ppp)

– otázka: kdy se proces vytváření uživatelské kopie stane procesem vytváření masteru, tedy ochrany a tvorby nových PM?

– kdy se problém se zpřístupněním promění v problém s ochranou?

• když specialista má problém formát otevřít?

Preservation Planning a Preservation Action (3)

• ideální proces by byl – dát znalosti o rizicích do formátové knihovny Rosetty > systém je na ingestu vyhodnotí > a ozve se během ingestu nebo později

• to se ale neděje: informace nezvládáme do systému doplňovat - takže děláme spíše ad hoc přístup – víme že formát xy je starý > vyhledat > naplánovat migraci > test v systému

Born digital dokumenty

42

Born digital transfery

• GDAP (2011-2014) – 2 cíle– vybudovat digitální archiv (LTP systém)– vybudovat schopnost přijmout, zpracovat a dlouhodobě

ochránit born-digital archiválie• Royal Commissions pilotní transfery

– příliš velké sousto, reakce na akutní stav– nový informační model, vývojáři dostupní v projektu– Pike River RC obsahovala 400.000 souborů

• GDAP skončil a cíl 2 nebyl splněn• rozhodnutí začít znovu, v malém, se stávajícími nástroji a

‘no extra money’

43

eAccessions

• 5 starých transferů, uloženo na SAN, přijato v letech 2008-2009 > eAccessions E1 až E5

• hlavně kancelářské dokumenty z ministerstev• E1 – 175 souborů, 2002-2008, 7 formátů• E4 – 1295 souborů, 2002-2008, 12 formátů• E6 – 84 Tiff souborů• E2 – 2519 souborů, 1999-2008, 22 formátů• E3 – 1743 souborů, 2000-2009, 12 formátů

44

Analýza eAccessions

Windows Bitmap 3.0 Microsoft Powerpoint Presentation 97-2003

Windows Media Audio no value Windows Media Video no value

Acrobat PDF 1.2 - Portable Document Format 1.2 Acrobat PDF 1.3 - Portable Document Format 1.3

Acrobat PDF 1.4 - Portable Document Format 1.4 Acrobat PDF 1.6 - Portable Document Format 1.6

Autorun Configuration File no value Microsoft Word Document 6.0/95

Graphics Interchange Format 89a Microsoft Word Document 97-2003

Raw JPEG Stream no value Microsoft Word for Windows 2007 onwards

JPEG File Interchange Format 1.00 JPEG File Interchange Format 1.01

JPEG File Interchange Format 1.02 Microsoft Office Owner File no value

Rich Text Format 1.5-1.6 Adobe InDesign Document CS2

Adobe Illustrator 9.0 Vector Markup Language no value

Microsoft Excel 97 Workbook (xls) 8 Serif PagePlus Publication 9

Thumbs DB file XP Hypertext Markup Language no value

Hypertext Markup Language 4.0 Truevision TGA Bitmap 1.0

Exchangeable Image File Format (Compressed) 2.1 Exchangeable Image File Format (Compressed) 2.2

Windows Portable Executable no value Microsoft Windows Shortcut no value

Tagged Image File Format

95% MS Word 97-2003

45

Jak dostat born-digital do LTP?

• naše ingest aplikace je designovaná pro digitalizované dokumenty s metadaty

• test sbírky nemají žádná metadata• nutno využít název souboru, jména složek• využití CSV ingestu (1 z mnoha způsobů ingestu v

Rosettě)

46

Jednotlivé kroky transferu

47

Nástroje využívané v transferu

• DROID• Archway šablona na import metadat• in-house:

– CSV/Import generator (python skripty) na:• vytvoření importního CSV pro Archway (názvy etc)• vytvoření CSV pro Rosettu• validační procesy

– sqlite analysis tool• provádí analýzu souborů, html výstup

48

Sqlite tool

49

Nalezené problémy se soubory• chybějící přípony• nesprávné přípony• „nové“ formáty (DROID nezná)• neznámé formáty (nelze identifikovat)• nejednoznačné signatures (.wbk, .dot, Adobe Illustrator)• prázdné složky• „prázdné“ soubory (nula bytů)• duplikáty – soubory – stejný kontrolní součet• duplicitní názvy souborů• chybějící obsah – externí vazby, např. na gify• dynamický obsah – datum ve Wordu• citlivé údaje

50

Poučení - analýza souborů

• ruční analýza souborů je extrémně časově náročná, i pokud je souborů málo (stovky)

• různé nástroje extrahují různá metadata – čím více nástrojů se použije, tím přesnější analýza

• nedostatek a „nedospělost“ dostupných nástrojů, nekonzistentnost

• na některé věci nástroje nejsou – chybějící obsah, dynamický obsah, nebo jsme je nestihli otestovat

Z pohledu archiváře

• archivní zpracování digitálních dat je jiné – nelze použít běžné postupy z papírového světa – nové problémy

• co je a co není archiválie? duplikáty v různých složkách – různý kontext, prázdné soubory aj.

• zpracování a pořádání „po letech“ je problémové bez podpory původce – např. různé verze jednoho dokumentu

Obecné postřehy• analýza souborů je první krok – nutno vědět co máme• ušetří práci v LTP – vše je možno připravit pro hladký ingest• nutno použít testovací prostředí – jak bude reagovat LTP systém?

nalezne další problémy?• metoda přes CSV je polo automatizovaná – náchylné na lidskou

chybu • keep it simple – pouze základní popisná metadata, žádná

metadata nebyla vytvářena ručně• autenticita – audit událostí, metadata událostí – toto je klíčové a

vlastně zdroj všech komplikací• http://www.archway.archives.govt.nz/ViewFullItem.do?code

=24684617&digital=yes

Čemu dalšímu se věnujeme?

Format Library Working Group (1)

• NK NZ a ANZ jsou správci formátové knihovny pro Rosettu

• příprava updatů globální knihovny pro Rosetta zákazníky

• kooperace s Ex Libris a TNA (Pronom)• posuzování navržených změn v knihovně

Format Library Working Group (2)

• formátová knihovna je „jádro“ LTP systému• kontroluje mnoho aspektů funkcionality Rosetty• je to knowledge base, která řídí a vede aktivity

dlouhodobé ochrany• je sdílená mezi všemi instalacemi Rosetty• Rosetta má lokální a globální formátovou knihovnu

Format Library Working Group (3)

• Formátová knihovna obsahuje:– informace o formátech dat– extraktorech metadat (i samotné pluginy)– risk management– seznam dostupných aplikací– seznamy tzv. signifikantních vlastností– pravidla – pro identifikaci formátů, validace, extrakce

metadat– mapování metadat z extraktorů do vnitřního

metadatového schématu (DNX)

Výzkum

• PREMIS – PREMIS conformance WG• Ochrana databází• Formáty dat – vytváření nových signatures pro

PRONOM• Problematické soubory• Podpora digitalizace – doporučení formátů, validace,

testování výstupů pro digitalizační projekty

New Zealand Defence Force - NZDF

• velký projekt digitalizace 3 miliony stran, 160.000 archivních dokumentů vojáků 1. sv. v.

• otevřena zajímavá debata – má vše digitalizované končit v GDA?

• začínáme uvažovat o různých úrovních ochrany • ingest 2012-2014 – podpora ingestu, workflow,

řešení problémů (TIFF a JP2)• vše dostupné online

http://archives.govt.nz/world-war-one

Digital Preservation Technical Registry

• snaha navrhnout nový registr pro DP – od 2013• NK NZ, ANZ, NARA, University of Portsmouth, NLA• pod hlavičkou organizace NSLA (National and State Libraries

of Australoasia)• obsahuje formáty dat, SW, HW, nosič a IO device ve

strukturální podobě• decentralizovaný registr – více institucí, každý může přispět• využitelný pro jakýkoliv LTP• mezinárodní review > v současné době se hledá vhodný

způsob financování• více viz iPRES 2014

Plány do budoucna• DPaaS – co se změní?• ingest dat z fyzických nosičů (127.000 souborů, 108

formátů, 15.000 neidentifikovaných souborů)• born-digital – CSV > XML • vyvinout a zapojit pluginy – extraktory, validátory,

prohlížeče• konsolidace storage nákladů – backupy etc.

Použité a další zdroje k tématupoužité• http://mirror.dlib.org/dlib/march15/oliver/03oliver.html• http://www.imaging.org/ist/publications/reporter/articles/Rep28_3_ARCH2013_WU_PG176.pdf• https://www.nationalarchives.gov.uk/documents/archives/cloud-storage-guidance.pdf

relevatní zdroje• Peter McKinney , Steve Knight , Jay Gattuso , David Pearson , Libor Coufal , David Anderson , Janet Delve , Kevin De

Vorsey , Ross Spencer , Jan Hutař. Reimagining the Format Model: Introducing the Work of the NSLA Digital Preservation Technical Registry. New Review of Information Networking Vol. 19, Iss. 2, 2014. pp. 96-123. DOI:10.1080/13614576.2014.972718

• Jan Hutar, Ross Spencer, Libor Coufal, Kevin DeVorsey, Jay Gattuso, Steve Knight, Peter McKinney. Modelling file formats and technical environments using the NSLA Digital Preservation Technical Registry (DPTR). iPRES 2014, Melbourne 6-10. října 2014. s. 322-323. Workshop. ISBN 978-0-642-27881-4. http://ipres2014.org/sites/default/files/upload/iPres-Proceedings-final.pdf

• HUTAŘ, Jan. Archives New Zeland – budování digitálního archivu pro dlouhodobou ochranu digitálních dokumentů. Archivni casopis, vydava archivni sprava MV, rocnik 63, č. 1, 2013. s. 5-24.

• HUTAŘ, Jan. Archives New Zealand Migration from Fedora Commons to the Rosetta Digital Preservation System. iPRES 2013, 4.9. 2013 Lisabon. http://purl.pt/24107/1/iPres2013_PDF/iPres2013-Proceedings.pdf. p. 166-171. ISBN 978-972-565-493-4

• HUTAŘ, Jan. Assessing Digital Preservation Strategies. In International Council of Archives Congress 2012. Brisbane, 22. 8. 2012. 10 s. Dostupné z WWW: http://www.ica2012.com/files/data/Full%20papers%20upload/ica12Final00155.pdf