Upload
ricard-de-la-vega
View
207
Download
1
Embed Size (px)
Citation preview
Preservação digital de teses e dissertações
Experiência do repositório cooperativo TDX
Ricard de la VegaComputing and Applications Manager
Consorci de Serveis Universitaris de Catalunya (CSUC)
10º debateGrupo de Pesquisa Dríade
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
• Generalitat de Catalunya• Universitat de Barcelona (UB)• Universitat Autònoma de Barcelona (UAB)• Universitat Politècnica de Catalunya (UPC)• Universitat Pompeu Fabra (UPF)• Universitat de Girona (UdG)• Universitat Rovira i Virgili (URV)• Universitat de Lleida (UdL)• Universitat Oberta de Catalunya (UOC)• Universitat Ramon Llull (URL)• Universitat de Vic (UVic)
• Gestão de infraestruturas e serviços cooperativos para as universidades e lá investigação da Catalunha
• Fusão de um consórcio TIC e um bibliotecário
Consórcio de Serviços Universitários de
Catalunha (CSUC)
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
Repositórios de cooperação
TDX RECERCAT RACO PADICAT
RECYT MDC MDX PADICYT
CALAIX FILMOTECA SCIENTIA MACBA
Repositórios digitais
TeseTrabalhos de
pesquisaRevistas Websites
RevistasPatrimóniocolecções
Materiaisdidáticos
Websites
Dept. CulturaPatrimónio
cinematográficoDept. Saúde
Patrimónioartístico
Conteúdo
Texto (PDF) Texto (PDF) Texto (PDF) WARCs
Texto (PDF) Imagem Texto (PDF) WARCs
Texto, imagem,
audiovisual
Texto, imagem,
audiovisual
Texto, imagem,
audiovisual
Texto, imagem,
audiovisual
Formatos: texto, imagem, vídeo...
DSpace DSpace OJS Heritrix, etc.
OJS CONTENTdm DSpace Heritrix, etc.
DSpace DSpace DSpace DSpace
Programas: DSpace, OJS...
Gestão de dados científicos
Grupo de trabalho per:
– Criação de uma política
– Data Management Plans• Orientações (http://hdl.handle.net/2072/266523)
• DMP Online instância de DCC
– Repositório de dados de pesquisa• Orientações (http://hdl.handle.net/2072/266502)
• Possível criação de um repositório cooperativo
– Piloto
Other
DRAC
Universitas XXI
GREC
SIGMA
Other
DRAC
Universitas XXI
GREC
SIGMA
UNEIX
Local and consortia
repositories.
Mainly DSpace
Catalan
government
DataWarehouse
PRC. Based on
Dspace-CRIS
(CINECA)
11 university CRIS
systems (from 4
different vendors)
Protocol: OAI-PMH/SWORD
Format: DC
Protocol: OAI-PMH
Format: CERIF-XML
Protocol: XLS files
Format: UNEIX defined
Portal de pesquisa da Catalunha
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Estructura de TDX
Cada universidade (18):
• é uma Comunidade
• Tem licenças de admissão de teses
• Administra sua coleção
• Personalização
• Pesquisadores frontend
Procedimentos e grupos de trabalho comum
Universidades
Divulgação e preservação da tese
URV
UVic
UdG
UdL
UV
UJI
UM
UCUA
UAB
UPFUB
Arquivos
UIB
Metadados
Admissão das 18
universidades
Divulgação da tese espanholas
3333
3333
3333
3333
OAI-PMH harvester da tese das 33 universidades espanholas
CRISCRIS
CRIS
Mais divulgação da teses
DART
Recol
ecta
Driver
Tese europeia
Trabalhos de pesquisa
espanhol
Trabalhos de
pesquisa
europeia
…
Motores
de busca
Outros
colecionadores
Portal de pesquisa da Catalunha
CRISCRIS
CRIS
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Long term preservation
• The e-infrastructure must ensure the long term data access, without failure.
• To succeed, it must be taken into account:– Replication (more than one copy)
– Media refresh
– Format migration
– Data integrity (checksums)
– Contingency and recovery plan
– Preservation plan
– ...
Hardware migrations
2001 (cpu, disk and tapes)– HP N4000
2003 (cpu + disk)– HP rp5430 with 2 processors, 704 GB memory
– HP EVA V.2 with 2,8 TB disk
2006 (cpu + tape)– High availability HP cluster with 32 nodes
– Adic Scalar i2000 (from 9840 tapes to LTO3)
2009 (disk)– NetApp FAS3170 with 60 TB disk
2012 (cpu)– New High availability cluster
2016 (disk)– New storage cabine
Born in a supercomputer!
Software migrations
2001 – ETDdb from Virginia Tech
2005 – + OAI-PMH & statistics modules
2007 – + Spanish Thesis Harvester (MetaIndexmodule + X-Server libraries) from Ex Libris
2011 – DSpace 1.6 from MIT & HP labs
2013 – + Drupal for news & intranet
…
2016 – DSpace 5.2
Data integrity & Format migration
• Data Integrity
–Checksums on DSpace (online version)
–Checksums on LOCKSS (dark copies)
• Format migration
–Not yet (PDF)
–But Metadata migration yes• From HTML forms (ETDdb) to Dublin Core
(DSpace)
Replication
• On disk - Online version (1)
• One backup on the tape library (2)
• Other backup on a fireproof cabinet (3)
• Other backup on a 50 Km remote Centre (4)
• A dark copy on the MetaArchive Cooperative
– Private LOCKSS (Lots of Copies Keep Stuff Safe) Network
– 7 more copies around the world (11)
• And (possible) more copies on each University
MetaArchive Cooperative
• The Educopia Institute’s mission is help cultural, scientific, and scholarly institutions achieve greater impact
• Lots of Copies Keep Stuff Safe (LOCKSS)
• A private LOCKSS network (PLN)
• Centralized facilities (conspectus, svn…)
• P2P secure network of “cache” nodes
Marketing...
“With others, you can accomplish
what you cannot accomplish alone”
“Don’t put all your eggs in
one basket”
Private LOCKSS Networks (PLNs)
• Alabama Digital Preservation Network (ADPN).• CLOCKSS Archive.• Council of Prairie and Pacific University Libraries (COPPUL) • Data Preservation Alliance for the Social Sciences (Data-PASS)• Digital Commons.• Digital Federal Depository Library Program.• CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia• Lukll.• MetaArchive Cooperative.• PKP Public Knowledge Project. • PNAS Proceedings of the National Academy of Sciences. • Persistent Digital Archives and Library System – PeDALS. • SAFE (SAFE Archiving FEderation). • Synergies.• UK LOCKSS Alliance
Fonte: www.lockss.org/community/networks
Private LOCKSS network
• 7 copies with widespread geographical
distribution
• All 7 servers revisit on a regular basis to pick
up new and changed content
• Versioning (no remove changed content)
• Checksums file integrity control
Benefits
– Distributed archiving of digitals collections across multiple geographically distributed preservation sites
– Retrieval of contents in case of catastrophic loss
– Assistance with installation and maintenance of the technical solution
– Reports, coordination web conference…
Responsibilities
Initially:
– Local LOCKSS installation (cache)
– Define a data preservation strategy (Data Wrangling) for your “particular” repository
– Rules design for the other cache to harvest your repository (Plugin)
– Enroll your collections in a central database (Conspectus)
Responsibilities
Periodically:
– Add collections (of others) assigned centrally
– Apply firewall changes (IP active list)
– Apply updates
– Coordination with the MetaArchive staff and
others cache if a restore (for disaster) is needed
Nuestra experiencia con MetaArchive
– Fácil modelo
– Relativamente barata
– Eu comprovada (em casos reais)
– Precisamos conhecimento técnico
– É apropriado para o conteúdo bem definido
– Formato agnóstico, “solo" preserva arquivos
Bibliografia
– A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds.
(Atlanta, GA: Educopia Institute, 2010).
http://metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf
– Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978-
84-9064-082-1.
– Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i
documentació, 2013,Núm. 57 .
http://www.raco.cat/index.php/Item/article/view/269708/372314
– Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan
Policies and Experiences on Cooperative Repositories". Centre de
Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083
Muito obrigado!
@rdelavega
https://es.linkedin.com/in/ricarddelavega
“Sometimes a scream is better than a thesis”
Manfred Eigen