Upload
hoangkien
View
216
Download
0
Embed Size (px)
Citation preview
La préservation du numériqueEnjeuxMéthodologie (modèle OAIS, gestion des risques) L’exemple de la BnF.
Sébastien PeyrardBibliothèque nationale de France
15 juin 2012 2
Plan
Introduction : préserver le numérique - aspects métier
Préservation du numérique : appuis méthodologiques La gestion des risques Le modèle OAIS
Illustration : la préservation du numérique à la BnF
15 juin 2012 4
0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010
Les activités d’une bibliothèque
Sélection
Acquisition
Catalogage
Équipement
Magasinage
Conservation
Communication
Valorisation
SélectionCollecte / production
Métadonnées / indexationEmpaquetage
GestionPréservation
AccèsValorisation
15 juin 2012 5
La gestion du magasin numérique Idée reçue : « avec le numérique, tout
est virtuel, on n’a pas de problèmes de place ou de magasins »
• Réponses :•le numérique est lui aussi stocké sur un support physique• l’infrastructure de stockage coûte cher et prend de la place, il faut la sécuriser et la répliquer• à partir d’une certaine échelle, il faut une couche logicielle pour gérer les fichiers et les données
http://www.flickr.com/photos/yarhargoat/
15 juin 2012 6
Les métadonnées, l’indexation Idée reçue : « comment va-t-
on faire pour cataloguer tout ça ? »
Réponse : Le catalogage ne se limite plus
au descriptif. Métadonnées techniques, administratives (dont droits, historique)…
Les parties techniques sont les plus faciles à automatiser : extraction
Passage d’une logique de document à une logique d’objet
15 juin 2012 7
Conservation, préservation Idée reçue : « la conservation du
numérique, c’est surtout un problème technique »
Réponse : La conservation du papier, c’est technique aussi (désacidification
de masse, encres ferrogalliques, qualité des cuirs, effets des gommes à effacer sur la cellulose du papier…)
Conserver des documents numériques c’est surtout les préserver (en général, avec le numérique, après = trop tard)
Stocker/sauvegarder ce n’est pas archiver !
15 juin 2012 8
Un « plan de conservation » pour le numérique ?
Idée reçue : « la conservation du
numérique, c’est le travail des informaticiens » Réponse :
Les informaticiens fournissent un service technique, mais pas la définition du service (définition du besoin) : ce n’est pas la même chose de mettre en place un bon système de climatisation, et de savoir quelle est la température et l’hygrométrie idéales d’un magasin.
Les méthodologies de conservation sont les mêmes pour le papier et le numérique :
stratégies préventives, plans de conservation, choix de priorités en fonction de la valeur/fragilité des
collections, gestion de risques, alertes et résolutions de problèmes, plans d’urgence…
http://www.flickr.com/photos/jurvetson/855530042
http://www.flickr.com/photos/nate/284184160/
15 juin 2012 9
Le rôle du bibliothécaire Montée en compétence : nouveaux métiers à
inventer… Mettre en place la « planification de la préservation » :
aspects métiers de la conservation numérique Définir les tâches de chacun, les processus : que
signifie préserver les documents numériques au quotidien
Appuis méthodologiques : La gestion de risques Le modèle OAIS
15 juin 2012 10
Des enjeux techniques et humains
Préserver le patrimoine numérisé et né numérique
Savoir (se) convaincre de l’intérêt de cette mission
Intégrer cette action dans l’organisation de l’institution
15 juin 2012 11
Une reconnaissance au niveau international Charte sur la conservation du patrimoine
numérique de l’UNESCO, 2003 (http://unesdoc.unesco.org/images/0017/001795/179529f.pdf)
Recommandation de la Commission [européenne] sur la numérisation et l'accessibilité en ligne du matériel culturel et la conservation numérique, 2006 (http://ec.europa.eu/information_society/newsroom/cf/itemlongdetail.cfm?item_id=2782)
15 juin 2012 13
Introduction à la préservation du numérique : exemple concret
Voici un document numérique que j’ai créé en 1998.
Je l’ai enregistré sur une disquette, est-elle toujours en bon état ?
Mon portable, acheté en 2010, n’a pas de lecteur de disquette. Où en trouver un ?
J’ai créé ce document avec Claris Works. Comment vais-je retrouver ce logiciel ?
J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows 7 ?
Ça marche ! Mais j’ai perdu toute ma mise en forme …
De quoi s’agit-il, déjà? Est-ce bien ce qui est indiqué sur la disquette ?
15 juin 2012 14
Que faire ?
Je suis une institution produisant beaucoup de documents Par où commencer ? Comment s’y prendre ? Intérêt de la gestion des risques et de l’OAIS
pour cadrer la réflexion
15 juin 2012 15
Pourquoi une méthode de gestion de risques ? La préservation des documents numériques est un projet
comme un autre Toute activité génère des risques La question n’est pas de supprimer les risques, mais de
déterminer le niveau de risque acceptable Avec des documents numériques après = trop tard
nécessité d’intervenir avant que les dégradations se produisent
La préservation des documents numériques est un ensemble de compromis entre les impératifs immédiats des producteurs des
documents et les besoins à long terme des utilisateurs entre les besoins et les moyens
15 juin 2012 16
Risques environnementaux Risques naturels
risques dont l’origine est liée à un événement externe naturel.
Liste des risques : • inondation (crue)• terrorisme, guerre • autres catastrophes naturelles • épidémies
Solutions : • Plan d’urgence• Duplication hors site• Plan de sécurité des systèmes d’information
Risques liés au bâtiment risques dont l’origine est liée à la
façon dont le bâtiment est construit, organisé et maintenu.
Liste des risques : • inondation interne • incendie
Risques liés à la sécurité risques liés à une intrusion
malveillante, physique ou virtuelle, dans le système
Liste des risques : • intrusion dans le système
• sécurité logique• sécurité physique
15 juin 2012 17
Risques organisationnels Risques liés au système lui-même
risques liés à la démarche projet, à une mauvaise conception du système, à un mauvais fonctionnement ou à l’absence de surveillance.
Solutions possibles : • Veille, contrôles, alertes• Visibilité du projet, modularité du système, phasage• Formation, accompagnement au changement
Risques liés aux acteurs et au personnel le personnel compétent peut être absent
pour des raisons environnementales (maladie) ou internes (problèmes de recrutement).
Liste des risques : • renoncement conjoncturel ou structurel au projet• absence de traçabilité•performances insuffisantes•maîtrise technologique devenue insuffisante / absence de veille sur le système
Risques budgétaires le budget alloué au système n’est plus
suffisant pour le mettre en œuvre ou le maintenir en conditions opérationnelles.
Liste des risques : • inadaptation de la programmation budgétaire
•Mise en œuvre•Maintenance
• incapacité à identifier les documents vitaux
Liste des risques : • carence de ressources humaines compétentes•impossibilité de faire adhérer l’ensemble de l’institution au projet
15 juin 2012 18
Risques liés aux supports d'enregistrement
Cette catégorie concerne la dégradation des supports quelle que soit sonorigine (environnementale, humaine, due au système etc.) en dehors desdestructions totales occasionnées par les risques environnementaux.
Liste des risques : • destruction ou dégradation des supports avec origine humaine•évolution des composants chimiques•dégradation des supports d’enregistrement due à la lecture par contact répétée•dégradation lors d’une reprise d’activité
Maîtrise : • Veille, contrôles, alertes• Mixité des technologies utilisées
15 juin 2012 19
Codage de l’information Atténuation du signal
... 0 1 0 1 0 0 0 ...
Signal
Seuil
Seuil
Information binaire
Signal
A terme, la dégradation de la modulation passera un seuil fatidique = perte d’un ou plusieurs signes
15 juin 2012 20
Risques technologiques Cette catégorie regroupe les risques liés à l’environnement matériel
et logiciel concernant la lecture d’un document. Cette catégorie recense aussi les risques liés aux migrations en
fonction de la maîtrise que l’on a sur le format, et tout ce qui concerne les plateformes d’émulation et leur utilisation.
Liste des risques : • obsolescence des formats et de leur environnement•obsolescence de la plateforme matérielle requise• perte des compétences usagers
Maîtrise : • Trajectoires de migration, émulation• contrôles, alertes, veille• collecte d’informations (métadonnées, logiciels, plateformes)
15 juin 2012 21
Risques concernant l’accessibilité technique Cette catégorie prend en compte les risques liés aux données et
aux outils qui donnent accès aux documents. L’accessibilité technique correspond aux informations nécessaires
pour la restitution (« rendering »). Il peut y avoir des entraves à l’accessibilité technique (dispositifs anticopie).
Liste des risques : • absence des métadonnées techniques appropriées• absence des métadonnées de structure appropriées • copie ou consultation de la copie empêchée par un système de protection
Maîtrise : • collecte d’informations (métadonnées, mots de passe)
15 juin 2012 22
Risques concernant l’accessibilité sémantique Cette catégorie prend en compte les risques liés aux données et
aux outils qui donnent accès aux documents. L’accessibilité sémantique correspond à la compréhension par la
communauté des utilisateurs de l’objet auquel on donne accès.
Liste des risques : • absence des métadonnées descriptives appropriées•absence de référentiels sémantiques pour l’interprétation des documents• perte du contexte affectant la signification ou la complétude du document
Maîtrise : • collecte d’informations (métadonnées, documentation associée)
Un cadre de réflexion global : le modèle OAIS
Un modèle conceptuel pour les systèmes de préservation
numérique
15 juin 2012 24
L’OAIS, c’est quoi ? (2)
Un modèle abstrait ne fournit pas de solutions de mise en œuvre à quoi ça sert ? Une terminologie commune Une liste des questions à se poser Une liste d’activités à assurer Bref, un guide qui oriente la réflexion :
dit ce qu’il faut faire… … mais pas comment le faire
15 juin 2012 25
Le modèle OAIS : contenu
Ce qu’il faut faire pour préserver des documents numériques Modèle fonctionnel
Les types d’information à attacher aux objets en vue de leur préservation Modèle d’information
Organisation, architecture, responsabilités
Métadonnées
15 juin 2012 26
1. Le modèle fonctionnel : de la réalité…
entrées banque de salle
magasins
cataloguelibraires,
lecteurs
éditeurs
catalogage
document conditionné pour la conservation
document conditionné pour la communication
repérage du document grâce à ses métadonnées
administration
experts en conservation
Management
15 juin 2012 27
… au modèle
entrées accès
stockage
gestion de données
utilisateurs
producteurs
indexation
repérage du document grâce à ses métadonnées
administration
Planification de la préservation
document conditionné pour la communication
document conditionné pour la conservation
Management
15 juin 2012 28
OAIS : la notion de paquet (1)
Un paquet, c’est Ce qu’on manipule dans un OAIS
Ce qu’on verse… Ce qu’on décrit… Ce qu’on archive… Ce qu’on communique
L’unité sur laquelle on fait porter la préservation Exemple : périodique numérisé
Le paquet est-il au niveau du titre de périodique ? Ou au niveau de chaque fascicule ?
choix d’implémentation, non prescrit par l’OAIS Mais sans OAIS, se serait-on posé la question ?
Paquet d’informations
15 juin 2012 29
OAIS : la notion de paquet (2)
Paquets à verser (SIP)
Paquets archivés (AIP)
Paquet diffusé (DIP)
15 juin 2012 30
Les paquets dans le modèle fonctionnel
entrées accès
Stockage
gestion de données
utilisateurs
producteurs
Informations sur le paquet
Informations sur le paquet
administration
Planification de la préservation
Management
SIP
AIP
AIP
DIP
15 juin 2012 31
Qu’est-ce qu’une Archive dans l’OAIS
C’est une organisation chargée d’assurer l’ensemble des fonctions du modèle
Elle doit donc… …pérenniser l’accès au document
conformément aux attentes d’une communauté d’utilisateurs à déterminer
… négocier avec les producteurs les modalités de versement
Une Archive se définit donc non seulement par ses fonctions mais aussi par ses responsabilités
15 juin 2012 32
Les contours de l’Archive
entrées accès
Stockage
gestion de données
utilisateurs
producteurs
Informations sur le paquet
Informations sur le paquet
administration
Planification de la préservation
Management
SIP
AIP
AIP
DIP
15 juin 2012 33
Modèle fonctionnel : les entités (1) Entrées
Réceptionnent le paquet Le conditionnent pour transmission au stockage et à gestion de
données Stockage
Stocke les documents Contrôle périodiquement leur intégrité
Gestion de données Indexe les métadonnées sous une forme qui permette
de les interroger de récupérer un ou plusieurs documents
Accès Communique les documents sous une forme qui réponde au besoin de
l’utilisateur Gère la transformation de l’AIP en DIP
15 juin 2012 34
Modèle fonctionnel : les entités (2)
Administration Pilote l’Archive
Assure son bon fonctionnement et sa stabilité Rend compte de l’activité de l’Archive auprès du
Management Négocie avec les Producteurs
Planification de la préservation Prévient l’obsolescence du système
Effectue une veille technologique, sur les formats de fichiers et de métadonnées
Décide d’opérations à mener pour que les données ou le système ne tombe pas en obsolescence
2 entités qui s’équilibrent
administrateur
expert de préservation
15 juin 2012 35
Modèle fonctionnel : les entités (3)
Attention : c’est un modèle abstrait qui décrit des fonctions Ces fonctions doivent exister et l’Archive doit
s’engager à les assurer Mais ne correspondent pas forcément à des
personnes / logiciels différents !
15 juin 2012 37
Environnement de consultation 2
Stratégies de préservation (1)Migration : porte sur le paquet
Émulation : porte sur l’environnement de lecture du paquet
Format propriétaire – difficile à préserver Format ouvert et libre – facile à préserver et à transformer
AIPversion 1
AIPVersion 2
AIPversion 1
AIPVersion 1
Environnement de consultation 1
15 juin 2012 38
Stratégies de préservation (2) Migrations possibles :
Rafraîchissement de support
Renouvellement de supportSupport fragile – difficile à préserver – facile à reproduire
Support fragile n°1
Support fragile n°2 – plus de place
Support fragile n°3 – encore plus de place
duplications
15 juin 2012 39
Stratégies de préservation (3) Ré-empaquetage
Transformation
Format propriétaire – difficile à préserverFormat ouvert et libre – facile à préserver et à transformer
AIP 1AIP 4
AIP 2
AIP 3
15 juin 2012 40
Stratégies de préservation (4)
Emulation
Environnement matériel et logiciel difficile à préserver Environnement matériel et logiciel courant
15 juin 2012 41
Le modèle d’information OAIS
Que comporte un paquet ? Basiquement, il comporte des fichiers et
des métadonnées qui les décrivent Le modèle d’information liste les
différents types d’informations portant sur le paquet
Objets-donnéesinformations
15 juin 2012 42
Modèle d’information
Objet données Information de pérennisationProvenance, contexte,
intégrité, identification
Paquet d’informations
Information de représentation
Structure (format)Sémantique (langue, dictionnaire…)
+ +
+ +
Monde réel :
Monde numérique : Information d’empaquetage
MétadonnéesDonnées
15 juin 2012 43
Les types d’information OAIS: un exemple
L’objet
Pages
Fichiers
Structure du document
Structure des objets numériques
Exemple : un livre numériséQuel est ce livre ?
Information descriptive
Quels sont les formats des fichiers ?Information de représentation
Quels sont tous les fichiersqui résultent de la numérisation ?
Information de structure
Quand a eu lieu la numérisationet quel est le nom du scanner ?Information de provenance
A quelle page correspond chaque fichier ?Information de structure
Quel est mon original papier ?Information d’identification et de contexte
Comment désigner ce document ?Information d’identification
15 juin 2012 45
OAIS : Intérêt d’un modèle abstrait ? S’applique quel que soit le contexte Permet de réfléchir aux questions de
préservation au niveau international indépendamment du contexte institutionnel avec une terminologie commune
Laisse le choix des armes quant à la mise en œuvre, car elle est liée au contexte Chaque institution / type d’institution peut donc
réfléchir à une implémentation concrète L’OAIS guide la réflexion mais n’impose pas
de solution
15 juin 2012 46
Les limites de l’OAIS Tout un chantier « mise en œuvre » à mettre en place
(système, organisation, supports…) L’OAIS se focalise sur les risques spécifiques à la
préservation du numérique Réfléchir à la mise en œuvre, qui devra être viable et
donc offrir une réponse appropriée… à nos moyens financiers et humains à notre contexte institutionnel et nos missions aux besoins de notre public cible aux contraintes de ceux qui produisent les documents
⇒ l’utilisation d’une méthodologie de gestion de risques peut être utile pour compléter
15 juin 2012 47
La méthodologie de gestion des risques
Une méthode pour organiser la planification de la préservation
15 juin 2012 48
Le cycle de la gestion des risques
1. Contexte et objectifs
2. Liste des risques
3. Evaluation des risques
4. Prise de décision
4. Maîtrise
15 juin 2012 49
Un outil de gestion de risques: DRAMBORA “Digital Repository Audit Method Based on Risk
Assessment” Réalisé par le Digital Curation Centre (UK) et le projet européen
DPE (Digital Preservation Europe) Première version parue fin février 2007 Dispose maintenant d’une interface en ligne
DRAMBORA est un tutoriel détaillé : Pour l’auto-évaluation d’un entrepôt numérique Méthodologie basée sur la gestion des risques Fournit à la fois un guide rédigé et des formulaires pour
procéder à l’évaluation
http://www.repositoryaudit.eu
15 juin 2012 50
Autre norme complémentaire: PAIMAS
Dans la lignée de l’OAIS, le CCSDS travaille sur des normes complémentaires : PAIMAS pour les protocoles de versement
entre le Producteurs et l’Archive Producer-Archive Interface Methodology Abstract
Standard ISO 20652
15 juin 2012 52
De l’OAIS à la gestion de risques…
La gestion de risques et l’OAIS sont avant tout des bonnes pratiques
Précision d’échelle Toute collection, quelle que soit sa taille, peut
faire l’objet d’une gestion de risques Toute institution, quelle que soit sa taille, peut
mettre en place un OAIS Évidemment, les moyens affectés varient !
15 juin 2012 53
De l’OAIS à la gestion de risques…
La mise en place d’un système OAIS permet de mettre en place les conditions favorables à la préservation numérique
La mise en place d’une gestion de risques permet d’identifier les actions à mener et de sécuriser les moyens
« Y a plus qu’à » …
Aucun système informatique n’assure la préservation des documents numériques !!!
15 juin 2012 55
Solutions libres
LOCKSS (Lots of Copies Keep Stuff Safe) http://www.lockss.org/lockss/Home siège à la Stanford University Library utilise un ordinateur de bureau de base collecte des publications électroniques présentes sur
les sites Web des participants et la copie sur les différentes « boîtes » disponibles
répare l’information lorsqu’une copie est corrompue, offre un accès continu lorsqu’une boîte est indisponible
migration de format à la demande, lors de l’accès
15 juin 2012 56
Solutions libres
Fedora (Flexible Extensible Digital Object Repository Architecture) http://fedora-commons.org projet lancé en 2001 par Cornell et University of Virginia
D-Space http://dspace.org développé en 2002 par les bibliothèques du MIT et Hewlett-
Packard tourné vers le monde académique
Deux systèmes d’archivage dont le développement est à suivre
Depuis 2009, unis dans Dura-Space http://duraspace.org/index.php
15 juin 2012 57
Solutions libres
DAITSS (Dark Archive In The Sunshine State) disponible sous licence GPL http://daitss.fcla.edu
Archivematica https://www.archivematica.org
15 juin 2012 58
Solutions commerciales
Safety Deposit Box (SDB) de Tessella http://www.digital-preservation.com Version 1 créée pour les Archives nationales de
Grande-Bretagne en 2003
Rosetta d’ExLibris http://www.exlibrisgroup.com/category/ExLibrisRosettaOverview développé en collaboration avec la bibliothèque
nationale de Nouvelle-Zélande qui l’utilise depuis 2008
15 juin 2012 59
PAC (Plate-forme d’Archivage du CINES)
Version 2.0 de mai 2008 avec 2 projets pilotes http://www.cines.fr/spip.php?rubrique219 archivage des thèses électroniques STAR archivage des revues SHS du portail Persée
Infrastructure Oracle, application Arcsys et développements CINES
Limitée à certains formats validation du Format d'Archivage du CInes par anaLyse et
Expertise http://facile.cines.fr Le service PAC assure la veille technologique
sur les supports et les formats
15 juin 2012 60
Partager la veille : Groupes d’experts nationaux En France, le groupe PIN (Pérennisation de
l’Information numérique)http://pin.association-aristote.fr/ groupe de travail mis en place en 2000 au sein de
l’association ARISTOTE regroupe différentes communautés : archives,
bibliothèques, entreprises… objectifs : partage de l’information, suivi
technologique, formation En Grande-Bretagne : DPC, en Allemagne :
NESTOR, aux Etats-Unis : NDIIPP…
15 juin 2012 62
La démarche : grandes étapes
Définition du besoin (Groupes de travail) 2006 Étude technique des solutions possibles 2006 Validation du scénario de réalisation par le
comité de pilotage début 2007 Marché de réalisation 2007
Rédaction du cahier des charges de réalisation Réception des offres
Réalisation par itération 2008 …
15 juin 2012 63
Les groupes de travail
Utilisateurs représentatifs des départements de la BnF G1 : groupe transverse de suivi G2 : communauté d’utilisateurs G3 : modèles d’information G4 : gestion des risques G2D : gestion des droits
Groupe de travail technique (DSI)
15 juin 2012 64
Groupe G2 : les filières
Numérisation de conservation des imprimés et des images fixes
Audiovisuel Dépôt légal automatique Dépôt légal négocié Production administrative/ technique Dons et acquisitions Tiers archivage
15 juin 2012 65
Utilisation de standards pour exprimer ces métadonnées pour relier toutes les métadonnées Dublin Core pour les métadonnées
bibliographiques pour les métadonnées de
provenance et techniques Identifiants pérennes : ARK et info:URI
Métadonnées interrogeables dans une base de données RDF
Métadonnées du document numérique
15 juin 2012 66
Anatomie d’un fichier METS (1)<mets>
<metsHdr>Informations sur le fichier METS
<dmdSec>Métadonnées descriptives
<amdSec>Métadonnées administratives
<fileSec>Inventaire des fichiers
<structMap>Structure du paquet
<structLink>Liens entre parties du paquet
<behaviorSec>Quel programme lit quel fichier ?
Sections très peu utilisées
Quelle est la date de création de mon fichier ?
Quels sont l’auteur et le titre du document ?
Histoire, caractères techniques, droits
Quels fichiers constituent mon document ?
Comment ces fichiers s’organisent-ils entre eux ?
15 juin 2012 67
Anatomie d’un fichier METS (2)<mets>
<metsHdr>Informations sur le fichier METS
<dmdSec>Métadonnées descriptives
<amdSec>Métadonnées administratives
<fileSec>Inventaire des fichiers
<structMap>Structure du paquet
<structLink>Liens entre parties du paquet
<behaviorSec>Quel programme lit quel fichier ?
<sourceMD>Métadonnées sur le document original
<techMD>Métadonnées techniques
<digiprovMD>Métadonnées de provenance
<rightsMD>Métadonnées de droits
15 juin 2012 68
Groupe G3 : modèle d’informationChoix de formats de métadonnées
<mets>
<dmdSec>Métadonnées descriptives
<amdSec>Métadonnées administratives
<fileSec>Inventaire des fichiers
<structMap>Structure du paquet
<sourceMD>Document original
<digiprovMD> Métadonnées de provenance
MPEG-7
<techMD>Métadonnées techniques
15 juin 2012 69
Groupe G4 : gestion de risques Liste des risques existants à la BnF, évaluation et
impact. La gestion des risques donne une vue d’ensemble des
actions de préservation menées sur l’ensemble des objets numériques.
Définition d’indicateurs Liste des risques Évaluation des risques Stratégies de réduction des risques pour les plus
importants
15 juin 2012 71
L’infrastructure SPAR
SSB : backup
Site de secours
SSS-B : secondaire de secours
SSP : principal
SSS : secondaireSSC : consultationServeurs
Site principal
SSC-B : consultation
Serveurs de backup
15 juin 2012 73
SPAR en contexteApplications de production de données Applications de diffusion de données
Numérisation de conservation
…
Production administrative
waybackArchivage WEB
….
….
…
Service d’abstraction du stockage
Versement
Stockage
Préservation Administration
Gestion des données Accès
Infrastructure
P
R
É
V
E
R
S
E
M
E
N
T
15 juin 2012 75
SPAR : une réalisation modulaire
Service d’abstraction du stockage
Versement
Stockage
Préservation Administration
Gestion des donnéesAccès
Pré-versement
DL web
Pré-versement
Pré-versement
Pré-versement
Numérisation de conservation
Audiovisuel
Production administrative
15 juin 2012 76
Pré-versement
Pré-versement
Pré-versement Service d’abstraction du stockage
versement
Stockage
Préservation Administration
Gestion des donnéesAccès
SIP
AIP
mets rdf
Infrastructure
Versement d’un paquet dans SPAR
METS METS
Paquet producteur
15 juin 2012 77
Pré-versement
Pré-versement
Pré-versement Service d’abstraction du stockage
versement
Stockage
Préservation Administration
Gestion des donnéesAccès
AIP
rdf
Infrastructure
Diffusion d’un paquet
Zone d’échange
DIP
rdf
METSMETS
15 juin 2012 78
Réutilisation de briques open source
Pré-versement
Service d’abstraction du stockage
Versement
Préservation Administration
Accès
Stockage
Pré-versement
Pré-versement
Gestion de données
15 juin 2012 79
Expertise des chargés de collection
+ producteurs d’information numérique
Expertise informatique +
gestionnaire des magasins
numériques
Expertise de conservation + cohérence des
données numériques
… Et les utilisateurs dans tout ça?
Pour chaque document, quelle taille et combien de fichiers en moyenne ?Quelle est le rythme d’accroissement moyen de l’entrepôt ?
Quels sont les formats de fichiers les plus courants dans SPAR ?Quels fichiers ne sont pas valides ?
Administrateur Expert de préservation Chargé de collections numériques
Quels sont les derniers documents entrés dans SPAR ?De quel logiciel ai-je besoin pour lire tel document ?
15 juin 2012 80
Exemples d'opérations de préservation et de l’utilité des métadonnées pour
les définir
15 juin 2012 81
Exemples d’interrogations (1)
Chargé de collections numériques / Producteur : Je veux les paquets
Où une ou plusieurs pages sont décrites comme table des matières
Mais sans fichier de table des matières en XML Permet de planifier un chantier rétrospectif de réalisation de tables
des matières en XML Je veux les paquets
De type « imprimé » (hors lot d’images)• Ne comportant pas de fichiers OCR• Ou comportant des fichiers OCR au taux de qualité < 75%
Permet de planifier un chantier d’océrisation rétrospective
15 juin 2012 82
Exemples d’interrogations (2)
Dans un contexte d’exploitation et de pilotage : Je veux la liste des paquets avec
leur date d’entrée dans SPAR leur taille leur nombre de fichiers
Je veux la liste des paquets numérisés ces 6 derniers mois leur taille leur nombre de fichiers quand océrisés, leur qualité d’OCR
Je veux, pour chaque trimestre depuis 1 an : les paquets entrés dans SPAR le nombre total de fichiers image le nombre total de fichiers OCR Permet d’évaluer le rythme d’accroissement courant
15 juin 2012 83
Exemples d’interrogations (3)
Dans un contexte de préservation : Je veux les paquets
Comprenant des fichiers HTML mal formés
(Et donc difficiles à préserver) Paquets devant faire l’objet d’une
réfection de fichier HTML Je veux des fichiers TIFF
Non conformes aux consignes de production BnF
(Et donc plus difficiles à préserver) Paquets devant faire l’objet d’une
correction
15 juin 2012 84
Exemples d’interrogations (4)
Contexte de gestion de collection : Pour chaque titre de périodique
Je veux dans l’ordre chronologique les dates de publication des fascicules présents dans SPAR
Pour chaque monographie en un ou plusieurs volumes Je veux le titre, l’auteur et la date de
publication des paquets Entrés dans SPAR le dernier mois Avec le nombre de pages par document
15 juin 2012 86
Un système de préservation : beaucoup plus qu’un coffre-fort On ne se contente pas de stocker les documents
numériques Il faut décrire décrit précisément leurs caractéristiques
techniques, d’historique, de structure, bibliographiques Afin de pouvoir utiliser ces caractéristiques pour
faciliter la gestion de collections numériques faciliter le pilotage et le suivi du magasin numérique permettre la préservation
15 juin 2012 90
Pour aller plus loin sur l’OAIS et la gestion de risques Qu’est-ce que le modèle OAIS ? / Figoblog http://
www.figoblog.org/document1089.php La traduction française de la norme : http://public.ccsds.org/publications/archive/650x0b1%28F%29.pdf Négociation avec les Producteurs
PAIMAS : http://public.ccsds.org/publications/archive/651x0b1.pdf
Certification TRAC : http://www.crl.edu/sites/default/files/attachments
/pages/trac_0.pdf DRAMBORA : http://www.repositoryaudit.eu
15 juin 2012 91
Bibliographie (2) Tutoriel sur la préservation du numérique : http://
www.icpsr.umich.edu/dpm METS
Introduction : http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_mets.html
Vue d’ensemble et tutoriel en français : http://www.loc.gov/standards/mets/METSOverview.v2_fr.html
Page officielle : http://www.loc.gov/standards/mets Manuel : http://www.loc.gov/standards/mets/METSPrimerRevised.pdf Schéma XML : http://www.loc.gov/standards/mets/mets.xsd Liste d’outils pour générer du METS :
http://www.loc.gov/standards/mets/mets-tools.html Forum METS : [email protected]
15 juin 2012 92
Bibliographie (3) PREMIS
Site officiel : http://www.loc.gov/standards/premis Introduction à PREMIS :
http://www.loc.gov/standards/premis/understanding-premis.pdf Tutoriels : http://www.loc.gov/standards/premis/tutorials.html Documentation : http://www.loc.gov/standards/premis/v2/premis-2-0.pdf Schémas : http://www.loc.gov/standards/premis/schemas.html Communauté des utilisateurs de PREMIS :
http://www.loc.gov/standards/premis/pig.html
Rebecca S. Guenther, “Battle of the Buzzwords : Flexibility vs. Interoperability When Implementing PREMIS in METS”, D-Lib Magazine, July/Agust 2008. http://www.dlib.org/dlib/july08/guenther/07guenther.html
SPAR Documentation sur SPAR :
http://www.bnf.fr/fr/professionnels/conserver_spar/s.conserver_SPAR_presentation.html