92
La préservation du numérique Enjeux Méthodologie (modèle OAIS, gestion des risques) L’exemple de la BnF. Sébastien Peyrard Bibliothèque nationale de France [email protected]

Enjeux - Mediadixmediadix.parisnanterre.fr/stockage_doc/numcollectionsjuin2012/... · on faire pour cataloguer tout ... Conserver des documents numériques c’est surtout les préserver

Embed Size (px)

Citation preview

La préservation du numériqueEnjeuxMéthodologie (modèle OAIS, gestion des risques) L’exemple de la BnF.

Sébastien PeyrardBibliothèque nationale de France

[email protected]

15 juin 2012 2

Plan

Introduction : préserver le numérique - aspects métier

Préservation du numérique : appuis méthodologiques La gestion des risques Le modèle OAIS

Illustration : la préservation du numérique à la BnF

Introduction

Les aspects « métier » de la conservation numérique

15 juin 2012 4

0010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011000100101110001101100011001000111001010110100010000000100000001000000011001100111000001110010011100000101110001101110011000000100000001000000010000000110010001100110011010100110010001011100011010000110101001000000010000000100000001000000010000000101101001100010010111000110110001101100010000000100000001000000010110100110111001011100110111001100100010000000100000001011010011000100111000001011100011011000110001001000000010000000101101001110000011000000101100011000000110000001000000010000000101101001110000011000000101110001100000011000000100000001000000010000000110001001000000010000000110100001100110010000000100000001000000011100100100000001000000010000000100000001110010011100000111001001011100011010000110010001000000010000000100000001000000010000000110001001101100010111000110000001100100010000000100000001000000010000000100000001101010011001100101110001110000011001100100000001000000010000000100000001000000011010100110110001011100011011000110010001000000010000000100000001000000010000000100000001101000010111000111000001100010010000000100000001000000010000000110111001110010011001100101110001101010011100000100000001000000010000000100000001000000010000000110011001011100011001100110100000010100010000000100000001000000011000100110010001100000010000000100000001000000010000000110101001110000010000000100000001101010010000000100000001000000011000100111001001110000011000100101101001100000011100100101101001100110011000001010100001100010011010000111010001100100011001000111010001100000011010100101110001101110011100000111000010110100010000000100000001000000011001100111000001110010011010000101110001101100011010000100000001000000010000000110010001101010011010000110110001011100011100000111000001000000010000000100000001000000010000001000000010110100111000001100000010

Les activités d’une bibliothèque

Sélection

Acquisition

Catalogage

Équipement

Magasinage

Conservation

Communication

Valorisation

SélectionCollecte / production

Métadonnées / indexationEmpaquetage

GestionPréservation

AccèsValorisation

15 juin 2012 5

La gestion du magasin numérique Idée reçue : « avec le numérique, tout

est virtuel, on n’a pas de problèmes de place ou de magasins »

• Réponses :•le numérique est lui aussi stocké sur un support physique• l’infrastructure de stockage coûte cher et prend de la place, il faut la sécuriser et la répliquer• à partir d’une certaine échelle, il faut une couche logicielle pour gérer les fichiers et les données

http://www.flickr.com/photos/yarhargoat/

15 juin 2012 6

Les métadonnées, l’indexation Idée reçue : « comment va-t-

on faire pour cataloguer tout ça ? »

Réponse : Le catalogage ne se limite plus

au descriptif. Métadonnées techniques, administratives (dont droits, historique)…

Les parties techniques sont les plus faciles à automatiser : extraction

Passage d’une logique de document à une logique d’objet

15 juin 2012 7

Conservation, préservation Idée reçue : « la conservation du

numérique, c’est surtout un problème technique »

Réponse : La conservation du papier, c’est technique aussi (désacidification

de masse, encres ferrogalliques, qualité des cuirs, effets des gommes à effacer sur la cellulose du papier…)

Conserver des documents numériques c’est surtout les préserver (en général, avec le numérique, après = trop tard)

Stocker/sauvegarder ce n’est pas archiver !

15 juin 2012 8

Un « plan de conservation » pour le numérique ?

Idée reçue : « la conservation du

numérique, c’est le travail des informaticiens » Réponse :

Les informaticiens fournissent un service technique, mais pas la définition du service (définition du besoin) : ce n’est pas la même chose de mettre en place un bon système de climatisation, et de savoir quelle est la température et l’hygrométrie idéales d’un magasin.

Les méthodologies de conservation sont les mêmes pour le papier et le numérique :

stratégies préventives, plans de conservation, choix de priorités en fonction de la valeur/fragilité des

collections, gestion de risques, alertes et résolutions de problèmes, plans d’urgence…

http://www.flickr.com/photos/jurvetson/855530042

http://www.flickr.com/photos/nate/284184160/

15 juin 2012 9

Le rôle du bibliothécaire Montée en compétence : nouveaux métiers à

inventer… Mettre en place la « planification de la préservation » :

aspects métiers de la conservation numérique Définir les tâches de chacun, les processus : que

signifie préserver les documents numériques au quotidien

Appuis méthodologiques : La gestion de risques Le modèle OAIS

15 juin 2012 10

Des enjeux techniques et humains

Préserver le patrimoine numérisé et né numérique

Savoir (se) convaincre de l’intérêt de cette mission

Intégrer cette action dans l’organisation de l’institution

15 juin 2012 11

Une reconnaissance au niveau international Charte sur la conservation du patrimoine

numérique de l’UNESCO, 2003 (http://unesdoc.unesco.org/images/0017/001795/179529f.pdf)

Recommandation de la Commission [européenne] sur la numérisation et l'accessibilité en ligne du matériel culturel et la conservation numérique, 2006 (http://ec.europa.eu/information_society/newsroom/cf/itemlongdetail.cfm?item_id=2782)

15 juin 2012 12

Risques

… et il y en a.

15 juin 2012 13

Introduction à la préservation du numérique : exemple concret

Voici un document numérique que j’ai créé en 1998.

Je l’ai enregistré sur une disquette, est-elle toujours en bon état ?

Mon portable, acheté en 2010, n’a pas de lecteur de disquette. Où en trouver un ?

J’ai créé ce document avec Claris Works. Comment vais-je retrouver ce logiciel ?

J’ai trouvé le logiciel, mais puis-je l’installer et l’utiliser sous Windows 7 ?

Ça marche ! Mais j’ai perdu toute ma mise en forme …

De quoi s’agit-il, déjà? Est-ce bien ce qui est indiqué sur la disquette ?

15 juin 2012 14

Que faire ?

Je suis une institution produisant beaucoup de documents Par où commencer ? Comment s’y prendre ? Intérêt de la gestion des risques et de l’OAIS

pour cadrer la réflexion

15 juin 2012 15

Pourquoi une méthode de gestion de risques ? La préservation des documents numériques est un projet

comme un autre Toute activité génère des risques La question n’est pas de supprimer les risques, mais de

déterminer le niveau de risque acceptable Avec des documents numériques après = trop tard

nécessité d’intervenir avant que les dégradations se produisent

La préservation des documents numériques est un ensemble de compromis entre les impératifs immédiats des producteurs des

documents et les besoins à long terme des utilisateurs entre les besoins et les moyens

15 juin 2012 16

Risques environnementaux Risques naturels

risques dont l’origine est liée à un événement externe naturel.

Liste des risques : • inondation (crue)• terrorisme, guerre • autres catastrophes naturelles • épidémies

Solutions : • Plan d’urgence• Duplication hors site• Plan de sécurité des systèmes d’information

Risques liés au bâtiment risques dont l’origine est liée à la

façon dont le bâtiment est construit, organisé et maintenu.

Liste des risques : • inondation interne • incendie

Risques liés à la sécurité risques liés à une intrusion

malveillante, physique ou virtuelle, dans le système

Liste des risques : • intrusion dans le système

• sécurité logique• sécurité physique

15 juin 2012 17

Risques organisationnels Risques liés au système lui-même

risques liés à la démarche projet, à une mauvaise conception du système, à un mauvais fonctionnement ou à l’absence de surveillance.

Solutions possibles : • Veille, contrôles, alertes• Visibilité du projet, modularité du système, phasage• Formation, accompagnement au changement

Risques liés aux acteurs et au personnel le personnel compétent peut être absent

pour des raisons environnementales (maladie) ou internes (problèmes de recrutement).

Liste des risques : • renoncement conjoncturel ou structurel au projet• absence de traçabilité•performances insuffisantes•maîtrise technologique devenue insuffisante / absence de veille sur le système

Risques budgétaires le budget alloué au système n’est plus

suffisant pour le mettre en œuvre ou le maintenir en conditions opérationnelles.

Liste des risques : • inadaptation de la programmation budgétaire

•Mise en œuvre•Maintenance

• incapacité à identifier les documents vitaux

Liste des risques : • carence de ressources humaines compétentes•impossibilité de faire adhérer l’ensemble de l’institution au projet

15 juin 2012 18

Risques liés aux supports d'enregistrement

Cette catégorie concerne la dégradation des supports quelle que soit sonorigine (environnementale, humaine, due au système etc.) en dehors desdestructions totales occasionnées par les risques environnementaux.

Liste des risques : • destruction ou dégradation des supports avec origine humaine•évolution des composants chimiques•dégradation des supports d’enregistrement due à la lecture par contact répétée•dégradation lors d’une reprise d’activité

Maîtrise : • Veille, contrôles, alertes• Mixité des technologies utilisées

15 juin 2012 19

Codage de l’information Atténuation du signal

... 0 1 0 1 0 0 0 ...

Signal

Seuil

Seuil

Information binaire

Signal

A terme, la dégradation de la modulation passera un seuil fatidique = perte d’un ou plusieurs signes

15 juin 2012 20

Risques technologiques Cette catégorie regroupe les risques liés à l’environnement matériel

et logiciel concernant la lecture d’un document. Cette catégorie recense aussi les risques liés aux migrations en

fonction de la maîtrise que l’on a sur le format, et tout ce qui concerne les plateformes d’émulation et leur utilisation.

Liste des risques : • obsolescence des formats et de leur environnement•obsolescence de la plateforme matérielle requise• perte des compétences usagers

Maîtrise : • Trajectoires de migration, émulation• contrôles, alertes, veille• collecte d’informations (métadonnées, logiciels, plateformes)

15 juin 2012 21

Risques concernant l’accessibilité technique Cette catégorie prend en compte les risques liés aux données et

aux outils qui donnent accès aux documents. L’accessibilité technique correspond aux informations nécessaires

pour la restitution (« rendering »). Il peut y avoir des entraves à l’accessibilité technique (dispositifs anticopie).

Liste des risques : • absence des métadonnées techniques appropriées• absence des métadonnées de structure appropriées • copie ou consultation de la copie empêchée par un système de protection

Maîtrise : • collecte d’informations (métadonnées, mots de passe)

15 juin 2012 22

Risques concernant l’accessibilité sémantique Cette catégorie prend en compte les risques liés aux données et

aux outils qui donnent accès aux documents. L’accessibilité sémantique correspond à la compréhension par la

communauté des utilisateurs de l’objet auquel on donne accès.

Liste des risques : • absence des métadonnées descriptives appropriées•absence de référentiels sémantiques pour l’interprétation des documents• perte du contexte affectant la signification ou la complétude du document

Maîtrise : • collecte d’informations (métadonnées, documentation associée)

Un cadre de réflexion global : le modèle OAIS

Un modèle conceptuel pour les systèmes de préservation

numérique

15 juin 2012 24

L’OAIS, c’est quoi ? (2)

Un modèle abstrait ne fournit pas de solutions de mise en œuvre à quoi ça sert ? Une terminologie commune Une liste des questions à se poser Une liste d’activités à assurer Bref, un guide qui oriente la réflexion :

dit ce qu’il faut faire… … mais pas comment le faire

15 juin 2012 25

Le modèle OAIS : contenu

Ce qu’il faut faire pour préserver des documents numériques Modèle fonctionnel

Les types d’information à attacher aux objets en vue de leur préservation Modèle d’information

Organisation, architecture, responsabilités

Métadonnées

15 juin 2012 26

1. Le modèle fonctionnel : de la réalité…

entrées banque de salle

magasins

cataloguelibraires,

lecteurs

éditeurs

catalogage

document conditionné pour la conservation

document conditionné pour la communication

repérage du document grâce à ses métadonnées

administration

experts en conservation

Management

15 juin 2012 27

… au modèle

entrées accès

stockage

gestion de données

utilisateurs

producteurs

indexation

repérage du document grâce à ses métadonnées

administration

Planification de la préservation

document conditionné pour la communication

document conditionné pour la conservation

Management

15 juin 2012 28

OAIS : la notion de paquet (1)

Un paquet, c’est Ce qu’on manipule dans un OAIS

Ce qu’on verse… Ce qu’on décrit… Ce qu’on archive… Ce qu’on communique

L’unité sur laquelle on fait porter la préservation Exemple : périodique numérisé

Le paquet est-il au niveau du titre de périodique ? Ou au niveau de chaque fascicule ?

choix d’implémentation, non prescrit par l’OAIS Mais sans OAIS, se serait-on posé la question ?

Paquet d’informations

15 juin 2012 30

Les paquets dans le modèle fonctionnel

entrées accès

Stockage

gestion de données

utilisateurs

producteurs

Informations sur le paquet

Informations sur le paquet

administration

Planification de la préservation

Management

SIP

AIP

AIP

DIP

15 juin 2012 31

Qu’est-ce qu’une Archive dans l’OAIS

C’est une organisation chargée d’assurer l’ensemble des fonctions du modèle

Elle doit donc… …pérenniser l’accès au document

conformément aux attentes d’une communauté d’utilisateurs à déterminer

… négocier avec les producteurs les modalités de versement

Une Archive se définit donc non seulement par ses fonctions mais aussi par ses responsabilités

15 juin 2012 32

Les contours de l’Archive

entrées accès

Stockage

gestion de données

utilisateurs

producteurs

Informations sur le paquet

Informations sur le paquet

administration

Planification de la préservation

Management

SIP

AIP

AIP

DIP

15 juin 2012 33

Modèle fonctionnel : les entités (1) Entrées

Réceptionnent le paquet Le conditionnent pour transmission au stockage et à gestion de

données Stockage

Stocke les documents Contrôle périodiquement leur intégrité

Gestion de données Indexe les métadonnées sous une forme qui permette

de les interroger de récupérer un ou plusieurs documents

Accès Communique les documents sous une forme qui réponde au besoin de

l’utilisateur Gère la transformation de l’AIP en DIP

15 juin 2012 34

Modèle fonctionnel : les entités (2)

Administration Pilote l’Archive

Assure son bon fonctionnement et sa stabilité Rend compte de l’activité de l’Archive auprès du

Management Négocie avec les Producteurs

Planification de la préservation Prévient l’obsolescence du système

Effectue une veille technologique, sur les formats de fichiers et de métadonnées

Décide d’opérations à mener pour que les données ou le système ne tombe pas en obsolescence

2 entités qui s’équilibrent

administrateur

expert de préservation

15 juin 2012 35

Modèle fonctionnel : les entités (3)

Attention : c’est un modèle abstrait qui décrit des fonctions Ces fonctions doivent exister et l’Archive doit

s’engager à les assurer Mais ne correspondent pas forcément à des

personnes / logiciels différents !

OAIS : les stratégies de préservation

Préserver, c’est prévoir et donc planifier

15 juin 2012 37

Environnement de consultation 2

Stratégies de préservation (1)Migration : porte sur le paquet

Émulation : porte sur l’environnement de lecture du paquet

Format propriétaire – difficile à préserver Format ouvert et libre – facile à préserver et à transformer

AIPversion 1

AIPVersion 2

AIPversion 1

AIPVersion 1

Environnement de consultation 1

15 juin 2012 38

Stratégies de préservation (2) Migrations possibles :

Rafraîchissement de support

Renouvellement de supportSupport fragile – difficile à préserver – facile à reproduire

Support fragile n°1

Support fragile n°2 – plus de place

Support fragile n°3 – encore plus de place

duplications

15 juin 2012 39

Stratégies de préservation (3) Ré-empaquetage

Transformation

Format propriétaire – difficile à préserverFormat ouvert et libre – facile à préserver et à transformer

AIP 1AIP 4

AIP 2

AIP 3

15 juin 2012 40

Stratégies de préservation (4)

Emulation

Environnement matériel et logiciel difficile à préserver Environnement matériel et logiciel courant

15 juin 2012 41

Le modèle d’information OAIS

Que comporte un paquet ? Basiquement, il comporte des fichiers et

des métadonnées qui les décrivent Le modèle d’information liste les

différents types d’informations portant sur le paquet

Objets-donnéesinformations

15 juin 2012 42

Modèle d’information

Objet données Information de pérennisationProvenance, contexte,

intégrité, identification

Paquet d’informations

Information de représentation

Structure (format)Sémantique (langue, dictionnaire…)

+ +

+ +

Monde réel :

Monde numérique : Information d’empaquetage

MétadonnéesDonnées

15 juin 2012 43

Les types d’information OAIS: un exemple

L’objet

Pages

Fichiers

Structure du document

Structure des objets numériques

Exemple : un livre numériséQuel est ce livre ?

Information descriptive

Quels sont les formats des fichiers ?Information de représentation

Quels sont tous les fichiersqui résultent de la numérisation ?

Information de structure

Quand a eu lieu la numérisationet quel est le nom du scanner ?Information de provenance

A quelle page correspond chaque fichier ?Information de structure

Quel est mon original papier ?Information d’identification et de contexte

Comment désigner ce document ?Information d’identification

15 juin 2012 44

Document numérique sans ces informations

15 juin 2012 45

OAIS : Intérêt d’un modèle abstrait ? S’applique quel que soit le contexte Permet de réfléchir aux questions de

préservation au niveau international indépendamment du contexte institutionnel avec une terminologie commune

Laisse le choix des armes quant à la mise en œuvre, car elle est liée au contexte Chaque institution / type d’institution peut donc

réfléchir à une implémentation concrète L’OAIS guide la réflexion mais n’impose pas

de solution

15 juin 2012 46

Les limites de l’OAIS Tout un chantier « mise en œuvre » à mettre en place

(système, organisation, supports…) L’OAIS se focalise sur les risques spécifiques à la

préservation du numérique Réfléchir à la mise en œuvre, qui devra être viable et

donc offrir une réponse appropriée… à nos moyens financiers et humains à notre contexte institutionnel et nos missions aux besoins de notre public cible aux contraintes de ceux qui produisent les documents

⇒ l’utilisation d’une méthodologie de gestion de risques peut être utile pour compléter

15 juin 2012 47

La méthodologie de gestion des risques

Une méthode pour organiser la planification de la préservation

15 juin 2012 48

Le cycle de la gestion des risques

1. Contexte et objectifs

2. Liste des risques

3. Evaluation des risques

4. Prise de décision

4. Maîtrise

15 juin 2012 49

Un outil de gestion de risques: DRAMBORA “Digital Repository Audit Method Based on Risk

Assessment” Réalisé par le Digital Curation Centre (UK) et le projet européen

DPE (Digital Preservation Europe) Première version parue fin février 2007 Dispose maintenant d’une interface en ligne

DRAMBORA est un tutoriel détaillé : Pour l’auto-évaluation d’un entrepôt numérique Méthodologie basée sur la gestion des risques Fournit à la fois un guide rédigé et des formulaires pour

procéder à l’évaluation

http://www.repositoryaudit.eu

15 juin 2012 50

Autre norme complémentaire: PAIMAS

Dans la lignée de l’OAIS, le CCSDS travaille sur des normes complémentaires : PAIMAS pour les protocoles de versement

entre le Producteurs et l’Archive Producer-Archive Interface Methodology Abstract

Standard ISO 20652

Conclusion

15 juin 2012 52

De l’OAIS à la gestion de risques…

La gestion de risques et l’OAIS sont avant tout des bonnes pratiques

Précision d’échelle Toute collection, quelle que soit sa taille, peut

faire l’objet d’une gestion de risques Toute institution, quelle que soit sa taille, peut

mettre en place un OAIS Évidemment, les moyens affectés varient !

15 juin 2012 53

De l’OAIS à la gestion de risques…

La mise en place d’un système OAIS permet de mettre en place les conditions favorables à la préservation numérique

La mise en place d’une gestion de risques permet d’identifier les actions à mener et de sécuriser les moyens

« Y a plus qu’à » …

Aucun système informatique n’assure la préservation des documents numériques !!!

15 juin 2012 54

Alors, quels outils ?

Exemples de solutions logiciellesBref tour d’horizon

15 juin 2012 55

Solutions libres

LOCKSS (Lots of Copies Keep Stuff Safe) http://www.lockss.org/lockss/Home siège à la Stanford University Library utilise un ordinateur de bureau de base collecte des publications électroniques présentes sur

les sites Web des participants et la copie sur les différentes « boîtes » disponibles

répare l’information lorsqu’une copie est corrompue, offre un accès continu lorsqu’une boîte est indisponible

migration de format à la demande, lors de l’accès

15 juin 2012 56

Solutions libres

Fedora (Flexible Extensible Digital Object Repository Architecture) http://fedora-commons.org projet lancé en 2001 par Cornell et University of Virginia

D-Space http://dspace.org développé en 2002 par les bibliothèques du MIT et Hewlett-

Packard tourné vers le monde académique

Deux systèmes d’archivage dont le développement est à suivre

Depuis 2009, unis dans Dura-Space http://duraspace.org/index.php

15 juin 2012 57

Solutions libres

DAITSS (Dark Archive In The Sunshine State) disponible sous licence GPL http://daitss.fcla.edu

Archivematica https://www.archivematica.org

15 juin 2012 58

Solutions commerciales

Safety Deposit Box (SDB) de Tessella http://www.digital-preservation.com Version 1 créée pour les Archives nationales de

Grande-Bretagne en 2003

Rosetta d’ExLibris http://www.exlibrisgroup.com/category/ExLibrisRosettaOverview développé en collaboration avec la bibliothèque

nationale de Nouvelle-Zélande qui l’utilise depuis 2008

15 juin 2012 59

PAC (Plate-forme d’Archivage du CINES)

Version 2.0 de mai 2008 avec 2 projets pilotes http://www.cines.fr/spip.php?rubrique219 archivage des thèses électroniques STAR archivage des revues SHS du portail Persée

Infrastructure Oracle, application Arcsys et développements CINES

Limitée à certains formats validation du Format d'Archivage du CInes par anaLyse et

Expertise http://facile.cines.fr Le service PAC assure la veille technologique

sur les supports et les formats

15 juin 2012 60

Partager la veille : Groupes d’experts nationaux En France, le groupe PIN (Pérennisation de

l’Information numérique)http://pin.association-aristote.fr/ groupe de travail mis en place en 2000 au sein de

l’association ARISTOTE regroupe différentes communautés : archives,

bibliothèques, entreprises… objectifs : partage de l’information, suivi

technologique, formation En Grande-Bretagne : DPC, en Allemagne :

NESTOR, aux Etats-Unis : NDIIPP…

Exemple concret

La préservation du numérique à la BnF

15 juin 2012 62

La démarche : grandes étapes

Définition du besoin (Groupes de travail) 2006 Étude technique des solutions possibles 2006 Validation du scénario de réalisation par le

comité de pilotage début 2007 Marché de réalisation 2007

Rédaction du cahier des charges de réalisation Réception des offres

Réalisation par itération 2008 …

15 juin 2012 63

Les groupes de travail

Utilisateurs représentatifs des départements de la BnF G1 : groupe transverse de suivi G2 : communauté d’utilisateurs G3 : modèles d’information G4 : gestion des risques G2D : gestion des droits

Groupe de travail technique (DSI)

15 juin 2012 64

Groupe G2 : les filières

Numérisation de conservation des imprimés et des images fixes

Audiovisuel Dépôt légal automatique Dépôt légal négocié Production administrative/ technique Dons et acquisitions Tiers archivage

15 juin 2012 65

Utilisation de standards pour exprimer ces métadonnées pour relier toutes les métadonnées Dublin Core pour les métadonnées

bibliographiques pour les métadonnées de

provenance et techniques Identifiants pérennes : ARK et info:URI

Métadonnées interrogeables dans une base de données RDF

Métadonnées du document numérique

15 juin 2012 66

Anatomie d’un fichier METS (1)<mets>

<metsHdr>Informations sur le fichier METS

<dmdSec>Métadonnées descriptives

<amdSec>Métadonnées administratives

<fileSec>Inventaire des fichiers

<structMap>Structure du paquet

<structLink>Liens entre parties du paquet

<behaviorSec>Quel programme lit quel fichier ?

Sections très peu utilisées

Quelle est la date de création de mon fichier ?

Quels sont l’auteur et le titre du document ?

Histoire, caractères techniques, droits

Quels fichiers constituent mon document ?

Comment ces fichiers s’organisent-ils entre eux ?

15 juin 2012 67

Anatomie d’un fichier METS (2)<mets>

<metsHdr>Informations sur le fichier METS

<dmdSec>Métadonnées descriptives

<amdSec>Métadonnées administratives

<fileSec>Inventaire des fichiers

<structMap>Structure du paquet

<structLink>Liens entre parties du paquet

<behaviorSec>Quel programme lit quel fichier ?

<sourceMD>Métadonnées sur le document original

<techMD>Métadonnées techniques

<digiprovMD>Métadonnées de provenance

<rightsMD>Métadonnées de droits

15 juin 2012 68

Groupe G3 : modèle d’informationChoix de formats de métadonnées

<mets>

<dmdSec>Métadonnées descriptives

<amdSec>Métadonnées administratives

<fileSec>Inventaire des fichiers

<structMap>Structure du paquet

<sourceMD>Document original

<digiprovMD> Métadonnées de provenance

MPEG-7

<techMD>Métadonnées techniques

15 juin 2012 69

Groupe G4 : gestion de risques Liste des risques existants à la BnF, évaluation et

impact. La gestion des risques donne une vue d’ensemble des

actions de préservation menées sur l’ensemble des objets numériques.

Définition d’indicateurs Liste des risques Évaluation des risques Stratégies de réduction des risques pour les plus

importants

Les résultats

15 juin 2012 71

L’infrastructure SPAR

SSB : backup

Site de secours

SSS-B : secondaire de secours

SSP : principal

SSS : secondaireSSC : consultationServeurs

Site principal

SSC-B : consultation

Serveurs de backup

15 juin 2012 72

Salle informatique (1)

15 juin 2012 73

SPAR en contexteApplications de production de données Applications de diffusion de données

Numérisation de conservation

Production administrative

waybackArchivage WEB

….

….

Service d’abstraction du stockage

Versement

Stockage

Préservation Administration

Gestion des données Accès

Infrastructure

P

R

É

V

E

R

S

E

M

E

N

T

15 juin 2012 74

Salle informatique (2)

15 juin 2012 75

SPAR : une réalisation modulaire

Service d’abstraction du stockage

Versement

Stockage

Préservation Administration

Gestion des donnéesAccès

Pré-versement

DL web

Pré-versement

Pré-versement

Pré-versement

Numérisation de conservation

Audiovisuel

Production administrative

15 juin 2012 77

Pré-versement

Pré-versement

Pré-versement Service d’abstraction du stockage

versement

Stockage

Préservation Administration

Gestion des donnéesAccès

AIP

rdf

Infrastructure

Diffusion d’un paquet

Zone d’échange

DIP

rdf

METSMETS

15 juin 2012 78

Réutilisation de briques open source

Pré-versement

Service d’abstraction du stockage

Versement

Préservation Administration

Accès

Stockage

Pré-versement

Pré-versement

Gestion de données

15 juin 2012 79

Expertise des chargés de collection

+ producteurs d’information numérique

Expertise informatique +

gestionnaire des magasins

numériques

Expertise de conservation + cohérence des

données numériques

… Et les utilisateurs dans tout ça?

Pour chaque document, quelle taille et combien de fichiers en moyenne ?Quelle est le rythme d’accroissement moyen de l’entrepôt ?

Quels sont les formats de fichiers les plus courants dans SPAR ?Quels fichiers ne sont pas valides ?

Administrateur Expert de préservation Chargé de collections numériques

Quels sont les derniers documents entrés dans SPAR ?De quel logiciel ai-je besoin pour lire tel document ?

15 juin 2012 80

Exemples d'opérations de préservation et de l’utilité des métadonnées pour

les définir

15 juin 2012 81

Exemples d’interrogations (1)

Chargé de collections numériques / Producteur : Je veux les paquets

Où une ou plusieurs pages sont décrites comme table des matières

Mais sans fichier de table des matières en XML Permet de planifier un chantier rétrospectif de réalisation de tables

des matières en XML Je veux les paquets

De type « imprimé » (hors lot d’images)• Ne comportant pas de fichiers OCR• Ou comportant des fichiers OCR au taux de qualité < 75%

Permet de planifier un chantier d’océrisation rétrospective

15 juin 2012 82

Exemples d’interrogations (2)

Dans un contexte d’exploitation et de pilotage : Je veux la liste des paquets avec

leur date d’entrée dans SPAR leur taille leur nombre de fichiers

Je veux la liste des paquets numérisés ces 6 derniers mois leur taille leur nombre de fichiers quand océrisés, leur qualité d’OCR

Je veux, pour chaque trimestre depuis 1 an : les paquets entrés dans SPAR le nombre total de fichiers image le nombre total de fichiers OCR Permet d’évaluer le rythme d’accroissement courant

15 juin 2012 83

Exemples d’interrogations (3)

Dans un contexte de préservation : Je veux les paquets

Comprenant des fichiers HTML mal formés

(Et donc difficiles à préserver) Paquets devant faire l’objet d’une

réfection de fichier HTML Je veux des fichiers TIFF

Non conformes aux consignes de production BnF

(Et donc plus difficiles à préserver) Paquets devant faire l’objet d’une

correction

15 juin 2012 84

Exemples d’interrogations (4)

Contexte de gestion de collection : Pour chaque titre de périodique

Je veux dans l’ordre chronologique les dates de publication des fascicules présents dans SPAR

Pour chaque monographie en un ou plusieurs volumes Je veux le titre, l’auteur et la date de

publication des paquets Entrés dans SPAR le dernier mois Avec le nombre de pages par document

Conclusion

Préserver n’est pas (que) stocker

15 juin 2012 86

Un système de préservation : beaucoup plus qu’un coffre-fort On ne se contente pas de stocker les documents

numériques Il faut décrire décrit précisément leurs caractéristiques

techniques, d’historique, de structure, bibliographiques Afin de pouvoir utiliser ces caractéristiques pour

faciliter la gestion de collections numériques faciliter le pilotage et le suivi du magasin numérique permettre la préservation

15 juin 2012 87

… bref, passer d’une logique d’entrepôt…

15 juin 2012 88

… à une logique de magasin

15 juin 2012 89

Merci de votre attention

[email protected]

15 juin 2012 90

Pour aller plus loin sur l’OAIS et la gestion de risques Qu’est-ce que le modèle OAIS ? / Figoblog http://

www.figoblog.org/document1089.php La traduction française de la norme : http://public.ccsds.org/publications/archive/650x0b1%28F%29.pdf Négociation avec les Producteurs

PAIMAS : http://public.ccsds.org/publications/archive/651x0b1.pdf

Certification TRAC : http://www.crl.edu/sites/default/files/attachments

/pages/trac_0.pdf DRAMBORA : http://www.repositoryaudit.eu

15 juin 2012 91

Bibliographie (2) Tutoriel sur la préservation du numérique : http://

www.icpsr.umich.edu/dpm METS

Introduction : http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_mets.html

Vue d’ensemble et tutoriel en français : http://www.loc.gov/standards/mets/METSOverview.v2_fr.html

Page officielle : http://www.loc.gov/standards/mets Manuel : http://www.loc.gov/standards/mets/METSPrimerRevised.pdf Schéma XML : http://www.loc.gov/standards/mets/mets.xsd Liste d’outils pour générer du METS :

http://www.loc.gov/standards/mets/mets-tools.html Forum METS : [email protected]

15 juin 2012 92

Bibliographie (3) PREMIS

Site officiel : http://www.loc.gov/standards/premis Introduction à PREMIS :

http://www.loc.gov/standards/premis/understanding-premis.pdf Tutoriels : http://www.loc.gov/standards/premis/tutorials.html Documentation : http://www.loc.gov/standards/premis/v2/premis-2-0.pdf Schémas : http://www.loc.gov/standards/premis/schemas.html Communauté des utilisateurs de PREMIS :

http://www.loc.gov/standards/premis/pig.html

Rebecca S. Guenther, “Battle of the Buzzwords : Flexibility vs. Interoperability When Implementing PREMIS in METS”, D-Lib Magazine, July/Agust 2008. http://www.dlib.org/dlib/july08/guenther/07guenther.html

SPAR Documentation sur SPAR :

http://www.bnf.fr/fr/professionnels/conserver_spar/s.conserver_SPAR_presentation.html