20
Préservation et accès aux données du CERN Jean-Yves Le Meur Input from J. Shier / DPHEP IT Department eGov Innovation Center, 02-11-2016 Carbon-fiber (100x) © Peter Pook

Préservation et accès aux données du CERN - Jean-Yves Le Meur

Embed Size (px)

Citation preview

Page 1: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Préservation et accès aux données du CERNJean-Yves Le MeurInput from J. Shier / DPHEP

IT Department

eGov Innovation Center, 02-11-2016

Carbon-fiber (100x) © Peter Pook

Page 2: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Le CERN dans le temps

Créé en 1954, le CERN est composé de 22 états membres

Un grand nombre d'accélérateurs sont gérés par le CERN, avec aujourd'hui le LHC en fer de lance

Le Large Hadron Collider fut proposé dans la fin des années 1970s, alors que les discussions sur le Lepton Collider (LEP) étaient encore en cours

Un High Luminosity upgrade (HL-LHC) a été approuvé en Juin, comme une extension du LHC jusque 2040

Ensuite, le High Energy (HE-LHC) ?…

Event simulation in the new HL-LHC ATLAS Inner Detector

© CERN

Page 3: Préservation et accès aux données du CERN - Jean-Yves Le Meur
Page 4: Préservation et accès aux données du CERN - Jean-Yves Le Meur

L’évolution des données scientifiques de HEP

Traditionnellement, les expériences achetaient et géraient leurs bandes magnétiques: Capacité de 40-200MB! (des 1600 bpi au cartouches 3480)

Avec le LEP (1989), les robots et nommages de fichiers Unix ont remplacé les numéros sur les bandes

Mais à la fin du LEP (2000) il n'y avait aucun système de préservation en place: ~1 million de volumes de bandes impossible à automatiser

ALEPH a distribué aux instituts un ‘mini-système’: laptop+disk avec l'environnement complet + toutes les données !

© CERN

Page 5: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Le Groupe de Travail DPHEP

Créé fin 2008 par DESY

Composé de représentants des principaux labos HEP du monde, y compris les expériences en fin de phase d’acquisition

Production d'un rapport Blueprint détaillé incluant des recommandations concrètes, en cours de réalisation

Compte rendu au comité “European Particle Physics Strategy Update” en 2012/3 – très influent pour tout HEP.

« Il faut se soucier de la conservation des données dès le début d’une expérience tout en se projetant, si possible, des décennies plus tard. » J. Shier

Page 6: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Quelles sont les difficultés ?

Les données des collisionneurs coûtent cher

Et elles sont longues à produire: l'exemple du LHC avec plusieurs 100aines de PB aujourd'hui à des 10aines d'EB en 2035

Les données ont un immense potentiel scientifique, et une valeur ajoutée éducative

La plupart des données sont uniques; il faut donc les préserver avec les moyens de reproduire les analyses passées et d'en lancer de nouvelles: cela implique de préserver les données, la documentation, les logiciels et la “connaissance”

Les données d'expériences passées sont parfois re-analysées: il faut conserver cette capacité dans l'avenir

Page 7: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Que fait DPHEP ?

DPHEP est devenu une Collaboration entre les plus grands labos HEP et des agences de financement du monde entier

Une "vision 2020" a été définie:

Les données archivées – décrites dans le DPHEP Blueprint et incluant les données LHC – doivent être faciles à trouver et exploitables par les communautés désignées avec une politique d'accès (ouvert) et la possibilité de réactiver des recherches;

S'aligner sur les bonnes pratiques et les standards, avec une documentation exhaustive et une approche durable; en partageant outils et services avec d'autres disciplines;

Mettre en place d'un portail, point d'accès aux données et aux outils;

Des objectifs & métriques précis pour mesurer les points ci-dessus doivent être agréés entre les agences, les fournisseurs de services et les Expériences.

Page 8: Préservation et accès aux données du CERN - Jean-Yves Le Meur

En quoi HEP est-il spécial ?

La majorité des données sont ‘jetés’... avant même d'être capturées – par des “triggers”

Nos détecteurs sont relativement stables sur de longues périodes (années) – ils ne “doublent pas tous les 6 ou 18 mois”

Nos projets durent des décennies – nous devons conserver des données utiles au moins pour cette durée

Les “données des publications” sont partagées pour plus de 30 ans… (HEPData)

Nous faisons des “mesures” – et non des “observations”

Page 9: Préservation et accès aux données du CERN - Jean-Yves Le Meur

La fusion de trous noirs…il y a 1.3 milliard d’années-lumière

Une observation par ondes gravitationnelles

Page 10: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Une mesure...

Le “Future Circular Colliders (FCC)”, un anneau de ~100 km en phase d’étude pourrait avoir une luminosité de 1000 fois celles du LEP2 (ee collision)

⇒ Une journée du FCC-ee suffirait à collecter dix ans de mesures de LEP2

Projet International de ~ 70 Institutes

Page 11: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Les clés du Long Term Data Preservation en HEP

1. Bit preservation : le “service” de base pour soutenir les autres services

2. Préserver données, logiciels et 'savoir-faire' des collaborations pour rendre possible la reproductibilité

3. Partager les données et logiciels associés avec les communautés scientifiques, ex, théoriciens ou physiciens en dehors de la collaboration de départ

4. Ouvrir l’accès à des portions de données pour le grand public (expériences LHC)

Ces cas répondent aux exigences des Data Management Plans

“Maybe CERN does bit

preservation better than anyone else in the world” David Giaretta

Page 12: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Les DMPs des expériences LHC

La 1ère expérience LHC dotée d'un “DMP” est CMS, en 2012

La release publique d'une partie significative des données a suivi après une période d'embargo

A ce jour, les 4 expériences ont un DMP

Les détails spécifiques à un projet devront enrichir les DMPs (et non la politique de préservation générale du CERN)

Quatre niveaux: données brutes ; données reconstruites (analysées) ; données éducatives (simplifiées) ; données des publications

Les releases publiques sont devenues “routinières”!

Page 13: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Les services du CERN pour la préservation

1. Des processus de "bit preservation" conformes à la norme ISO 16363

2. Des innovations pour la "préservation logicielle" – un défi clé pour HEP dont l'empilement logiciel est massif et varié (et dynamique)

3. La capture et préservation des analyses, selon un ensemble de cas agréés

4. L'accès aux données des publications – via un portail dédié

5. Un portail des données ouvertes pour les release partielles 'grand-public'

6. Un portail DPHEP qui fait le lien avec les autres efforts de préservation dans les instituts HEP du monde.

Chaque point demanderait un long discours !

Page 14: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Ce que requiert le ‘bit preservation’

La vérification régulière du support: à l'écriture, une fois plein, tous les 2 ans…

Un cycle de vie controlé: un média peut survivre 2 max. 2 générations de drive

La redondance des données: les 'petits' projets ont une 2ème copie dans un bâtiment distinct (ex: LEP – 3 copies au CERN)

Maintenir le lien entre les caches des disques et les serveurs des bandes

Réduire le nombre de 'tape mounts': réduction des frictions & meilleure efficacité

Protéger l'environnement de stockage: senseurs de poussières! (Ne jamais toucher aux bandes)

⇒ Des progrès permanents: le taux d’erreur (BER) atteint 5x10-16

Floppy disk surface (120x) © Zdenka Jenikova

Page 15: Préservation et accès aux données du CERN - Jean-Yves Le Meur

La préservation logicielle

HEP partage depuis longtemps ses logiciels à travers des collaborations internationales

CERNLIB – lancé en 1964 a été utilisé par de nombreuses communautés dans le monde

HEP s/w atteint maintenant ~107 loc, des centaines de modules en de multiples languages! (pas d'app standard)

La virtualisation et le versioning des filesystems est prometteur: 15 ans après l'acquisition, des sw ont déjà pu être réactivés, et stabilisés pour ~15 ans

Ainsi, nous pourrions analyser les données du LEP ~30 années après la fin de l'acquisition!

Page 16: Préservation et accès aux données du CERN - Jean-Yves Le Meur

La préservation des analyses

Pouvoir reproduire des analyses est exigé par les agences de financement et fait partie intégrante du travail des expériences et collaborations

Plusieurs cas se présentent:Une analyse en cours doit être transférée, par ex en cas de départ d'un collaborateur ;

Une analyse antérieure doit être répétée;

Des données d'expériences distinctes doivent être combinées.

Que capturer ? ... métadonnées, logiciel, options de configuration, information de physique de haut niveau, documentation, instructions, liens aux présentations, protocoles de qualité, notes internes...

Au moins une expérience (ALICE) aimerait que la preuve de reproductibilité devienne un critère du processus d’approbation des publications

Page 17: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Un portail pour chaque niveau

Un objectif clair: répondre au défi de rendre les données “disponibles” et “exploitables” (voir F.A.I.R.)

Page 18: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Le processus de certification

La certification: des pratiques optimales gravées dans le marbre de l'organisation

L’applicabilité: considérer les données scientifiques mais aussi non scientifiques (mémoire digitale: documents, multimédia, etc.)

Les grandes lignes: la gestion des risques: enrichir et compléter documentation et processus

la structure organisationnelle: (re)définir mission, règles et plans de préservation

Le traitement des objets digitaux: supporter OAIS SIP/AIP/DIP dans Invenio/Archivematica

L'ambition: être prêt avant l'”ESPP Update” en 2019/2020; concerne aussi l'allocation des ressources (staff, formation, plan de succession, etc.)

Le CERN peut se projeter vers le HL LHC (2040/50), mais au delà ? Le FCC ? La physique le dira…

Audit and certification of trustworthy digital repositories

Page 19: Préservation et accès aux données du CERN - Jean-Yves Le Meur

La montée en charge des données ?

100 TB par expérience LEP: 3 copies au CERN (1 sur disque, 2 sur bandes) (+ copies hors site)

1 à 10 PB par expériences au collisionneur HERA à DESY, au TEVATRON de Fermilab ou à BaBar à SLAC.

Les expériences LHC produisent déjà plusieurs centaines de PB (x00 PB)

10 EB ou plus à prévoir après la mise à jour HL-LHC

Electronic chip (10x) © Karl Deckart

Page 20: Préservation et accès aux données du CERN - Jean-Yves Le Meur

Conclusions & étapes suivantes

Impossible de partager, réutiliser des données, ou reproduire des résultats si la préservation n'est pas initiée (données, logiciel, documentation, savoir) au départ

Saurons-nous capturer assez de “savoir” pour que les données restent utilisables au delà de la durée de la collaboration initiale ?

Doit-on anticiper des migrations majeures, comme il y en a eu dans le passé ? (ou x86 / Linux dureront “pour toujours”)

Pour le HL-LHC, disposerons-nous de ressource de stockages pour garder toutes les données et de la puissance de calcul pour les retraiter ?

Deux “moteurs” favorisent aujourd'hui les actions de préservation digitale: la divulgation routinière de Données Ouvertes et le processus de Certification

«La préservation de données est un voyage et non une destination»