Upload
chelsea-hamilton
View
46
Download
4
Embed Size (px)
DESCRIPTION
Point sur l'utilisation des moyens de calcul à court terme et stratégie à moyen terme. Marie-Alice Foujols Pôle de modélisation du climat IPSL. Parallélisme. Parallélisation MPI pour LMDZ/Orchidee OpenMP sur la verticale : à incorporer dans la référence du couplé - PowerPoint PPT Presentation
Citation preview
Point sur l'utilisation des moyens de calcul à court terme et stratégie à
moyen termeMarie-Alice Foujols
Pôle de modélisation du climatIPSL
Parallélisme
• Parallélisation MPI pour LMDZ/Orchidee
– OpenMP sur la verticale : à incorporer dans la référence du couplé
• Parallélisation MPI possiblepour NEMO
• Machines cibles :– Vectoriel et parallélisme modéré o(10), MPI : Mercure (NEC SX-8R et SX-9), Brodie
(NEC SX-8)– Scalaire SMP parallélisme massif o(100) : Platine/Titane (BULL), vargas (IBM),
performances améliorées mixte MPI/OpenMP
PROCESS 0
PROCESS 1
PROCESS 3
PROCESS 2
pôle nord
pôle sud
latitude
longitudes
Extrait du cours sur le modèle coupléversion novembre 2009
Performances pour 10 ans – octobre 2009
96x95x39 – ORCA2 Nb cpus Temps réel Temps CPU à demander
Bull platine 20 cpus 50 h 1 000 h
NEC SX-8 brodie 4 cpus 40 h 160 h
IBM vargas 32 cpus 50 h 1 600 h
144x142x39-ORCA2 Nb cpus Temps réel Temps CPU à demander
Bull platine 48 cpus 90 h 4 300 h
NEC SX-8 brodie 8 cpus 55 h 400 h
IBM vargas 32 cpus 100 h 3 200 h
Performances pour 10 ans – janvier 2010
96x95x39 – ORCA2 Nb cpus Temps réel Temps CPU à demander
NEC SX-8 brodie 4 cpus 40 h 160 h
NEC SX-9 4 cpus 13 h 52 h
• Modifications récentes du modèle : • Mise à jour aérosols et ozone troposphérique • Ajout ozone stratosphérique
• Optimisations NEC, efficaces sur SX9 et … SX8
Parallélisme O(10-100)• 3 exécutables parallèles, MPI• Modèle couplé OK :
– NEC SX : mercure, brodie– IBM vargas (depuis été 2009) – Bull platine (depuis 2008)
• Expériences internationales, plus hautes résolutions :– MareNostrum (A. Caubel, 3 mois en 2009, HPC-Europa)
• Cohabitation OpenMP/MPI non gérée par l’OS– ES/ES2 - Yokohama en décembre 2009 :
– Expérience sur le ES : 186 procs sur ES (6 oasis, 57 orca025 et 120 echam T319 (1/3°))– Expérience sur le ES2 : 32 procs max et … trop d’attente sur ES2
• Les composantes seules :– NEMO : bench PRACE, grand challenge CINES – LMDZ : OpenMP/MPI sur Bull titane
• IBM babel : trop peu de mémoire par processeur pour LMDZ
LMDZ sur titane• Mixte OpenMP/MPI• 96x95x39 avec/sans aérosols
Nb cpus Temps réel Temps CPU à demander
6 aérosolsTemps réel
CPU
8 49 h 392 h
16 25 h 400 h 33 h 523 h
32 15 h 467 h 18 h 576 h
64 8 h 537 h
128 5 h 691 h 6 h 832 h
256 4 h 1 075 h
LMDZ sur titane• Mixte OpenMP/MPI• 96x95x39 et 144x142x39 sans aérosols
Nb cpus 96x95x39Temps réel
Temps CPU à demander
144x142x39Temps réel
CPU
8 49 h 392 h
16 25 h 400 h 70 h 1 130 h
32 15 h 467 h 38 h 1 209 h
64 8 h 537 h 22 h 1 395 h
128 5 h 691 h h h
256 4 h 1 075 h
Parallélisme O(1000-10000)• On y travaille … aussi• OK avec simulations courtes et (très) haute résolution,
composantes seules• Besoin de travail pour simulations plus longues, en couplé et
résolutions ad hoc : – nouvelle dynamique, nouveau maillage : sans filtre et points
singuliers, – IO déportées (IO server), – coupleur oasis(4), …
• Attention aux spécificités des machines : besoin d’anticiper• Voir demande CEA + CNRS
• Coopération internationale : Isenes• Support Oasis3 et 4 en octobre 2009• Coopérations sur les IO
Les autres groupes internationaux • Toutes les équipes sont concentrées sur CMIP5 • Toutes les équipes ont renouvelé récemment leurs calculateurs :
– MetOffice, UK : IBM, 125 Tflops, 1Pflops en 2011– DKRZ, D : IBM, 158 Tflops– CMCC, I : IBM, 1000 procs, 18 Tflops, NEC SX9, 112 procs, 11 Tflops
• Enjeux sur les données : – description des modèles et des résultats : questionnaire Metafor, CIM,
… – diffusion des données : multisites, ESG,
• Prodiguer : – Distribution depuis centres producteurs : CCRT et IDRIS, …– Distribution depuis IPSL, Météo-France, Cerfacs