1
CNRM Atmosphère globale (ARPEGE). Atmosphère régionale (ALADIN). Océan global et régional (OPA). Assemblage et emboîtements à faire. CERFACS Coupleurs OASIS V3 et V4. La sphère et la dynamique des fluides Système parfaitement conservatif : les algorithmes utilisables sont restreints par les conservations imposées : masse, énergie, moment cinétique, enstrophie… Solution : Diminuer le pas de temps : gaspillage énorme en temps de calcul sur les régions équatoriales. Application d’un « filtre » aux hautes latitudes pour lisser les fluctuations de courtes longueurs d’onde. méthode qui « n’aime pas » le parallélisme. La parallélisation du cœur dynamique de LMDZ Le cœur dynamique calcule et intègre les termes des équations de Navier-Stockes, le transport des traceurs et la dissipation. Filtre des hautes latitudes => domaines de calcul inhomogènes De nombreux échanges par pas de temps l’optimisation des communications est critique. MPI : décomposition de domaines en bandes de latitude Élimine le problème du filtre, simplifie la parallélisation du schéma d’advection. Échange de « halos » de données entre processus proches voisins Open MP : parallélisation des boucles sur les indices verticaux. Les boucles sur les indices verticaux sont les plus externes. La parallélisation des boucles est plus simple et performante. Elle n’entre pas en conflit avec la vectorisation Calcul Intensif pour le CLimat et l'Environnement La parallélisation de la partie physique de LMDZ, d’ORCHIDEE et d’INCA L’ensemble de ces codes suivent le même principe : les mailles sur une colonne d’atmosphère sont indépendantes les unes des autres Hormis les I/Os, pas ou peu de communications par pas de temps. L’optimisation des communications n’est pas critique. Distribution des données en vecteur de mailles sur lesquelles repose une colonne d’atmosphère. A Chaque processus MPI est assigné un vecteur de mailles, que se partage l’ensemble des tâches OpenMP lancées au sein du processus. Les stratégies de parallélisation des modèles « Le projet CICLE a pour objet de développer une nouvelle génération de modèles capables de tirer pleinement parti des supers calculateurs actuels et futurs afin de réaliser des ‘simulations frontières’ qui permettront des avancées majeures tant dans la compréhension des phénomènes physiques que dans nos capacités de prédiction. » Océan (OPA). Glace de mer (LIM). Atmosphère (LMDZ). Surface continentale et végétation (ORCHIDEE). Chimie Atmosphérique et Aérosols (INCA). Le modèle couplé de l’IPSL Circulation Atmosphèrique Circulation Oc éanique Glace de mer Biogéochimie et biologie marine Carbone DMS Nutritifs Chimie Gaz & A érosols CO2 Surface continentale sols et v égétation LMD Z Orchidée LMD ZT ORCALIM INCA STOMATE PISCES Biogéochimie continentale Carbone CH 4, COV, Aérosols Aérosols Sels marins Continents Atmosphère Océan Physique Carbone Chimie Acteurs IPSL Les difficultés de la parallélisation liées aux spécificités des modèles La faible taille des grilles utilisées Une simulation classique couvre ~ 200 ans par pas de temps de ~60 s => ~ 100 000 000 pas de temps/simulation. Utilisation de grilles de faibles tailles : Résolution moyenne : 96x72x19 => ~130 000 mailles. Haute résolution (1°) : 360x180x55 => 3 500 000 mailles. Limitation rapide des performances du parallélisme : les latences et les coûts en bande passante se font rapidement sentir : Grille 96x72x19 : 16 proc : 8000 mailles /proc. Grille 360x180x19 : 500 proc : 7000 mailles/proc. 5 codes développés indépendamment, couplés à chaque pas de temps. Utilisation du coupleur parallèle OASIS La parallélisation mixte : MPI/OpenMP Deux points singuliers : x tend vers 0 aux pôles : un défi majeur à la stabilité numérique => Instabilité CFL (Courant – Freedich-Lewy). Quelques détails sur les performances… LMDZ4 55 niveaux verticaux (360x180x55) : Résultats sur platine (CCRT) et sur le « Earth Simulator » : 1 jour (1920 itérations) CPUs Platine ES Temps Speed-up Temps Speed-up 1 (25056 s) 1 (2280 s ) 1 2 (12528 s) 2 (1140 s ) 2 4 (6264 s) 4 570 s 4 8 (3132 s) 8 307 s 7.42 16 1566 s 16 169 s 13.5 32 727 s 34.5 99 s 23 64 381 s 65.8 64 s 35.6 128 229 s 109.4 47 s 48.6 256 118 s 212.3 480 86 s 291.3 Processus M P I Tâches OMP CPU u t i l i s é s Platine Temps Speed- u p 1 1 1 3392 s 1 2 4 8 388 s 8.7 4 4 16 174 s 19.5 6 4 24 122 s 27.8 8 4 32 97 s 34.7 10 4 40 85 s 39.8 12 4 48 78 s 43.5 14 4 56 71 s 47.6 16 4 64 65 s 52.0 24 4 96 50 s 66.6 Simulation ½° : 720x360x19 LMDZ/INCA : Résolution standard 96x72x19 Temps et Speed-up pour 480 itérations (1 journée) Résolution 360x180x55 : Années simulées / mois en fonction du nombre de processeurs Résolution 360x180x55 : courbe de speed-up SX8/Itanium Paralléliser les composantes. Coupler les composantes parallèles. Emboîter modèles régionaux et globaux. Revisiter les interfaces entre composantes. Réaliser des simulations de démonstration. La complexité du modèle couplé CIGC - 05 - 004 http://dods.ipsl.jussieu.fr/omamce/CICLE

CNRM Atmosphère globale (ARPEGE). Atmosphère régionale (ALADIN). Océan global et régional (OPA)

  • Upload
    charis

  • View
    27

  • Download
    0

Embed Size (px)

DESCRIPTION

C alcul I ntensif pour le C L imat et l' E nvironnement. - PowerPoint PPT Presentation

Citation preview

Page 1: CNRM Atmosphère globale (ARPEGE).  Atmosphère régionale (ALADIN).  Océan global et régional (OPA)

CNRM

Atmosphère globale (ARPEGE).

Atmosphère régionale (ALADIN).

Océan global et régional (OPA).

Assemblage et emboîtements à faire.

CERFACS

Coupleurs OASIS V3 et V4.

La sphère et la dynamique des fluides

Système parfaitement conservatif : les algorithmes utilisables sont restreints par les conservations imposées : masse, énergie, moment cinétique, enstrophie…

Solution :

Diminuer le pas de temps : gaspillage énorme en temps de calcul sur les régions équatoriales.

Application d’un « filtre » aux hautes latitudes pour lisser les fluctuations de courtes longueurs d’onde.

méthode qui « n’aime pas » le parallélisme.

La parallélisation du cœur dynamique de LMDZ

Le cœur dynamique calcule et intègre les termes des équations de Navier-Stockes, le transport des traceurs et la dissipation.

Filtre des hautes latitudes => domaines de calcul inhomogènes

De nombreux échanges par

pas de temps

l’optimisation des communications

est critique.

MPI : décomposition de domaines en bandes de latitude

Élimine le problème du filtre, simplifie la parallélisation du schéma d’advection.

Échange de « halos » de données entre processus proches voisins

Open MP : parallélisation des boucles sur les indices verticaux.

Les boucles sur les indices verticaux sont les plus externes.

La parallélisation des boucles est plus simple et performante.

Elle n’entre pas en conflit avec la vectorisation

Calcul Intensif pour le CLimat et l'Environnement

La parallélisation de la partie physique de LMDZ, d’ORCHIDEE et d’INCA

L’ensemble de ces codes suivent le même principe : les mailles sur une colonne d’atmosphère sont indépendantes les unes des autres

Hormis les I/Os, pas ou peu de communications par pas de temps. L’optimisation des communications n’est pas critique.

Distribution des données en vecteur de mailles sur lesquelles repose une colonne d’atmosphère.

A Chaque processus MPI est assigné un vecteur de mailles, que se partage l’ensemble des tâches OpenMP lancées au sein du processus.

Les stratégies de parallélisation des modèles

« Le projet CICLE a pour objet de développer une nouvelle génération de modèles capables de tirer pleinement parti des supers calculateurs actuels et futurs afin de réaliser des ‘simulations frontières’ qui permettront des avancées majeures tant dans la compréhension des phénomènes physiques que dans nos capacités de prédiction. »

Océan (OPA).

Glace de mer (LIM).

Atmosphère (LMDZ).

Surface continentale et végétation (ORCHIDEE).

Chimie Atmosphérique et Aérosols (INCA).

Le modèle couplé de l’IPSL

Circulation Atmosphèrique

Circulation OcéaniqueGlace de mer

Biogéochimie etbiologie marine

Carbone

DMS

Nutritifs

ChimieGaz

&

Aérosols

CO2

Surface continentale

sols et végétation

LMDZ

Orchidée LMDZT

ORCALIM

INCA

STOMATE PISCES

Biogéochimiecontinentale

Carbone

CH4, COV,

Aérosols

Aérosols Sels marins

Continents Atmosphère Océan

Physique

Carbone

Chimie

Acteurs

IPSL

Les difficultés de la parallélisation liées aux spécificités des modèles

La faible taille des grilles utilisées

Une simulation classique couvre ~ 200 ans par pas de temps de ~60 s => ~ 100 000 000 pas de temps/simulation.

Utilisation de grilles de faibles tailles :

Résolution moyenne : 96x72x19 => ~130 000 mailles.

Haute résolution (1°) : 360x180x55 => 3 500 000 mailles.

Limitation rapide des performances du parallélisme : les latences et les coûts en bande passante se font rapidement sentir :

Grille 96x72x19 : 16 proc : 8000 mailles /proc.

Grille 360x180x19 : 500 proc : 7000 mailles/proc.

5 codes développés indépendamment, couplés à chaque pas de temps.

Utilisation du coupleur parallèle OASIS

La parallélisation mixte : MPI/OpenMP

Deux points singuliers : x tend vers 0 aux pôles : un défi majeur à la stabilité numérique => Instabilité CFL (Courant – Freedich-Lewy).

Quelques détails sur les performances…

LMDZ4 1° 55 niveaux verticaux (360x180x55) :

Résultats sur platine (CCRT) et sur le « Earth Simulator » : 1 jour (1920 itérations)

CPUsPlatine ES

Temps Speed-up Temps Speed-up

1 (25056 s) 1 (2280 s) 1

2 (12528 s) 2 (1140 s) 2

4 (6264 s) 4 570 s 4

8 (3132 s) 8 307 s 7.42

16 1566 s 16 169 s 13.5

32 727 s 34.5 99 s 23

64 381 s 65.8 64 s 35.6

128 229 s 109.4 47 s 48.6

256 118 s 212.3

480 86 s 291.3

Processus MPI Tâches OMP CPU utilisésPlatine

Temps Speed-up

1 1 1 3392 s 1

2 4 8 388 s 8.7

4 4 16 174 s 19.5

6 4 24 122 s 27.8

8 4 32 97 s 34.7

10 4 40 85 s 39.8

12 4 48 78 s 43.5

14 4 56 71 s 47.6

16 4 64 65 s 52.0

24 4 96 50 s 66.6

Simulation ½° : 720x360x19

LMDZ/INCA : Résolution standard 96x72x19

Temps et Speed-up pour 480 itérations (1 journée)

Résolution 360x180x55 :

Années simulées / mois en fonction du nombre de processeurs

Résolution 360x180x55 :

courbe de speed-up SX8/Itanium

Paralléliser les composantes.

Coupler les composantes parallèles.

Emboîter modèles régionaux et globaux.

Revisiter les interfaces entre composantes.

Réaliser des simulations de démonstration.

La complexité du modèle couplé

CIGC - 05 - 004

http://dods.ipsl.jussieu.fr/omamce/CICLE