Raphaël Bolze LIP ENS Lyon, Doctorant CNRS BDI Projet GRAAL Épopée d’expériences DIET sur...

Preview:

Citation preview

Raphaël BolzeLIP ENS Lyon, Doctorant CNRS BDI

Projet GRAALhttp://graal.ens-lyon.fr

Épopée d’expériences DIET sur Grid5000

Plan

• Présentions de DIET Principe de base

• Fonctionnement de Grid5000 (vue utilisateur) Les sites. Réservation : OAR, gridPrem’s

• Les expériences possibles Passage à l’échelle Performance de DIET Tester les fonctionnalités de DIET

• Récit d’une expérience Description Résultats Bilan de l’expérience

• Autre expérience• Perspectives

Distributed Interactive Engineering Toolbox

http://graal.ens-lyon.fr/DIET

RPC et Grid Computing: Grid RPC

AGENT(s)

S1 S2 S3 S4

A, B, C

Answer (C)

S2 !

Request

Op(C, A, B)

Client

Environment DIET

CLIENT

SequentialApplication

Data managementApplication

Parallel Application

C C

CC

C

C CC C

AA AS S S

A S S S

A

AA

A

A

A

A

DIET Architecture

LA

MA

LA

LALA

Server front end

Master Agent

Local Agent

Client

MA

MA

MA

MA

JXTA

FAST libraryApplicationModeling

Systemavailabilities

LDAP NWS

DIET : installation et déploiement

• Un compte utilisateur

• CORBA : omniORB4

• gcc/g++

• Librairies nécessaires pour les SeD. (BLAS)

• Déploiement : Fichiers de configuration; Lancement de omniNames (serveur de noms CORBA); Lancement de l’outil de log : LogCentral; Lancement de la hiérarchie DIET.

DIET : déploiement

LogCentral

XML:-Ressources

- Machines- Stockages

-DIET Hiérarchie

Grid’5000vue utilisateur

Fonctionement de Grid5000

Orsay 216 Lyon 56

Grenoble 124 Sophia 105

Toulouse 57 Bordeaux 48

Rennes 259 Lilles 51

Nancy 47

• 963 noeuds

• 1926 processeurs

• 4 types de processeurs différents :• IA64

• powerPC

• x86

• x86-64

• Un ‘/home/lyon/rbolze’ pour chaque site

• Connexion sur les frontales des sites pour la réservation OAR

• Pas de communication vers l’extérieur

Les expériences possibles

• Passage à l’échelle. DIET sur un grand nombre de machines

• Connaître les performances de DIET Établir un référentiel des performances de DIET

Coût de l’ordonnancement Surcoût des couches DIET (client/serveur)

• Tester les différentes fonctionnalités de DIET Outil de monitoring : LogService Plugin-scheduler File d’attente Ordonnancement par fenêtrage Persistance des données DTM/JUXMEM Multi-MA …

Expérience : Calcul intensif

• But :• Connaître les surcoûts de DIET.

• Faire une expérience dimensionnante avec DIET.

• Protocole de l’expérience :• Déployer DIET sur un maximum de site en employant un

maximum de machines;

• Une quantité de travail initial : nombre défini de requêtes lancer par un grand nombre de client; Comparaison temps d’exécution DIET / temps moyens

locaux d’exécution sur les machines serveurs.

Calcul intensif : réalisation

• Planification :• Réservation des machines avec OAR/GridPrem’s

oarsub -r "2006-02-20 9:00:00" -l nodes=50,walltime=4 "sleep 14400"

Host:Port = capricorne.lyon.grid5000.fr:42074 IdJob = 25532

Reservation mode : waiting validationReservation valid --> OK

Calcul intensif : réalisation

• Étapes pour le lancement d’une expérience : Obtenir la liste des machines réservées. Vérification des machines. Modifier le fichier de déploiement en fonction des

machines obtenues Déploiement de la hiérarchie avec GoDIET Lancement des clients

Calcul intensif1 MA

8 LA

540 SeD dgemm

Orsay : 40 s Lyon : 38 s

Toulouse : 33 s

Sophia : 40 s

Parasol : 33 s Bordeaux : 33 s

Paraci : 11 s Lilles : 34 s

Paravent : 9 s

2 requêtes par SeD, si plus placement des requêtes dans une file d’attente

1120 clients répartis sur 140 machines

les clients font des requêtes dgemm sur une matrice de taille 2000 pendant X s.

Ordonnancement Round-Robin basé sur le time_since_last_solve

Calcul intensif :premiers résultats

Lyon

Orsay

Recherche d’une explication

MA

SeD SeD

omniORB-4.0.6

gcc-4.0

dietomniORB-4.0.6

gcc-3.3

diet

TIME_SINCE_LAST_SOLVE= 411

TIME_SINCE_LAST_SOLVE= inf

TIME_SINCE_LAST_SOLVE= 379

TIME_SINCE_LAST_SOLVE= 379

Calcul intensif :

• Rappel sur la configuration de l’expérience 1120 clients qui appellent le service « dgemm » sur la

plate-forme DIET 540 SeD capables d’exécuter le service « dgemm » Les SeD ne peuvent pas exécuter plus de deux

requêtes à la fois Ordonnancement Round-Robin basé sur le

time_since_last_solve.

Bilan de l’expérience

Utilisation de Grid5000 Lancement des expériences Passage à l’échelle réussit Bug omniORB-4.0.6/gcc-4.0 Problème de compatibilité des fonctionnalités DIET. Modification de la méthode de lancement avec

GoDIET Performance de l’ordonnancement

Temps d'ordonnancement

0

10

20

30

40

50

60

70

1 866 1731 2596 3461 4326 5191 6056 6921 7786 8651 9516 10381 11246 12111 12976

requête

tem

ps

en s

Moyenne = 1,97 s

Ecart Type = 5,48 s

Mediane = 0,51 s

Max = 65,01 s

Min = 0.009 s

Autre expérience

• Test de l’impact du LogService

Publication : PARALLEL AND DISTRIBUTED

COMPUTING Workshop of ICCSA 2006

Perspectives

• D’autres expériences : Calcul avec transport des données Test du plugin-scheduler Test de la persistance des données DTM/JUXMEM Impact de la hiérarchie DIET. Tolérances aux fautes …

Questions ?

Recommended