31
Projet Tutoré : GRILLES INFORMATIQUES Découvrir l'architecture et les principes du fonctionnement des grilles informatiques en s'appuyant sur les projets réels. Équipe du projet : Philipp Gavrilov Hanae Benabdillah Lemdeghri Laila Iken Zakaria Mekouar 2011 Projet tutoré : Grilles informatiques 1

Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Projet Tutoré :

GRILLES INFORMATIQUESDécouvrir l'architecture et les principes du fonctionnement

des grilles informatiques en s'appuyant sur les projets réels.

Équipe du projet : Philipp Gavrilov

Hanae Benabdillah LemdeghriLaila Iken

Zakaria Mekouar

2011

Projet tutoré : Grilles informatiques 1

Page 2: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

SOMMAIRE

Partie I. Principe de fonctionnement .................................................................................3Réalisé par Hanae Benabdillah Lemdeghri

Partie II. Architecture pour le calcul distribué ................................................................14Réalisé par Laila Iken

Partie III. Différentes applications pour les grilles informatiques.................................17Réalisé par Zakaria Mekouar

Partie IV. Mise en place des grilles informatiques .........................................................23Réalisé par Philipp Gavrilov

Projet tutoré : Grilles informatiques 2

Page 3: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Partie I. Principe de fonctionnement

Réalisé par : Hanae Benabdillah Lemdeghri

Une grille de calcul est basée sur le principe d’échange entre des clients et des

serveurs. En effet, les serveurs fournissent des tâches à réaliser ou des données à traiter

aux clients. Ils servent alors d'ordonnanceurs afin d'organiser le traitement et recomposent

les résultats. L'agrégation des retours des clients permettent la création d'un résultat final.

Les clients, proposent leur puissance de calcul ou de stockage à la grille afin de créer une

sorte de supercalculateur.

Figure 1. Principe d'échange de l'information.

Les grilles de calculs ont des environnements hétérogènes en général. En effet, les clients peuvent se retrouver avec des systèmes d'exploitation différents et peuvent être aussi physiquement différents : Serveurs, clusters, PDA, calculatrices, en d’autre terme tout ce qui a une puce de calcul et qui peut accéder à un réseau.

Le principe du grid computing consiste en sa capacité à gérer des machines qui ne se trouvent pas dans un même lieu. En effet, ces derniers peuvent bel et bien être dans des endroits distincts. Dans ce cas, la connexion est assurée par des connexions réseau : un réseau local, Internet, VPN, etc.

Projet tutoré : Grilles informatiques 3

Page 4: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Ainsi, le Grid Computing est une forme d’informatique distribuée, basée sur le partage dynamique des ressources entre des participants, des organisations et des entreprises dans le but de pouvoir les mutualiser, et faire ainsi exécuter des applications de calcul intensif ou des traitements de très gros volumes de données. En effet, cette technologie permet d’avoir accès à de nombreuses ressources informatiques telles que des serveurs de calcul, serveurs de données, éléments réseau, le tout avec la même facilité que le courant électrique lorsqu’un interrupteur est actionné.

Conceptuellement, la grille se distingue des autres types de systèmes d'informatique répartie par cinq grandes idées pour le succès de sa mise en œuvre. Le domaine le plus important est le partage des ressources à l'échelle mondiale. C'est l'essence même de la grille. Ensuite, la sécurité, bien qu'on puisse difficilement la considérer comme une nouveauté, est un aspect critique de la grille, puisqu'il doit exister un niveau de confiance très élevé entre les fournisseurs et les utilisateurs des ressources, qui très souvent ignoreront leurs identités réciproques. Le partage des ressources va, fondamentalement, à l'encontre des politiques de sécurité, encore plus prudentes, à appliquer à chaque centre informatique et à chaque ordinateur individuel de la grille. Une sécurité sans faille est donc cruciale est pour celle-ci.

Si les ressources peuvent être partagées en toute sécurité, alors la grille commence réellement à être avantageuse quand elle permet d'équilibrer la charge imposée aux ressources, de telle sorte que les ordinateurs, où qu'ils se trouvent, soient utilisés plus efficacement, et qu'il soit possible de raccourcir les files d'attente d'accès aux ressources de traitement évoluées. Toutefois, pour que tout cela fonctionne, les réseaux de télécommunications doivent garantir que la distance n'a plus d'importance - faire un calcul aux antipodes, au lieu de l'exécuter à deux pas, ne doit entraîner, pour l'utilisateur, aucun ralentissement significatif.

Enfin, une question fondamentale pour la plus grande partie des activités mondiales ayant trait à la grille, est celle des normes ouvertes - nécessaires pour avoir l'assurance que les études et recherches menées partout dans le monde pourront contribuer de façon constructive à l'élaboration de la grille et que l'industrie sera préparée à investir dans la mise au point de services de grille et d'une infrastructure de grille, commerciaux. Bref, les cinq aspects à respecter pour les grilles sont les suivants :

Projet tutoré : Grilles informatiques 4

Page 5: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

1. Partage des ressources.

La première grande idée afférente à la grille est le partage des ressources - qui vous permet d'accéder à la grille pour utiliser des ressources distantes, pour faire des choses que vous ne pourriez pas effecteur sur votre propre ordinateur ou au centre informatique avec lequel vous travaillez normalement (si vous êtes, disons, un scientifique faisant des simulations très pointues sur ordinateur).

Cette capacité de partage implique plus qu'un simple transfert de fichiers, il requiert un accès direct au logiciel, aux ordinateurs et aux données. Elle peut même vous permettre d'avoir un accès direct à des capteurs, à des télescopes et à d'autres appareils, distants, qui ne vous appartiennent pas - et de les commander.

Un défi majeur, quant à la mise en œuvre de la grille, est un fait très simple. Les ressources sont la propriété de personnes différentes, ce qui signifie qu'elles relèvent de domaines administratifs différents, qu'elles exécutent des logiciels différents et qu'elles sont régies par des politiques de sécurité et de contrôle d'accès, également différentes.

S'agissant de votre voiture, vous fieriez-vous à une personne que vous ne connaissez pas du tout ? Une fois, peut-être, mais plus ! La grille ressemble un peu à un système de covoiturage : aux fins d'efficacité, vous partagez votre voiture avec d'autres personnes, et d'autres fois, ces personnes vous accueillent dans leur véhicule. Vous pouvez ne pas connaître certains de vos partenaires, mais ils font partie du même collectif de covoiturage que vous et vous leur faites généralement confiance jusqu'à un certain point ; de leur côté ils vous accordent une certaine confiance. Si un membre du collectif est plusieurs fois de suite en retard quand c'est son tour d'être au volant, les autres se plaindront. Si leurs doléances sont sans résultat, ils finiront par l'exclure du collectif de covoiturage. Le système est donc fondé sur la confiance, ainsi que sur des mécanismes de gestion des abus de confiance. C'est le point crucial de la démarche "grille". Pas question d'avoir rien pour rien ou d'offrir au monde des ressources informatique par pure bonté de cœur.

Il s'agit plutôt d'instaurer, au sein des détenteurs de ressources informatiques, une situation dans laquelle tous les acteurs concernés verront un avantage à partager et où des mécanismes seront en place, visant à ce que chaque fournisseur de ressources estime qu'il peut se fier à tout utilisateur à qui un autre fournisseur de ressources fait confiance. Par exemple, quand des personnes responsables d'un centre informatique décident de partager leurs ressources sur la grille, normalement, elles imposent des conditions d'utilisation de ces ressources, spécifiant des limites quant au moment et à l'objet de cette utilisation.

Projet tutoré : Grilles informatiques 5

Page 6: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

2. Accès sécurisé.

La deuxième grande idée afférente à la grille est, en bref, l'accès sécurité - qui est une conséquence directe de la première grande idée. Le partage des ressources se traduit par certains des problèmes les plus difficiles liés à la réalisation de la grille :

• la politique concernant l'accès - les fournisseurs et les utilisateurs des ressources doivent définir clairement et soigneusement ce qui est partagé, qui est autorisé à partager et les conditions dans lesquelles le partage a lieu ;

• l'authentification - il faut un mécanisme permettant d'établir l'identité de l'utilisateur d'une ressource ;

• l'autorisation - il faut un mécanisme permettant de déterminer si une opération est conforme aux relations de partage qui ont été définies.

Bien sûr, la grille doit disposer d'un moyen efficace pour garder trace de toutes ces informations. Qui est autorisé à utiliser la grille et quelles sont les ressources que chacune de ces personnes autorisées est autorisée à utiliser? Qui authentifie un utilisateur donné, en vérifiant qu'il est celui qu'il dit être? Quelles sont les politiques d'utilisation des différentes ressources?

Toutes ces choses pouvant changer d'un jour à l'autre, la grille doit être extrêmement souple et disposer d'un mécanisme de comptabilisation. En fin de compte, cette comptabilisation sera utilisée pour décider d'une politique d'établissement des prix d'utilisation de la grille. En sécurité informatique, il est courant de dire que les trois fonctions clés sont l'autorisation, l'authentification et la comptabilisation. C'est certainement vrai pour la grille.

Ces problèmes ne sont pas nouveaux - d'une certaine façon, des problèmes semblables sont à régler lorsque vous utiliser votre carte de crédit dans un restaurant, ou même au " Grid Café " ! La différence est que la grille requiert de nouveaux types de solutions à ces problèmes. C'est comme si le propriétaire d'un café voulait prêter ses tables à un autre établissement, et que les serveurs devaient garder trace des additions, de leurs règlements et de ceux qui ont payé.

Projet tutoré : Grilles informatiques 6

Page 7: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

La question fondamentale, afférente à ces problèmes de confiance, est celle de la sécurité. Vous pouvez vous fier aux autres utilisateurs, mais estimez-vous en toute confiance que vos données et vos applications sont protégées lorsqu'elles circulent sur l'internet en traversant d'autres ressources informatiques ou lorsqu'elles sont traitées sur d'autres ordinateurs ? Sans une sécurité adéquate, il est aujourd'hui effectivement possible que quelqu'un utilise vos données (confidentielles ou autres) et, éventuellement, les modifie ou modifie leur trajet sur l'internet - d'où les mises en garde concernant votre sécurité, chaque fois que vous utilisez votre carte de crédit sur l'internet. En outre, sans une sécurité adéquate, il est possible que lorsque vos données résident sur un autre ordinateur de la grille, le propriétaire de cette machine - ou un pirate informatique - réussisse à les lire.

Un gros travail est en cours, pour trouver une solution à tous ces problèmes, qui concernent en réalité tout le spectre des technologies de l'information, et pas seulement la grille. Pour régler la question de la sécurité, par exemple, il est fait appel à des techniques de chiffrement perfectionnées, mises en œuvre lors de la transmission des données, ainsi que lors de leur représentation ou de leur mise en mémoire sur des ressources externes. De nouvelles solutions à beaucoup de problèmes de sécurité, sont mises au point en permanence. Mais c'est une course sans fin, car il faut garder de l'avance sur les malicieux pirates informatiques.

3. Utilisation des ressources.

La troisième grande idée afférente à la grille est que, quand vous aurez réglé toutes les formalités de partage des ressources, il faudra les utiliser de façon efficace. C'est là que la grille commence réellement à être intéressante, même pour les privilégiés qui disposent d'abondantes ressources informatiques. Car, quelle que soit l'abondance de vos ressources, il arrive toujours un moment où se crée une file d'attente d'utilisateurs désireux d'en disposer. S'il existe un mécanisme d'affectation efficace et automatique des travaux à de nombreuses ressources, il permet de réduire les files d'attente.

La situation est très semblable à l'attente aux caisses de sortie d'un supermarché. Tout le monde choisit la file d'attente la plus courte. Sauf que, quand vous croyez être vraiment dans la plus courte, bien sûr, la dame qui vous précède sort de son caddy un article que le scanner ne peut pas lire, et il faut un temps fou pour trouver son prix... Donc, idéalement, vous aimeriez savoir non seulement combien de personnes se trouvent déjà dans chaque file d'attente, mais combien de temps il leur faudra exactement pour passer à la caisse.

Projet tutoré : Grilles informatiques 7

Page 8: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Sur la grille, en principe, vous disposez de cette information concernant les différents travaux en cours de soumission, et comme tout ce qu'il y a à faire est de les exécuter sur des ordinateurs, vous devriez être capable de calculer l'allocation optimale des ressources. La réalisation de l'intergiciel (en anglais middleware), qui accomplit cette tâche et gère d'une façon générale l'activité sur la grille, est l'objectif principal de beaucoup des projets de grille en cours partout dans le monde.

Ça ne marche pas encore parfaitement, mais, à ses débuts, l'internet ne faisait pas mieux. À un tel point que les anglophones se plaisaient à transcrire www par World Wide Wait (attente à l'échelle mondiale)!

4. Abolition de la distance.

La quatrième grande idée afférente à la grille pourrait être appelée l'abolition de la distance. Les connexions à haute vitesse entre ordinateurs rendent possible une grille véritablement mondiale. Il y a dix ans, il eût été stupide d'essayer d'expédier de grandes quantités de données autour du monde pour les faire traiter plus rapidement sur d'autres ressources informatiques, car le délai de transfert de ces données eût annulé l'avantage d'un traitement plus rapide.

Aujourd'hui, le développement impressionnant de la technologie des réseaux rend la grille possible. Ces dernières années, les performances des grands réseaux, boostées par la cyberéconomie et la généralisation de l'utilisation des fibres optiques dans les systèmes de télécommunications, ont doublé environ tous les neuf mois. Certains grands réseaux fonctionnent maintenant à 155 mégabits par seconde (Mb/s), alors qu'en 1985 les centres de supercalculateurs des États-Unis étaient connectés à 56 kilobits par seconde (Kb/s) - soit une amélioration d'un facteur 3 000 en 15 ans. Imaginez la vitesse des voitures automobiles ait augmenté au même rythme depuis 1985… Il vous suffirait d'écraser l'accélérateur pour vous satelliser!

Bien sûr, la distance ne sera jamais complètement abolie, parce que quelqu'un aura toujours un problème à traiter sur la grille, pour lequel les connexions les plus rapides sembleront lentes. Par exemple, pour collaborer avec des collègues de différentes parties du monde, à l'analyse de grandes quantités de données, certains scientifiques auront toujours besoin de plus de capacité de connexion à grand débit - allant jusqu'à des dizaines de gigabits par second (Gb/s). D'autres demanderont un temps d'attente ultracourt pour leurs applications, en sorte de ne percevoir aucun retard lorsqu'ils travaillent avec des collègues sur la grille.

Projet tutoré : Grilles informatiques 8

Page 9: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

D'autres, encore, voudront une remise " juste à temps " des données au travers de la grille, afin de pouvoir effectuer des calculs complexes qui nécessitent une communication permanente entre processeurs. Pour éviter les goulets d'étranglement de communication, les réalisateurs de la grille devront aussi trouver des moyens pour compenser toute défaillance se produisant sur celle-ci au cours d'un calcul, qu'il s'agisse d'une erreur de transmission ou d'un blocage d'ordinateur individuel.

Pour satisfaire des exigences aussi critiques, il faut résoudre plusieurs difficultés propres aux réseaux à hautes performances - parmi lesquelles figurent l'optimisation des protocoles de transport et la mise au point de solutions techniques telles que la commutation Ethernet à hautes performances.

5. Normes ouvertes.

La cinquième grande idée afférente à la grille est l'utilisation de normes ouvertes. Il s'agit de convaincre les ingénieurs en génie logiciel qui réalisent actuellement la grille, y compris ceux des principales sociétés d'informatique, d'établir au départ des normes communes pour la grille, de telle sorte que des applications faites pour être exécutées sur une grille puissent l'être sur toutes les autres. Cet objectif peut sembler utopique - après tout beaucoup de sociétés de génie logiciel gagnent de l'argent précisément parce qu'elles ne partagent pas leurs normes avec leurs concurrents. Toutefois, comme de par sa nature la grille vise au partage, il est admis d'une façon générale qu'il est dans l'intérêt de tout un chacun d'établir des normes communes, donc ouvertes.

Bien, cela semble évident. Mais quand, pour la dernière fois, avez-vous dû réparer un appareil auquel il manquait un écrou en pouces, alors que vous ne disposiez que d'écrous métriques (ou vice versa) ? Et pour parler du réseau électrique, qui a inspiré la grille de calcul, n'avez-vous jamais grillé un appareil fonctionnant en 110 volts, branché accidentellement sur une prise 220 volts ? Voilà pour ce qui est des normes "universelles"!

La question difficile est de savoir quelles normes utiliser pour la grille.

Des dizaines de projets et des centaines de réalisateurs de logiciel travaillent de par le monde à la création de la grille, chacun avec ses propres idées sur ce qu'est une bonne norme. Pendant ce temps, la technologie continue d'évoluer et de produire de nouveaux éléments utiles à intégrer au matériel de la grille, pouvant nécessiter une révision des normes.

Projet tutoré : Grilles informatiques 9

Page 10: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Qui est responsable du choix des normes - et qui suggère les révisions?

L'internet et la toile reposent sur des normes clés telles que TCP/IP (protocole de transport/protocole inter-réseau) et HTTP (protocole de transfert hypertexte), qui ont été essentielles pour l'évolution des milieux concernés. Il s'agissait au début de spécifications établies par des organismes de normalisation dont la création résultait généralement d'initiatives locales, qui ont ensuite évolué vers le statut de norme internationale par un processus de caractère consensuel. L'Internet Engineering Task Force (IETF) est un organisme de normalisation s'occupant de l'internet, alors de le Word Wide Web Consortium (W3C) se consacre à la toile.

Des normes spécifiques à la grille sont en cours d'élaboration par une entité de normalisation du même genre, le Global Grid Forum. Fédérant plus de 5 000 chercheurs et praticiens individuels, cet organe représente une force significative en matière d'édiction de normes et d'élaboration d'éléments permettant le travail en commun. Actuellement, une norme connue sous le nom OGSA (Architecture ouverte de services de grille), toujours en cours de définition, est considérée comme une référence clé pour les projets d'élaboration de grilles futures.

Même maintenant, il existe un niveau d'accord extraordinaire quant aux technologies de base - compte tenu de ce que l'informatique en grille est encore dans l'enfance. Tous les projets importants sont essentiellement fondés sur les protocoles et les services fournis par la boîte à outils Globus, une infrastructure en exploitation libre permettant de disposer des services de base nécessaires pour construire des applications grille, tels ceux ayant trait à la sécurité, la découverte de ressources, la gestion de ressources et l'accès aux données.

Afin d’assurer ces cinq aspect on a besoin d’un intergiciel dont l'objectif est de faire en sorte que chacune des applications soit exécutée sur l'ordinateur approprié, où qu'il se trouve sur la grille, de manière efficace et fiable. D'une façon plus générale, la tâche de l'intergiciel est d'organiser et d'intégrer les ressources disparates de calcul, de la grille, en un tout cohérent. Cet intergiciel ou middleware est Globus Toolkit.

Globus Toolkit : Les développements ayant attrait à la grille et les progrès en matière de réseaux hauts débits, ainsi que la diminution de coûts d’exploitation de réseau a ouvert la voie à la construction d’une couche logicielle intermédiaire « middleware » qui permet l’interopérabilité des systèmes sur le réseau. Ainsi, le projet Globus est une solution et représente le projet le plus réussi dans le domaine de l’application informatique, surtout de l’application de grille.

Projet tutoré : Grilles informatiques 10

Page 11: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

1. Architecture générale du Globus Toolkit :

L’objectif du projet Globus est de fournir une « boite à outils » pour faciliter la création de grille et d’application utilisant leurs services. Au point de vue technique, Globus met à disposition des utilisateurs une API spécifique leur permettant d’accéder aux ressources de façon transparente. Au point de vue pratique, Globus est une interface utilisateur. L’architecture générale de Globus est constituée de trois services élémentaires nommés «piliers», chacun gérant une partie des contraintes :

• Ressources Management : allocation de ressources.• Information Services : accès aux informations relatives à la grille, aussi appelé

MataDirectory Service ou Monitoring Directory Service.• Data Management : gestion des données qui sont importantes ou éloignées.

Chaque pilier crée une composante primaire de l’infrastructure globale de Globus Toolkit. Ce sont des modularités de Globus permettant une certaine indépendance entre les services, si bien qu’il est possible d’installer des composantes de façon isolée et suivant ses besoins.

2. Services de Globus Toolkit :

2.1. Monitoring and Directory Service (MDS) : Identifier les ressources.

Le tissu de base de la grille est l'ensemble des ressources distribuées : postes de travail, serveurs, logiciels, stockage, acquisition de données, etc. Mais aussi des éléments aussi complexes qu'un système de gestion de fichiers distribuée, un cluster, ou... une autre grille. Ces ressources peuvent se situer dans des lieux différents et se trouvent aussi, généralement, dans des domaines de contrôle différents. Sur le schéma ci-contre, le supercalculateur appartient à l'université, alors que c'est l'entreprise Y qui contrôle le cluster, par exemple. La première étape de mise en place d'une grille consiste donc à identifier ces éléments, puis à les décrire le plus précisément possible.

Dans l'idéal, ces éléments intègrent eux-mêmes les mécanismes qui les décrivent. Le Globus Toolkit est d'ailleurs conçu pour les utiliser tels quels. Il prévoit néanmoins des outils d'identification de la version système et de la configuration matérielle d'un serveur ou de l'espace disponible d'un disque, etc.

Projet tutoré : Grilles informatiques 11

Page 12: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Jean-Pierre Prost, leader technique des activités grid au sein du centre de décision « e-business on demand » d'IBM à Montpellier, évoque, lui, un outil standard. « Le Global Grid Forum travaille sur un langage commun de description des ressources, et il se pourrait qu'il retienne le Common Interface Model du DMTF. » Celui-ci autorise tout type d'application à récolter des informations sur les systèmes, les réseaux, les applications, les périphériques, etc. Au sein du Globus Toolkit, le Monitoring and Directory Service (MDS), basé sur LDAP, recueille ces informations. Il stocke également les conditions d'utilisation définies par les « propriétaires » : créneaux horaires à respecter, quantité de puissance machine utilisable, etc. Lorsqu'elles sont disponibles, les informations temps réel sur l'état des éléments de la grille - panne éventuelle, niveau de bande passante, etc. - entrent aussi dans cette base.

2.2. Grid Security Infrastructure (GSI) : Communiquer et sécuriser.

Quand le grid a besoin des fonctions de communication classiques que sont le transport, le routage et le nommage, il s'appuie logiquement sur les différentes couches de la pile TCP/IP de l'internet. Concernant la sécurité et l'accès, le Grid Security Infrastructure (GSI) de Globus s'occupe de tout. Privilégiant un « login » unique à une authentification à répétition, il prend en charge les différentes autorisations d'accès à chacune des ressources de la grille. Par ailleurs, il utilise une architecture à clé publique avec des certificats pour chaque utilisateur et chaque service.

2.3. Grid Resource Allocation Manager : Distribuer les tâches et les données.

Tout système d'exploitation possède son scheduler. Cet indispensable module lance et surveille les tâches à exécuter (les jobs) sur la machine concernée. Le grid n'échappe pas à la règle. Mais il est facile d'imaginer le niveau de difficulté supplémentaire engendré par cette architecture distribuée et hétérogène. L'ordonnanceur doit, en effet, trouver les ressources disponibles et, parmi elles, envoyer le job vers la plus optimale. Le Globus Toolkit propose des outils et des interfaces de base pour construire ce module. Ce que font la plupart des éditeurs de grids. Le Grid Resource Allocation Manager (Gram) s'occupe de l'exécution d'une tâche à distance et de la gestion de son statut - envoi de requête d'exécution à l'hôte distant, création d'un gestionnaire pour le job sur ce dernier, surveillance de l'exécution, renvoi de statut de fin d'exécution, etc. Enfin, GridFTP, qui étend le protocole FTP à l'environnement distribué, garantit l'échange sécurisé de données entre éléments de la grille.

Projet tutoré : Grilles informatiques 12

Page 13: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Figure 2. L'architecture de Globus Toolkit.

Projet tutoré : Grilles informatiques 13

Page 14: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Partie II. Architecture pour le calcul distribué

Réalisé par : Laila Iken

Les ordinateurs parallèles sont construits autour d’un ensemble de plusieurs nœuds

interconnectés. Chaque nœud correspond à un processeur de calcul qui peut

communiquer avec les autres processeurs. Le processeur est relié à un espace de

mémoire qui peut être partagé avec les autres nœuds. Les processeurs des architectures

distribuées peuvent partager leur mémoires ou non.

a) Architectures à mémoires partagées.

Les architectures distribuées à mémoires partagées, aussi appelées

multiprocesseurs, sont composées d’un ensemble de processeurs ayant accès à une

mémoire commune. Cependant, l’accès à la mémoire constitue un goulot d’étranglement

sur ce type de machines, dès que le nombre de processeurs augmente. Ce nombre ce

limite à une dizaine de processeurs.

Figure 3. Architecture à mémoires partagées.

Ce type d’architecture facilite le travail de parallélisassions des algorithmes. Mais le nombre limité des processeurs ne permet pas la distribution à grande échelle.

b) Architectures à mémoires distribuées.Chaque processeur possède sa propre mémoire, les différents nœuds de calculs,

définit par l’ensemble processeur et mémoire, sont reliés entre eux par un réseau d’interconnexion. Grace à ce système, cette architecture autorise un nombre plus important de processeurs, par rapport à l’architecture à mémoire partagée. Certaines machines possèdent plus d’une centaine de processeurs.

Projet tutoré : Grilles informatiques 14

Page 15: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Figure 4. Architecture à mémoires distribuées.

c) Architectures mixtes.

C’est le compromis entre les deux architectures. Les machines à architecture mixte sont des machines à mémoire distribuée dont les nœuds de calculs sont des ordinateurs à mémoire partagée.

Figure 5. Architecture mixte.

La grille de calcul est une seule machine virtuelle, qui est représentée par plusieurs machines, dont les architectures peuvent être différentes, connectées par un seul et même réseau, qui est internet. Par abus de langage, quand les calculs sont exécutés de manière parallèle sur des architectures à mémoire distribuée, on parle de calcul distribué.

Projet tutoré : Grilles informatiques 15

Page 16: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

d) Architecture d’un système distribué.

Un système informatique distribué est un ensemble de poste ou calculateurs autonomes qui sont connectés entre eux à l’aide d’un réseau de communication. Chaque poste exécute par exemple des séquences de calcul, issues du découpage d’un projet de calcul global, et utilise un middelware qui s’occupe d'activer des composantes et de coordonner leurs activités de telle sorte qu'un utilisateur perçoive le système comme un unique système intégré.

Une propriété importante des systèmes distribués est que la distribution est généralement cachée pour l’utilisateur et les programmeurs de l’application. Il préfère voir l'ensemble comme un seul et unique système et ainsi cacher la complexité de la distribution le plus possible.

Figure 6. Structure multicouche.

Figure 7. Infrastructure conceptuelle.

Projet tutoré : Grilles informatiques 16

Page 17: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Partie III. Différentes applications pour les grilles informatiques

Réalisé par : Zakaria Mekouar

1. Des besoins de plus en plus importants en puissance de calcul :

Quelques chiffres :

1. Un bio-chimiste utilise à 100 % un ordinateur pour tester un seul composé chimique pendant 1heure.

2. Les physiciens ont besoin de travailler avec des données dispersées géographiquement et combinent les ressources informatiques de leur réseau afin d’analyser des péta-octets de données.

3. Les météorologues visualisent des données issues de simulations nécessitant l’analyse de téraoctets de données.

4. Les compagnies d’assurances doivent pouvoir analyser des données de sources multiples (plusieurs bases de données) afin de détecter des fraudes

5. Les unités de traitement – CPU ou processeurs – sont généralement exploitées à moins de 10% de leurs capacités réelles.

On voit alors rapidement que le besoin d’avoir une puissance de calcul considérable est réel afin de mener à bien tous ces projets. Ce besoin semble pouvoir être mis en parallèle avec le «gaspillage» en puissance de calcul des ordinateurs (personnels ou professionnels).

En parallèle, l’informatique s’est développée et permet actuellement de pouvoir diviser un projet de calcul en divers petits projets pouvant être exécutés sur différents ordinateurs.

Les grilles au sens grille de calcul sont donc venues en alternative à ce besoin et ont pu révolutionner plusieurs domaines.

2. Parmi les premières utilisations du calcul distribué : La résolution des problèmes mathématiques.

Distributed.net est l’un de ces projets pionniers ayant fait appel au calcul distribué pour tenter de résoudre des problèmes mathématiques. Le calcul distribué se base alors sur l’utilisation des processeurs CPU et GPU inactifs.

Projet tutoré : Grilles informatiques 17

Page 18: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Ce projet est basé sur un logiciel client qui permet la participation au projet, «dnetc». Ce logiciel récupère des clés sur un serveur, les traite, puis les renvoie sur le serveur. Trois versions de ce client avaient vu le jour, dont la plus utilisée était celle destinée aux versions 32-bits de windows.

Petit à petit, d’autres clients ont vu le jour et ont permis d’utiliser la puissance de calcul des processeurs graphiques, les plus souvent utilisés étant NVIDIA et ATI.

Actuellement, d’autres projets de chiffrement sont en cours comme le projet RSA Lab’s 72-bits RC5 Encryption Challenge ou encore le projet des règles de Golomb (OGR-27). L'historique des projets est indiquée ci-dessous :

Figure 8. Historique des projets distributed.net

3. Un projet fantaisiste : SETI@home.

SETI@home est l’un des projets de calcul distribué les plus fantaisistes mais les plus actifs. Il utilise des ordinateurs connectés à internet pour mener des recherches sur l’intelligence extra-terrestre!

Bien que destiné à faire du travail scientifique cherchant à détecter de la vie intelligente non-terrestre, le but premier du projet SETI@home était de prouver la fonctionnalité et la viabilité du calcul distribué. Ce dernier est considéré comme complètement atteint dans la mesure ou la plateforme qui l’héberge supporte actuellement plusieurs projets de calcul distribué dans un vaste éventail de disciplines. Toutefois, la recherche de signaux extraterrestre reste pour l’instant infructueuse mais continue à être entreprise.

Projet tutoré : Grilles informatiques 18

Page 19: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

SETI@home effectue la recherche de transmission radio extraterrestre à partir des observations faites par le radiotélescope d’Arecibo, Puerto Rico. Les données sont prises "passivement" pendant que le télescope est utilisé pour d'autres projets scientifiques. Elles sont numérisées, emmagasinées et expédiées aux installations de SETI@home en Californie. Par la suite, elles sont divisées en petites unités defréquence et temps qui sont analysées à l'aide d'un logiciel afin d'y déceler un signal, c'est-à-dire une variation qui se distingue du bruit cosmique et qui contient de l'information.

Le point crucial de SETI@home est que les millions d'unités produites sont envoyées à des ordinateurs personnels qui utilisent le logiciel et qui, une fois l'analyse terminée, retournent les résultats à la source. Ainsi, une analyse de données nécessitant un temps de calcul faramineux pour un seul ordinateur devient faisable par la "distribution" de la tâche à une grande communauté d'internautes.

Bien que le projet n’ait pas atteint le but de trouver une intelligence extraterrestre, il a prouvé à la communauté scientifique que les projets de calcul distribué, utilisant des ordinateurs personnels connectés à Internet, sont des outils d’analyse considérables qui peuvent rivaliser avec les plus puissants superordinateurs.

Justement, la technologie sur laquelle repose ce projet est la suivant :

L’accessibilité au projet est quasi-universelle : N’importe qui possédant un ordinateur ayant un accès à l’Internet peut participer à SETI@home en exécutant un programme gratuit qui télécharge et analyse les données d’un radiotelescope. Les données sont enregistrées sur des rubans de 36 Gigabytes à l'Observatoire d'Arecibo, Puerto Rico. Chacun des disques possède 15,5 heures d'observations qui sont par la suite envoyées à Berkeley. Arecibo n'ayant pas de connexion Internet à large bande passante, les données doivent être envoyées par la poste.

Une fois à Berkeley, les données sont divisées en unités de temps et de fréquence de 107 secondes (approximativement 0,35 Megabyte). Ces "unités de travail" (work units) sont alors envoyées partout dans le monde, via l'Internet et à partir du serveurde SETI@home, afin d'être analysées.

Le logiciel d'analyse peut rechercher des signaux ayant le dixième de la force de ceux qui pouvaient être détectés lors d'autres recensements. Ceci s'explique par l'utilisation d'un algorithme informatique puissant nommé coherent integration (que l'on pourrait traduire par intégration cohérente) qui demande une puissance de calcul que nul autre projet SETI n'aurait.

Projet tutoré : Grilles informatiques 19

Page 20: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Les unités de travail analysées sont normalement renvoyées automatiquement à Berkeley. Elles y sont stockées dans une banque de données par des ordinateurs dédiés au projet. Les interférences sont éliminées et une panoplie d'algorithmes est utilisée afin de chercher les signaux les plus intéressants.

Figure 9. Capture d’écran du programme SETI@home. Version 3.07.

Au niveau du logiciel SETI@home utilisé, il fonctionne sous forme d’écran de veille ou en continue pendant l’utilisation de l’ordinateur sans dépasser un certain seuil.

Petit à petit ce logiciel a évolué (notamment lors du passage au BOINC (Berkley Open Infrastructure for Network Computing) pour permettre une plus analyse plus vaste des signaux et surtout la participation à d’autres projets de calcul distribué en même temps que celui de SETI@home.

Les chiffres du projet SETI@home parlent d’eux même : 5.2 millions de participants depuis son lancement, un record. (2.8 millions d’ordinateurs utilisés) Sa puissance de calcul de 509 TeraFLOPS n’a rien a envier a celle du superordinateur le plus puissant.

Projet tutoré : Grilles informatiques 20

Page 21: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Figure 10. SETI@home Client. Version 4.45.

4. NeuGRID, l’un des projets de recherche scientifique les plus actifs.

NeuGRID est un projet un projet financé par l’Union européenne dans le septieme programme cadre. Son but est de développer une infrastructure numérique pour la recherche scientifique sur fond de technologie de grille informatique, et qui offre une interface d’utilisation facile et accessible. Celle-ci permettra aux neuroscientifiques européens de faire avancer la recherche pour l’étude des maladies neurodégénératives.

En effet, grâce à l’utilisation des grilles informatiques, le projet NeuGRID prévoir d’offrir la possibilité de stocker et de classer une quantité considérable de données d’imagerie médicale qui sera accompagnée par la possibilité d’effectuer des analyses couteuses en temps de calcul.

Le projet compte d’abord permettre aux neuroscientifiques d’identifier les marqueurs de maladie neurodegenarative à partir de l’analyse des images 3D des IRM du cerveau.

Projet tutoré : Grilles informatiques 21

Page 22: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

NeuGRID sera conforme aux normes européennes et internationales reconnues en matière de collecte de données, gestion des données et la construction du réseau.

Parmi les deux infrastructures proposées, MammoGrid fournira des connaissances liées à l’intergiciel et l’interface upperware à la grille, tandis que AddNeuroMed servira à la collecte et l’archivage des données cliniques multicentriques, des images biomedicales et d’analyse d’images informatisées.

Les défis de la recherche seront les suivants : La Grillification d’algorithme d’analyse d’images du cerveau, le développement d’une couche intermédiaire de services entre l’utilisateur et la grille afin de rendre l’infrastructure extensible à un certain nombres d’algorithme du prototype de l’infrastructure.

NeuGRID a l’ambition de devenir le « Google for Brain imaging » en offrant un système organisé et centralisé, facile d’utilisation sur lequel les scientifiques peuvent faire leurs analyses et collaborer entre eux.

Projet tutoré : Grilles informatiques 22

Page 23: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Partie IV. Mise en place des grilles informatiques

Réalisé par : Philipp Gavrilov

1. L'IN2P3 et son Centre de Calcul.

Créé en 1971, l’Institut national de physique nucléaire et de physique des particules (IN2P3) du CNRS a pour mission de promouvoir et fédérer les activités de recherche dans les domaines de la physique nucléaire, physique des particules et astroparticules. [1] A la différence du Commissariat à l'Énergie Atomique qui s'occupe a priori des projets militaires ou fondamentaux l'IN2P3 traite les domaines plus appliqués, parfois même académiques. Cette explique différence des approches utilisées : CEA préfère des GPU monolithiques [2] dont le dernier basé sur la solution de la société française Bull est actuellement la sixième machine du monde. Tandis que l'IN2P3 s'appuie plutôt sur les architectures reparties et les calculs distribués. En effet le rôle de la gestion des données pour ce dernier est prépondérant. Et dans le cas du CEA il s'agit de la stratégie technique orientée au traitement de l'information.

Le Centre de Calcul de l'Institut gère généralement les projets au niveau de la région Rhône-Alpes mais participe aussi aux grands projets internationaux. Comme l'unité de service il a un rôle très important : il fournit ses capacités aux acteurs divers et assure ainsi la partie technique du fonctionnement des plusieurs équipes scientifiques. Depuis 1986 le Centre s'occupe de support des projets dans les domaines différents : la médecine, la biologie et bien sûr les recherches nucléaires. Tout d'abord il s'agit d'un centre informatique qui effectue le stockage reparti de grands ensembles de données.

Les équipes des projets s'adressent au Centre pour demander les ressources nécessaires. Pourtant il s'agit aussi de l'affectation des ressources humaines surtout les techniciens électroniques. D'habitude pour l'activité d'un chercheur deux techniciens sont nécessaires.

Projet tutoré : Grilles informatiques 23

Page 24: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Actuellement le projet le plus important pour le Centre est celui de Grand collisionneur de hadrons (Large Hadron Collider ou LHC en anglais) qui représente un accélérateur de particules le plus puissant du monde. La France est un des participants essentiels de ce projet global et assure près que 20 pour cent de son financement.

2. Projet LHC : architecture qui unifie le monde.

Chaque projet qui concerne la mise en place des grilles surtout s'il s'agit de l'architecture si complexe a quatre types de ressources nécessaires pour la réussite : techniques, économiques, organisationnels et politiques. Ces dernières sont indispensables pour définir les responsabilités de chaque participant, repartir le financement et enfin justifier l'importance du sujet pour les acteurs concernés.

Pour assurer la pertinence de l'infrastructure informatique il était nécessaire de mettre en valeur les principes de l'organisation conséquente des niveaux de l'architecture matérielle du projet. Ce modèle global est aussi utile car il s'agit des plusieurs centres d'intérêts qui ont parfois des buts particuliers. Ainsi, chaque couche avait sa propre fonction. Le noyau conceptuel s'appelle le Tier 0 et se trouve en disposition du site central du CERN. Conçu pour centraliser et synchroniser l'interaction des machines du premier niveau il permet d'administrer l'activité des sites nationaux. Ces derniers représentent la partie principale de l'infrastructure distribuée – le Tier 1.

Il y en a onze au total : généralement un site correspond à un pays participant au projet. Les nœuds du deuxième niveau composent le Tier 2 et se trouvent aux instituts de recherche du chaque pays concernant. Ces organismes scientifiques jouent le rôle des clients qui demandent périodiquement les capacités fournies par les centres de calcul (CC). Par exemple, l'IN2P3 qui leur fournit quelques pétaoctets pour stockage et met à leur disposition sa puissance calculatoire.

En effet la fonction principale du Tier 1 est plutôt le stockage. Ainsi les postes du Tier 2 peuvent récupérer les données nécessaires et démarrer la procédure de l'analyse ou de l'étude de l'information ayant effectué le traitement préalable. Si ce dernier est compliqué une demande va être envoyée aux premier niveau pour qu'il soit possible de traiter les données au niveau supérieur. Ensuite les résultats seront transmis au poste qui les avait demandés. Cette interaction rigoureuse contribue à la cohérence de tout le système du projet LHC qui est indiquée sur la page suivante.

Projet tutoré : Grilles informatiques 24

Page 25: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Figure 11. Architecture conceptuelle du projet LHC.

Afin d'assurer une bonne répartition des moyens de calculs ils sont organisés en clusters – les groupes homogènes des capacités techniques. Les ressources peuvent être accédées par 2000 chercheurs environ.

Les quatre centres d'intérêts qui ont déjà été mentionnés précédemment servent à décomposer les activités de ce projet global. En général il y en a sept mais trois sous-projets n'utilise pas l'architecture commune :

Impliqués Non impliqués1. ALICE – utilisé et supporté par CC IN2P3A Large Ion Collider Experiment

5. TOTEM – complémentaireTOTal Elastic and diffractive cross section Measurement

2. CMS – utilisé et supporté par CC IN2P3Compact Muon Solenoid

6. LHCf – complémentaireThe Large Hadron Collider forward3

3. ATLAS – utilisé et supporté par les autres CCA Toroidal LHC ApparatuS

7. MoEDAL – planifiéMonopole and Exotics Detector At the LHC

4. LHCb – utilisé et supporté par les autres CCThe Large Hadron Collider beauty experiment

Figure 12. Implication des détecteurs LHC à l'infrastructure des grilles commune.

L'expérience globale du LHC contient l'information fournie par quatre détecteurs principaux. Lors qu'il s'agit des types de données différents les flux sont traités séparément. Même si la taille des calculs ainsi que l'espace nécessaire pour le stockage sont importantes il s'agit quand même des projet assez courts : de 3 à 5 ou 6 ans au maximum. Pourtant les mise à jour du matériel se produit chaque 3 ans. Ainsi le financement doit être très significatif.

Projet tutoré : Grilles informatiques 25

CERN

0

1

2

GRID :

- Tier 0

- Tier 1

- Tier 2

Cluster principal

Centre de calcul / du stockage

Centre de recherche

Centre d'analyse

Niveaux de l'infrastructure0 1 2

Page 26: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Afin de l'obtenir il est indispensable de prouver l'importance de cet investissement. C'est pourquoi le projet EGEE (de l'anglais Enabling Grids for E-sciencE, c'est-à-dire, validation de grille pour l'e-Science) a été crée. Ce dernier a permis d'obtenir un financement supplémentaire de la Commission Européenne grâce à l'utilisation plus efficace des capacités existantes. En effet il s'agissait de l'élargir l'application des grilles aux domaines scientifiques pour pouvoir profiter des puissances énormes des centres de calcul européens.

3. Le mise en œuvre de l'infrastructure informatique repartie.

Au niveau national l'interaction des unités de calculs et celles de stockage se fait par le réseau scientifique français RENATER-5 déployé en 2008. Au niveau européen les sites sont unifiés par le réseau international GÉANT2. Ce dernier est un consortium constitué de 32 NREN (National Research and Education Network, c'est-à-dire, réseaux nationaux pour l'enseignement et la recherche). Avec plus de 30 millions d’utilisateurs issus de 34 pays européens, GÉANT2 propose une couverture géographique inégalée, des services de bande passante haut débit, une technologie réseau hybride innovante et une gamme complète de services utilisateurs [3]. Généralement RENATER et GÉANT sont utilisés pour tous types de recherche.

Afin d'assurer une bonne niveau de conformité aux besoins d'utilisateurs plusieurs solutions spécifiques sont mises en œuvre. Tout d'abord il s'agit des outils logiciels de bas niveau tels que distribution Scientific Linux qui est basée sur Red Hat Entreprise avec l'intention d'être 100% compatible au niveau binaire. Ce produit a été co-développé par Fermi National Accelerator Laboratory et par le CERN en 2004. L'autre solution s'appelle gLite. Étant le middleware crée par EGEE spécialement pour le projet LHC elle permet d'assurer la homogénéité du système. Comme gLite se compose de plusieurs composants et des services ce serait plutôt le sujet d'une autre partie du projet.

Les clients peuvent faire partie d'une des deux groupes : utilisateurs locaux et ceux des grilles. Afin de leur offrir des capacités nécessaires le réseau du Centre de Calcul de l'IN2P3 dispose de 1200 ordinateurs ou de 12000 cœurs environ. En effet chaque poste peut en contenir de 6 à 24. En général il y en a 8 par machine en moyenne. Il faut aussi prendre en compte que renouvellement du matériel se passe chaque 3 ans ce qui fait la puissance du système vraiment importante.

Projet tutoré : Grilles informatiques 26

Page 27: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

L'unification des serveurs en grappes ou fermes de calcul permet de regrouper leur puissance et d'utiliser les capacités disponibles très efficacement. Cette technique d'optimisation contribue à la gestion globale des moyens de calcul existants [4] et sert à dépasser les limitations d'un ordinateur indépendant (appelé nœud ou node en anglais). Les grappes de serveurs (ou computer cluster en anglais). Généralement l'application de cette méthode vise à :

• augmenter la disponibilité ;• faciliter la montée en charge ;• permettre une répartition de la charge ;• faciliter la gestion des ressources telles que :

◦ processeur;◦ mémoire vive;◦ disques dur;◦ bande passante réseau.

Afin d'améliorer le fonctionnement de cette infrastructure on utilise le traitement par lots (ou batch processing en anglais) qui permet de choisir les tâches à exécuter selon les capacités disponibles au moment donné. Ainsi on assure l'utilisation optimale de chaque ferme de calcul. L'outil spécial conçu pour résoudre le problème de répartition et de l'affectation des tâches s'appelle batch queuing system. Le dispositif BQS utilisé par le CERN a été développé spécialement pour ce projet et prend en compte toutes ses particularités. Parmi les outils informatiques figure aussi LFS – système propriétaire. Ce logiciel commercial est utilisé pour gérer le stockage de données ce qui est vraiment nécessaire car il s'agit de 50 pétaoctets dont dix sont en ligne. Cette mémoire de stockage assurée par les clusters de données de disque.

Au niveau technique l'accès aux données stockées se passe par la demande de la cartouche nécessaire. Les cartouche représentent les composants matériels qui sont utilisées pour repartir les capacités de stockages et réduire la complexité du système tout en optimisant la procédure elle-même. C'est surtout utile compte tenu du volume de la mémoire de stockage. Le processus de gestion des cartouches est assuré par le système spécial qui est en charge de les mettre sur le lecteur. Les cartouches produites par Sun Microsystems.

Projet tutoré : Grilles informatiques 27

Page 28: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Le principe du fonctionnement de l'outil gLite est indiqué ci-dessous. Le schéma représente plutôt la fonction principale de ce logiciel car grâce à un grand nombre de modules il est capable d'effectuer beaucoup d'opérations utiles :

unités de stockage travail en attente

unités de calcul travail accompli

travail en cours d'exécution travail en cours de vérification

unité de calcul / de stockage demande effectuée

Figure 13. Le fonctionnement du système de l'affectation des ressources.

Le fonctionnement du système n'est pas interactif : l'architecture en batch permet de tout faire en utilisant cette méthode-là. Quand l'utilisateur du système demande des ressources le système traite la requête et vérifie s'il y a assez de capacités à fournir sur tel ou tel site. Cette procédure passe par Worldwide Management Service qui est responsable de l'affectation des tâches à tel ou tel poste (site). Afin de l'effectuer il obtient la disponibilité des sites pour l'affectation finale. Si un site est trop chargé le système choisit le suivant parmi 400 nœuds. Le processus principal se produit grâce au Storage Ressource

Management – un système assez lourd et complexe.

Projet tutoré : Grilles informatiques 28

client

Page 29: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

travail reparti en attente arrêt de l'exécution

travail décomposé travail actif

Figure 14. Le processus de la gestion des tâches et les outils concernés.

Les tâches dont la complexité est trop grande peuvent ne pas trouver le poste. Dans ce cas-là ainsi que pour optimiser la charge totale il existe un composant spécial qui s'appelle Ressource Broker. Il s'occupe de la décomposition de la tâche comme indiquée sur le dessin ci-dessous et de la répartition de la charge entre plusieurs sites s'il agit d'une tâche qui est monolithique mais qui est de puissance importante .

Dans le cadre de l'architecture envisagée on utilise les applications (les jobs en anglais) qui consomment les capacités de processeurs pendant au plus 48 heures. Ainsi elle ne traite pas que des travaux vraiment courts qui n'ont pas la durée qui excède le seuil défini.

Les systèmes distribués sont très largement utilisés pour la gestion de données. Pour bien assurer cette tâche importante il faut utiliser le logiciel spécialisé. A priori cette fonction est affecté au système SRB développé pour le centre des super-ordinateurs de San Diego et ayant une licence commerciale. Ainsi, il y avait une nécessité de développer le logiciel libre de ce type. Ce système s'appelle iRODS et l'IN2P3 était le premier organisme à l'appliquer en Europe. Actuellement on suppose que ce soit le plus puissant outil pour la gestion de données.

Projet tutoré : Grilles informatiques 29

WMS

gLitejob

GRID

client

SRM

Page 30: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

Adressage à la base de données se passe correctement grâce à l'utilisation des méta variables et catalogue spécial qui contient les correspondances nécessaires pour bien lier les données concernées. Les métadonnées sont stockées dans la même base que les données elle-mêmes ou SRB.

unité de stockage objet actif

répartition du stockage demande effectuée

Figure 15. La politique d'adressage et stockage reparti.

Parmi les méthodes mathématiques qu'on utilise pendant le traitement figure celle de Monte Carlo. Il s'agit de générer de nombreux événements aléatoires afin d'aboutir finalement à quelques dépendance ou tendance significative.

Pour bien comparer la différence en complexité de la gestion et du stockage il faut bien prendre en compte que les calculs sont « temporaires » et les données sont « permanentes ». La difficulté de ces projets est vraiment importante : souvent les projets de basent sur les standards industriels rigoureux, comme DICOM qui utilisé par Toshiba pour ses scanneurs médicaux. En effet, les données médicales exigent une sécurité de stockage supplémentaire, en plus que dans certains cas il s'agit des données fortement confidentielles, comme le projet cardiologue qui concerne le stockage des images du cœur fournis par les Centres Cardiologues au niveau national.

Projet tutoré : Grilles informatiques 30

client SRB

site.X.01.toto

FILE

toto1

foo.bar URL

Page 31: Projet Tutoré : GRILLES INFORMATIQUES · 2012-03-21 · Projet tutoré : Grilles informatiques 2. Partie I. Principe de fonctionnement Réalisé par : Hanae Benabdillah Lemdeghri

L'Institut représente une organisation virtuelle (ou virtual organisation en anglais) qui gère les projets de ce type au niveau régional. Cette VO a cinq sites : à l'IN2P3 et à l'IPN (Institut de Physique Nucléaire) sur Lyon, le site de Gerland qui s'occupe des biosciences, le site de Grenoble et celui d'Annecy.

Toutes les activités concernant les infrastructures repartie ont lieu dans le cadre de l'organisme TIDRA (Traitement Informatique pour Rhône-Alpes). Ce dernier offre les services de stockage très variés, ex. stockages des images de cerveau. Parmi les autres projets qui utilisent l'infrastructure basée sur les grilles dont IN2P3 fait parti il y a ceux de la biologie et de la phylogénie (ACE). Quant aux solutions informatique utilisées pour le stockage ce sont les produits de la société Oracle.

Il existent plusieurs difficultés concernant le fonctionnement et la mise en place des unités de service parmi lesquelles figurent :

• la difficulté de la maintenance;◦ mise à jour des systèmes d'exploitation;◦ assurance de la cohérence des logiciels installés;

• refroidissement des moyens de calcul;• contraintes concernant la consommation de l'énergie, etc.

Références :

1. http://www.in2p3.fr/presentation/politique/statuts_missions.htm 2. http://www.top500.org/lists/2010/11 3. http://fr.wikipedia.org/wiki/Grappe_de_serveurs 4. http://fr.wikipedia.org/wiki/Traitement_par_lots 5. http://www.lhc-france.fr/ 6. http://en.wikipedia.org/wiki/GLite 7. http://boinc.berkeley.edu/trac/wiki/VolunteerComputing 8. http://dashb-earth.cern.ch/doc/guides/service-monitor-gearth/html/user/index.html

Projet tutoré : Grilles informatiques 31