20
PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie et Biologie Evolutive (BBE) CNRS UMR 5558 - Lyon Réunion Datagrid France IN2P3 - Centre de calcul Lyon, 12 Février 2003

PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

Embed Size (px)

Citation preview

Page 1: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

PhyloJava : une application de phylogénie sur la grille DATAGRID

WP10 - Biomedical applications in EU-DataGrid

T. SILVESTRE, L. DURET

Laboratoire de Biométrie et Biologie Evolutive (BBE)

CNRS UMR 5558 - Lyon

Réunion Datagrid France

IN2P3 - Centre de calcul

Lyon, 12 Février 2003

Page 2: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Un peu d ’ étymologie...

Phylogenèse : [...] du grec phulon « race, tribu » et genèse, histoire évolutive des espèces, des lignées, et des groupes d ’organismes

Définition du « Petit Robert », édition Juin 2000

La phylogénétique est donc la phylogenèse réalisée à partir des gènes (séquences nucléiques ou protéiques)

Les résultats sont souvent représentés par des arbres (sous formes parenthésées ou graphique)

Page 3: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Exemples d ’arbres phylogenétique

XenopusHomoBosMusRattusGallus0.02

(Xenopus,(Gallus,(((Rattus,Mus),Bos),Homo)))

Page 4: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

A quoi sert la phylogenétique ?

reconstruire l ’ « arbre de la vie »

aide à la découverte de fonction de nouveaux gènes

identification de souches bactériennes ou virales

traçabilité des aliments ( viandes, poissons…)

Page 5: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Calcul d ’ arbre phylogenétique

CLUSTAL W (1.74) multiple sequence alignment

Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTAGallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATGBos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATGHomo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGMus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGRattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG ****** **** ********* * *** * * *** * * *

XenopusHomoBosMusRattusGallus0.02

Page 6: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

PhyloJava

PhyloJava est une application qui permet le calcul d’arbres phylogenétiques à partir de fichiers d’alignements de séquences (protéiques ou nucléiques).

PhyloJava est constituée par 3 éléments :

1. un client qui permet de visualiser et d’ éditer les alignements et les arbres phylogenétiques.

2. un serveur de méthodes phylogenétique qui exécute les calculs “rapides”.

3. une interface à la grille de calcul DATAGRID (UI : User Interface) permettant de soumettre des calculs plus “lourds”.

Page 7: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Méthodes de calcul

Il existe 3 familles de méthodes :

basées sur des distances (NJ,BIONJ) => O(n3)

maximum de parsimonie (DNAPars)

maximum de vraisemblance (FastDNAml) => O(pn) n : num. of seq.

Les méthodes basées sur le maximum de vraisemblance sont les plus exactes mais les plus longues à exécuter.

Difficile d’ évaluer la « robustesse » de l’arbre par un « bootstrap » qui nécessite le recalcul de plusieurs centaines d’arbres.

Page 8: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Tests de fiabilités des topologies :le « Bootstrap »

1 Nacgtacatagtatagcgtctagtggtaccgtatgaggtacatagtatgg-gtatactggtaccgtatgacgtaaat-gtatagagtctaatggtac-gtatgacgtacatggtatagcgactactggtaccgtatg

real alignment random sampling, with replacement, of N sites

1 Ngatcagtcatgtataggtctagtggtacgtatattgagagtcatgtatggtgtatactggtacgtaattgac-gtaatgtataggtctaatggtactgtaattgacggtcatgtataggactactggtacgtatat

“artificial” alignments} 1000 timestree-building methodsame tree-building method

tree = series of internal branches “artificial” treesfor each internal

branch, compute fraction of “artificial” trees containing this

internal branch

Page 9: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Pourquoi utiliser la grille DATAGRID ?

permet de lancer de longs calculs de vraisemblances sans « saturer » les machines des laboratoires.

disponibilité des ressources de calcul de la grille.

accélérer le « bootstrap » en parallélisant le calcul des arbres artificiels.

une valeur de bootstrap de 1000 => 1000 jobs sur la grille

Page 10: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Cahier des charges de l ’application (1)

édition d ’ arbres et d’ alignement de séquences => choix d ’une application plutôt qu ’un portail Web.

muti-plateformes => développement en JAVA.

une architecture client-serveur permet au client d’ afficher automatiquement les nouvelles méthodes implémentées sur le serveur.

réactivité => possibilité de choisir d ’ exécuter les jobs rapides sur le serveur PhyloJava et les plus longs sur la grille.

possibilité d’ interroger l’ état des calculs en cours

avertissement de la fin d’ un calcul par mail à l’ utilisateur.

Page 11: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

PhyloJava devrait être disponible au printemps 2003 sous formes de paquetages téléchargeables à partir du site web de DATAGRID.

Possibilité de télécharger individuellement :

le client => peut choisir de se connecter sur le server PhyloJava et utiliser des ressources de la grille à partir de l’ UI du BBE.

le serveur => pour implémenter les méthodes de son choix.

l’ UI de DATAGRID => pour accéder à la grille : peut être installée sur le serveur ou sur un ordinateur distant. Ce paquetage contiendra les scripts d’interfaçage entre l’ UI et le serveur.

Cahier des charges de l ’application (2)

Page 12: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Architecture globale

User

User

User

DATAGRIDUICGI

ssh agentInputfile

Biomserv(SUN, Solaris)

Pcgrid1(Linux, RedHat 7.2)

grid-proxy

output

trees

mail

cert

Client PhyloJava

Serveur PhyloJava

Grillede calcul

Page 13: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Choix des méthodes

Page 14: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Sélection des paramètres

Page 15: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Statut des calculs en cours

Page 16: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Edition d’arbres

Page 17: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Tests préliminaires

l’ algorithme fastDNAml (méthode de maximum de vraissemblance) a été testé sur la grille :

fichier d’alignement nucléique de 22 séquences et 4697 sites.

valeurs de bootstrap de 2, 20 et 50.

version middleware DATAGRID : edg 1.2.2

ordinateur utilisé pour la comparaison : SUN UltraEnterprise 450 (900Mhz).

Page 18: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

CPU time estimation (fastDNAml algorithm)

0

50

100

150

200

250

2 20 49

Bootstrap values

time (minutes)

DATAGRID(edg1.2)

SUN (900MHz)

Résultats(1)

Page 19: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Résultats(2)

pas de gain significatif de la grille par rapport à un ordinateur unique pour de faibles valeurs de bootstrap.

résultats encourageants pour des nombres de bootstrap de 50 => accélération des calculs par un facteur de 5.

des tests à plus grandes échelles doivent être lancés avec des valeurs de bootstrap de 1000.

Page 20: PhyloJava : une application de phylogénie sur la grille DATAGRID WP10 - Biomedical applications in EU-DataGrid T. SILVESTRE, L. DURET Laboratoire de Biométrie

T. SILVESTRE, GiGn 15 Janvier 2003

Perspectives

PhyloJava est une application qui permettra d’utiliser les ressources de la grille de façon transparente pour les biologistes.

installation facile => paquetage Java pour le client.

Limitations : lorsqu’ un élément d’un calcul est bloqué, c’est tout l’ ensemble des résultats qui est retardé.

possibilité de détecter lorsqu’ une opération prends plus de temps que la normale et la relancer.

possibilité de stopper un calcul et récupérer un résultats intermédiaire sans perdre le bénéfice du calcul qui a déjà été fait…