Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Sébastien Boisvert, François Laviolette et Jacques Corbeil
La génomique, les superordinateurs et le logiciel
d'assemblage Ray
2
Attributs de la présentation
Clé Valeur
Numéro 2074
Mode de présentation Oral
Édition du congrès 81
Durée 20 minutes
Questions 5 minutes
Jour mardi 7 mai 2013
Horaire 8 h 30 à 12 h 00
Lieu Pavillon Alexandre-Vachon - 3380
Choix du domaine de recherche 209 - Techniques, mesures et systèmes
Second domaine de recherche (optionnel) 206 - Organismes vivants
Choix de la discipline 216 - Biotechnologies et biométrie
3
ADN
● Stockage à long terme des plans pour construire un organisme vivant
● 4 symboles: A, T, C, G
Watson J.D. and Crick F.H.C.A Structure for Deoxyribose Nucleic AcidNature 171, 737-738 (1953)http://www.nature.com/nature/dna50/archive.html
4
Information génétique
ADN
ARN
protéine
Image: Wikipedia
5
Génome
● Ensemble du matériel génétique d'un organisme vivant
génomicien
6
Séquençeur
● Technologie qui peut lire l'ADN
technicien
7
Technologies
Jay Shendure & Hanlee JiNext-generation DNA sequencingNature Biotechnology 26, 1135 - 1145 (2008) http://www.nature.com/nbt/journal/v26/n10/full/nbt1486.html
Fig. 1
8
Problématique
● Beaucoup de données générées● Le Illumina HiSeq 2000 génère 600
Gigabases / 11 jours
9
Manque de logiciels parallèles
● Beaucoup de données● Superordinateurs disponibles● Manque de logiciels
John D McPhersonNext-generation gapNature Methods 6, S2 - S5 (2009) http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.f.268.html
10
Types d'analyse● Assemblage de novo (sans référence)● Alignement (avec référence)
Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assemblyNature Methods 6, S6 - S12 (2009)http://www.nature.com/nmeth/journal/v6/n11s/full/nmeth.1376.html
Ewan BirneyPhoto: http://www.ebi.ac.uk/~birney/Paul Flicek
Photo: http://www.ebi.ac.uk
11
Assemblage de novo
Photo: http://www.flickr.com/photos/carmyarmyofmeAttribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 Générique (CC BY-NC-ND 2.0)
13
Assemblage de novo
● Reconstruire un génome à partir de courtes pièces
Sébastien Boisvert, François Laviolette, and Jacques CorbeilRay: Simultaneous Assembly of Reads from a Mix of High-Throughput Sequencing Technologies Journal of Computational Biology. November 2010, 17(11): 1519-1533.http://online.liebertpub.com/doi/abs/10.1089/cmb.2009.0238
Fig. 1
14
Comment représenter un génome en construction ?
● Graphe G = (V, E)● Il y a 4611686018427387904 mots de 31
nucléotides (A, T, C, G}● Considérer seulement les mots qui sont
visibles dans les données
15
Graphe de Bruijn
● Alphabet: {A, T, C, G}● Diamètre: k● Sommets: Alphabet ^ Diamètre● Arêtes: (u, v) dans E si chevauchement de u
et v sur k -1 unités
Pavel A. Pevzner, Haixu Tang, and Michael S. WatermanAn Eulerian path approach to DNA fragment assemblyPNAS August 14, 2001 vol. 98 no. 17 9748-9753 http://www.pnas.org/content/98/17/9748.full
16● http://browser.cloud.raytrek.com/client/?map=0§ion=3®ion=2&location=187&zoom=3.5091959149814884
Le graphe en action
sommet
profondeur de séquençage
relation
17
Erreurs de séquençage: impasses
1
23
4
5
1 structure vraie du génome2 impasse3 impasse4 impasse5 impasse
18
Superordinateur
Ordinateur avec 8 coeurs
Adapteur de communication
Câble de réseau
Routeur du réseau
19
Passage de messages● Interface de passage de message (MPI)● Rangs● Message
20
Méta-génome
● Ensemble de génomes● Exemple: tous les génomes dans un système
digestif humain● Assemblage de novo de métagénome: pas de
distribution globale de la profondeur
21
Ray
● Modulaire● 26 modules● C++ 1998● MPI 1.0● Utilise RayPlatform (cadriciel)● Assembleur, profileur
22
Ray Méta pour assembler des méta-génomes
Sébastien Boisvert, Frédéric Raymond, Élénie Godzaridis, François Laviolette et Jacques CorbeilRay Meta: scalable de novo metagenome assembly and profilingGenome Biology 2012, 13:R122 doi:10.1186/gb-2012-13-12-r122http://genomebiology.com/2012/13/12/R122
Fig. 1
23
Ray Communities pour la quantification biologique
Fig. 2 Boisvert et al. 2013 Genome Biology
100 génomes bactériensNoir: résultat attenduBleu: résultat obtenu
1000 génomes bactériensNoir: résultat attenduBleu: résultat obtenu
24
Profilage taxonomique
● Génomes pré-classés dans un arbre taxonomique
Fig. 3 Boisvert et al. 2013 Genome Biology
25
Fig. 4 Boisvert et al. 2013 Genome Biology
Entérotypes
26
Ontologie de gènes
Fig. 5A et B Boisvert et al. 2013 Genome Biology
● Ontologie est un vocabulaire contrôlé
● Utiliser le graphe de Bruijn coloré pour dénombrer les fonctions
27
L'explorateur Ray Cloud Browser
● Projet démarré en novembre 2012● http://github.com/sebhtml/Ray-Cloud-Browser
28
Buts de Ray Cloud Browser
● Aider à mieux comprendre les algorithmes d'assemblage de novo
● Vulgariser la science génomique● Partager des assemblages dans les nuages
29
Algorithmes
● Loi universelle de la gravitation de Newton● Loi des ressorts de Hooke● Arbre quadruple● Algorithme Barnes-Hut● Amortissement (“dampening”)● Mise en scène (matériaux, calques)
30
Démonstration (dans Amazon EC2)
● http://browser.cloud.raytrek.com/client/?map=3§ion=0®ion=9&location=0&zoom=1.2255452109421872
● http://genome.ulaval.ca:10001/client/
31
Remerciements
● Financement:● 2010-2013 Bourse d'études supérieures du
Canada Frederick Banting et Charles Best - Bourse au doctorat
32
Remerciements
● Co-auteurs de l'article paru dans Genome Biology:
● Dr Frédéric Raymond● Mme Élénie Godzaridis● Pr François Laviolette● Pr Jacques Corbeil
33
Physique et de l'affichage de Ray Cloud Browser
● Jean-François Erdelyi
34
Remerciements
● Infrastructure de calcul