Annotation de génomes complets
Anne Morgat
Séminaire IN’Tech - Octobre 2003 - Lyon
Fondation Rhône-Alpes
Futur
Séquençage= « décryptage » du support physique de l’information génétique
Après le séquençage …
séquence ADN brute
• Annotation syntaxiqueEléments génétiques (features)
• CDSs, ARNs• Signaux de régulation• Répétitions... etc
détection par contenu
Après le séquençage… l’annotation
Objets« individuels »
BD• Annotation fonctionelle Attribution de « fonction(s) »
• produits des gènes• familles d ’opérateurs
•• Similarité de séquences
•• Annotation contextuelle / relationnelle
• analyse des relations entre les entités
Genome B
Genome A
Synton
Genome A Genome B
Dyn. Prog.
• Génomique comparative
• Réseaux de régulation
• Assemblages moléculaires
ABC tranporters Fichant et al.
• Voies métaboliques
relation
Annotation contextuelle/relationnelle
............CGACTAGGATGGCGG.................... CGA CTA GGA TGG CGG ........phase 1
............ A L G W A ........
............ CGA CTA GGA TGG CGG ........phase 1
. code génétique + usage des acides-aminés
. usage des codons synonymes (biais d’usage du code)
• Biologie : usage du code génétique
Annotation syntaxique : Recherche de gènes (1)
. ARNt disponibles, taux d’expressions des gènes
............ A L G W A ........
............ CGA CTA GGA TGG CGG ........phase 1
. code génétique + usage des acides-aminés
. usage des codons synonymes (biais d’usage du code)
P(G/CG(1)) ≠ P(G/TG(1)) ≠ P(G)
• Modèle mathématique : Chaînes de Markov
i
A,C,G,T
k
P(X/X1...Xk)Matrice(s) de transitions
• Biologie : usage du code génétique
• Utilisations
start stopPcodant
Apprentissage
w
phase 1
phase 2
phase 3
Annotation syntaxique : Recherche de gènes (1)
. ARNt disponibles, taux d’expressions des gènes
• Procaryotes
Problèmes en suspens
• assertion des starts (non-ATG / alternatifs)
• protéines « atypiques » (membranaires)
• gènes « atypiques » (transfert horizontal)
GenMark (Borodovski)Glimmer (Salzberg)
Annotation syntaxique : Recherche de gènes (2)
E. coli
C. jejuni
Modèle des gènes«natifs» de E. coli
Importance de la matrice de référence utilisée…
+1
+2
+3
+1
+2
+3
-1
Annotation syntaxique : Recherche de gènes (3)
(distance du chi2)
-2- distance entre les distributions
axe 1
axe 2
-3- « meilleure » représentation plane
Gènes
-1- tableau des effectifs en codons
gene1
gene2
gene3
AAA AAC AAT ...
etc...
profil moyen
Codons
Usage des codons et Analyse Factorielle des Correspondances
Table de contingence
Usage des codons et Analyse Factorielle des Correspondances
Table de contingence AFC Visualisation Manipulation
Usage des codons et Analyse Factorielle des Correspondances
Table de contingence AFC Visualisation
localisation des gènes sur le chromosome
Manipulation
Usage des codons et Analyse Factorielle des Correspondances
?
« FONCTION » ?• rôle biochimique• rôle physiologique• mécanisme
• par similarité de séquence (criblage de banques)
• expérimental (gène rapporteur; expression différentielle...)
• par contexte (voisinage)
• « synténies »• métabolisme. …
Annotation fonctionnelle
?
Annotation fonctionnelle : similarité de séquences (2)
- domaines conservés- familles d’homologues- génomes de « référence »
NCBI NR,SwissProt,…
Bases«généralistes» Bases
«spécialisées»
PFAM,SMART,COGs,EcoGene
Similarités de séquence :
Analyse de séquences (aa) :
• peptides signaux, régions transmembranaires• structures 3D (PDB)
• Alignement de séquences(prog. dynamique)• Recherche de patterns, profils
ACIAD2549 :« Conserved hypothetical protein »
Synténies bactériennes
Utilisation du contexte :
2549
25502551
2552
Annotation fonctionnelle : similarité de séquences (1)
- propagation des « erreurs »
- « orphelins »
Principe: recherche de synténies bactériennes
Etape 1 homologues
Genome A
Genome B
« synton »
Genome A Genome B
Blast+
Prog. Dyn.
Etape 2 distributionchromosomique
Annotation fonctionnelle : utilisation du contexte (2)
B. subtilis (168)
E. coli (K12)
Synténies bactériennes
Quelles sont les fonctions associées à
ces gènes?
B. subtilis (168)
E. coli (K12)
Voie de biosynthèse de la ménaquinone
menC
B. subtilis (168)
E. coli (K12)
Low similarity
ytfD: First identified as an N-acylamino acid racemase (by similarity)Using genomic context, ytfD was expected to be an o-succinyl-CoA synthase (menC) (enzymatic activity confirmed experimentally, Palmer et al; 1999)
menC
ytfD
Annotation fonctionnelle : intégration de données hétérogènes
EC
EC
données métaboliques
données protéiques
données génomiques
chromosome
polypeptide
pathway
complexe moléculaire enzyme
gènesignal
réactionbiochimique
métabolite
opéron
bases de séquences…
Annotation fonctionnelle : intégration de données hétérogènes
organism
gene
protein
enzyme
- n-aires- requêtes
problèmes de représentation - des objets - des relations
?
Environnement d’expertise
Environnement logiciel intégré pour : l’exécution de méthodes (production de nouvelles données) l’accès aux données (propriétés, relations) la visualisation des données (visualiseurs specialisés) l’exploration des données (requêtes, navigation)
Environnement logiciel d’annotation
organism
gene
protein
enzymeEC
EC
données métaboliques
données protéiques
données génomiques
chromosome
polypeptide
pathway
complexemoléculaire enzyme
gènesignal
réactionbiochimique
métabolite
opéron
bases de séquences…