3I019Introduction à la Bio-
informatiqueJuliana Silva Bernardes
Hugues Richard
Bio-informatique : Définition
• La bioinformatique est une science interdisciplinaire• Objectifs:• Analyser l'info. biologique disponible et produire de nouvelles
connaissance. • Proposer et développer des modelés, des méthodes et des outils.
• Requiert des connaissance en mathématique, en informatique et en biologie, etc.
Pourquoi informatique pour la biologie?
Le monde du vivant
• + 8,7 millions d’espèces d’êtres vivants, des plus simples au plus complexes
• procaryotes: organismes unicellulaires, dont l’unique cellule n’a pas de noyau
• eucaryotes : la cellule contient un noyau. Organismes unicellulaires ou pluricellulaires
Complexité du vivant
Quels sont les besoins des biologistes ?
• Représentation, stockage, distribution des données, format, schémas, interface, outils d’interrogation. . .
• Gestion des nouvelles données (accessibilité).
• Interconnexion des données: pas de rupture dans la chaîne d’informations tant par manque d’informations que par surcharge d’informations.
• Analyse des données issues de l’information biologique.
• Développement de méthodes prédictives, modélisation.
Objectifs de La Bio-Informatique?
• Formaliser des problèmes de biologie moléculaire;
• Concevoir des solutions computationnelles à la portée des machines,
• Développer et valider des outils;
• Analyser, structurer, comparer, traiter les information biologiques
• Stocker, accéder, filtrer ces informations
• Modéliser des processus biologiques
• Prédire des résultats biologiques; etc.
Les domaines de recherche en informatique
• Bases de données et de connaissances • Algorithmique• Théorie de graphs • Intelligence artificielle: Data mining, machine learning, etc
• Statistique, analyse de données
• Visualisation de données• Modélisation et simulation dynamiques• Calcul parallèle
Quelles Types d’informations:
• Génome (l'ensemble du matériel génétique d'un individu ou d'une espèce.)
• Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)
• Protéome (l'ensemble des protéines exprimés à partir du génome)
• Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, ...)
• Intéractome (l’ensemble des interactions protéine-protéine)...
Quelles Types d’informations:
Quelles Types d’informations: ADN
Quelles Types d’informations: ARN
Quelles Types d’informations: protéine
Quelles Types d’informations: protéine
Video
Quelles Types d’informations: génome
Exemples de génomes • Homo sapiens – humain• 23 paires de chromosomes• génome : 3 milliards de bases• gènes: de 30000 à 35000• l’ADN contenu dans les chromosomes d’une cellule mis bout a
bout (formerait un ruban d’1,50 mètre)
• Mus musculus – souris• 21 paires de chromosomes• génome : 3 milliards de bases• gènes: de 30000 à 35000
Exemples de génomes
• Saccharomyces cerevisiae - levure de bière• 16 paires de chromosomes• génome : 130 millions de bases• gènes : environ 6 000
• Escherichia coli - bactérie de l’intestin• 1 paire de chromosomes• génome : 46 millions de bases• gènes : environ 4 000
Pourquoi séquencer les génomes ?
• Intérêt scientifique • Evolution des espèces • Fonctionnement des cellules • Etude des êtres vivants
• Intérêt économique• Médecine• Biotechnologies• Ecologie
• Utilité publique • Nutrition • Propagation et compréhension des maladies
Pourquoi et comment séquencer les génomes ?
• Etudier des gènes (et leurs fonctions) • ⇒ connaıtre leur séquence , c’est-`a-dire, ”le texte” (la chaıne de
nucléotides) qui la compose.
• Acquisition ⇒ technique du séquençage. Mais : n’autorise la lecture que de séquences relativement courtes
• Obtention du génome ⇒ fractionnement pour être
'décrypté' (lu) étudié et analysé
Principe du séquençage d’un chromosome entier
Evolution du séquençage
Evolution du séquençage
Mise à disposition des séquences
• Les s séquences obtenues dans des laboratoires publics sont mises à disposition de l’ensemble de la communauté scientifique • Collecte des séquences par des organismes• Stockage des séquences dans des banques de données• Les séquences sont annotées (localisation des gènes, . . . ) et leur
provenance est précisée (nom de l’espece,. . . )
Apres le séquençage ?
• Le séquençage ne constitue qu’une toute première étape pour l’analyse des génomes.
• ll reste un énorme travail de décryptage pour pouvoir interpréter ces données.• Identification de la fonction des gènes. • Compréhension des réseaux d’interactions moléculaires
(biologie des systèmes).
Ce que souhaiterait connaıtre chaque biologiste :
• Le jeu complet et précis des gènes ainsi que leur position sur le génome,
• L’ensemble des transcrits d’un génome,
• Le lieu et le moment de l’expression de chaque transcrit,
• La protéine produite par chaque transcrit,
• Le lieu et le moment de l’expression de chaque protéine,
• La structure complète de chaque protéine,
• La fonction de chaque protéine,
• Les mécanismes cellulaires auxquels participent les protéines.
Problématiques• La localisation des gènes
• Prédiction de gènes
• Analyse des séquences protéines
• Prédiction de structure des protéines
• Prédiction de la localisation cellulaire des protéines
• Génomique comparative
• Analyse du transcriptome
• Analyse du proteome
• Etude du fonctionnement de la cellule
• Comprendre l’evolution : phylogénie
• Meta-génomique
La localisation des gènes
• C’est la première étape pour interpréter un génome
• Distinction entre régions codantes et non codantes (Pas trivial).
• Réalisée par des programmes informatiques combinant différents types d’information.
• Ces programmes sont prédictifs, ils génèrent des erreurs• Certains gènes échappent a la détection (faux négatifs).• Certains gènes ne correspondent pas a de vrais gènes (faux
positifs).• Même pour les prédictions correspondant a des gènes réels, les
limites précises du gène sont parfois erronées.
Proportions codant / non codant
Prédiction de gènes
• Localiser les gènes présents sur une séquence d’ADN
les phases ouvertes de lecture
• Une séquence codante :• Débute par un codon d’initiation (ATG + autres) • Termine par un codon de terminaison (TAA, TAG, TGA)• A une taille multiple de 3 (si les introns sont enlevés)
• Problèmes :• Un gène peut être sur un brin ou sur l’autre• Plusieurs phases de lecture possibles
les phases ouvertes de lecture
Analyse des séquences protéines
• Etude de la fonction des protéines• Par comparaison à d’autres protéines
Analyse des séquences protéines
• Par recherche de motifs ou domaines connus
• Modelés pour représenter des motifs • Approches expressions régulières, grammaires, modelés de Markov• Algorithmes de recherche de motifs approches
Analyse des protéines: prédiction de structure
Analyse des protéines: prédiction de structure 2D
• Par déduction a partir d’une protéine similaire• Par recherche de domaines structurels connus
Analyse des protéines: prédiction de structure 3D
• Prédire les coordonnées x, y, z de chaque atome
Analyse des protéines: prédiction de structure 3D
• Techniques experimentales: RMN, cristallographie• Apprentissage automatique: reseaux de neurones, SVM, modeles bayesiens,
modeles physiques• par comparaison a l’existant
• Dans PDB, toutes les sequences avec 25% identite ou plus ont la meme structure
• CASP (Critical Assessment of Techniques for Protein Structure Prediction): concours international biannuel
Prédiction de la localisation cellulaire
• Par étude des domaines transmembranaires
• Par recherche des peptides d’adressage
Génomique comparative • Objectifs :• Etudier l’evolution entre espèces a l’échelle du génome• Identifier des gènes spécifiques a une espèce (pathogenicite, . . . • Retrouver des régions de syntenie (conservation de l’ordre de
gènes homologues dans le génome d’especes différentes)• Etude du polymorphisme au sein d’une même espèce
Comprendre l’evolution : phylogénie
• Retracer l’historique des espèces a partir des évolutions observée
• 1859 – Darwin• "lignes généalogiques de tous les êtres organises".
• 866 – Haeckel • "enchaınement des espèces animales et végétales au cours du
temps »
• 1967 – phylogénie moléculaire
phylogénie moléculaire
• données : séquences (ARN, protéines)• évolution : mutations observées entre les séquences
elephant FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTGVCSLYQLENYCN hamster FVNQHLCGSHLVEALYLVCGERGFFYTPKSGIVDQCCTSICSLYQLENYCN baleine FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASTCSLYQLENYCN
• algorithmes de construction des arbres de phylogénies, statistiques pour modéliser l’evolution
Meta-génomique