Download pdf - 3I019 Introduction à la Bio- informatique · • La structure complète de chaque protéine, ... • A une taille multiple de 3 (si les introns sont enlevés) • Problèmes :

3I019Introduction à la Bio-

informatiqueJuliana Silva Bernardes

Hugues Richard

Bio-informatique : Définition

• La bioinformatique est une science interdisciplinaire• Objectifs:• Analyser l'info. biologique disponible et produire de nouvelles

connaissance. • Proposer et développer des modelés, des méthodes et des outils.

• Requiert des connaissance en mathématique, en informatique et en biologie, etc.

Pourquoi informatique pour la biologie?

Le monde du vivant

• + 8,7 millions d’espèces d’êtres vivants, des plus simples au plus complexes

• procaryotes: organismes unicellulaires, dont l’unique cellule n’a pas de noyau

• eucaryotes : la cellule contient un noyau. Organismes unicellulaires ou pluricellulaires

Complexité du vivant

Quels sont les besoins des biologistes ?

• Représentation, stockage, distribution des données, format, schémas, interface, outils d’interrogation. . .

• Gestion des nouvelles données (accessibilité).

• Interconnexion des données: pas de rupture dans la chaîne d’informations tant par manque d’informations que par surcharge d’informations.

• Analyse des données issues de l’information biologique.

• Développement de méthodes prédictives, modélisation.

Objectifs de La Bio-Informatique?

• Formaliser des problèmes de biologie moléculaire;

• Concevoir des solutions computationnelles à la portée des machines,

• Développer et valider des outils;

• Analyser, structurer, comparer, traiter les information biologiques

• Stocker, accéder, filtrer ces informations

• Modéliser des processus biologiques

• Prédire des résultats biologiques; etc.

Les domaines de recherche en informatique

• Bases de données et de connaissances • Algorithmique• Théorie de graphs • Intelligence artificielle: Data mining, machine learning, etc

• Statistique, analyse de données

• Visualisation de données• Modélisation et simulation dynamiques• Calcul parallèle

Quelles Types d’informations:

• Génome (l'ensemble du matériel génétique d'un individu ou d'une espèce.)

• Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)

• Protéome (l'ensemble des protéines exprimés à partir du génome)

• Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, ...)

• Intéractome (l’ensemble des interactions protéine-protéine)...

Quelles Types d’informations:

Quelles Types d’informations: ADN

Quelles Types d’informations: ARN

Quelles Types d’informations: protéine

Quelles Types d’informations: protéine

Video

Quelles Types d’informations: génome

Exemples de génomes • Homo sapiens – humain• 23 paires de chromosomes• génome : 3 milliards de bases• gènes: de 30000 à 35000• l’ADN contenu dans les chromosomes d’une cellule mis bout a

bout (formerait un ruban d’1,50 mètre)

• Mus musculus – souris• 21 paires de chromosomes• génome : 3 milliards de bases• gènes: de 30000 à 35000

Exemples de génomes

• Saccharomyces cerevisiae - levure de bière• 16 paires de chromosomes• génome : 130 millions de bases• gènes : environ 6 000

• Escherichia coli - bactérie de l’intestin• 1 paire de chromosomes• génome : 46 millions de bases• gènes : environ 4 000

Pourquoi séquencer les génomes ?

• Intérêt scientifique • Evolution des espèces • Fonctionnement des cellules • Etude des êtres vivants

• Intérêt économique• Médecine• Biotechnologies• Ecologie

• Utilité publique • Nutrition • Propagation et compréhension des maladies

Pourquoi et comment séquencer les génomes ?

• Etudier des gènes (et leurs fonctions) • ⇒ connaıtre leur séquence , c’est-`a-dire, ”le texte” (la chaıne de

nucléotides) qui la compose.

• Acquisition ⇒ technique du séquençage. Mais : n’autorise la lecture que de séquences relativement courtes

• Obtention du génome ⇒ fractionnement pour être

'décrypté' (lu) étudié et analysé

Principe du séquençage d’un chromosome entier

Evolution du séquençage

Evolution du séquençage

Mise à disposition des séquences

• Les s séquences obtenues dans des laboratoires publics sont mises à disposition de l’ensemble de la communauté scientifique • Collecte des séquences par des organismes• Stockage des séquences dans des banques de données• Les séquences sont annotées (localisation des gènes, . . . ) et leur

provenance est précisée (nom de l’espece,. . . )

Apres le séquençage ?

• Le séquençage ne constitue qu’une toute première étape pour l’analyse des génomes.

• ll reste un énorme travail de décryptage pour pouvoir interpréter ces données.• Identification de la fonction des gènes. • Compréhension des réseaux d’interactions moléculaires

(biologie des systèmes).

Ce que souhaiterait connaıtre chaque biologiste :

• Le jeu complet et précis des gènes ainsi que leur position sur le génome,

• L’ensemble des transcrits d’un génome,

• Le lieu et le moment de l’expression de chaque transcrit,

• La protéine produite par chaque transcrit,

• Le lieu et le moment de l’expression de chaque protéine,

• La structure complète de chaque protéine,

• La fonction de chaque protéine,

• Les mécanismes cellulaires auxquels participent les protéines.

Problématiques• La localisation des gènes

• Prédiction de gènes

• Analyse des séquences protéines

• Prédiction de structure des protéines

• Prédiction de la localisation cellulaire des protéines

• Génomique comparative

• Analyse du transcriptome

• Analyse du proteome

• Etude du fonctionnement de la cellule

• Comprendre l’evolution : phylogénie

• Meta-génomique

La localisation des gènes

• C’est la première étape pour interpréter un génome

• Distinction entre régions codantes et non codantes (Pas trivial).

• Réalisée par des programmes informatiques combinant différents types d’information.

• Ces programmes sont prédictifs, ils génèrent des erreurs• Certains gènes échappent a la détection (faux négatifs).• Certains gènes ne correspondent pas a de vrais gènes (faux

positifs).• Même pour les prédictions correspondant a des gènes réels, les

limites précises du gène sont parfois erronées.

Proportions codant / non codant

Prédiction de gènes

• Localiser les gènes présents sur une séquence d’ADN

les phases ouvertes de lecture

• Une séquence codante :• Débute par un codon d’initiation (ATG + autres) • Termine par un codon de terminaison (TAA, TAG, TGA)• A une taille multiple de 3 (si les introns sont enlevés)

• Problèmes :• Un gène peut être sur un brin ou sur l’autre• Plusieurs phases de lecture possibles

les phases ouvertes de lecture

Analyse des séquences protéines

• Etude de la fonction des protéines• Par comparaison à d’autres protéines

Analyse des séquences protéines

• Par recherche de motifs ou domaines connus

• Modelés pour représenter des motifs • Approches expressions régulières, grammaires, modelés de Markov• Algorithmes de recherche de motifs approches

Analyse des protéines: prédiction de structure

Analyse des protéines: prédiction de structure 2D

• Par déduction a partir d’une protéine similaire• Par recherche de domaines structurels connus


• Prédire les coordonnées x, y, z de chaque atome


• Techniques experimentales: RMN, cristallographie• Apprentissage automatique: reseaux de neurones, SVM, modeles bayesiens,

modeles physiques• par comparaison a l’existant

• Dans PDB, toutes les sequences avec 25% identite ou plus ont la meme structure

• CASP (Critical Assessment of Techniques for Protein Structure Prediction): concours international biannuel

Prédiction de la localisation cellulaire

• Par étude des domaines transmembranaires

• Par recherche des peptides d’adressage

Génomique comparative • Objectifs :• Etudier l’evolution entre espèces a l’échelle du génome• Identifier des gènes spécifiques a une espèce (pathogenicite, . . . • Retrouver des régions de syntenie (conservation de l’ordre de

gènes homologues dans le génome d’especes différentes)• Etude du polymorphisme au sein d’une même espèce

Comprendre l’evolution : phylogénie

• Retracer l’historique des espèces a partir des évolutions observée

• 1859 – Darwin• "lignes généalogiques de tous les êtres organises".

• 866 – Haeckel • "enchaınement des espèces animales et végétales au cours du

temps »

• 1967 – phylogénie moléculaire

phylogénie moléculaire

• données : séquences (ARN, protéines)• évolution : mutations observées entre les séquences

elephant FVNQHLCGSHLVEALYLVCGERGFFYTPKTGIVEQCCTGVCSLYQLENYCN hamster FVNQHLCGSHLVEALYLVCGERGFFYTPKSGIVDQCCTSICSLYQLENYCN baleine FVNQHLCGSHLVEALYLVCGERGFFYTPKAGIVEQCCASTCSLYQLENYCN

• algorithmes de construction des arbres de phylogénies, statistiques pour modéliser l’evolution

Meta-génomique