Etat de lart en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel

Etat de l’art en Bioinformatique

Sébastien Derivauxpour le cours de bioinformatique de

Christian Michel

Définition

La Bioinformatique est la discipline qui permet de mettre l’outil informatique au service des biologistes:

stocker, extraire, organiser, analyser, interpréter et utiliser les données biologiques

Les données biologiques

La bioinformatique utilise 3 sources de données : Les séquences de nucléotides (ADN - ARNm) Les séquences d’aminoacides Des informations sur les protéines (notamment leur

structures)

Bref historique 1953: Watson et Crick découvrent la structure

en double hélice de l’ADN 1962: Zuckerland et Pauling créent la théorie de

l’horloge moléculaire 1965: Monod, Jacob et Wolf découvrent les

mécanismes de la régulation génétique impliqués dans le dogme central de Crick

1982: Création de GeneBank 1990: Première tentative de thérapie génétique 1999: Décryptage complet du chromosome 22

chez l’homme

Le dogme central de biologie moléculaire

Séquence d’opérations de l’ADN aux protéines transcription : l’ADN est copié en ARNm traduction : l’ARNm est traduit en protéines par les

ribosomes protéines sont les ouvrières du monde cellulaire

Le code de l’ADN est responsable de la vie cellulaire

réplication

Domaines de la bioinformatique

Algorithmes d’alignements Modèles d’évolution et arbres

phylogénétiques Bases de données Prédictions


Algorithmes d’alignements

Algorithmes d’alignements

Utilisés dans tous les domaines de la bioinformatique

Permettent la recherche de similarités entre deux séquences

Si la similarité est suffisante, on peut parler d’homologie, il est possible que les séquences: codent la même fonction aient un ancêtre commun

Algorithmes d’alignement

Les algorithmes d’alignement cherchent à repérer des régions proches, c'est à dire les régions qui comptabilisent un maximum de caractères communs (appariements) et un minimum de changements (substitutions, insertions et délétions) lorsqu'on les superpose l'une à l'autre.

L’évaluation se base sur le nombre d’opérations et leur coût pour passer d’une séquence à l’autre (via des matrices de coûts pour la substitution, insertion et délétion)

Alignement local et global L'alignement global est conçu pour comparer des

séquences homologues (apparentées) sur toute leur longueur; on peut donc rater des homologies si elles sont très localisées.

Algorithme de distance Needleman-Wunsch (1970) Myers & Miller

L'alignement local est conçu pour rechercher dans la séquence A des régions semblables à la séquence B (ou à des parties de la séquence B).

Smith-Waterman (1981) FASTA (1988) BLAST (1990, version 2 en 1997)

Ces algorithmes utilisent la programmation dynamique

Programmation dynamique

Optimisation pour les algorithmes de type diviser pour régner

On divise un problème en sous problèmes Si ces problèmes ne sont pas indépendant (ce

qui est le cas dans les algorithmes qui nous concernent) on résout plusieurs fois les mêmes sous problèmes ce qui n’est pas optimal

On résout donc le problème en stockant en mémoire les résultats de ses sous problèmes, ainsi on ne résout qu’une seule fois chaque sous problème

Algorithme de distance d’édition

On crée un table T de taille (m + 1) x (n + 1) (m et n tailles des séquences X et Y)

T[i,j] représente la distance d’édition entre X[0..i] et Y[0..j] (X[0..i] étant la sous séquence de X commençant en 0 et finissant en i) T[-1,-1] = 0 T[i,-1] = T[i-1,-1] + Del(X[i]) T[-1,j] = T[-1,j-1]+Ins(Y[i]) T[i,j] = min(T[i-1,j-1]+Sub(X[i],Y[i]), T[i-1,j]+Del(X[i]),

T[i,j-1]+Ins(Y[j])) La distance d’édition est T[m+1,n+1] La complexité est de 0(n²) en temps et en

espace


Comparaison de ACT et ATG

Coûts: Coût(Ins(x)) = 1 Coût(Del(x)) = 1 Coût(Sub(x,x)) = 0 Coût(Sub(x,y)) = 3 (x ≠ y)

Les coûts doivent établir une distance

A C T

0

A

T

G


T[1,1] = T[0,0] + Sub(A,A) = T[0,0]

T[3,1] = T[2,1] + Del(A)

Alignement optimal, on retourne de T[m+1, n+1] à T[0,0] en suivant les opération effectuées

A C T

0 1 2 3

A 1 0 1 2

T 2 1 2 1

G 3 2 3 2ACT-

A-TG

Algorithme Needleman-Wunsch Recherche le meilleur alignement global entre deux

séquences Très coûteux en temps Ne détecte pas les motifs seuls

3 étapes 1. Une valeur est affectée à chaque case du tableau en fonction

de la similarité/dissimilarité 2. Pour chaque cellule, chercher tous les chemins à partir du

début de la séquence (en autorisant les insertions et délétions) et attribuer à la cellule la valeur maximale plus la valeur de la cellule elle-même

3. Construire l’alignement optimal en partant de la cellule avec le meilleur score à l’origine

Algorithme Needleman-Wunsch

Étape 1 On affecte les valeurs de

similarité/dissimilarité (ici 1 si similaire, 0 sinon)


Étape 2 pour chaque cellule On recherche dans la sous-ligne

et la sous-colonne (grisées dans l’exemple) la meilleure valeur (ici T[5,5] = 4)

On ajoute cette valeur avec celle de la cellule courante (ici 4 + 1 = 5)

On peut utiliser des pénalités pour les introductions de trous dans l’alignement (insertions et délétions), ici pénalité = 0

On obtient 5 pour la cellule de l’exemple


Étape 3 Le meilleur alignement est

celui qui a la valeur maximale

La valeur maximale est toujours sur la dernière ligne ou la dernière colonne

On construit l’alignement en chaînage arrière à partir de la valeur maximale à l’origine

Algorithme Smith-Waterman

Basé sur l’algorithme de Needleman-Wunsch, mais au lieu de comparer les chaînes sur toute leur longueur, il regarde toutes les sous chaînes et choisit celle qui a la meilleure valeur

Pour chaque cellule, l’algorithme calcule tous les chemins qui y arrivent indépendamment de leur taille, du nombre d’insertions et de délétions

L’algorithme ne fonctionne bien que s’il y a des pénalité pour les trous (insertions et délétions), sinon on a le même résultat que Needleman-Wunsch

Algorithme Smith-Waterman Dans l’exemple

substitution(a,a) = +1 substitution(a,b) = -1/3 trou(k) = -1 – k/3 (k=taille

du trou) Les cellules sont

initialisées à 0 La valeur de T[i,j] est le

maximum de: T[i-1,j-1] + sub(Xi,Xj) T[i,k] + trou(k) (k < j) T[k,j] + trou(k) (k < i) 0 (on recommence un

chemin)

Algorithme Smith-Waterman La valeur de chaque cellule est

la valeur du meilleur alignement se finissant en cette cellule

On trace le meilleur chemin à partir de la meilleure cellule

Cette cellule peut être n’importe où dans le tableau

L’origine de ce chemin est un 0 qui note le début du nouveau chemin, ce n’est pas forcement l’origine (cf exemple)

Autres algorithmes BLAST et FAST

Variantes de Smith-Waterman avec utilisation d’heuristiques

Plus rapides, mais risques de manquer des alignements

BLAST est plus rapide, FAST plus sensible

DotPlot Méthode visuelle (cf

exemple) On recherche visuellement

les diagonales qui correspondent à des régions de similarité (entourées en rouge)

Alignement multiple

L’alignement multiple consiste à aligner plusieurs séquences de façon globale

Objectifs: Caractérisation des familles de protéines Définition des motifs fonctionnels et des domaines Aider à la prédiction de structures secondaires et

tertiaires de nouvelles séquences (en comparant avec celles connues)

Point de départ pour un traitement phylogénétique Algorithme de CLUSTALW et BLASTn



phylogénétiques

Modèle d’évolution de LAMARK (1744-1829)

Pour Lamark, l'évolution était due à une adaptation continue au milieu ambiant : un environnement changeant altère les besoins de l'organisme vivant qui s'adapte en modifiant son comportement et en utilisant certains organes plus que d'autres.

A force d’étirer son cou pour manger aux arbres, le cou de la girafe devient de plus en plus long

Modèle d’évolution de DARWIN (1809-1882)

Évolution par sélection naturelle Une population est hétérogène et la nature

favorise la multiplication de ceux qui ont un avantage dans leur environnement

Il existe un processus de mutation qui permet d’avoir des phénotypes toujours légèrement différents

Les théories modernes La théorie de l’évolution n'est pas uniformisante comme

le pensait les typologistes, mais diversifiante 2 théories pour l’expliquer:

La théorie neutralisteLa pluparts des mutations restent neutres, se fixent au hasard (seules les mutations très défavorisantes ou létales pour l'individu sont éliminées) et le milieu n'a pas de rôle sélectif.

La théorie sélectionnisteLe polymorphisme génétique correspond à l'hétérogénéité de la niche écologique dont les conditions changent sans cesse dans le temps, mais aussi dans l'espace. L'espèce polymorphe voit donc sa niche écologique s'agrandir de façon considérable, en même temps que ses ressources augmentent et que la compétition diminue.En réalité, ce n'est pas l'individu, comme le pensaient les darwiniens, ni même les gènes, selon le néodarwinisme, qui constituent l'unité de base du vivant ; c'est toute la population.

Évolution convergente et évolution divergente

L'évolution convergente correspond à des solutions trouvées de manière indépendante chez des organismes différents pour résoudre le même problème

L'évolution divergente correspond au contraire à des protéines ayant le même ancêtre commun mais qui se sont spécialisées dans des fonctions différentes

Phylogénie La phylogénie retrace l'évolution

des organismes. Elle s'appuie sur la taxonomie, laquelle a pour objet de classer les êtres vivants afin de les regrouper en ensembles suffisamment homogènes pour être comparés entre eux dans le temps et l'espace

La phylogénie moléculaire procède par comparaison de gènes, il faut utiliser des gènes qui mutent peu

Phylogénie moléculaire La reconstruction est

basée sur un ensemble de séquences supposées descendre d’une même séquence ancestrale

La recherche de blocs « conservés » permet de passer des séquences à un ensemble de sites sur lesquels on peut comparer les séquences

Alignement multiple Sur l’exemple, on conserve

les sites 0,1,2,3,4 des séquences et le reste est éliminé

Objectifs de la phylogénie

Mieux comprendre les mécanismes de l' évolution et les mécanismes moléculaires associés

Connaître l'arbre de la vie (taxonomie) Étudier la biodiversité Déterminer l'origine géographique des

espèces

Théorie de l’horloge moléculaire Quelques observations

Le taux de mutation sur les gènes soumis à la pression sélective est faible

exemple: le gène cytochrome B intervenant dans les chaînes d'oxydation cellulaire est très similaires chez tout les êtres vivants

Le taux d’accumulation des mutations sur des régions homologues (soumises à la même pression sélective) est le même pour toutes les espèces

On peut donc tracer un arbre phylogénétique en observant les dissimilarités sur les gènes

Si un gène soumis à la pression sélective est différent chez deux espèces, c’est qu’elles ont divergée depuis longtemps

Deux approches approche phénétique approche cladistique

Approche phénétique Fondée sur les distances Principe

La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution moléculaire sous-jacente (l'histoire) aux phénotypes observés.

Méthode Méthode de clustering : ces programmes procèdent par regroupement

successifs (clustering), depuis la paire des séquences les plus proches aux plus éloignées.

Résultat Un et un seul arbre sans racine, nommé phénogramme ou

dendrogramme Méthode rapide, avec de bons résultats pour des séquences

proches Algorithmes : UPGMA, Neighbor Joining, Méthode des moindres

carrés

Algorithme "Neighbor Joining" (NJ)

Saitou & Nei, 1986 NJ regroupe les espèces en

fonction de leur distance avec l'ensemble des autres espèces, et non pas de leur distance entre elles. Ce faisant, NJ minimise aussi la longueur totale des branches.

Cet algorithme fonctionne même si les vitesse d’évolution varient d’une branche à l’autre

Il utilise une heuristique basé sur le principe du minimum d’évolution

N’examine pas toutes les configurations

Très rapide (comparé à la méthode des moindres carré qui évalue toutes les possibilités)

A B C D E

B 5

C 4 7

D 7 10 7

E 6 9 6 5

F 8 11 8 9 8

Matrice de distance entre 5 séquences et arbre original


Etape 1: On appelle OTU (Operational Taxonomic Unit) une feuille ou un nœud de l'arbre. Au début, les OTU sont les espèces. On calcule la divergence nette r(i) de chaque OTU avec toutes les autres

r(A) = 5+4+7+6+8=30 r(B) = 42 r(C) = 32 r(D) = 38 r(E) = 34 r(F) = 44

Etape 2: On calcule une nouvelle matrice de distance qui va donner pour chaque paire d'OTU la distance moyenne de cette paire avec tous les autres OTUs. Formule:

M(ij)=d(ij) - [r(i) + r(j)]/(N-2) soit pour la paire A,B:

M(AB)=d(AB) -[(r(A) + r(B)]/(N-2) = -13

A B C D E

B -13

C -11.5 -11.5

D -10 -10 -10.5

E -10 -10 -10.5 -13

F -10.5 -10.5 -11 -11.5 -11.5


Etape 3: On choisit comme voisins les 2 OTU pour lesquels Mij est le plus petit. Ce sont A et B; ou D et E. Prenons A et B et créons un nouveau nœud appelé U. On calcule ensuite les longueurs des branches entre le nœud interne U et les OTU A et B et avec tous les autres nœuds terminaux d(AU) =d(AB) / 2 + [r(A)-r(B)] / 2(N-2) = 1 d(BU) =d(AB) -d(AU) = 4 d(CU) = d(AC) + d(BC) - d(AB) / 2 = 3 d(DU) = d(AD) + d(BD) - d(AB) / 2 = 6 d(EU) = d(AE) + d(BE) - d(AB) / 2 = 5 d(FU) = d(AF) + d(BF) - d(AB) / 2 = 7


On obtient l’arbre ci-contre On recommence à l’étape 1,

avec une matrice réduite d’une ligne et d’une colonne (A et B sont remplacé par U)

Approche cladistique Fondée sur les séquences Principe

La configuration de l'arbre tente de représenter le degré de parenté en intégrant l'évolution moléculaire sous-jacente aux phénotypes observés

Méthode Ces méthodes construisent l'arbre en considérant les différentes

configurations possibles (les différentes voies évolutives possibles) et choisissent la meilleure parmi celles-ci. Ces méthodes se caractérisent par :

Le critère quantitatif qui évalue les configurations et intègre les hypothèses biologiques propres à la méthode.

L'algorithme qui calcule cette quantité pour un arbre donné. La stratégie de recherche du meilleur arbre définit suivant ce critère.

Résultat Un ou plusieurs arbres ex-aequo, nommé cladogramme Elles peuvent reconstituer les séquences ancestrales occupant les

nœuds de l'arbre. Méthode très lente Algorithmes: méthode de parcimonie, de compatibilité, de

vraisemblance maximum

Algorithme de parcimonie La parcimonie consiste a minimiser le nombre de "pas"

(mutations / substitutions) nécessaires pour passer d'une séquence à une autre dans une topologie de l'arbre

Hypothèses: les sites évoluent indépendamment les uns des autres la vitesse d'évolution est lente et constante au cours du temps

On travaille sur les arbres non enraciné pour réduire la complexité

Pour 8 OTU, il y a 10 395 arbres non enraciné et 135 135 arbres enracinés

Algorithme de parcimonie

1 G G A

2 G G G

3 A C A

4 A C G

Séquence 1 2 3 4 5 6 7 8 9

1 A A G A G T G C A

2 A G C C G T G C G

3 A G A T A T C C A

4 A G A G A T C C G

On ne travaille que sur les sites informatifs au moins deux nucléotides différents à cette position chacun dans au moins deux séquences exemple: on ne conserve que les sites 5,7,9

Algorithme de parcimonie Avec l’exemple précédent

on peut construire 3 arbres non enracinés

Le premier a besoin de 4 mutations, le second de 5 et le troisième de 6

L’arbre le plus parcimonieux est donc le premier

Il est possible de trouver plusieurs arbres optimaux

On peut utiliser le bootstrap (avec les arbres obtenus) pour trouver l’arbre consensus

Évaluation des arbres phylogénétiques

Le bootstrap : consiste à effectuer un tirage des sites au hasard avec remise

(réplication) générations des nouveaux arbres recense les groupements les plus fréquemment rencontrés sur

l'ensemble des arbres si un groupement est présent sur 95% des arbres, on le dit fiable il faut 1000 réplications pour que la méthode soit statistiquement

valable Delete-half-Jackknifing

Cette méthode ré-échantillonne la moitié des sites des séquences et élimine le reste (donne des résultats très similaires à ceux obtenus par bootstrap).



phylogénétiques Bases de données

Bases de données

Diverses banques de données Séquences de gènes : GenBank (NCBI),

EMBL (EBI), DDBJ Séquences de protéines : SWISS-PROT, PIR,

ENZYME Structures macromoléculaires 3D : PDB,

MMDB

Évolution de la banque EMBL

Bases de données

Explosion des données : Séquences du génomes :

16 milliards de paires de bases Le génomes humain : 3,2 milliards

Séquences de protéines : SWISSPROT : 130000 séquences annotées TrEMBL : 850000 séquences

Structures de protéines : PDB : 25000 structures

Intégrations des bases de données

Chaque base de données a son format propre Certains format standard existent : asn.1, fasta, mais

aucun n’est universel Existences de bases intégrées:

Permet des recherches simples sur plusieurs bases de données hétérogènes

Ex: Entrez (NCBI) intègre des publications, des bases de nucléotides et protéines, des structures 3D de protéines, …

Problèmes de différences de terminologies entre les bases et de requêtes complexes sur plusieurs bases.

Utilisation complexe

Formalisation du savoir Exemples

GeneOntology 19000 termes de biologie moléculaire Normalisation des protéines de UniProt et Interpro

en cours TAMBIS

Permet de faire de recherches de concepts Ex : recherche de protéines vérifiant la relation

« protéine1 homologue à protéine2 »

Les ontologies en bioinformatique

Permet d’enrichir la requête Ex d’ontologie

Si l’utilisateur cherche une séquence RYR, on peut aussi lui renvoyer les résultats avec ATG.

Gestion de vocabulaires différents Transfert ARN et tARN définissent le même concept

Les apports de l’ontologie

Nucléotide

A G C T

R Y

Codoncompose

est un

Intégration par vues

Création d’un schéma qui intègre celui des bases qu’il utilise L’utilisateur accède de façon transparentes au bases

de données La terminologie est unifiée (utilisation d’ontologie) Permet d’effectuer des requêtes complexes dans un

langage de haut niveau (ex BioKleisli) Utilisation plus simple car requiert moins de

connaissances



phylogénétiques Bases de données Prédictions

Prédiction de structure

Prédire la structure 3D d’une protéine à partir de sa séquence Problème NP-complet [Berger, 1998]

Déduire la séquence d’ADN à partir de la structure Essentiel pour produire des protéines

inhibantes

Structure d’une protéine Structure primaire (1D)

séquence des acides aminés enchaînes par des liaisons peptidiques et des ponts disulfures

Structure secondaire (2D) repliements (formations périodiques

adopté par des portions partielles d’une protéine. Géométries possibles: hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C).

Structure tertiaire (3D) conformation tridimensionnelle

thermodynamiquement stable qu'adoptent les différents éléments de la structure 2D

Structure quaternaire (4D) certaines protéines complexe sont

constituées de plusieurs sous-unités, l’agencement de ces sous unités défini la structure quaternaire

Connaissance des structures PDB (Protein Data Bank)

> 25000 structure de protéines nombre de conformations significativement différentes

(ayant moins de 25% d’acides aminés identiques) : > 1500

ajout de 6 structures chaque jour La majorité des séquences ont une homologie

structurale < 20% On évalue à environ 10000 le nombre total de

structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues

Prédiction de structure 2D Méthode statistique

Depuis 1974, à partir des séquences connues on établit une table des proportions des 20 acides aminés, on associe la structure d’une séquence avec la plus proche dans la table

A partir des propriétés physico-chimiques des acides aminés

la charge, l'hydrophobicité et l'hydrophilie influent sur la structure Méthode des plus proches voisins Méthode par réseaux de neurones Méthode des chaînes de Markov L'influence de la structure 3D sur la structure 2D n'est

pas prise en compte par ces méthodes, or elle existe

Prédiction de structure 3D Comparaison avec une banque de structure de protéines Si la protéine partage au moins 30% de ses acides

aminés avec une protéine connue, la structure de cette protéine sert d’empreinte pour le modèle structural de la protéine étudiée, ensuite peut raffiner en utilisant deux méthodes:

Méthodes substitutives Méthodes géométriques

Sinon, on applique le threading: on recherche dans les repliements connus et on essaye de les

assembler en optimisant certaines aspect comme l’hydrophobie/hydrophilie, le rapport surface/volume, le rayon de giration, ...

Néanmoins, on atteint au mieux 76% d’exactitude avec des réseaux neuronaux, problème encore ouvert

Structure d’une séquence d’ADN

Seul 1,1% de l’ADN humain est codant: ce sont les exons

Chaque gène est composé d’introns (non codant) et d’exons

Les gènes représentent 25% du génome humain, le reste est appelé ADN intergénique

La fonction de la majeure partie de l’ADN n’est pas connue

Une ORF (Open Reading Frame) est la région de l’ADN entre deux codons stop, possiblement codante

Recherche d’ORF

La recherche d’ORF utilise plusieurs méthodes repérage des phases d’ouverture de lecture longues,

statistiquement improbable recherche des signaux nécessaires à la traduction, en

particulier le site de fixation du ribosome (RBS) recherche de séquences particulières qui séparent

introns et exons, ces séquences sont découvert par des systèmes à apprentissage, ils ne sont ni universels, ni spécifiques

comparaison de la distribution des lettres ACGT

Codes circulaires Une fois trouvée, une séquence codante de

codon (suite de 3 nucléotides) peut commencer à se lire sur 3 positions différentes

Un code circulaire est un ensemble de mots tel que, tout mot écrit sur un cercle (la lettre qui suit la dernière lettre du mot est la première lettre du mot) a, au plus, une décomposition unique en mots du code.

Le décodage d’un mot écrit à partir de mots d’un code circulaire est donc non ambigu

Or, les séquences codantes semblent écrites avec un code circulaire, il est donc aisé de trouver la fenêtre de lecture

Détermination de la fonction d’un gène

Par similarité de séquence Par similarité de structure 3D Par l'étude de l'expression du gène dans

l'espace et dans le temps On regarde la densité de l’ARNm produit selon les

cellules, l’état de développement, le milieu ... Puces à ADN

Par observation des effets de l'altération ou de la délétion du gène

Puces à ADN Mesures massivement parallèles et quantitatives de

l’expression des gènes (transcrits/ARNm) On hybride de l’ADN complémentaire (ADNc)

synthétique avec de l’ADN de cellules et on regarde l’expression des gènes

On peut tester 10000 ADNc simultanément

Exemple de puce à ADN, on a hybridé de échantillon d’ADNc (ADN complémentaire) synthétique (cible) avec de l’ADN de cellules (sonde) saines et d’autres cancéreuses (en double couche), la superposition des deux couches montre quels ADNc sont efficaces contre le cancer

Conclusion

La bioinformatique est un domaine vaste Il reste de nombreux problèmes ouverts

Prédiction de structures 3D Gestion de l’explosion des données

Les progrès en bioinformatique permettent des avancées importantes en terme de santé 17 enfants atteints de déficit immunitaire

combiné sévère ont été soigné par thérapie génétique

Documents

Etat de lart en Bioinformatique Sébastien Derivaux pour le cours de bioinformatique de Christian Michel