21
___________________________________________________________________________ DEA Environnement 2001 - 1 - Phylogénie Une première lecture de livres ou publications sur la phylogénie laisse une impression de discipline confuse. Une relecture accentue cette impression et l'on peut dire sans se tromper qu'ils existent au moins autant de méthodes d'approches que de phylogénéticiens. On peut quand-même tenter une classification en mettent en exergue leurs ressemblances et leurs différences. La phylogénie peut se définir comme "le cours historique de la descendance des êtres organisés" s'appuyant sur le concept de base de la descendance avec modification. Le support formel de la représentation, admise par tous, est l' arbre phylogénétique. - Les feuilles y représentent les "espèces" étudiées ou les taxons - les noeuds internes, les ancêtres virtuels ayant divergé - les arêtes, les liens de filiation. Les arêtes sont valuées. En général, les arbres sont ternaires (noeud interne a trois arêtes) et peuvent être enracinés; dans ce cas l'arbre est "orienté", il possède une origine qui est un noeud unaire appelé racine ou ancêtre. Un dendrogramme est un arbre additif enraciné, dont tous les chemins de la racine à chacune des feuilles ont la même longueur. Dendrogramme A B C A C D B E Arbre sans racine noeud arête feuille arbre : graphe connexe sans cycle X-arbre : on ajoute aux sommets réels (les taxons) des sommets latents qui sont des ancêtres virtuels (intermédiare virtuel) arbre additif : arbre phylogénétique dont les arêtes sont valuées Cette représentation est le support formel de la "ressemblance" ou de la différence entre les objets d'étude (espèces, organismes) de la phylogénie. Là est le problème crucial et là se situent les différences entre phylogénéticiens. De l'anatomie comparée à l'étude des caractères biologiques moléculaires, en passant par l'ontogénie et la paléontologie, le concept de ressemblance a été approché de manières différentes selon l'école de systématique. Depuis les œuvres des grands évolutionnistes du XIX e siècle, Lamarck, Darwin, Haeckel jusqu'à la définition de la méthode cladistique par l'entomologiste Willi Hennig (1950), la construction phylogénétique obéissait au principe du "triple parallélisme" :

Phylogénie - plage-desinvolte.pagesperso-orange.frplage-desinvolte.pagesperso-orange.fr/d_agora/d_bioinfo/phylo-env.pdf · - pour les sytématiciens évolutionnistes, la similitude

  • Upload
    ngokien

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

___________________________________________________________________________DEA Environnement 2001 - 1 -

Phylogénie

Une première lecture de livres ou publications sur la phylogénie laisse une impression de

discipline confuse. Une relecture accentue cette impression et l'on peut dire sans se tromper

qu'ils existent au moins autant de méthodes d'approches que de phylogénéticiens. On peut

quand-même tenter une classification en mettent en exergue leurs ressemblances et leurs

différences.

La phylogénie peut se définir comme "le cours historique de la descendance des êtres

organisés" s'appuyant sur le concept de base de la descendance avec modification.

Le support formel de la représentation, admise par tous, est l'arbre phylogénétique.

- Les feuilles y représentent les "espèces" étudiées ou les taxons

- les noeuds internes, les ancêtres virtuels ayant divergé

- les arêtes, les liens de filiation. Les arêtes sont valuées.

En général, les arbres sont ternaires (noeud interne a trois arêtes) et peuvent être enracinés;

dans ce cas l'arbre est "orienté", il possède une origine qui est un noeud unaire appelé racine

ou ancêtre.

Un dendrogramme est un arbre additif enraciné, dont tous les chemins de la racine à chacune

des feuilles ont la même longueur.

DendrogrammeA B C

A

C

D

B

E

Arbre sans racine

noeud

arête

feuille arbre : graphe connexe sans cycle

X-arbre : on ajoute aux sommets réels (lestaxons) des sommets latents qui sont desancêtres virtuels (intermédiare virtuel)

arbre additif : arbre phylogénétique dont lesarêtes sont valuées

Cette représentation est le support formel de la "ressemblance" ou de la différence entre les

objets d'étude (espèces, organismes) de la phylogénie. Là est le problème crucial et là se

situent les différences entre phylogénéticiens. De l'anatomie comparée à l'étude des caractères

biologiques moléculaires, en passant par l'ontogénie et la paléontologie, le concept de

ressemblance a été approché de manières différentes selon l'école de systématique.

Depuis les œuvres des grands évolutionnistes du XIXe siècle, Lamarck, Darwin, Haeckel

jusqu'à la définition de la méthode cladistique par l'entomologiste Willi Hennig (1950), la

construction phylogénétique obéissait au principe du "triple parallélisme" :

___________________________________________________________________________DEA Environnement 2001 - 2 -

- Le triple parallélisme

- l'anatomie comparée : l'homologie repose essentiellement sur la morphologie, les

connexions de l'organe avec d'autres organes

- l'ontogénie : embryologie comparée en particulier sur les stades les plus précoces du

développement.

- la paléontologie : informations directement issues du temps géologique qui permet

d'établir les relations chronologiques.

- pour les cladistes, il convient d'identifier les états primitif (plésiomorphe) et dérivé

(apomorphe) des caractères homologues

- pour les systématiciens phénéticiens, adepte de la taxinomie numérique, la combinaison de

taxons ne peut être fondée que sur la base de similitude globale exprimée par un indice de

similitude.

- pour les sytématiciens évolutionnistes, la similitude globale seule ne peut fournir la base de

la reconstruction phylogénétique en raison de "fausses homologies" ou homoplasies

(convergence : apparition indépendante de caractères proches et réversion : apparition d'un

caractère ayant l'apparence de la morphologie ancestrale) et l'on doit prendre en compte

uniquement la similitude de traits homologues.

Le cladisme

La sytématique phylogénétique cherche à établir des groupes monophylétiques ; c'est à dire

des groupes dont le plus récent ancêtre commun à tous les éléments ne soit l'ancêtre d'aucun

élément d'un autre groupe. Cela apparaitra comme un sous-arbre dans l'arbre phylogénétique.

En ce sens, on cherche à rejeter les groupes paraphylétiques, dont le plus récent ancêtre

commun aux éléments d'un groupe est aussi un ancêtre plus ancien d'autres groupes, et les

groupes polyphylétiques, dont le plus récent ancêtre commun aux éléments du groupe est

aussi le plus récent ancêtre commun d'éléments d'un autre groupe.

A : les deux groupes sont monophylétiquesB : le groupe en vert est paraphylétiqueC : les deux groupes sont polyphylétiques

A B C

___________________________________________________________________________DEA Environnement 2001 - 3 -

Les définitions et les concepts importants sont :

Etat des caractères

De manière générale un caractère sera significatif s'il possède au moins deux états possibles :

- état plésiomorphe (état ancestral)

- état apomorphe (état dérivé de l'état plésiomorphe par spéciation)

Notion d'homologie et d'homoplasie

Afin de structurer les classifications que sur la base de monophylies, il faut pouvoir distinguer

les similitudes héritées d'un ancêtre commun des similitudes qui ne le sont pas.

Les premières sont appelées homologies et témoignent d'une réalité évolutive commune.

Les secondes sont appelées homoplasies et témoignent d'apparitions indépendantes de

caractères similaires chez des groupes n'étant pas nécessairement apparentés. Les

homoplasies sont aujourd'hui divisées en deux types : les convergences et les réversions. Une

convergence correspond à l’apparition d'un caractère indépendamment chez deux taxons (ou

davantage). Une réversion représente une réapparition chez un taxon d'un caractère identique

à celui de la forme ancestrale.

x (état plésiomorphe) -> x' (état apomorphe)

Parcimonie

Lors de la construction des arbres, seuls seront retenus les arbres dont le nombre total de

changement d'états seront minimaux. Cela amène les remarques suivantes :

1- Dans la "théorie de l'évolution" la nature est fort économe!

A B C

x

x'

x x'x'

Homologie

A B C

x

x

x' x'x

Convergence

A B C

x

x'

x xx'

Réversion

Homoplasie

___________________________________________________________________________DEA Environnement 2001 - 4 -

2- Cela permet de trouver des méthodes de construction des arbres.

3- Cette méthode est idéale pour le cas où les homoplasies n'existent pas

Les biologistes disposent de plusieurs algorithmes ou heuristiques pour soumettre la

construction des arbres à des ordinateurs. Avant de passer à la construction phylogénétique

moléculaire, il faut disposer d'un alignement des séquences puisque chaque position sera un

caractère putatif.

Pour une séquence protéique ou d'ADN chaque site "informatif" de la séquence est considéré

comme un caractère. Un site informatif est une poisition pour laquelle on trouve au moins

deux états et que l'on retrouve chacun dans au moins 2 séquences.

La complexité algorithmique du problème (NP-complet) limite l'évaluation de toutes les

combinaisons possibles (un site informatif pour 10 séquences représentent l'évaluation de 34

459 425 arbres).

L'algorithme le plus connu et le plus utilisé pour les séquences d'ADN (nombre de séquences

inférieur à 30) est celui désigné sous le nom de "Branch and bound". Celui-ci trouve une

solution minimale sans explorer l'ensemble de toutes les combinaisons.

Les méthodes probabilistes

Elles sont appliquées à un ensemble de caractères pour chacun desquels, une probabilité de

transition entre les divers états est définie.

A partir de là, la phylogénie est représenté par l'arbre dont la vraisemblance calculée à partir

des probabilités est maximale. La difficulté réside dans l'évaluation des probabilités de

chaque événement.

Par exemple la méthode du maximum de vraissemblance analyse l'ordre des branchements et

la longueur des branches en terme de probabilité

___________________________________________________________________________DEA Environnement 2001 - 5 -

Phénétique moléculaire

Nous allons nous intéresser plus particulièrement à deux méthodes phénétiques que vous

trouvez dans le programme "clustalv", le plus utilisé par les biologistes moléculaires, et qui

permettent d'exprimer des relations de proximité à partir d'un indice de similarité basé sur un

seul caractère : la comparaison des séquences primaires pour une protéine appartenant à la

même famille (par exemple la lipase pancréatique). La définition de la ressemblance de

séquences et les problèmes posés seront décrits plus loin.

Nous supposons que nous pouvons définir et calculer une distance entre deux séquences

protéiques (distance d'édition, etc.), et donc par exemple construire le tableau suivant pour 5

séquences:

1 2 3 4 5

2 d12 0

3 d13 d23 0

4 d14 d24 d34 0

5 d15 d25 d35 d45 0

6 d16 d26 d36 d46 d56

indice d'écart : d(i,j) = d(j,i)d(i,j) ≥ 0 et d(i,i)=0

distance : d(i,j) = 0 ⇒ i = j

distance métrique : d(i,j) ≤ d(i,k) + d(k,j)

distance ultramétrique :d(i,j) ≤ max(d(i,k), d(j,k))

Nous voulons passer d'une représentation d'un graphe complet (tableau double entrée) à la

représentation par un arbre phylogénétique.

Intuitivement nous allons passer d'un espace à (n-1) dimensions (ici 4) à un espace de

dimension 2 : cela ne peut se faire que par une approximation.

Plusieurs méthodes peuvent être appliquées : probabiliste, analyse en composante principale,

classifications hiérarchiques. Les plus employées sont les dernières, basées soit sur la

meilleure approximation tableau <-> arbre, ou encore sur l'application d'une récurrence :

Meilleure approximation

- par exemple approximation des moindres carrés entre le tableau et l'arbre additif à

construire

Récurrence

- la classification hiérachique descendante, basée sur la dichotomie : l'ensemble de

séquences est partagé en deux sous-ensembles, chacun regroupant les séquences les plus

proches entre elles. A chacun des deux sous-ensembles, on applique la même règle

précédente et cela jusqu'à épuisement.

- la classification hiérachique ascendante : une paire de séquences (ou OTU) sont regroupées

suivant un critère, ce regroupement définit un nouvel objet séquence (OTU) et l'on

___________________________________________________________________________DEA Environnement 2001 - 6 -

recommence la même opération avec les (n-1) objets restants après avoir recalculé un

nouveau tableau, et ainsi de suite jusqu'à épuisement. Les méthodes vont se différencier par le

critère de regroupement et par la méthode de calcul pour passer d'un tableau de n objets à un

tableau de (n-1) objets.

Dans le programme "clustalv", vous avez deux constructions par classification hiérarchique

ascendante :

- UPGMA : à partir du tableau, on définit une ultramétrique (lien moyen : l'arbre construit

sera un dendrogramme) et la règle de regroupement concerne les deux OTU les plus proches

(valeur minimale dans le tableau). L'ultramétrique sous entend la notion d'horloge

moléculaire.

- NJ : la règle de regroupement concerne les deux OTU qui produise l'arbre minimal

Lien moyen (UPGMA)

Cette méthode rentre dans le cadre des distances ultra-métriques. Pour passer d'un tableau

de n objets, à un tableau de (n-1) objets où on a regroupé les objets 1 et 2 par exemple, un

élément du nouveau tableau est calculé ainsi :

d(i,(12)) = (n1*d(i,1) + n2*d(i,2))

n1 + n2 où nk est le nombre d'éléments dans le sous-arbre (ou

OTU) k

on peut aussi définir :

- lien simple d(i,(12)) = min [ d(i,1) , d(i,2) ]

- lien complet d(i,(12)) = max [ d(i,1) , d(i,2) ]

Cette méthode qui pose que les séquences à regrouper sont les plus proches (valeur minimale

dans le tableau) sous-entend l'hypothèse de "l'horloge moléculaire" : taux de mutation

proportionnelle au temps évolutif et identique sur toutes les branches de l'arbre

Exemple :

a b c d ea 0b 1 0 on regroupe a et b en Ac 2,1 1,2 0d 3,3 2,3 1,2 0e 2,8 3 2,5 3,4 0-------------------------------------------------- A c d eA 0c 1,65 on regroupe c et d en Bd 2,8 1,2e 2,75 2,5 3,4-------------------------------------------------- A B eAB 2,225 on regroupe A et B en Ce 2,75 2,95-------------------------------------------------- C eCe 2,85

___________________________________________________________________________DEA Environnement 2001 - 7 -

d'où le dendrogramme ou encore

a b c d e

A BC

0,5 0,6

1,421,11

a b c d e

Méthode NJ (Neighbor-joining : Saitou N. and Nei M. 1987)

C'est une méthode de construction d'un arbre phylogénétique sans racine à partir d'un indice

d'écart (par exemple distance ou dissimilarité entre séquences). Elle est basée sur la recherche

d'une paire d'OTU (operational taxonomic units) qui minimisent la longueur totale des

branches de l'arbre et ceci à chaque étape de regroupement (parcimonie).

Nous avons un indice de proximité D sur un ensemble X de n séquences, représenté par un

tableau à deux entrées. Nous voulons passer à une représentation par un X-arbre additif libre

telle que la valuation sur l'arbre L (longeur des chemins entre deux feuilles) soit une "bonne

approximation" de D. (Cela est possible sans problème si l'indice est une distance métrique)

Indice de proximité (D) Arbre phylogénétique additif (L)

1 2 3 4 5

2 d12

3 d13 d23

4 d14 d24 d34

5 d15 d25 d35 d45

6 d16 d26 d36 d46 d56

→→→→1

5

42

3

6

a b c d

Si D distance métrique : OK

Figure 1

L15 = L1a + L5a etc .. et Lij pour i, j ∈{1..5} soit une bonne approximation deDij

Pour faire ceci, nous allons procéder en (n-2) cycles en répétant le processus suivant :

- regrouper les deux OTU les plus proches en créant une arête interne entre cette paire et le

reste des OTU suivant le critère de minimisation de la longueur de l'arbre obtenu

___________________________________________________________________________DEA Environnement 2001 - 8 -

- calculer la valuation intermédiaire

- regrouper la paire dans le tableau de dissimilarité et recalculer celui-ci par le lien moyen

Critère de sélection d'une paire d'OTU les plus proches

Pour tous les couples d'OTU, la valeur de Sij, longueur de l'arbre pour une topologie où i et j

sont regroupés en une paire, est calculée à partir des valeurs de dissimilarité Dkl.

Toutes ces longueurs d'arbre sont calculées en adaptant la formule d'un arbre en étoile à un

arbre avec une arête interne.

Pour un arbre en étoile : S0 = ∑i=1

N

LiX = 1

N-1 ∑i<j

Dij d'où pour un arbre avec une arête

interne X-Y et un regroupement en une paire de i et j, nous obtenons :

Sij = LXY + (LiX + LjX ) + ∑k=1, k≠i, k≠j

N

LkY

La paire choisie est celle qui minimise la valeur de Sij .

La valeur de Sij peut être calculée à partir des Dkl :

Sij = 1

2(N-2) ∑k=1, k≠i, k≠j

N

(Dik + Djk ) + 12 Dij +

1N-2 ∑

k<l, k,l ≠i, k,l≠j

N

Dkl

A partir du tableau d'indice de dissimilarité des OTU, le tableau de tous les Sij est calculé :

Indice de dissimilarité Valeur de Sij (longueur de l'arbre pourune toplogie où i et j sont regroupés

1 2 3 4 5

2 d12

3 d13 d23

4 d14 d24 d34

5 d15 d25 d35 d45

6 d16 d26 d36 d46 d56

→→→→

1 2 3 4 5

2 S12

3 S13 S23

4 S14 S24 S34

5 S15 S25 S35 S45

6 S16 S26 S36 S46 S56

et la paire sélectionnée pour le regoupement est celle qui minimise la valeur de Sij.

___________________________________________________________________________DEA Environnement 2001 - 9 -

Regroupement d'une paire d'OTU et création d'une arête interne

Schématiquement nous passons de la topologie en étoile à une topologie où une arête interne

est créée (ici c'est S15 qui est supposé minimum).

Etoile Création d'une arête interne

X

1

2

34

5

6

→→→→X Y

1

5

6

4

32

a

Figure 2Valuation de L1a et L5a

Estimation de la longueur des arêtes LiX , LjX , LXY

LXY = 1

2(N-2) [ ∑k=1, k≠i, k≠j

N

(Dik + Djk ) - (N-2) D12 - 2

N-3 ∑k<l, k,l ≠i, k,l≠j

N

Dkl ]

LiX et LjX sont calculés à partir de la méthode de Fitch et Margoliash :

LiX = (Dij + DiZ - DjZ ) / 2

LjX = (Dij + DjZ - DiZ ) / 2

où DiZ = 1

N-2 ∑k=1, k≠i, k≠j

N

Dik et DjZ = 1

N-2 ∑k=1, k≠i, k≠j

N

Djk

Remarque : seuls LiX et LjX sont calculés pour chaque cycle, sauf au dernier pour lesquel

on a une trichotomie.

Préparation du tableau de dissimilarité pour le cycle suivant

Nous passons d'un tableau avec 6 OTU à un tableau à 5 OTU où la paire i, j est regroupée en

un seul OTU (dans le cas de la figure 1 c'est 1 et 5 qui sont regroupés). Les nouveaux indices

de similarité sont recalculés à l'aide de la distance de Fitch et Margoliash :

___________________________________________________________________________DEA Environnement 2001 - 10 -

D(i-j)k = ( Dik + Djk - Dij) / 2

Cycle suivant

En appliquant le même processus, deux OTU vont être regroupés, par exemple, si S23 est

minimal :

Etoile Création d'une nouvelle arête interne

X

1-5

2

34

6→→→→ X Y

2

3

6

4

1-5d

Figure 3Valuation de L2d et L3d

ou encore :

Etoile Création d'une nouvelle arête interne

X2

34

61

5

→→→→ XY

1

5

6

4

a

3

2

d

Figure 3 bisValuation de L2d et L3d

On peut aussi avoir, par exemple, si c'est S(1-5)6 qui est minimal le schéma suivant:

X2

34

61

5

→→→→X Y

1

5 a

3

2b

6

4

Figure 4 Valuation de Lab et L6b

___________________________________________________________________________DEA Environnement 2001 - 11 -

Deux propriétés importantes doivent être soulignées en rapport avec la minimalité de Sij :

Critère d'un arbre d'évolution minimum

Pour un arbre additif, le critère d'une paire d'éléments les plus voisins est :

Les éléments 1 et 2 sont les plus proches si les relations d'inégalité suivantes sur l'indice

d'écart sont satisfaites :

∀ i, j (i≠ 1, 2 et j≠ 1,2) : D12 + Dij < D1i + D2j et D12 + Dij < D1j + D2i

Remarquons que ce crirère n'implique pas que D12 soit l'élèment minimal des Dij .

Soit S12 la longueur de l'arbre où la paire (1-2) est regroupée par ajout d'une arête interne

(voir pages précédentes)

Théorême : La condition de minimalité de S12 est équivalente à la condition des plus proches

voisins sur l'arbre additif.

Estimation des longueurs de branches par les moindres carrés

Nous avons vu que nous voulons passer d'une représentation par un indice de proximité D

sur un ensemble X de n séquences, représenté par un tableau à deux entrées à une

représentation par un X-arbre additif libre telle que la valuation sur l'arbre L (longeur des

chemins entre deux feuilles) soit une bonne approximation de D. Le problème est d'obtenir

une matrice A "la meilleur possible" telle que AL = D. La solution de cette équation par les

moindres carrés est de minimiser l'expression :

1

2(N-2) ∑k=1, k≠i, k≠j

N

(Dik + Djk ) + 12 Dij +

1N-2 ∑

k<l, k,l ≠i, k,l≠j

N

Dkl

qui est exactement égale à Sij . Or dans le choix de la création d'une arête interne, c'est le

critère de minimisation qui a été choisi. De plus la valuation intermédiaire des LiX , calculée

par la méthode de Fitch et Margoliash correspond à cette approximation.

___________________________________________________________________________DEA Environnement 2001 - 12 -

Les problèmes posées par ces méthodes

Les problèmes de construction d'arbres.

L'un des problèmes les plus récurrents est la "stabilité" d'un arbre phylogénétique. Par

exemple l'introduction d'une nouvelle séquence ou l'enlèvement d'une séquence donneront-

elles un arbre similaire, c'est à dire dont la topologie sera identique.

Pour éprouver la robustesse d'une solution, on applique la technique de re-échantillonage :

- "bootstrap"

On suppose que les caractères évoluent de manière indépendante : on crée un nouveau jeux de

données en changeant pour chaque caractère (site ou position pour une séquence d'ADN) de

manière aléatoire l'état (base pour une séquence d'ADN) et on compare l'arbre obtenu avec

l'original. On répète au moins 100 fois l'opération et on cacule pour chaque nœud le

pourcentage où il est trouvé dans la même topologie que dans l'arbre initial.

- "jackknife"

La méthode est similaire au bootstrap, avec toutefois une élimination de 20 % des caractères

(site ou position pour une séquence d'ADN)

Ces deux méthodes sont utilisées aussi bien dans le cas de méthodes cladistiques que

phénétiques ou autres.

Les problèmes de saturation

Pour un site dans une séquence, après plusieurs mutations successives on peut retrouver un

état ancestral (homoplasie), ce qui masquera le "message phylogénétique".

Ce phénomène interviendra d'autant plus souvent que le nombre d'états possibles sera faible

et que les séquences appartiendront à des taxons très éloignés.

Les problèmes d'orthologie-paralogie

Deux gènes sont orthologues s'ils ont acquis leur autonomie évolutive après un événement de

spéciation (ils appartiennent obligatoirement à 2 organismes différents). Ils ont un ancêtre

commun.

Deux gènes sont paralogues s'ils ont acquis leur autonomie évolutive après une duplication

génique et non un événement de spéciation.

Pour une reconstruction phylogénique, il faut disposer des gènes ou des produits de gènes

orthologues.

L'évolution ne se fait pas au hasard

___________________________________________________________________________DEA Environnement 2001 - 13 -

La notion de hasard sous-tend celle d'équiprobabilité indépendante des évènements survenant

lors de la spéciation.

Ceci signifie que dans toutes les méthodes utilisées, on devra s'attacher à se poser les

questions suivantes pour les séquences moléculaires:

- influence de la position dans une séquence

- pour les séquences nucléiques de géne codant des protéines : mutation sur la troisième

base du codon

- pour des séquences nucléiques : problème de transition (purine : A<->G ou pyrimidine

C<->T) et de transversion (purine<->pyrimidine)

- mutation des amino-acides : construction de matrice de substitution

Les problèmes spécifiques aux méthodes utilisées

Méthode cladistique

Il faut disposer d'un alignement de séquences. Chaque position de l'alignement sera un

caractère putatif. Pour les séquences de même longueur, cela ne pose aucun problème. Pour

les séquences ayant subi des insertions ou délétions lors de l'évolution, cela posera un

problème. Nous ne disposons d'aucune méthode pour construire le "bon" alignement.

Plusieurs méthodes donnant des résultats différents sont utilisées.

Méthode phénétique

Mesurer la ressemblance de séquences moléculaires ne conduit pas à un seul modèle et donc à

une seule méthode : voir le paragraphe suivant

___________________________________________________________________________DEA Environnement 2001 - 14 -

Ressemblance de séquences

La caricature du biologiste moléculaire, la plus actuelle, montrerait un biologiste ayant

"péché" une séquence et s'exclamerait à quoi tu ressembles ou en quoi diifères-tu!

Nous ne poserons pas la question de la pertinence de tout cartographier et de tout séquencer,

sainte quête, en vue d'obtenir le secret de la vie, mais simplement nous allons feuilleter

quelques pages du bréviaire.

Deux points de vue pour répondre à la question de la similarité entre deux séquences :

1 - l'analyse du mathématicien qui considère une séquence comme un mot construit à partir

d'un alphabet et qui a des méthodes opératoires pour établir des fontions de mesure

2 - l'analyse ou aussi l'expertise du biologiste qui se référera, au delà des réponses

précédentes, à d'autres connaissances que la séquence primaire : toutes les propriétés

biologiques

Voici quelques classiques de la biologie moléculaire : aucune démonstration ne sera donnée,

vous les trouverez dans les articles originaux. Dans cette catégorie de programmes, nous

trouvons : alignement de 2 séquences, de plusieurs séquences, alignement d'une séquence

contre une banque, recherche de consensus

La première image

Une représentation matricielle de points (dot-matrix), construite ainsi :

- une croix si xi=yj (où xj est un élément de la première séquence et yj un élément de la

deuxième séquence, sinon rien. La vision d'une suite croix consécutives dans une diagonale

souligne des identités entre des parties des deux séquences

M Q N W E T T A T T N Y E Q H N A W Y N N x x x x W x x E x x T x x x x V ? T x x x x T x x N x x Y x x D ? Q x x H x

L'expert biologiste peut indiquer qu'une substitution de valine par alanine ne change pas les

propriétés biologiques (de même E par D).

___________________________________________________________________________DEA Environnement 2001 - 15 -

Méthodes globales

La première analyse mathématique

Levenshtein introduit en 1965 (Levenshtein 1965) deux concepts très proches de distance

entre deux séquences A et B; l'un définit la distance comme le nombre minimum de

substitutions, de délétions ou insertions requises pour transformer A en B, l'autre comme le

nombre minimum de délétions ou insertions. Une distance définie ainsi a les propriétés d'une

distance métrique, à savoir:

° d(A,B) ≥ 0

° d(A,B)=0 si A=B

° d(A,B)= d(B,A)

° d(A,B) + d(B,C) ≥ d(A,C)

Cette distance se calcule de manière récursive (on parle de programmation dynamique) :Soient les séquences A de n lettres et B de m lettres; d(A,B)=d(an,bm) avec

d(ao,bo)=0, si i<0 ou j<0 alors d(ai,bj) est infini: et d(ai,bj) défini

récursivement ainsi

d(ai-1, bj) + w(ai, -) délétion de aid(ai,bj)= minimum { d(ai-1, bj-1) + w(ai,bj) substitution ai/bj d(ai, bj-1) + w(-, bj) insertion de bj

où w est une fonction poids: cette fonction a les valeurs suivantes: w(ai,-)=1,

w(ai,bj)=0 si ai=bj ou w(ai,bj)=1 si ai≠bj, w(-, bj)=1.

On définit simultanément un pointeur qui indique la position de la valeur minimum

précédente de cette manière:

(i-1, j) ou

p(i,j) = minimum { (i-1, j-1) ou

(i, j-1)

On peut facilement écrire un programme qui réalise cet algorithme et calcule une distance

entre deux séquences. Un alignement métrique entre les deux séquences s'obtient en partant

du pointeur p(n,m) et en remontant en arrière (backtrack) jusqu'à la position précédant

p(o,o).

___________________________________________________________________________DEA Environnement 2001 - 16 -

Exemple pédagogique:

A C G T G C G C p(8,6)= (7,6) p(7,6)= (6,5) 0 1 2 3 4 5 6 7 8 p(6,5)= (5,4) p(5,4)= (4,3) C 1 1 1 2 3 4 4 5 5 p(4,3)= (3,2) p(3,2)= (2,1) G 2 2 2 1 2 2 3 3 4 p(2,1)= (1,0) p(1,0)= (0,0) A 3 2 3 2 2 3 3 4 5 G 4 3 3 2 3 2 3 3 4 La distance est de 4: on peut obtenir B à

C 5 4 3 3 3 3 2 3 3 partir de A par 2 délétions et

T 6 5 4 4 3 4 3 3 4 2 substitutions.

L'alignement métrique proposé est:

A C G T G C G C LCS = CGGC (longest common subsequence)

| | ^ | | ^

- C G A G C T -

Le premier algorithme pour biologiste (Needleman S. and Wunsch C. 1970)

Basé aussi sur la programmation dynamique, il ne cacule pas la différence entre deux

séquences mais la similarité. Considérons deux séquences A(1,n) B(1,m)

A B C N J R O C L C R P M A J Le jeu est de finir de remplir ce tableau C J N R C 3 3 4 3 3 3 3 4 3 3 1 0 0 K 3 3 3 3 3 3 3 3 3 2 1 0 0 C 2 2 3 2 2 2 2 3 2 3 1 0 0 R 2 1 1 1 1 1 2 1 1 1 2 0 0 B 1 2 1 1 1 1 1 1 1 1 1 0 0 P 0 0 0 0 0 0 0 0 0 0 0 1 0

Le tableau est rempli ligne après ligne (en partant de la dernière) et pour chaque ligne colonne

après colonne (en partant de la dernière) en obéissant à la règle suivante :

- Le score S(i,j) est le nombre maximun de correspondance entre les deux parties de

séquences A(i,n) et B(j,m) (en prenant tous les chemins possibles à partir de (i,j)) et en

appliquant la valuation suivante :

- score pour une identité 1- score pour une substitution, une insertion ou délétion 0

La formule de récurrence est :

___________________________________________________________________________DEA Environnement 2001 - 17 -

si ai= bj+1 S(i,j+1) -1 + s(ai,bj), si non S(i,j+1) + s(ai,bj)S(i,j) = max si ai+1= bj+1 S(i+1,j+1) -1 + s(ai,bj), si non S(i+1,j+1) + s(ai,bj)

si ai+1= bj S(i+1,j) -1 + s(ai,bj), si non S(i+1,j) + s(ai,bj)avec évidemment S(n+1, j) = S(i, m+1) = 0

La similarité entre les deux séquences est égale à la valeur de S(1,1) et l'alignement est un

graphe qui a pour origine S(1,1) et parcourt la matrice pour des i et j croissant en recherchant

l'élément maximal voisin.

C'est une heuristique en ce sens qu'aucune démonstration n'indique qu'il calcule le maximum

de similarité. De plus, le nombre de séquences primaires augmentant, deux problèmes se sont

rapidement posés :

- la connaissance de séquences de famille de protéines montre qu'un score de substitution

identique pour toutes les paires d'amino acides n'est pas réaliste (par exemple substituer un

acide aspartique par un acide glutamique n'entraîne pas les mêmes conséquences biologiques

que substituer un acide aspartique par une lysine, ...) : voir plus loin le paragraphe sur les

matrices de substitution.

- le score à attribuer à une série d'insertion ou de délétion est-il la somme simple des scores

de chacun des phénomèmes.

Ceci définit des formules de score s(ai,bj) pour chaque paire d'amino acides plus

sophistiquées et l'introduction de score de délétion ou insertion faisant intervenir la longueur

de segment délété ou inséré par une formulaire linéaire (a +b(longueur)).

A partir de là, l'algorithme précédent a été modifié et d'autres ont apparu (en particulier, celui

de Sellers (1974) qui est une modification de celui de Levenstein). Smith F. et Waterman

(1991) ont comparé ces différents algorithmes et indiqué l'équivalence de certains (en

particulier celui de Sellers et celui de Needleman S. et Wunsch C) et ils ont défini les

conditions que doivent respecter les scores pour que la mesure (différence ou similarité) soit

une métrique (inégalité triangulaire respectée). Ils ont montré que si les scores utilisés pour

chaque paire d'amino acide est une métrique, alors la similarité ou la différence entre deux

séquences, calculées suivant les formules de récurrence précédentes est une métrique. A

moins de modifications importantes, cet algorithme n'est pas utlisé pour l'alignement sur une

banque.

Méthodes locales

L'algorithme le plus utilisé est celui de Smith et Waterman (1981) qui identifie les sous-

séquences maximales de deux séquences par programmation dynamique. Un matrice de score

est construite à l'aide d'une formule de récurrence (en reprenant les mêmes notations):

S(i-1, j-1) + s(ai, bj)S(i,j) = max S(i-k, j) - Wk

S(i, j-k) - Wk0avec évidemment S(i, 0)= S(0, j) = 0

___________________________________________________________________________DEA Environnement 2001 - 18 -

S(i,j) est le maximum de similarité entre deux segments se terminant en Ai et Bj. Une

séquence maximale est identifiée en trouvant l'élément maximal du tableau et en le

parcourant pour des indices décroissants jusqu'à la valeur nulle et en recherchant l'élément

voisin maximal. Dans l'article original, le score d'une identité est nul, celui d'un mismatch -

1/3 et Wk est égal à 1+ (1/3)k

Méthodes approchées

Lorsque l'alignement d'une séquence est réalisé contre une banque, le problème du temps de

calcul devient prédominant. Les algorithmes précédents sont trop gourmands en ressource. La

façon de voir la ressemblance a été posée d'une manière différente pour contourner cet

obstacle et des heuristiques ont été proposées.

FASTA (Lipman D. and Pearson W - Wilbur W.)

Ces deux auteurs ont fait les remarques suivantes :

- les ressemblances recherchées au "niveau biologique" concernent des fragments de

séquences

- de plus, dans ces fragments, la fréquence de substitution est beaucoup plus grande

que celle d'insertion ou délétion

Leur programme est basé sur la méthode de la diagonale, que l'on peut approcher

intuitivement par la représentation "dot-matrix". La ressemblance se définit par comparaison

de paire de fragments de chacune des séquences (fragment : partie de même longueur de

chacune des deux séquences, en dot-matrix c'est un morceau d'une diagonale). Ces deux

parties contiennent des mots communs séparés par des zones de substitution. Un fonction

score est attribué pour un fragment et la ressemblance est mesurée par le fragment de score

maximum.

L'algorithme se divise en 4 étapes :

- précodage des séquences en k-uple : mots de longeur k (4 acides nucléiques, 2 pour les

protéines). Ceci permet une efficacité beaucoup plus grande pour la deuxième étape

- recherche du fragment de plus haut score pour chaque diagonale qui est le score de la

diagonale (fragment = suite de mots séparés par de régions de substitution dont la longueur

maximale est prédéfinie (paramètre M))

- les scores des dix meilleures diagonales vont être recalculés en utilisant une matrice de

subtitution (PAM 250). C'est ce score qui est listé dans les résultats sous l'appellation

init1dans les programmes antécédents à FASTA (FASTP ..). Pour FASTA, ce score (initn) est

recalculé en essayant d'enchaîner à partir de la meilleure diagonale les fragments restants des

9 autres diagonales en tenant compte des insertions ou délétions dues au changement de

diagonale.

___________________________________________________________________________DEA Environnement 2001 - 19 -

- Les résulats sont classés par rapport au score précédent, et pour les meilleurs, un

alignement et un nouveau score (Opt) entre la séquence requête et la séquence de la banque,

sont calculés à partir de l'algorithme de Needleman et Wunsch légèrement modifié.

BLAST (Altschul S. et al. - Karlin S. and Altschul S.)

L'idée originale est de combiner à l'algorithme de recherche de paires de segments

homologues entre deux séquences une statistique qui permet de les classer.

La recherche se fait en plusieurs étapes :

- recherche de mots communs (w-mer) entre la séquence requête et les séquences de la

banque (celle-ci peut se faire à l'aide de matrice de substitution). Par défaut c'est Blosum62

qui est utilisée

- pour les mots "communs" supérieurs à un certain score (Expected), le mot est étendu si

possible à droite et à gauche et si le nouveau score obtenu est supérieur au "cut-off" S, le

segment est alors retenu (mis dans la liste des HSP : high scoring pair)

- pour une séquence de la banque pour laquelle au moins un segment satisfait à la condition

précédente, une valeur ("p-value"), basée sur une statistique de Poisson, qui évalue la

probablité que deux séquences "au hasard" aient en commun ces HSP, est calculée et les

résultats sont triés par valeur croissante.

Il est à remarquer que les valeurs de E et S sont en relation. La valeur par défaut de S est

calculée à partir de la valeur de E. Quant à la valeur par défaut de E, elle est le nombre de fois

qu'un tel segment est attendu "au hasard" dans la banque (10 pour la valeur par défaut). Il est

évidemment dépendant de la taille de la banque, de la fréquence des lettres (acides

nucléiques, ammino acides)

Le fait d'utiliser des matrices de substitution dans la première étape, pose un problème pour

des segments déclarés ressemblant entre deux séquences alors qu'au niveau biologique cela

n'a peut être pas de sens. Deux filtres sont prédéfinis

- région de faible complexité (SEG)

- région de répétitions internes (XNU)

Ces filtres vous permettent par exemple d'éliminer des ressemblances dues uniquement à des

régions acides ou basiques, etc.

Matrice de substitution

La recherche de ressemblances entre séquences, leur alignement mettent en jeu des relations

entre entre les constituants élémentaires des séquences, les nucléotides et les amino acides.

Les matrices de substitution sont écrites pour exprimer de telles relations. Quels sont les

critères les plus utilisés :

- identité : matrice unitaire

- code génétique

___________________________________________________________________________DEA Environnement 2001 - 20 -

- propriétés chimiques des amino acides

- substitutions observées dans des structures 3D supperposables (matrice de Risler)

- substitutions observées dans des alignements de protéines (matrice PAM, Blosum)

Le dernier critère, qui est le plus utilisé, a un défaut originel qui vient du fait que pour

fabriquer des alignements, on utilise très souvent des programmes qui font intervenir une

matrice de substitution. Les deux catégories de matrices les plus utilisées sont PAM et

Blosum.

PAM (Dayhoff M. et al.)

Ces matrices sont construites par étude de segments proches (moins de 15 % de différences)

de séquences de protéines homologues. Les fréquences observées de substitutions (ou

probabilité conditionelle : appelées "odd") sont transformées en logarithme de probabilité,

normalisé en unité d'évolution. Le logarithme est utilisé pour que dans les programmes de

recherche de ressemblance, la somme de ces éléments donne le logarithme de la probabilité

pour la séquence entière (le modèle étant Markovien : indépendance de fréquences de

substitution).

Les éléments diagonaux de la matrice indique une évolution sans substitution.

Pour PAM1, leur somme est telle qu'elle correspond à une probabilité de 99/100 (1 mutation

pour 100 résidus : d'où le nom PAM acepted point mutation)

L'indépendance des fréquences et les éléments de la matrice étant des logarithmes de

fréquences, nous pouvons calculer PAM(N) en élevant PAM1 à la puissance N, par exemple

pour PAM120, il faut multiplier PAM1 par elle-même 120 fois.

BLOSUM (Henikoff S. and Henikoff J.)

Ces matrices sont construites par étude de séquences de protéines et les séquences sont

découpées en blocs (2000 au total) par rapport au pourcentage d'amino acides inchangés.

Une matrice "d'odds" est calculée à partir des blocs d'alignement pour chaque valeur de

similitude, et ensuite chaque élément est transformé en unité d'information en prenant le

logarithme du rapport de la valeur observée à la valeur qu'on obtiendrait au hasard. Cette

matrice est ensuite normalisée. Ces matrices sont désignées par blosum(N) (blosum pour

blocks substitution matrix) où N représente le pourcentage de similitude. Les

correspondances entre blosum et PAM, basées sur la théorie de l'information sont :

- PAM250 -> blosum45 PAM160 -> blosum62 PAM120 -> blosum80

___________________________________________________________________________DEA Environnement 2001 - 21 -

BibliographieRessemblance- Altschul, Stephen F., Warren Gish, Webb Miller, Eugene W., Myers, and David J.Lipman (1990). Basic local alignment search tool. J. Mol. Biol. 215:403-10.

- Karlin, Samuel and Stephen F. Altschul (1990). Methods for assessing the statisticalsignificance of molecular sequence features by using general scoring schemes. Proc. Natl.Acad. Sci. USA 87:2264-68.

- Karlin, Samuel and Stephen F. Altschul (1993). Applications and statistics for multiplehigh-scoring segments in molecular sequences. Proc. Natl. Acad. Sci. USA 90:5873-7.

- Levenshtein V. (1965) Binary codes capable of correcting deletions, insertions, reversals.Cybernetics and Control Theory 10 (8): 707-710

- Needleman S. And Wunsch C. (1970) A general method applicable to the search forsimilarities in the amino acid sequence of two proteins. J. Mol. Biol. 48, 443-453

- Pearson W and Lipman D. (1988) Improved tools for biological sequence comparison.Proc. Natl. Acad. Sci. USA 85, 2444-2448

- Sellers P. (1974) On the theory and computation of evolutionary distances. SIAM J. Appl.Math. 26, 787-793

- Smith T. and Waterman M. (1981) Identification of common molecular subsequence. J.Mol. Biol . 147, 195-197

- Smith T. Waterman M. and W. Fitch (1981) Comparative biosequence metrics. J. Mol. Evol.18, 38-46

- Wilbur W. and Lipman D. (1983) Rapid similarity searches of nucleic acid and protein databanks. Proc. Natl. Acad. Sci. USA 80, 726-730

- Wilbur W. and Lipman D. (1984) The context dependant comparison of biologicalsequences. SIAM J. APPL. MATH. 44, 557-567

Matrices de substitution- Dayhoff M., Barker W. and Hunt L. (1983) Establishing homologies in protein sequences.Methods in Enzymol. 91, 524-545

- Henikoff S. and Henikoff J. (1992) Amino acid substitution matrices from protein blocks.Proc. Nat. Acad. Sci. USA 89, 10915-10919

- Risler J., Delorme M., Delacroix H and Henaut A. (1988) Amino acid substitutions instructurally related proteins - A pattern approach : determination of a new and efficientscoring matrix. J. Mol. Biol. 204, 1019-1029

Phylogénie- Darlu P. et Tassy P. (1993) Reconstruction phylogénétique. Collection Biologie Théorique

: Ed Masson

- Fitch W. and Margoliash E (1967) Construction of phylogenetic trees. Science 155, 279-284

- Saitou N. and Nei M. (1987) The Neighbor-joining method : a new method forreconstructing phylogenetic trees. Mol. Biol. Evol. 4 , 406-425