Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
UNIVERSITE DE RENNES 1
MASTER 1
SPECIALITE BIOINFORMATIQUE ET GENOMIQUE
Année universitaire 2017-2018
Rapport de Stage
Étude des gènes dupliqués au sein du génome du pommier
Présenté par Guillaume Monnet le 25 Juin 2018
Encadrante : Mme Claudine Landès, Professeure de bioinformatique à l’Université d’AngersIRHS – Institut de Recherche en Horticulture et Semences Centre INRA d'Angers42 Rue Georges Morel, 49070 Beaucouzé
Sommaire
I) Introduction..............................................................................................................1
I.1) Rôles des duplications.........................................................................................1
I.2)Les différents types de duplications.....................................................................1
I.3)Devenir des gènes dupliqués...............................................................................3
I.4) Études de l'IRHS sur le pommier........................................................................3
II) Matériel et méthodes...............................................................................................5
II.1) Présentation du logiciel.....................................................................................5
II.2) Récupération des données.................................................................................5
II.3) Mise en forme des fichiers................................................................................6
II.4) Fonctionnement du logiciel MCScanX............................................................7
III) Résultats......................................................................................................10
III.1) Étude des premiers résultats............................................................................10
III.2) Comparaison des données...............................................................................10
IV)Discussion................................................................................................................11
V) Conclusion et perspective......................................................................................12
1
I)Introduction :I.1.Rôles des duplications.
Le phénomène de duplication défini le doublement de matériel génétique sur un
chromosome et est un des principaux mécanismes liés à l’évolution du vivant. La duplication
peut impliquer un gène, un ensemble de gènes, voire la totalité du génome (on parle alors de
polyploïdie)(1). Les gènes homologues issus de la duplication sont qualifiés de paralogues
(2). La duplication est ainsi un véritable réservoir de diversité génétique grâce à la variabilité
potentielle qu’elle présente.
Chez les eucaryotes, organismes uni- ou pluri-cellulaires ayant un noyau dans leurs
cellules, les gènes dupliqués ayant une fonctionnalité seraient en majorité apparus il y a
environ 10-100 M d’années et ont pu être conservés suite à des événements de polyploïdie
(20 à 50 % des gènes dupliqués chez les plantes ont pu ainsi subsister) (3). Ces évenements
impliquent la duplication entière du génome, appelée Whole Genome Duplication (WGD)
(Fig1.A). Certains sont des événements d’autopolyploidie qui définissent des individus ayant
subit une non-disjonction des chromosomes dans la lignée germinale au cours de la méiose
donnant ainsi des gamètes diploïdes (2n chromosomes). Les autres sont dit allopolyploïdes, et
sont des hybrides de plantes ayant conservé les génomes des deux parents (4). Il a pu être
démontré que de nombreuses WGD interviennent dans la lignée des Angiospermes (5)(Fig.4),
certaines impact une grande majorité des plantes tels que la triplication des eudicotylédones
(6), et d’autres sont spécifiques à des sous ordres comme les WGD chez les Fabaceae ou les
Brassicaceae (7,8,9).
Les duplications de génomes sont rares car les embryons ne survivent que très
rarement à une telle modification de leur dose génique. Cela est très vrai pour les animaux
mais beaucoup moins chez les plantes, 30 à 80 % d’entre elles sont polyploïdes et acceptent
de tels changements suite à leur plasticité génomique (10). Ainsi les derniers WGD
spécifiques de chaque lignée montre que, le dernier WGD chez l‘ homme date d’environ 450
M d’années (11) et le dernier chez la levure date d’il y a 200 M d’années (12). Tandis que les
plantes ont subit un nombre important de WGD depuis 200M d'années dont certaines des
WGD extrêmement récentes comme pour les Tragopogons qui ont subit une phénomène
d'alloploidie il y a 80 ans (13).
I.2.Les différents types de duplications
Les gènes dupliqués par WGD sont qualifiés d'ohnologues, en référence à Ohno qui
est le premier à avoir émis l'hypothèse de leur existence dans les années 70 (14). Cependant, il
existe d’autres types de duplications que les duplications complètes de génome. On peut citer
2
la duplication en tandem (TAG) qui est une duplication ayant lieu entre deux gènes
paralogues(Fig 1.B) (15). Un autre type de duplication est la duplication segmentale (SD) où
un ensemble de gène est « copié/collé» dans une zone éloignée de celle d’origine au sein du
gènome (Fig1.D). Il est à noter que la mécanisme de la duplication segmentale n'est pas
encore complètement compris. Un troisième type de duplication est la duplication proximale
où les gènes paralogues sont séparés par un ou plusieurs gènes non-homologues. Le dernier
type de duplication est la rétroduplication où, lors de la retrotransposition d'un élément
transposable (ET), il y a transcription d'un gène ou d'un ensemble de gènes prêt de l'ET (16)
(Fig .1.E) .
I.3.Devenir des gènes dupliqués
Après la duplication, le devenir des gènes dupliqués est variable. Certains duplicats
peuvent être délétés ou devenir des pseudo-gènes , c’est-à-dire des gènes non-fonctionnels
Figure 1. Mécanismes de
duplication de gènes. (A) WGD, duplication complète du génome par événement de ploïdie. (B) Duplication en tandem, duplication d'un gène par crossing-over inégal entre deux allèles. (C) Transposon-mediated duplication, or duplication of a gene associated with a TE via replicative transposition. (D) Duplication segmentaire, duplication d'un gène (ou ensemble de gènes) dans une zone différente du génome (mécanisme encore mal défini chez les plantes). (E) Retroduplication, duplication d'un gène par reverse transcription, le gène (ou ensemble de gènes) est transcrit près d'un élément transposable.)
qui ne peuvent plus amener à l’expression des protéines (17). Ils représentent environ 40 à
42% chez l’humain (18), et chez les plantes cette proportion peut être plus élevée notamment
chez les plantes de culture : 68 % chez le blé(19) et jusqu’à 80 % chez le maïs (20). Les
duplicats gardent la même fonction. Les duplicats peuvent subir un phénomène de sous-
fonctionnalisation. Si un gène dupliqué perd une des sous-fonctions de la fonction du gène
originel, l’autre gène dupliqué peut la conserver mais perdra l'autre sous-fonction (Fig.2). Les
deux gènes fonctionnent alors de manière complémentaire pour réaliser la fonction totale (21).
Il peut aussi y avoir une néo-fonctionnalisation si l’un des deux gènes conserve la fonction
sélectionnée, l’autre acquiert une nouvelle fonction (22) (Fig.3).
I.4. Études de l'IRHS sur le pommier
Les duplications sont très importantes dans l’évolution des plantes. L’IRHS d’Angers
étudie les Rosaceae et plus particulièrement Malus domestica (pommier). Il est le sujet d'étude
de 3 équipes en particulier : Respom, Qualipom et l'équipe de bioinformatique. Respom
Figure 3. Schéma de Néo-fonctionnalisation / pseudogénisation. Le gène ancestral possède une fonction (vert) . La duplication créé 2 copies du gène. Une copie conserve la fonction, tandis que l’autre change jusqu’à créer une nouvelle fonction (néo-fonctionnalisation) ou perdre sa fonction (pseudogénisation)
Figure 2. Schéma de sous-
fonctionnalisation. Le gène ancestral possède une fonction (vert) qui est constituée de deux sous-fonctions (bleu + jaune). La duplication créé 2 copies du gène. Ces copies, par spéciation, perdent une des sous-fonctions, mais la fonction n’est pas perdue car les copies sont complémentaires (chacune ayant une sous-fonction différente).
utilise les données génétique et moléculaire du pommier pour améliorer ses résistances aux
aggresseurs, tandis que Qualipom utilise des donneés génétque et génomique pour améliorer
la qualité des fibres de la pommer. L'équipe de bioinformatique utilise le génétique pour
étudier les informations biologique du pommier. Pour ces différentes équipes, un génome le
plus complet possible est nécessaire.
Le génome du pommier a été entièrement séquencé en 2010 sur l’espèce Borhk en
utilisant la technologie Illumina (23). Cependant, les techniques ayant été améliorées, l’IRHS
a pu séquencer un nouveau génome de manière plus précise en 2017, grâce à la technologie
Pacbio sur l’espèce Golden Delicious (GDDH13) (24). Sur 42140 gènes, on retrouve 32124
gènes dupliqués, on note aussi que les ET représentent 57,3 % du génome total.
Figure 4. Evènements de duplication et quantité de gènes paralogues chez différentes espèces de plantes. Gauche, Phylogénie des plantes sélectionnées. Les évènements de polyploïdisation sont indiqués sur l'arbre : duplication (carré), triplication (hexagone), et non-définis (cercle). Milieu : Nombre de gènes chez chaque espèce: total (bleu) et dupliquée (rose). Droite : Nom et ordre des espèces (16)
3
4
Ces différentes études sont possibles grâce aux nombreuses données acquises des
plantes d’intérêts agricole et économique (25). Des études sur Malus domestica ont été réalisé
pour comprendre la répartition des rameaux selon le micro-climat ou encore les modifications
de dynamique de croissance selon la présence d'agresseurs (26). M.domestica se distingue car
cette espèce a subit une WGD récente (>50 M d’année) (23). Il est donc intéressant d’étudier
son génome pour comprendre les duplications de celui-ci. Le pommier est donc un objet
d'étude intéressant lorsque l'on cherche à comprendre les duplications.
L'objectif de mon stage est donc d'aller plus loin dans la détermination des gènes
dupliqués et de trouver , non seulement les duplicats issues de WGD mais aussi ceux issus de
duplication en tandem, par duplication segmentale ou par rétroduplication.
II) Méthode :
II.1.Présentation du logiciel
Le génome de l'espèce Golden Delicious a été séquencé et l'équipe de
bioinformatique s'en ai servi pour trouver les gènes ohnologues qui le composent (24). Nous
voulons aller plus loin dans cette étude afin de déterminer le type de duplication qu'a subit
chaque gènes dupliqués. Pour ce faire, nous avons donc décidé d’utiliser l'outil appelé
MCScanX-transposed, qui est un package basé sur MCScanX. Ce programme a été choisis car
il est facile d'accès et téléchargeable sur le site :
http://chibba.pgml.uga.edu/mcscan2/transposed/ . Étant exécutable sur bash, son installation
et exécution sont très simples, d'autant plus que la notice disponible sur le site facilite la
compréhension des commandes.
Ce programme utilise l'algorithme de MCScanX afin de trouver les gènes issus des
différentes duplications au sein d'un génome (27). Cela se fait par comparaison intra et inter
génomique. MCScanX-transposed va plus loin en détectant également les gènes issus de
retroduplication et en déterminant leur apparition dans les différents génomes des espèces
étudiées. Dans notre cas , nous comparons Malus Domestica avec Fragaria vesca, Prunus
persica, et Medicago truncatula. Fragaria vesca et Prunus persica sont très proches de Malus
domestica (Fig.4) et seront permettront une étude précise des duplicats récents, tandis que
Medicago truncatula nous servira d'outgroup pour l'étude. Ces espèces ont aussi été choisies
car elles possèdent un gènome complet de qualité disponible en ligne (ne possédant que peu
de scaffold et contig).
5
II.2. Récupération des données
MCScanX-transposed a besoin de 2 types de fichier par espèces: un fichier gff
contenant les coordonées des gènes au sein du génomeet un fichier de résultat de blastp au
format m8 issus des comparaisons intra ou inter génomique. Donc nous devons récupérer les
fichiers fasta des protéomes pour faire tourner BLASTP et les fichiers gff3 des coordonnées
des gènes.
Nous devons tout d'abord télécharger en ligne les fichiers gff3 et fasta des espèces
utilisé pour notre étude. Les fichiers de Fragaria vesca et Prunus persica sont disponibles et
ont été téléchargés sur https://www.rosaceae.org/ et les fichiers de Medicago truncatula sont
disponibles et ont été téléchargés sur http://www.medicagogenome.org/. Pour Malus
domestica, comme nous avons décidé d'utiliser GDDH13, les fichiers ont été obtenus sur
l'intranet de l'IRHS où les fichiers sont disponibles. Une fois tout ces fichiers obtenus, on doit
les formater et faire tourner blastp afin d'avoir tout les fichiers d'entré nécessaires pour
l'utilisation de MCScanX-transposed (28).
II.3. Mises en formes des fichiers
Pour modifier les fichiers, on doit tout d'abord parser et réorganiser les fichiers gff3
car MCScanX-transposed ne fonctionne pas avec les fichiers d'origine tels quels. Le format
gff3 est le suivant (ex: fichier gff3 du pommier) :
Un script python (parsage_MCScanX.py) a ensuite été réalisé afin de parser les gff3 au format
voulu, soit 4 des 9 colonnes d'origine dans un ordre différent (les colonnes 1, 9, 3 et 4 dans cet
ordre). De plus, seule une partie de la colonne ID doit être extraite : l'identifiant du gène
(partie surlignée en jaune).
Comme un fichier gff3 contient les données des gènes, mais aussi des exons, des
CDS,... (décrit par la colonne « type ») nous avons décidé de n'extraire que les lignes
correspondant à des mRNA, afin d'éviter les biais et avoir le même nombre d'identifiant que
dans les fichiers fasta. Le même script python a pu être réalisé pour les différents fichiers gff3
des différentes espèces, sauf pour Malus domestica. Ce dernier possède des caractères
différents des autres espèces pour délimiter l'identifiant dans sa colonne « ID&attribut ».La
colonne doit donc subir une extraction différente pour Malus domestica. Les fichiers de sorti
ont alors le contenu suivant (ex : fichier de parsage du pommier)
6
Les fichiers doivent encore subir plusieurs modifications. Comme certains gènomes
ont pu être complété par des contig ou des scaffold, les lignes correspondantes possède sont
définies comme tel dans la colonne « espèce&Numéro_chromosome » et ne posséderont pas
une numéro de chromosome. Ces parties n'ayant pu être positionnées dans le génome suite à
des problèmes d'annotation , de longueur,... sont considérées comme faisant parti du
chromosome 0. De ce fait, un deuxième script python est créé afin de remplacer toute notion
de scaffold ou contig par le « Chromosome 0 » afin de simplifier la lecture du fichier par le
programme et par l'utilisateur. Il est à noter que , bien que le processus soit le même, il a fallu
créer un script pour chaque espèce car certaines n'avaient que des scaffolds , d'autres que des
contigs et certaines les deux. De plus l'annotation de ces lignes est différentes pour chaque
espèces, nécessitant donc un script spécifique pour chacune d'entre elle.
Enfin, une dernière modification sous bash doit être réalisée. Tous les chromosomes
doivent être remplacé par une abréviation du nom de l'espèce (i.e. Chr1 chez Malus domestica
devient Md1) afin de permettre la lecture des résultats. Sous vi , on utilise la fonction :
Figure 5 : Schéma des étapes de modifications des fichiers.Descriptif des étapes nécessaier à l'obtention des fichiers d'entrés pour la lancement de MCScanX-transposed.
8
7
%s/Chr/ «abréviation de l'espèce »/g, de manière à remplacer tous les noms de chromosomes.
Cette commande est réalisée sur chaque espèce.
Une fois les fichiers obtenus, une mise en forme finale des fichiers doit avoir lieu. En
effet, MCScanX-transposed nécessite que les fichiers gff contiennent tous les identifiants du
génome de l'espèce étudié en premier (28). Une simple commande bash « cat » nous permet
d'obtenir les fichiers voulu. On obtient ainsi Md.gff (Malus domestica), Md_Fvb (Fragaria
vesca), Md_Pp (Prunus persica) et Md_Mtr (Medicago truncatula) (Fig.5)
On a ensuite réaliser les blast nécessaires pour la suite de l'étude. Un blastp sera réalisé pour
chacune des espèces. On aura alors un fichier contenant les relations d'homologie des gènes
qui seront étudiées par le programme. On prend le fasta du pommier (GDDH13) comme
comparateur pour les différents blast.
Chaque espèce sera comparé à ce fichier y compris le pommier lui même (on parle
alors de blastp all vs all). Comme un blast prend une dizaine d'heure pour être réalisé sur le
serveur node 1 (serveur de calcul de l'IRHS), les 4 blasts sont réalisés grâce à un script python
(boucle.py) qui les boucle afin de les exécuter les un à la suite des autres, jour et nuit, jusqu’à
ce que les 4 soit obtenus.
Il faut ensuite les renommer de la même manière que les fichiers gff. Les fichiers sont
finalement appelé Md.blast, Md_Fvb.blast, Md_Pp.blast et Md_Mtr.blast. Il est nécessaire de
mettre les blast et les gff dans le même répertoire et de les renommer pareil, dans le cas
contraire, MCScanX-transposed ne trouvera pas les fichiers ou ne pourra pas les lire
correctement.
On peut ensuite lancer l'outil des détermination des types de gènes dupliqués
II.4.Fonctionnement du logiciel MCScanX
Lorsque l'on lance le programme, on doit préciser quelle est l'espèce étudiée (en
mettant son abreviation), les espèces de comparaison (en mettant aussi les abreviation), le
dossier où se trouve les données et le fichier de sorties où on retrouvera les résultats. On
réalise cela avec la commande suivante :
L'algorithme de MCScanX-transposed entame alors une procédure pour identifier les
différents types de duplications. Il déclenche d'abord l'algorithme MCScanX, utilisé dans la
perl MCScanX-transposed.pl -i dossier_données -t espèce_étudié(ici
Md) -c espèces_comparaison -o dossier_résultats
7
recherche des gènes colinéaires (27). Puis il lance gène classifier (Fig.6) qui, en utilisant le
blast intra-espèce,il détecte d'abord les gènes dupliqués, puis il génère des paires de gènes
colinéaires qui seront considéré comme issus d'une duplication segmentale/WGD. Les
duplicats restants sont ensuite étudiés pour déterminer lesquels sont en tandem et lesquels sont
proximaux en utilisant différents critères. Si deux gènes dupliqués sont côte à côte au sein du
gènome, alors ils sont issus d'une duplication en tandem. Par contre, si deux gènes paralogues
Figure 6. Schéma de fonctionnement de MCScanX-transposed. Encadré rose : Algorithme de l’outil, Encadré gris : Fichiers d'entrées de l'utilisateur, Encadré jaune : Fichiers de sorties, Encadré violet : Programmes d'analyse utilisés, Encadré bleu : Résultats des programmes (ces résultats sont soit présentés dans de nouveaux fichiers, soit en ajout dans les fichiers de sorties), En jaune : Blocs utilisés dans notre étude (25)
9
sont séparés par un ou plusieurs gènes non-paralogues intercalants, ils sont considérés
comme proximaux. La limite maximum de gènes non-paralogues est placée à 10 par défaut
mais peut être modifiée dans les paramètres d’exécution. Les gènes restants sont alors étudiés
pour savoir si ils sont issus de rétroduplication.
Les blast inter-espèces sont ensuite étudiés afin de trouver les rétroduplications. En
considérant les gènes colinéaires déterminés précédemment (SD, tandem, proximaux) comme
des loci ancestraux, MCScanX compare les gènes dispersés et, si la duplication trouvée
consiste d'un locus ancestral et d'un nouveau locus, les gènes en résultants sont considérés
comme rétrodupliqués. Il est possible qu'un gène soit présent dans plusieurs rétroduplications,
auquel cas il ne sera conservé que pour celle où l'identité de séquence est la plus forte.
Les gènes n'ayant été classé dans aucune des différentes catégories sont considérés
comme des singletons (gènes sans duplicats). Une fois les différents gènes classés, un autre
algorithme est lancé pour aller plus loin dans l'étude.
Quand tout les types de duplications ont pu être déterminé pour chaque paire de
duplicats, l'algorithme MCScanX-transposed étudie les rétrodupliqués et les trie selon les
différents événements de spéciation entre les espèces. Il est faut cependant préciser aux
programmes combiens d’événements ont eu lieu entre l'espèce étudié et les espèces de
comparaison. Les rétrodupliqués seront alors classés dans plusieurs groupes selon leur
apparition au cours du temps. Si rien n'est précisé, le programme classera les rétrodupliqués
dans un seul et même groupe. Il est possible d'aller plus loin dans l'étude des gènes avec ce
programme en fournissant d'autres fichiers d'entrée appropriés.
On peut, à l'aide d'un fichier CDS et du programme add_ks_ka.pl , déterminer les
ratios de substitutions Ka et Ks des paires de gènes. Cet algorithme se base sur les calculs de
la méthode Nei et Gojobori (29). Si on possède des fichiers de famille de gènes, on peut
utiliser la fonction detect_dup_modes_for_a_family.p et étudier les relations des gènes ainsi
que les duplications qui peuvent les lier au sien d'une même famille. Enfin,
annotate_tree_with_dup_modes permet de représenter, sous la forme d'un arbre
phylogénétique, les relations trouvées précédemment ainsi que la chronologie des gènes.
La plupart de ces outils n'ont pas encore pu être utilisés lors de la période de stage
suite à un manque de temps et seul les résultats de l'algorithme MCScanX seront présentés
dans la section suivante.
III) Résultats :
III.1.Étude des premiers résultats
Après le parsage du génome de Malus domestica, nous avons un fichier contenant
45116 identifiants de gènes. Le programme est aussi relativement rapide dans son calcul et
avec les fichiers qu'on l'on peut utiliser lors de l'utilisation (le programme dure 15 minutes
avec les fichiers fournis dans le package en exemple et environ 40 minutes lors de notre
expérience avec nos fichiers). Ce fichier est utilisé avec MCScanX-transposed. Nous obtenons
des fichiers contenant les gènes (Fig.7) et d'autres contenant les paires de gènes dupliqués
pour les différents types de duplication chez le pommier (Fig.8). Les fichiers ont ensuite été
comparé pour s'assurer que chaque gène n'était présent que dans un seul fichier. De plus, nous
avons vérifié qu'il n'y avait pas de doublons au sein de chaque fichier. Une fois ces
vérifications terminé, le nombre de gène dans chaque fichier a été calculé.
Types de duplication Nombres de gènes Pourcentage
Segmentale 42042 94.13%
Tandem 799 1.28%
Proximaux 571 1.79%
Retroduplication 1135 2.54%
Singletons 114 0.26%
TOTAL 45116 100.00%
Tableau 1 : Quantité de gènes dupliqués. Nombre total de gènes et leur pourcentage par rapport au génome total
Figure 7 : Contenu d'un fichier de sorties « .genes ». Les premiers gènes classés reconnus comme dupliqués dans le fichier segmental.genes
Figure 8 : Contenu d'un fichier de sorties « .pairs ». Les premiers couples de gènes classés dans le fichier segmental.pairs avec leur e-valu.
10
Les singletons n'ont pas été classés dans un fichier, leur nombre a donc été déterminé
en faisant la différence entre la somme de tous les gènes considérés comme dupliqués et le
nombre de gènes du fichier d'origine.
Les résultats sont les mêmes après plusieurs passages différents sous le programme
MCScanX-transposed. On remarque que les duplications segmentales constitue la majeure
partie du génome (plus de 94%) et que plus de 99% du génome est dupliqué au vu de la faible
quantité de singletons. Pour comparer nos résultats avec d'autres études, il est nécessaires de
prendre en compte que nos 42042 gènes sont aussi 21021 paires de gènes.
III.2.Comparaison des données
Une étude avait déjà été réalisée au sien de l'équipe sur les gènes ohnologues du
pommier (sur l'espèce GDDH13). 22344 paire de gènes avaient été étudiés et, après un
passage sous SynMap (30) et DAG-chainer (31), les gènes ohnologues on été extrait. Ils
représentent prés de 40% des gènes du fichier d'origine.
Ces gènes sont issus de la WGD et nous les comparons avec nos résultats pour
s'assurer de la qualité de ceux-ci.
Types de gènes Nombres de gènes Pourcentage
Gènes dupliqué totaux 22344 100.00%
Gènes dupliqués par WGD (a) 9385 42.00%
Gènes dupliqués par SD (b) 9312 41.67%(a) Whole Genome Duplication, (b) duplication segmentale
99% des gènes ohnologues sont retrouvés dans le fichier des gènes dupliqués par
duplication ségmentale après comparaison. Les 73 gènes restant n'ont pas été retrouvés dans
ce fichier, ni dans aucun de ceux des autres types de duplications.
IV) Discussion :
Cette étude s'inscrit dans la continuité des travaux de recherche de l'équipe de
bioinformatique de l'IRHS sur le génome du pommier. Celle-ci ayant fait de grands progrès
sur le séquençage du génome du pommier, le fait de pouvoir décrire le génome encore plus
efficacement serait une grande avancée dans la compréhension de l'espèce. L'originalité de
cette étude se base sur le fait qu'on ne recherche pas uniquement les gènes issus de la WGD,
Tableau 2 : Comparaison des deux études. Nombre total de gènes
11
mais aussi ceux issus des différents types de duplications par l'intermédiaire de MCScanX-
transposed, outil spécialisé dans la recherche de gènes dupliqués.
L'utilisation de cet outil à été permise grâce aux nombreux génomes complets et
disponibles en ligne des différentes espèces utilisées pour la comparaison génomique des
gènes dupliqués. L'étude aurait pu être réalisé avec plus d'espèces(le programme pouvant en
comparer 5+ l'espèce principale) mais nous avons choisi d'en prendre un nombre restreint
pour une première utilisation d'un nouveau logiciel. Parmi les espèces proches
phylogénétiquement (Fig.4) ou celles ayant pu servir de groupe externe, certaines n'ont pu
être retenues (tels que Vitis vinifera ou Cucumis sativa) car les génomes disponibles sont de
moins bonne qualité et auraient pu biaiser les résultats de l'étude.
Les résultats de notre analyse apportent des réponses quant à la quantité de gènes
dupliqués au sein du génome ainsi que les types de duplications ayant pu intervenir au cours
de l'évolution du génome de l'espèce. Ainsi, nous avons pu constater que la plupart des gènes
dupliqués étaient issus de duplication segmentale et que la quasi-totalité du génome était issus
de duplications (Tab.1). Cela peut s'expliquer par le fait que le pommier a subit une WGD
récente et que les différents gènes n'ont pas encore eu le temps de se spécialiser pour obtenir
une quantité de dupliqués plus faible.
Les autres types duplications sont en pourcentage très faible au sein du génome. On
note notamment une faible proportion de gènes en tandem au sein du génome. Le processus
de calcul de MCScanX-transposed peut aussi en être la cause du fait qu'il cherche ces
duplications après avoir déterminer ce qu'il considère comme des duplications segmentales.
Parmi ces segmentales se trouvent probablement des tandems
En comparant les résultats de notre expérience avec les gènes ohnologues obtenus par
SynMap on remarque que, les gènes issus de duplications segmentales trouvés par ce
programme, et qui ont été définis comme issus de WGD, sont aussi considérés comme tels
dans nos fichiers de résultats. Le programme a donc une certaine fiabilité quant à la
reconnaissance des gènes issus d'une duplication complète du génome. Cependant, la
différence de proportion de gènes dupliqués vis à vis du gènome total (99% avec MCScanX-
transposed contre seulement 40% avec SynMap) peut s'expliquer par les paramètres de
stringence et de seuil de duplication propre à chaque outil, ainsi que par les paramètres entrés
par l'utilisateur.
12
MCScanX-transposed permet de changer certains paramètres influant sur l'algorithme
qu'il utilise pour déterminer les duplications : la distance entre deux gènes paralogues pour
déterminer si une duplication est proximale ou non (par défaut cette distance est de 10 gènes
non-paralogues consécutifs), le nombre d’événements de spéciation pouvant permettre une
classification des gènes issus de rétroduplication (par défaut le programme considère qu'ils
proviennent d'un seul et même événement) et enfin, si les gènes issus d'une duplication
segmentale sont des locis ancestraux (par défaut ils sont considérer comme ancestraux).
N'ayant fait l'expérience qu'avec tous les paramètres par défaut par manque de temps, il est
probable que changer ces derniers pourraient nous donner une meilleure appréciation de nos
résultats actuels.
Les différents fichier obtenus nous permettent de déterminer la duplication liée à un
gène ainsi que les paires de gènes obtenues par chaque duplication (avec leur e-value). On
peut ainsi déterminer quelles duplications caractérisent une famille de gène, voire les
caractéristiques d'un seul gène.
V) Conclusion :
Cette nouvelle expérience apporte beaucoup de nouvelles informations sur le génome
de Malus domestica en particulier sur les différents gènes dupliqués qui le compose et les
types de duplications impliquées. Nous avons pu ainsi déterminer que le génome est
caractérisé presque exclusivement par des gènes dupliqués (avec une proportion presque nulle
de singletons) et dont la plupart sont issus d'une duplication segmentale s’apparentent. Ceci
est du au fait que le pommier à subit un événement de ce type récemment dans son histoire
évolutive (23). On peut ainsi déterminer que les gènes ohnologues découverts dans un
précédente expérience se retrouvent parmi nos fichiers de gènes issus de duplication
segmentale.
Nous avons aussi pu classifier les gènes issus de duplication en tandem , de
duplication proximale ainsi que de rétroduplication. Nous avons aussi pu déterminer les
couples de gènes dupliqués pour chaque duplication. Seulement, nous n'avons pas pu
comparer avec d'autres expériences réalisées sur ce type de gènes et les paires qui en
découlent. MCScanX étant actuellement le seul programme actuel permettant de déterminer
ces différents types de duplications, on ne peut pas comparer avec d'autres outils. De plus,
l'expérience n'ayant été réalisé que selon un seul choix de paramètres ainsi qu'un seul pool
13
14
d'espèce, nous pouvons pas encore affirmer si nos résultats reflètent la réalité évolutive du
génome du pommier.
De nombreuses améliorations sont encore à réaliser pour parfaire les différents
résultats que nous avons obtenus. Il est déjà nécessaire d'utiliser toutes les fonctions que nous
proposent MCScanX-transposed afin que nos résultats apportent de plus amples informations.
Cela nous permettra de mieux les interpréter ainsi que de porter des conclusions plus solides
quant à leur signification. Il sera aussi nécessaire de refaire l'expérience avec des
modifications de paramètres pour voir s'il influera grandement ou non sur les premiers
résultats qui ont été obtenus lors du stage. Si des changements notables sont à noter, il sera
peut-être nécessaire d'utiliser d'autres outils tels que SynMap pour avoir un consensus
utilisables pour la détermination des gènes dupliqués. Enfin, il serait intéressant d'utiliser de
nouvelles espèces plus ou moins proches de Malus domestica que nous n'avons pas utilisée
(on peut prendre par exemple Arabidopsis thaliana en groupe externe pour voir si un tel
extrême influence les résultats). On peut aussi refaire l'expérience avec plus d'espèces (3+
l'espèce d’intérêt dans notre expérience, sachant que le maximum conseillé pour MCScanx-
transposed est de 5+ l'espèce d'intéret) tout en gardant celle déjà utilisées. Il est aussi
envisageable d'imaginer qu'à l'avenir, quand certains génomes auront pu être mieux séquencés
ou que les génomes seront de meilleurs qualité. Ainsi, certaines espèces que n'avons pas prise
en compte lors de notre expérience (tels que Vitis vinifera) pourront être utilisées pour affiner
les résultats.
Cet outil offre de nombreuses perspectives pour l'étude des génomes et pourra nous
permettre de mieux comprendre les phénomènes de duplications qui sont présents en grand
nombres dans l'histoire évolutive des organismes.
Bibliographie
(1) https://fr.wikipedia.org/wiki/Duplication_(g%C3%A9n%C3%A9tique)
(2) Lynch, V.J. Wagner, G.P: (2009). "Multiple chromosomal rearrangements structured the ancestral vertebrate Hox-bearing protochromosomes" PLoS Genetics 5(1
(3) R. C. Cronn, R. L. Small & J. F. Wendel (1999). Duplicated genes evolve independently after polyploid formation in cotton. Proc Nat/Acad Sci USA 96(25): 14406-11.
(4) Houda Chelaifa. Spéciation allopolyploïde et dynamique fonctionnelle du génome chez lesSpartines. Biochimie [q-bio.BM]. Université Rennes 1, 2010. Français. <tel-00536586>
(5) Leitch, A.R. Leitch, I.J. Genome plasticity and the diversity of polyploid plants Science. 2008 Apr 25;320(5875):481-3
(6)The number of known plants species in the world and its annual increase. Christenhusz, M.J.M. and Byng, J.W. Phytotaxa. 2016; 261: 201–217
(7)Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events. Bowers, J.E., Chapman, B.A., Rong, J., and Paterson, A.H. Nature. 2003; 422: 433–438
(8) Ancestral polyploidy in seed plants and angiosperms. Jiao, Y., Wickett, N.J., Ayyampalayam, S., Chanderbali, A.S., Landherr, L., Ralph, P.E., Tomsho, L.P., Hu, Y., Liang, H., Soltis, P.S. et al. Nature. 2011; 473: 97–100
(9) Angiosperm genome comparisons reveal early polyploidy in the monocot lineage. Tang, H., Bowers, J.E., Wang, X., and Paterson, A.H. Proc. Natl. Acad. Sci. USA. 2010; 107: 472–477
(10) Integrated syntenic and phylogenomic analyses reveal an ancient genome duplication in monocots. Jiao, Y., Li, J., Tang, H., and Paterson, A.H. Plant Cell. 2014; 26: 2792–2802
(11)Hufton AL, Groth D, Vingron M, Lehrach H, Poustka AJ, Panopoulou G. Early vertebratewhole genome duplications were predated by a period of intense genome rearrangement. Genome
Research. 2008;18(10):1582-1591. doi:10.1101/gr.080119.108.
(12)Kellis M, Birren BW, Lander ES (2004) Proof and evolutionary analysis ofancient genome duplication in the yeast Saccharomyces cerevisiae. Na-ture 428: 617–624
(13) Lim, K.Y. Soltis, D.E. et al. Rapid chromosome evolution in recently formed polyploids
in Tragopogon (Asteraceae) PLoS One 2008;3(10):e3353. Epub 2008 Oct 9
(14) Susumu Ohno (1970). Evolution by gene duplication
(15) Fitch WM. Homology: a personal view on some of the problems. Trends Genet. 2000
(16) Evolution of Gene Duplication in Plants.Panchy N1, Lehti-Shiu M1, Shiu SH2. May;16(5):227-31
(17)Ohno, S. (1972). So much "junk" DNA in our genome. Brookhaven symposia in Biology, 23, 366-370.
(18)Pei B et al. (2012) The GENCODE pseudogene resource. Genome Biology 13:R51. DOI: 10.1186/gb-2012-13-9-r51
(19)Li W., Zhang P., Fellers J.P., Friebe B., Gill B.S. Sequence composition, organization, andevolution of the core Triticeae genome. Plant J. 2004;40:500–511. doi: 10.1111/j.1365-313X.2004.02228.x.
(20) Sanmiguel P., Bennetzen J.L. Evidence that a recent increase in maize genome size was caused by the massive amplification of intergene retrotransposons. Ann. Bot. 1998;82:37–44. doi: 10.1006/anbo.1998.0746.
(21)Allan Force, Michael Lynch, F. Bryan Pickett et Angel Amores, « Preservation of Duplicate Genes by Complementary, Degenerative Mutations », Genetics, 151, o 4, er avril 1999, 1531–1545
(22)Dirk A. Kleinjan, Ruth M. Bancewicz, Philippe Gautier et Ralf Dahm, « Subfunctionalization of duplicated zebrafish pax6 genes by cis-regulatory divergence », PLoS genetics, 4, o 2, , e29
(23) The genome of the domesticated apple (Malus x domestica Borkh.). Velasco, R., Zharkikh, A., Affourtit, J., Dhingra, A., Cestaro, A., Kalyanaraman, A., Fontana, P., Bhatnagar, S.K., Troggio, M., Pruss, D. et al. Nat. Genet. 2010; 42: 833–839
(24) N.Daccord ,J-M Celton , G. Linsmith , C. Becker , 2017 High-quality de novo assembly of the apple genome and methylome dynamics of early fruit development
(25)Widespread Whole Genome Duplications Contribute to Genome Complexity and Species Diversity in Angiosperms Ren, Ren et al. Molecular Plant , Volume 11 , Issue 3 , 414 - 428
(26)Pierre-Eric Lauri. Architecture de l’arbre fruitier - de la morphologie des plantes à l’agronomie. Biologie végétale. Université Montpellier II - Sciences et Techniques du Languedoc, 2007.
(27)Wang Y, Tang H, DeBarry JD, et al. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Research. 2012
(28)Yupeng Wang, Jingping Li, Andrew H. Paterson; MCScanX-transposed: detecting transposed gene duplications based on multiple colinearity scans, Bioinformatics, Volume 29, Issue 11, 1 June 2013, Pages 1458–1460
(29) Nei M,Gojobori T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions, Mol. Biol. Evol.,1986, vol.3
(30)Soderlund C, Nelson W, Shoemaker A, Paterson A. SyMAP: a system for discovering andviewing syntenic regions of FPC maps. Genome Res. 2006;16:1159–1168.
(31)Haas BJ, Delcher AL, Wortman JR, Salzberg SL. DAGchainer: a tool for mining segmental genome duplications and synteny. Bioinformatics. 2004;20:3643–3646.
Remerciements
Je remercie sincèrement ma maître de stage Claudine Landes pour m’avoir accueillieau sein de l’équipe de bioinfo de l'IRHS, pour son encadrement, sa gentillesse et sadisponibilité. Je la remercie pour la confiance qu’elle m’a accordée tout au long de ce stage,de m’avoir donné l’opportunité de découvrir les problématiques liées à l'étude des gènesdupliqués chez le pommier
Je remercie l’ensemble de l’équipe de bioinformatique pour leur accueil et leurgentillesse. Un merci particulier à Sylvain pour m'avoir aider à régler mes nombreuxproblèmes de serveurs et d'ordinateur , qui en était à sa 7ème vie selon ses dires. Merci àSandra, Sébastien et Julie pour leurs conseils durant ce stage.
Je remercie tout les stagiaires de l'équipe bioinformatique : Tanguy, Maxime, Ophélie,David et Abdelhak, ainsi que nos deux informaticiens : Florian et Guillaume. Merci pourvotre bonne humeur au quotidien dans la salle de pause, nos fous rires et nos échanges« constructifs »sur les différentes versions de Python. Un grand merci à Abdelhak pour sonaide précieuse lors de l'écriture de mes scripts et pour nos échanges culturels. Merci à toutesles autres équipes pour nous avoir supporté lorsque « la cour de récré » traversait les couloirspour aller en pause
Enfin, je remercie mes parents, ma sœur et mon frère pour m’avoir toujours soutenuedans mes études et mes projets.
Résumé
Les différents types de duplication que peuvent subir les gènes et le devenir desduplicats qui en découlent sont un facteur importants dans l'évolution des génomes. Dans lecontexte de l'étude du génome du pommier (Malus domestica), comprendre d'où viennent lesgènes dupliqués permettrait de mieux appréhender l'histoire évolutive de l'espèce. Notreobjectif était de mettre en évidence les différents types de duplication que le pommier a pusubir lors de son évolution ainsi que le nombre de gènes résultants de chaque type deduplication. Le génome de l'espèce GDDH13 a été utilisé pour cette étude et nous noussommes servi de l'outil MCScanX-transposed pour l'analyser Cet outil nécessitant le génomed'espèces phylogénétiquement proches de celle d’intérêt, nous avons utilisé Fragaria vesca,
Prunus persica et Medicago truncatula pour pouvoir réaliser la comparaison. Nous avons duparser les fichiers des différents génome afin de pouvoir les utiliser avec l'outil (celui-cinécessitant un format de fichier particulier). Des fichiers de résultats ont été obtenus, ceux-cipermettent de connaître les gènes issus de chaque duplications, ainsi que les paires de gènesdupliqués. En calculant le nombre de gènes au sein de chaque fichier, on se rend compte que99% du génome est composé de gènes dupliqués et que 94% des gènes sont issus d'une WGD(duplication entière du génome). En considérant qu'un événement de WGD spécifique aupommier a eu lieu récemment (>50 M d’année), cette étude apporte des informationsinteressantes sur la composition du génome.
Mots clés : Malus domestica, MCScanX-transposed, WGD, duplications en tandem,rétroduplication