UNIVERSITE DE RENNES 1 MASTER 1 SPECIALITE …

UNIVERSITE DE RENNES 1

MASTER 1

SPECIALITE BIOINFORMATIQUE ET GENOMIQUE

Année universitaire 2017-2018

Rapport de Stage

Étude des gènes dupliqués au sein du génome du pommier

Présenté par Guillaume Monnet le 25 Juin 2018

Encadrante : Mme Claudine Landès, Professeure de bioinformatique à l’Université d’AngersIRHS – Institut de Recherche en Horticulture et Semences Centre INRA d'Angers42 Rue Georges Morel, 49070 Beaucouzé

Sommaire

I) Introduction..............................................................................................................1

I.1) Rôles des duplications.........................................................................................1

I.2)Les différents types de duplications.....................................................................1

I.3)Devenir des gènes dupliqués...............................................................................3

I.4) Études de l'IRHS sur le pommier........................................................................3

II) Matériel et méthodes...............................................................................................5

II.1) Présentation du logiciel.....................................................................................5

II.2) Récupération des données.................................................................................5

II.3) Mise en forme des fichiers................................................................................6

II.4) Fonctionnement du logiciel MCScanX............................................................7

III) Résultats......................................................................................................10

III.1) Étude des premiers résultats............................................................................10

III.2) Comparaison des données...............................................................................10

IV)Discussion................................................................................................................11

V) Conclusion et perspective......................................................................................12

1

I)Introduction :I.1.Rôles des duplications.

Le phénomène de duplication défini le doublement de matériel génétique sur un

chromosome et est un des principaux mécanismes liés à l’évolution du vivant. La duplication

peut impliquer un gène, un ensemble de gènes, voire la totalité du génome (on parle alors de

polyploïdie)(1). Les gènes homologues issus de la duplication sont qualifiés de paralogues

(2). La duplication est ainsi un véritable réservoir de diversité génétique grâce à la variabilité

potentielle qu’elle présente.

Chez les eucaryotes, organismes uni- ou pluri-cellulaires ayant un noyau dans leurs

cellules, les gènes dupliqués ayant une fonctionnalité seraient en majorité apparus il y a

environ 10-100 M d’années et ont pu être conservés suite à des événements de polyploïdie

(20 à 50 % des gènes dupliqués chez les plantes ont pu ainsi subsister) (3). Ces évenements

impliquent la duplication entière du génome, appelée Whole Genome Duplication (WGD)

(Fig1.A). Certains sont des événements d’autopolyploidie qui définissent des individus ayant

subit une non-disjonction des chromosomes dans la lignée germinale au cours de la méiose

donnant ainsi des gamètes diploïdes (2n chromosomes). Les autres sont dit allopolyploïdes, et

sont des hybrides de plantes ayant conservé les génomes des deux parents (4). Il a pu être

démontré que de nombreuses WGD interviennent dans la lignée des Angiospermes (5)(Fig.4),

certaines impact une grande majorité des plantes tels que la triplication des eudicotylédones

(6), et d’autres sont spécifiques à des sous ordres comme les WGD chez les Fabaceae ou les

Brassicaceae (7,8,9).

Les duplications de génomes sont rares car les embryons ne survivent que très

rarement à une telle modification de leur dose génique. Cela est très vrai pour les animaux

mais beaucoup moins chez les plantes, 30 à 80 % d’entre elles sont polyploïdes et acceptent

de tels changements suite à leur plasticité génomique (10). Ainsi les derniers WGD

spécifiques de chaque lignée montre que, le dernier WGD chez l‘ homme date d’environ 450

M d’années (11) et le dernier chez la levure date d’il y a 200 M d’années (12). Tandis que les

plantes ont subit un nombre important de WGD depuis 200M d'années dont certaines des

WGD extrêmement récentes comme pour les Tragopogons qui ont subit une phénomène

d'alloploidie il y a 80 ans (13).

I.2.Les différents types de duplications

Les gènes dupliqués par WGD sont qualifiés d'ohnologues, en référence à Ohno qui

est le premier à avoir émis l'hypothèse de leur existence dans les années 70 (14). Cependant, il

existe d’autres types de duplications que les duplications complètes de génome. On peut citer

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

2

la duplication en tandem (TAG) qui est une duplication ayant lieu entre deux gènes

paralogues(Fig 1.B) (15). Un autre type de duplication est la duplication segmentale (SD) où

un ensemble de gène est « copié/collé» dans une zone éloignée de celle d’origine au sein du

gènome (Fig1.D). Il est à noter que la mécanisme de la duplication segmentale n'est pas

encore complètement compris. Un troisième type de duplication est la duplication proximale

où les gènes paralogues sont séparés par un ou plusieurs gènes non-homologues. Le dernier

type de duplication est la rétroduplication où, lors de la retrotransposition d'un élément

transposable (ET), il y a transcription d'un gène ou d'un ensemble de gènes prêt de l'ET (16)

(Fig .1.E) .

I.3.Devenir des gènes dupliqués

Après la duplication, le devenir des gènes dupliqués est variable. Certains duplicats

peuvent être délétés ou devenir des pseudo-gènes , c’est-à-dire des gènes non-fonctionnels

Figure 1. Mécanismes de

duplication de gènes. (A) WGD, duplication complète du génome par événement de ploïdie. (B) Duplication en tandem, duplication d'un gène par crossing-over inégal entre deux allèles. (C) Transposon-mediated duplication, or duplication of a gene associated with a TE via replicative transposition. (D) Duplication segmentaire, duplication d'un gène (ou ensemble de gènes) dans une zone différente du génome (mécanisme encore mal défini chez les plantes). (E) Retroduplication, duplication d'un gène par reverse transcription, le gène (ou ensemble de gènes) est transcrit près d'un élément transposable.)

Claudine Landès

Claudine Landès

qui ne peuvent plus amener à l’expression des protéines (17). Ils représentent environ 40 à

42% chez l’humain (18), et chez les plantes cette proportion peut être plus élevée notamment

chez les plantes de culture : 68 % chez le blé(19) et jusqu’à 80 % chez le maïs (20). Les

duplicats gardent la même fonction. Les duplicats peuvent subir un phénomène de sous-

fonctionnalisation. Si un gène dupliqué perd une des sous-fonctions de la fonction du gène

originel, l’autre gène dupliqué peut la conserver mais perdra l'autre sous-fonction (Fig.2). Les

deux gènes fonctionnent alors de manière complémentaire pour réaliser la fonction totale (21).

Il peut aussi y avoir une néo-fonctionnalisation si l’un des deux gènes conserve la fonction

sélectionnée, l’autre acquiert une nouvelle fonction (22) (Fig.3).

I.4. Études de l'IRHS sur le pommier

Les duplications sont très importantes dans l’évolution des plantes. L’IRHS d’Angers

étudie les Rosaceae et plus particulièrement Malus domestica (pommier). Il est le sujet d'étude

de 3 équipes en particulier : Respom, Qualipom et l'équipe de bioinformatique. Respom

Figure 3. Schéma de Néo-fonctionnalisation / pseudogénisation. Le gène ancestral possède une fonction (vert) . La duplication créé 2 copies du gène. Une copie conserve la fonction, tandis que l’autre change jusqu’à créer une nouvelle fonction (néo-fonctionnalisation) ou perdre sa fonction (pseudogénisation)

Figure 2. Schéma de sous-

fonctionnalisation. Le gène ancestral possède une fonction (vert) qui est constituée de deux sous-fonctions (bleu + jaune). La duplication créé 2 copies du gène. Ces copies, par spéciation, perdent une des sous-fonctions, mais la fonction n’est pas perdue car les copies sont complémentaires (chacune ayant une sous-fonction différente).

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

utilise les données génétique et moléculaire du pommier pour améliorer ses résistances aux

aggresseurs, tandis que Qualipom utilise des donneés génétque et génomique pour améliorer

la qualité des fibres de la pommer. L'équipe de bioinformatique utilise le génétique pour

étudier les informations biologique du pommier. Pour ces différentes équipes, un génome le

plus complet possible est nécessaire.

Le génome du pommier a été entièrement séquencé en 2010 sur l’espèce Borhk en

utilisant la technologie Illumina (23). Cependant, les techniques ayant été améliorées, l’IRHS

a pu séquencer un nouveau génome de manière plus précise en 2017, grâce à la technologie

Pacbio sur l’espèce Golden Delicious (GDDH13) (24). Sur 42140 gènes, on retrouve 32124

gènes dupliqués, on note aussi que les ET représentent 57,3 % du génome total.

Figure 4. Evènements de duplication et quantité de gènes paralogues chez différentes espèces de plantes. Gauche, Phylogénie des plantes sélectionnées. Les évènements de polyploïdisation sont indiqués sur l'arbre : duplication (carré), triplication (hexagone), et non-définis (cercle). Milieu : Nombre de gènes chez chaque espèce: total (bleu) et dupliquée (rose). Droite : Nom et ordre des espèces (16)

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

3

4

Ces différentes études sont possibles grâce aux nombreuses données acquises des

plantes d’intérêts agricole et économique (25). Des études sur Malus domestica ont été réalisé

pour comprendre la répartition des rameaux selon le micro-climat ou encore les modifications

de dynamique de croissance selon la présence d'agresseurs (26). M.domestica se distingue car

cette espèce a subit une WGD récente (>50 M d’année) (23). Il est donc intéressant d’étudier

son génome pour comprendre les duplications de celui-ci. Le pommier est donc un objet

d'étude intéressant lorsque l'on cherche à comprendre les duplications.

L'objectif de mon stage est donc d'aller plus loin dans la détermination des gènes

dupliqués et de trouver , non seulement les duplicats issues de WGD mais aussi ceux issus de

duplication en tandem, par duplication segmentale ou par rétroduplication.

II) Méthode :

II.1.Présentation du logiciel

Le génome de l'espèce Golden Delicious a été séquencé et l'équipe de

bioinformatique s'en ai servi pour trouver les gènes ohnologues qui le composent (24). Nous

voulons aller plus loin dans cette étude afin de déterminer le type de duplication qu'a subit

chaque gènes dupliqués. Pour ce faire, nous avons donc décidé d’utiliser l'outil appelé

MCScanX-transposed, qui est un package basé sur MCScanX. Ce programme a été choisis car

il est facile d'accès et téléchargeable sur le site :

http://chibba.pgml.uga.edu/mcscan2/transposed/ . Étant exécutable sur bash, son installation

et exécution sont très simples, d'autant plus que la notice disponible sur le site facilite la

compréhension des commandes.

Ce programme utilise l'algorithme de MCScanX afin de trouver les gènes issus des

différentes duplications au sein d'un génome (27). Cela se fait par comparaison intra et inter

génomique. MCScanX-transposed va plus loin en détectant également les gènes issus de

retroduplication et en déterminant leur apparition dans les différents génomes des espèces

étudiées. Dans notre cas , nous comparons Malus Domestica avec Fragaria vesca, Prunus

persica, et Medicago truncatula. Fragaria vesca et Prunus persica sont très proches de Malus

domestica (Fig.4) et seront permettront une étude précise des duplicats récents, tandis que

Medicago truncatula nous servira d'outgroup pour l'étude. Ces espèces ont aussi été choisies

car elles possèdent un gènome complet de qualité disponible en ligne (ne possédant que peu

de scaffold et contig).

http://chibba.pgml.uga.edu/mcscan2/transposed/

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

5

II.2. Récupération des données

MCScanX-transposed a besoin de 2 types de fichier par espèces: un fichier gff

contenant les coordonées des gènes au sein du génomeet un fichier de résultat de blastp au

format m8 issus des comparaisons intra ou inter génomique. Donc nous devons récupérer les

fichiers fasta des protéomes pour faire tourner BLASTP et les fichiers gff3 des coordonnées

des gènes.

Nous devons tout d'abord télécharger en ligne les fichiers gff3 et fasta des espèces

utilisé pour notre étude. Les fichiers de Fragaria vesca et Prunus persica sont disponibles et

ont été téléchargés sur https://www.rosaceae.org/ et les fichiers de Medicago truncatula sont

disponibles et ont été téléchargés sur http://www.medicagogenome.org/. Pour Malus

domestica, comme nous avons décidé d'utiliser GDDH13, les fichiers ont été obtenus sur

l'intranet de l'IRHS où les fichiers sont disponibles. Une fois tout ces fichiers obtenus, on doit

les formater et faire tourner blastp afin d'avoir tout les fichiers d'entré nécessaires pour

l'utilisation de MCScanX-transposed (28).

II.3. Mises en formes des fichiers

Pour modifier les fichiers, on doit tout d'abord parser et réorganiser les fichiers gff3

car MCScanX-transposed ne fonctionne pas avec les fichiers d'origine tels quels. Le format

gff3 est le suivant (ex: fichier gff3 du pommier) :

Un script python (parsage_MCScanX.py) a ensuite été réalisé afin de parser les gff3 au format

voulu, soit 4 des 9 colonnes d'origine dans un ordre différent (les colonnes 1, 9, 3 et 4 dans cet

ordre). De plus, seule une partie de la colonne ID doit être extraite : l'identifiant du gène

(partie surlignée en jaune).

Comme un fichier gff3 contient les données des gènes, mais aussi des exons, des

CDS,... (décrit par la colonne « type ») nous avons décidé de n'extraire que les lignes

correspondant à des mRNA, afin d'éviter les biais et avoir le même nombre d'identifiant que

dans les fichiers fasta. Le même script python a pu être réalisé pour les différents fichiers gff3

des différentes espèces, sauf pour Malus domestica. Ce dernier possède des caractères

différents des autres espèces pour délimiter l'identifiant dans sa colonne « ID&attribut ».La

colonne doit donc subir une extraction différente pour Malus domestica. Les fichiers de sorti

ont alors le contenu suivant (ex : fichier de parsage du pommier)

http://www.medicagogenome.org/

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

https://www.rosaceae.org/

6

Les fichiers doivent encore subir plusieurs modifications. Comme certains gènomes

ont pu être complété par des contig ou des scaffold, les lignes correspondantes possède sont

définies comme tel dans la colonne « espèce&Numéro_chromosome » et ne posséderont pas

une numéro de chromosome. Ces parties n'ayant pu être positionnées dans le génome suite à

des problèmes d'annotation , de longueur,... sont considérées comme faisant parti du

chromosome 0. De ce fait, un deuxième script python est créé afin de remplacer toute notion

de scaffold ou contig par le « Chromosome 0 » afin de simplifier la lecture du fichier par le

programme et par l'utilisateur. Il est à noter que , bien que le processus soit le même, il a fallu

créer un script pour chaque espèce car certaines n'avaient que des scaffolds , d'autres que des

contigs et certaines les deux. De plus l'annotation de ces lignes est différentes pour chaque

espèces, nécessitant donc un script spécifique pour chacune d'entre elle.

Enfin, une dernière modification sous bash doit être réalisée. Tous les chromosomes

doivent être remplacé par une abréviation du nom de l'espèce (i.e. Chr1 chez Malus domestica

devient Md1) afin de permettre la lecture des résultats. Sous vi , on utilise la fonction :

Figure 5 : Schéma des étapes de modifications des fichiers.Descriptif des étapes nécessaier à l'obtention des fichiers d'entrés pour la lancement de MCScanX-transposed.

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

8

7

%s/Chr/ «abréviation de l'espèce »/g, de manière à remplacer tous les noms de chromosomes.

Cette commande est réalisée sur chaque espèce.

Une fois les fichiers obtenus, une mise en forme finale des fichiers doit avoir lieu. En

effet, MCScanX-transposed nécessite que les fichiers gff contiennent tous les identifiants du

génome de l'espèce étudié en premier (28). Une simple commande bash « cat » nous permet

d'obtenir les fichiers voulu. On obtient ainsi Md.gff (Malus domestica), Md_Fvb (Fragaria

vesca), Md_Pp (Prunus persica) et Md_Mtr (Medicago truncatula) (Fig.5)

On a ensuite réaliser les blast nécessaires pour la suite de l'étude. Un blastp sera réalisé pour

chacune des espèces. On aura alors un fichier contenant les relations d'homologie des gènes

qui seront étudiées par le programme. On prend le fasta du pommier (GDDH13) comme

comparateur pour les différents blast.

Chaque espèce sera comparé à ce fichier y compris le pommier lui même (on parle

alors de blastp all vs all). Comme un blast prend une dizaine d'heure pour être réalisé sur le

serveur node 1 (serveur de calcul de l'IRHS), les 4 blasts sont réalisés grâce à un script python

(boucle.py) qui les boucle afin de les exécuter les un à la suite des autres, jour et nuit, jusqu’à

ce que les 4 soit obtenus.

Il faut ensuite les renommer de la même manière que les fichiers gff. Les fichiers sont

finalement appelé Md.blast, Md_Fvb.blast, Md_Pp.blast et Md_Mtr.blast. Il est nécessaire de

mettre les blast et les gff dans le même répertoire et de les renommer pareil, dans le cas

contraire, MCScanX-transposed ne trouvera pas les fichiers ou ne pourra pas les lire

correctement.

On peut ensuite lancer l'outil des détermination des types de gènes dupliqués

II.4.Fonctionnement du logiciel MCScanX

Lorsque l'on lance le programme, on doit préciser quelle est l'espèce étudiée (en

mettant son abreviation), les espèces de comparaison (en mettant aussi les abreviation), le

dossier où se trouve les données et le fichier de sorties où on retrouvera les résultats. On

réalise cela avec la commande suivante :

L'algorithme de MCScanX-transposed entame alors une procédure pour identifier les

différents types de duplications. Il déclenche d'abord l'algorithme MCScanX, utilisé dans la

perl MCScanX-transposed.pl -i dossier_données -t espèce_étudié(ici

Md) -c espèces_comparaison -o dossier_résultats

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

7

recherche des gènes colinéaires (27). Puis il lance gène classifier (Fig.6) qui, en utilisant le

blast intra-espèce,il détecte d'abord les gènes dupliqués, puis il génère des paires de gènes

colinéaires qui seront considéré comme issus d'une duplication segmentale/WGD. Les

duplicats restants sont ensuite étudiés pour déterminer lesquels sont en tandem et lesquels sont

proximaux en utilisant différents critères. Si deux gènes dupliqués sont côte à côte au sein du

gènome, alors ils sont issus d'une duplication en tandem. Par contre, si deux gènes paralogues

Figure 6. Schéma de fonctionnement de MCScanX-transposed. Encadré rose : Algorithme de l’outil, Encadré gris : Fichiers d'entrées de l'utilisateur, Encadré jaune : Fichiers de sorties, Encadré violet : Programmes d'analyse utilisés, Encadré bleu : Résultats des programmes (ces résultats sont soit présentés dans de nouveaux fichiers, soit en ajout dans les fichiers de sorties), En jaune : Blocs utilisés dans notre étude (25)

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

9

sont séparés par un ou plusieurs gènes non-paralogues intercalants, ils sont considérés

comme proximaux. La limite maximum de gènes non-paralogues est placée à 10 par défaut

mais peut être modifiée dans les paramètres d’exécution. Les gènes restants sont alors étudiés

pour savoir si ils sont issus de rétroduplication.

Les blast inter-espèces sont ensuite étudiés afin de trouver les rétroduplications. En

considérant les gènes colinéaires déterminés précédemment (SD, tandem, proximaux) comme

des loci ancestraux, MCScanX compare les gènes dispersés et, si la duplication trouvée

consiste d'un locus ancestral et d'un nouveau locus, les gènes en résultants sont considérés

comme rétrodupliqués. Il est possible qu'un gène soit présent dans plusieurs rétroduplications,

auquel cas il ne sera conservé que pour celle où l'identité de séquence est la plus forte.

Les gènes n'ayant été classé dans aucune des différentes catégories sont considérés

comme des singletons (gènes sans duplicats). Une fois les différents gènes classés, un autre

algorithme est lancé pour aller plus loin dans l'étude.

Quand tout les types de duplications ont pu être déterminé pour chaque paire de

duplicats, l'algorithme MCScanX-transposed étudie les rétrodupliqués et les trie selon les

différents événements de spéciation entre les espèces. Il est faut cependant préciser aux

programmes combiens d’événements ont eu lieu entre l'espèce étudié et les espèces de

comparaison. Les rétrodupliqués seront alors classés dans plusieurs groupes selon leur

apparition au cours du temps. Si rien n'est précisé, le programme classera les rétrodupliqués

dans un seul et même groupe. Il est possible d'aller plus loin dans l'étude des gènes avec ce

programme en fournissant d'autres fichiers d'entrée appropriés.

On peut, à l'aide d'un fichier CDS et du programme add_ks_ka.pl , déterminer les

ratios de substitutions Ka et Ks des paires de gènes. Cet algorithme se base sur les calculs de

la méthode Nei et Gojobori (29). Si on possède des fichiers de famille de gènes, on peut

utiliser la fonction detect_dup_modes_for_a_family.p et étudier les relations des gènes ainsi

que les duplications qui peuvent les lier au sien d'une même famille. Enfin,

annotate_tree_with_dup_modes permet de représenter, sous la forme d'un arbre

phylogénétique, les relations trouvées précédemment ainsi que la chronologie des gènes.

La plupart de ces outils n'ont pas encore pu être utilisés lors de la période de stage

suite à un manque de temps et seul les résultats de l'algorithme MCScanX seront présentés

dans la section suivante.

III) Résultats :

III.1.Étude des premiers résultats

Après le parsage du génome de Malus domestica, nous avons un fichier contenant

45116 identifiants de gènes. Le programme est aussi relativement rapide dans son calcul et

avec les fichiers qu'on l'on peut utiliser lors de l'utilisation (le programme dure 15 minutes

avec les fichiers fournis dans le package en exemple et environ 40 minutes lors de notre

expérience avec nos fichiers). Ce fichier est utilisé avec MCScanX-transposed. Nous obtenons

des fichiers contenant les gènes (Fig.7) et d'autres contenant les paires de gènes dupliqués

pour les différents types de duplication chez le pommier (Fig.8). Les fichiers ont ensuite été

comparé pour s'assurer que chaque gène n'était présent que dans un seul fichier. De plus, nous

avons vérifié qu'il n'y avait pas de doublons au sein de chaque fichier. Une fois ces

vérifications terminé, le nombre de gène dans chaque fichier a été calculé.

Types de duplication Nombres de gènes Pourcentage

Segmentale 42042 94.13%

Tandem 799 1.28%

Proximaux 571 1.79%

Retroduplication 1135 2.54%

Singletons 114 0.26%

TOTAL 45116 100.00%

Tableau 1 : Quantité de gènes dupliqués. Nombre total de gènes et leur pourcentage par rapport au génome total

Figure 7 : Contenu d'un fichier de sorties « .genes ». Les premiers gènes classés reconnus comme dupliqués dans le fichier segmental.genes

Figure 8 : Contenu d'un fichier de sorties « .pairs ». Les premiers couples de gènes classés dans le fichier segmental.pairs avec leur e-valu.

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Tu n'as pas parsé le génome mais son fichier gff

ne pas en parler

faire en plus (et avant) la même figure que la figure 5 où on voit les noms des fichiers d'entrées et les noms des fichiers de sorties avec comme boîte MCSCANXpuis commente dans ton rapport cette figure en disant combien de lignes fait chaque fichiers ou sa taille (le temps d'execéution doit aussi prendre en compte les temps de calcul de BLAST + temps de MSCANX

10

Les singletons n'ont pas été classés dans un fichier, leur nombre a donc été déterminé

en faisant la différence entre la somme de tous les gènes considérés comme dupliqués et le

nombre de gènes du fichier d'origine.

Les résultats sont les mêmes après plusieurs passages différents sous le programme

MCScanX-transposed. On remarque que les duplications segmentales constitue la majeure

partie du génome (plus de 94%) et que plus de 99% du génome est dupliqué au vu de la faible

quantité de singletons. Pour comparer nos résultats avec d'autres études, il est nécessaires de

prendre en compte que nos 42042 gènes sont aussi 21021 paires de gènes.

III.2.Comparaison des données

Une étude avait déjà été réalisée au sien de l'équipe sur les gènes ohnologues du

pommier (sur l'espèce GDDH13). 22344 paire de gènes avaient été étudiés et, après un

passage sous SynMap (30) et DAG-chainer (31), les gènes ohnologues on été extrait. Ils

représentent prés de 40% des gènes du fichier d'origine.

Ces gènes sont issus de la WGD et nous les comparons avec nos résultats pour

s'assurer de la qualité de ceux-ci.

Types de gènes Nombres de gènes Pourcentage

Gènes dupliqué totaux 22344 100.00%

Gènes dupliqués par WGD (a) 9385 42.00%

Gènes dupliqués par SD (b) 9312 41.67%(a) Whole Genome Duplication, (b) duplication segmentale

99% des gènes ohnologues sont retrouvés dans le fichier des gènes dupliqués par

duplication ségmentale après comparaison. Les 73 gènes restant n'ont pas été retrouvés dans

ce fichier, ni dans aucun de ceux des autres types de duplications.

IV) Discussion :

Cette étude s'inscrit dans la continuité des travaux de recherche de l'équipe de

bioinformatique de l'IRHS sur le génome du pommier. Celle-ci ayant fait de grands progrès

sur le séquençage du génome du pommier, le fait de pouvoir décrire le génome encore plus

efficacement serait une grande avancée dans la compréhension de l'espèce. L'originalité de

cette étude se base sur le fait qu'on ne recherche pas uniquement les gènes issus de la WGD,

Tableau 2 : Comparaison des deux études. Nombre total de gènes

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

représentent

lequel? les 22344 paires? mais d'où proviennent-elles?

duplications

paire de gènes

11

mais aussi ceux issus des différents types de duplications par l'intermédiaire de MCScanX-

transposed, outil spécialisé dans la recherche de gènes dupliqués.

L'utilisation de cet outil à été permise grâce aux nombreux génomes complets et

disponibles en ligne des différentes espèces utilisées pour la comparaison génomique des

gènes dupliqués. L'étude aurait pu être réalisé avec plus d'espèces(le programme pouvant en

comparer 5+ l'espèce principale) mais nous avons choisi d'en prendre un nombre restreint

pour une première utilisation d'un nouveau logiciel. Parmi les espèces proches

phylogénétiquement (Fig.4) ou celles ayant pu servir de groupe externe, certaines n'ont pu

être retenues (tels que Vitis vinifera ou Cucumis sativa) car les génomes disponibles sont de

moins bonne qualité et auraient pu biaiser les résultats de l'étude.

Les résultats de notre analyse apportent des réponses quant à la quantité de gènes

dupliqués au sein du génome ainsi que les types de duplications ayant pu intervenir au cours

de l'évolution du génome de l'espèce. Ainsi, nous avons pu constater que la plupart des gènes

dupliqués étaient issus de duplication segmentale et que la quasi-totalité du génome était issus

de duplications (Tab.1). Cela peut s'expliquer par le fait que le pommier a subit une WGD

récente et que les différents gènes n'ont pas encore eu le temps de se spécialiser pour obtenir

une quantité de dupliqués plus faible.

Les autres types duplications sont en pourcentage très faible au sein du génome. On

note notamment une faible proportion de gènes en tandem au sein du génome. Le processus

de calcul de MCScanX-transposed peut aussi en être la cause du fait qu'il cherche ces

duplications après avoir déterminer ce qu'il considère comme des duplications segmentales.

Parmi ces segmentales se trouvent probablement des tandems

En comparant les résultats de notre expérience avec les gènes ohnologues obtenus par

SynMap on remarque que, les gènes issus de duplications segmentales trouvés par ce

programme, et qui ont été définis comme issus de WGD, sont aussi considérés comme tels

dans nos fichiers de résultats. Le programme a donc une certaine fiabilité quant à la

reconnaissance des gènes issus d'une duplication complète du génome. Cependant, la

différence de proportion de gènes dupliqués vis à vis du gènome total (99% avec MCScanX-

transposed contre seulement 40% avec SynMap) peut s'expliquer par les paramètres de

stringence et de seuil de duplication propre à chaque outil, ainsi que par les paramètres entrés

par l'utilisateur.

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

enlever

je ne comprends pas cette phrase (ils sont dupliqués)

12

MCScanX-transposed permet de changer certains paramètres influant sur l'algorithme

qu'il utilise pour déterminer les duplications : la distance entre deux gènes paralogues pour

déterminer si une duplication est proximale ou non (par défaut cette distance est de 10 gènes

non-paralogues consécutifs), le nombre d’événements de spéciation pouvant permettre une

classification des gènes issus de rétroduplication (par défaut le programme considère qu'ils

proviennent d'un seul et même événement) et enfin, si les gènes issus d'une duplication

segmentale sont des locis ancestraux (par défaut ils sont considérer comme ancestraux).

N'ayant fait l'expérience qu'avec tous les paramètres par défaut par manque de temps, il est

probable que changer ces derniers pourraient nous donner une meilleure appréciation de nos

résultats actuels.

Les différents fichier obtenus nous permettent de déterminer la duplication liée à un

gène ainsi que les paires de gènes obtenues par chaque duplication (avec leur e-value). On

peut ainsi déterminer quelles duplications caractérisent une famille de gène, voire les

caractéristiques d'un seul gène.

V) Conclusion :

Cette nouvelle expérience apporte beaucoup de nouvelles informations sur le génome

de Malus domestica en particulier sur les différents gènes dupliqués qui le compose et les

types de duplications impliquées. Nous avons pu ainsi déterminer que le génome est

caractérisé presque exclusivement par des gènes dupliqués (avec une proportion presque nulle

de singletons) et dont la plupart sont issus d'une duplication segmentale s’apparentent. Ceci

est du au fait que le pommier à subit un événement de ce type récemment dans son histoire

évolutive (23). On peut ainsi déterminer que les gènes ohnologues découverts dans un

précédente expérience se retrouvent parmi nos fichiers de gènes issus de duplication

segmentale.

Nous avons aussi pu classifier les gènes issus de duplication en tandem , de

duplication proximale ainsi que de rétroduplication. Nous avons aussi pu déterminer les

couples de gènes dupliqués pour chaque duplication. Seulement, nous n'avons pas pu

comparer avec d'autres expériences réalisées sur ce type de gènes et les paires qui en

découlent. MCScanX étant actuellement le seul programme actuel permettant de déterminer

ces différents types de duplications, on ne peut pas comparer avec d'autres outils. De plus,

l'expérience n'ayant été réalisé que selon un seul choix de paramètres ainsi qu'un seul pool

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Je ne comprends toujours pas cette phrase => à reformuler

?

13

14

d'espèce, nous pouvons pas encore affirmer si nos résultats reflètent la réalité évolutive du

génome du pommier.

De nombreuses améliorations sont encore à réaliser pour parfaire les différents

résultats que nous avons obtenus. Il est déjà nécessaire d'utiliser toutes les fonctions que nous

proposent MCScanX-transposed afin que nos résultats apportent de plus amples informations.

Cela nous permettra de mieux les interpréter ainsi que de porter des conclusions plus solides

quant à leur signification. Il sera aussi nécessaire de refaire l'expérience avec des

modifications de paramètres pour voir s'il influera grandement ou non sur les premiers

résultats qui ont été obtenus lors du stage. Si des changements notables sont à noter, il sera

peut-être nécessaire d'utiliser d'autres outils tels que SynMap pour avoir un consensus

utilisables pour la détermination des gènes dupliqués. Enfin, il serait intéressant d'utiliser de

nouvelles espèces plus ou moins proches de Malus domestica que nous n'avons pas utilisée

(on peut prendre par exemple Arabidopsis thaliana en groupe externe pour voir si un tel

extrême influence les résultats). On peut aussi refaire l'expérience avec plus d'espèces (3+

l'espèce d’intérêt dans notre expérience, sachant que le maximum conseillé pour MCScanx-

transposed est de 5+ l'espèce d'intéret) tout en gardant celle déjà utilisées. Il est aussi

envisageable d'imaginer qu'à l'avenir, quand certains génomes auront pu être mieux séquencés

ou que les génomes seront de meilleurs qualité. Ainsi, certaines espèces que n'avons pas prise

en compte lors de notre expérience (tels que Vitis vinifera) pourront être utilisées pour affiner

les résultats.

Cet outil offre de nombreuses perspectives pour l'étude des génomes et pourra nous

permettre de mieux comprendre les phénomènes de duplications qui sont présents en grand

nombres dans l'histoire évolutive des organismes.

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Claudine Landès

Pourquoi? Comment?

Bibliographie

(1) https://fr.wikipedia.org/wiki/Duplication_(g%C3%A9n%C3%A9tique)

(2) Lynch, V.J. Wagner, G.P: (2009). "Multiple chromosomal rearrangements structured the ancestral vertebrate Hox-bearing protochromosomes" PLoS Genetics 5(1

(3) R. C. Cronn, R. L. Small & J. F. Wendel (1999). Duplicated genes evolve independently after polyploid formation in cotton. Proc Nat/Acad Sci USA 96(25): 14406-11.

(4) Houda Chelaifa. Spéciation allopolyploïde et dynamique fonctionnelle du génome chez lesSpartines. Biochimie [q-bio.BM]. Université Rennes 1, 2010. Français. <tel-00536586>

(5) Leitch, A.R. Leitch, I.J. Genome plasticity and the diversity of polyploid plants Science. 2008 Apr 25;320(5875):481-3

(6)The number of known plants species in the world and its annual increase. Christenhusz, M.J.M. and Byng, J.W. Phytotaxa. 2016; 261: 201–217

(7)Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events. Bowers, J.E., Chapman, B.A., Rong, J., and Paterson, A.H. Nature. 2003; 422: 433–438

(8) Ancestral polyploidy in seed plants and angiosperms. Jiao, Y., Wickett, N.J., Ayyampalayam, S., Chanderbali, A.S., Landherr, L., Ralph, P.E., Tomsho, L.P., Hu, Y., Liang, H., Soltis, P.S. et al. Nature. 2011; 473: 97–100

(9) Angiosperm genome comparisons reveal early polyploidy in the monocot lineage. Tang, H., Bowers, J.E., Wang, X., and Paterson, A.H. Proc. Natl. Acad. Sci. USA. 2010; 107: 472–477

(10) Integrated syntenic and phylogenomic analyses reveal an ancient genome duplication in monocots. Jiao, Y., Li, J., Tang, H., and Paterson, A.H. Plant Cell. 2014; 26: 2792–2802

(11)Hufton AL, Groth D, Vingron M, Lehrach H, Poustka AJ, Panopoulou G. Early vertebratewhole genome duplications were predated by a period of intense genome rearrangement. Genome

Research. 2008;18(10):1582-1591. doi:10.1101/gr.080119.108.

(12)Kellis M, Birren BW, Lander ES (2004) Proof and evolutionary analysis ofancient genome duplication in the yeast Saccharomyces cerevisiae. Na-ture 428: 617–624

(13) Lim, K.Y. Soltis, D.E. et al. Rapid chromosome evolution in recently formed polyploids

in Tragopogon (Asteraceae) PLoS One 2008;3(10):e3353. Epub 2008 Oct 9

(14) Susumu Ohno (1970). Evolution by gene duplication

https://fr.wikipedia.org/wiki/PLoS_One

https://fr.wikipedia.org/wiki/Duplication_(g%C3%A9n%C3%A9tique

(15) Fitch WM. Homology: a personal view on some of the problems. Trends Genet. 2000

(16) Evolution of Gene Duplication in Plants.Panchy N1, Lehti-Shiu M1, Shiu SH2. May;16(5):227-31

(17)Ohno, S. (1972). So much "junk" DNA in our genome. Brookhaven symposia in Biology, 23, 366-370.

(18)Pei B et al. (2012) The GENCODE pseudogene resource. Genome Biology 13:R51. DOI: 10.1186/gb-2012-13-9-r51

(19)Li W., Zhang P., Fellers J.P., Friebe B., Gill B.S. Sequence composition, organization, andevolution of the core Triticeae genome. Plant J. 2004;40:500–511. doi: 10.1111/j.1365-313X.2004.02228.x.

(20) Sanmiguel P., Bennetzen J.L. Evidence that a recent increase in maize genome size was caused by the massive amplification of intergene retrotransposons. Ann. Bot. 1998;82:37–44. doi: 10.1006/anbo.1998.0746.

(21)Allan Force, Michael Lynch, F. Bryan Pickett et Angel Amores, « Preservation of Duplicate Genes by Complementary, Degenerative Mutations », Genetics, 151, o 4, er avril 1999, 1531–1545

(22)Dirk A. Kleinjan, Ruth M. Bancewicz, Philippe Gautier et Ralf Dahm, « Subfunctionalization of duplicated zebrafish pax6 genes by cis-regulatory divergence », PLoS genetics, 4, o 2, , e29

(23) The genome of the domesticated apple (Malus x domestica Borkh.). Velasco, R., Zharkikh, A., Affourtit, J., Dhingra, A., Cestaro, A., Kalyanaraman, A., Fontana, P., Bhatnagar, S.K., Troggio, M., Pruss, D. et al. Nat. Genet. 2010; 42: 833–839

(24) N.Daccord ,J-M Celton , G. Linsmith , C. Becker , 2017 High-quality de novo assembly of the apple genome and methylome dynamics of early fruit development

(25)Widespread Whole Genome Duplications Contribute to Genome Complexity and Species Diversity in Angiosperms Ren, Ren et al. Molecular Plant , Volume 11 , Issue 3 , 414 - 428

(26)Pierre-Eric Lauri. Architecture de l’arbre fruitier - de la morphologie des plantes à l’agronomie. Biologie végétale. Université Montpellier II - Sciences et Techniques du Languedoc, 2007.

(27)Wang Y, Tang H, DeBarry JD, et al. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Research. 2012

(28)Yupeng Wang, Jingping Li, Andrew H. Paterson; MCScanX-transposed: detecting transposed gene duplications based on multiple colinearity scans, Bioinformatics, Volume 29, Issue 11, 1 June 2013, Pages 1458–1460

https://www.ncbi.nlm.nih.gov/pubmed/?term=Shiu%20SH%5BAuthor%5D&cauthor=true&cauthor_uid=27288366

https://www.ncbi.nlm.nih.gov/pubmed/?term=Lehti-Shiu%20M%5BAuthor%5D&cauthor=true&cauthor_uid=27288366

https://www.ncbi.nlm.nih.gov/pubmed/?term=Panchy%20N%5BAuthor%5D&cauthor=true&cauthor_uid=27288366

(29) Nei M,Gojobori T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions, Mol. Biol. Evol.,1986, vol.3

(30)Soderlund C, Nelson W, Shoemaker A, Paterson A. SyMAP: a system for discovering andviewing syntenic regions of FPC maps. Genome Res. 2006;16:1159–1168.

(31)Haas BJ, Delcher AL, Wortman JR, Salzberg SL. DAGchainer: a tool for mining segmental genome duplications and synteny. Bioinformatics. 2004;20:3643–3646.

Remerciements

Je remercie sincèrement ma maître de stage Claudine Landes pour m’avoir accueillieau sein de l’équipe de bioinfo de l'IRHS, pour son encadrement, sa gentillesse et sadisponibilité. Je la remercie pour la confiance qu’elle m’a accordée tout au long de ce stage,de m’avoir donné l’opportunité de découvrir les problématiques liées à l'étude des gènesdupliqués chez le pommier

Je remercie l’ensemble de l’équipe de bioinformatique pour leur accueil et leurgentillesse. Un merci particulier à Sylvain pour m'avoir aider à régler mes nombreuxproblèmes de serveurs et d'ordinateur , qui en était à sa 7ème vie selon ses dires. Merci àSandra, Sébastien et Julie pour leurs conseils durant ce stage.

Je remercie tout les stagiaires de l'équipe bioinformatique : Tanguy, Maxime, Ophélie,David et Abdelhak, ainsi que nos deux informaticiens : Florian et Guillaume. Merci pourvotre bonne humeur au quotidien dans la salle de pause, nos fous rires et nos échanges« constructifs »sur les différentes versions de Python. Un grand merci à Abdelhak pour sonaide précieuse lors de l'écriture de mes scripts et pour nos échanges culturels. Merci à toutesles autres équipes pour nous avoir supporté lorsque « la cour de récré » traversait les couloirspour aller en pause

Enfin, je remercie mes parents, ma sœur et mon frère pour m’avoir toujours soutenuedans mes études et mes projets.

Résumé

Les différents types de duplication que peuvent subir les gènes et le devenir desduplicats qui en découlent sont un facteur importants dans l'évolution des génomes. Dans lecontexte de l'étude du génome du pommier (Malus domestica), comprendre d'où viennent lesgènes dupliqués permettrait de mieux appréhender l'histoire évolutive de l'espèce. Notreobjectif était de mettre en évidence les différents types de duplication que le pommier a pusubir lors de son évolution ainsi que le nombre de gènes résultants de chaque type deduplication. Le génome de l'espèce GDDH13 a été utilisé pour cette étude et nous noussommes servi de l'outil MCScanX-transposed pour l'analyser Cet outil nécessitant le génomed'espèces phylogénétiquement proches de celle d’intérêt, nous avons utilisé Fragaria vesca,

Prunus persica et Medicago truncatula pour pouvoir réaliser la comparaison. Nous avons duparser les fichiers des différents génome afin de pouvoir les utiliser avec l'outil (celui-cinécessitant un format de fichier particulier). Des fichiers de résultats ont été obtenus, ceux-cipermettent de connaître les gènes issus de chaque duplications, ainsi que les paires de gènesdupliqués. En calculant le nombre de gènes au sein de chaque fichier, on se rend compte que99% du génome est composé de gènes dupliqués et que 94% des gènes sont issus d'une WGD(duplication entière du génome). En considérant qu'un événement de WGD spécifique aupommier a eu lieu récemment (>50 M d’année), cette étude apporte des informationsinteressantes sur la composition du génome.

Mots clés : Malus domestica, MCScanX-transposed, WGD, duplications en tandem,rétroduplication

Documents

UNIVERSITE DE RENNES 1 MASTER 1 SPECIALITE …