29
Université de Provence Master 2 Professionnel Informatique Avancée et Applications parcours Base de Données Avancées Année 2008-2009 Rapport de Stage : Application de la méthode ABC pour la détermination de l’état génétique de reproduction chez les fleurs de type Oenothera. Par Simon MORÉ Maître de Stage : Etienne PARDOUX Responsables du Master : Cécile CAPPONI et Denis LUGIEZ

Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

Embed Size (px)

Citation preview

Page 1: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

Universiteacute de Provence

Master 2 Professionnel

Informatique Avanceacutee et Applications parcours Base de Donneacutees Avanceacutees

Anneacutee 2008-2009

Rapport de Stage

Application de la meacutethode ABC pour la

deacutetermination de lrsquoeacutetat geacuteneacutetique de reproduction

chez les fleurs de type Oenothera

Par Simon MOREacute

Maicirctre de Stage Etienne PARDOUX

Responsables du Master Ceacutecile CAPPONI et Denis LUGIEZ

1

Remerciements

Tout drsquoabord je tiens agrave remercier Etienne Pardoux qui a accepteacute drsquoencadrer un eacutetudiant en

informatique ce qui ne doit pas ecirctre eacutevident pour un matheacutematicien

Je remercie toute lrsquoeacutequipe EBM et notamment le 3egraveme eacutetage pour son accueil chaleureux

Je remercie tout particuliegraverement Manuela Royer et Olivier Chabrol pour leurs conseils aviseacutes

de matheacutematiciens et informaticiens expeacuterimenteacutes

Je remercie Margart Evans et Michael Blum drsquoavoir prit de leur temps pour me permettre

drsquoavancer

Je remercie Marie-Christine Roubaud qui mrsquoa permis en maicirctrise de faire mes premiers pas

dans le monde de la pluridisciplinariteacute bio-info-maths

Enfin je remercie Ceacutecile Capponi de mrsquoavoir accepteacute au sein du Master I2A parcours BDA

malgreacute mon parcours laquo original raquo

Pour finir je remercie tous les eacutetudiants de BDA avec (gracircce agrave) qui jrsquoai passeacute sans doute ma

meilleure anneacutee universitaire

2

Sommaire

REMERCIEMENTS 1

SOMMAIRE 2

INTRODUCTION 3

1 STRUCTURE DrsquoACCUEIL LrsquoEQUIPE EBM DU CNRS 4

11 PRESENTATION ET HISTORIQUE DU CNRS 4 12 LE LABORATOIRE DrsquoANALYSE TOPOLOGIE PROBABILITES 4 13 LrsquoEQUIPE EVOLUTION BIOLOGIQUE ET MODELISATION 5

2 LE STAGE INTEGRE AU TRAVAIL DE LrsquoEQUIPE 6

21 VOCABULAIRE 6 22 EacuteVOLUTION GENETIQUE ET EVOLUTION ENVIRONNEMENTALE 7 23 THEgraveME GEacuteNEacuteRAL DU STAGE 8 24 LA METHODE APPROXIMATE BAYESIAN COMPUTATION (ABC) 9

3 DEROULEMENT DU STAGE 12

31 ADAPTATION ET COMPREHENSION 12 32 PLANIFICATION 13 33 DEVELOPPER 13

331 Simulation de tempeacuterature14 332 Simulation des eacutetats de reproduction de la plante 16 333 Parcours de lrsquoarbre 19 334 Les donneacutees21 335 Comparaison simulation ndash observation 23

CONCLUSION 26

BIBLIOGRAPHIE ET WEBOGRAPHIE 28

3

Introduction

Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en

entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de

la Recherche Scientifique soit un organisme de recherche public En effet le monde de la

recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus

mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si

possible la biologie

Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du

LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de

reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout

de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un

programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur

(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode

matheacutematique ABC

Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet

du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que

mrsquoa apporteacute cette expeacuterience professionnelle

4

1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS

11 Preacutesentation et historique du CNRS

Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le

plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement

public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle

administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche

Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute

des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le

CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la

recherche fondamentale

En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14

400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel

est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce

son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de

service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes

eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de

rechercheraquo

Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts

ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon

le classement mondial laquo Webometrics raquo

12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes

Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute

dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et

Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et

Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)

5

Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La

diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont

actives

13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation

Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et

de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre

en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du

vivant

Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les

modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des

domaines varieacutes incluant par exemple la meacutedecine et lagronomie

Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des

universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3

Etudiants en thegravese titulaires de bourses du ministegravere

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 2: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

1

Remerciements

Tout drsquoabord je tiens agrave remercier Etienne Pardoux qui a accepteacute drsquoencadrer un eacutetudiant en

informatique ce qui ne doit pas ecirctre eacutevident pour un matheacutematicien

Je remercie toute lrsquoeacutequipe EBM et notamment le 3egraveme eacutetage pour son accueil chaleureux

Je remercie tout particuliegraverement Manuela Royer et Olivier Chabrol pour leurs conseils aviseacutes

de matheacutematiciens et informaticiens expeacuterimenteacutes

Je remercie Margart Evans et Michael Blum drsquoavoir prit de leur temps pour me permettre

drsquoavancer

Je remercie Marie-Christine Roubaud qui mrsquoa permis en maicirctrise de faire mes premiers pas

dans le monde de la pluridisciplinariteacute bio-info-maths

Enfin je remercie Ceacutecile Capponi de mrsquoavoir accepteacute au sein du Master I2A parcours BDA

malgreacute mon parcours laquo original raquo

Pour finir je remercie tous les eacutetudiants de BDA avec (gracircce agrave) qui jrsquoai passeacute sans doute ma

meilleure anneacutee universitaire

2

Sommaire

REMERCIEMENTS 1

SOMMAIRE 2

INTRODUCTION 3

1 STRUCTURE DrsquoACCUEIL LrsquoEQUIPE EBM DU CNRS 4

11 PRESENTATION ET HISTORIQUE DU CNRS 4 12 LE LABORATOIRE DrsquoANALYSE TOPOLOGIE PROBABILITES 4 13 LrsquoEQUIPE EVOLUTION BIOLOGIQUE ET MODELISATION 5

2 LE STAGE INTEGRE AU TRAVAIL DE LrsquoEQUIPE 6

21 VOCABULAIRE 6 22 EacuteVOLUTION GENETIQUE ET EVOLUTION ENVIRONNEMENTALE 7 23 THEgraveME GEacuteNEacuteRAL DU STAGE 8 24 LA METHODE APPROXIMATE BAYESIAN COMPUTATION (ABC) 9

3 DEROULEMENT DU STAGE 12

31 ADAPTATION ET COMPREHENSION 12 32 PLANIFICATION 13 33 DEVELOPPER 13

331 Simulation de tempeacuterature14 332 Simulation des eacutetats de reproduction de la plante 16 333 Parcours de lrsquoarbre 19 334 Les donneacutees21 335 Comparaison simulation ndash observation 23

CONCLUSION 26

BIBLIOGRAPHIE ET WEBOGRAPHIE 28

3

Introduction

Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en

entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de

la Recherche Scientifique soit un organisme de recherche public En effet le monde de la

recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus

mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si

possible la biologie

Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du

LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de

reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout

de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un

programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur

(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode

matheacutematique ABC

Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet

du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que

mrsquoa apporteacute cette expeacuterience professionnelle

4

1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS

11 Preacutesentation et historique du CNRS

Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le

plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement

public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle

administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche

Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute

des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le

CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la

recherche fondamentale

En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14

400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel

est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce

son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de

service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes

eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de

rechercheraquo

Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts

ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon

le classement mondial laquo Webometrics raquo

12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes

Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute

dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et

Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et

Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)

5

Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La

diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont

actives

13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation

Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et

de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre

en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du

vivant

Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les

modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des

domaines varieacutes incluant par exemple la meacutedecine et lagronomie

Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des

universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3

Etudiants en thegravese titulaires de bourses du ministegravere

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 3: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

2

Sommaire

REMERCIEMENTS 1

SOMMAIRE 2

INTRODUCTION 3

1 STRUCTURE DrsquoACCUEIL LrsquoEQUIPE EBM DU CNRS 4

11 PRESENTATION ET HISTORIQUE DU CNRS 4 12 LE LABORATOIRE DrsquoANALYSE TOPOLOGIE PROBABILITES 4 13 LrsquoEQUIPE EVOLUTION BIOLOGIQUE ET MODELISATION 5

2 LE STAGE INTEGRE AU TRAVAIL DE LrsquoEQUIPE 6

21 VOCABULAIRE 6 22 EacuteVOLUTION GENETIQUE ET EVOLUTION ENVIRONNEMENTALE 7 23 THEgraveME GEacuteNEacuteRAL DU STAGE 8 24 LA METHODE APPROXIMATE BAYESIAN COMPUTATION (ABC) 9

3 DEROULEMENT DU STAGE 12

31 ADAPTATION ET COMPREHENSION 12 32 PLANIFICATION 13 33 DEVELOPPER 13

331 Simulation de tempeacuterature14 332 Simulation des eacutetats de reproduction de la plante 16 333 Parcours de lrsquoarbre 19 334 Les donneacutees21 335 Comparaison simulation ndash observation 23

CONCLUSION 26

BIBLIOGRAPHIE ET WEBOGRAPHIE 28

3

Introduction

Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en

entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de

la Recherche Scientifique soit un organisme de recherche public En effet le monde de la

recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus

mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si

possible la biologie

Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du

LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de

reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout

de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un

programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur

(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode

matheacutematique ABC

Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet

du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que

mrsquoa apporteacute cette expeacuterience professionnelle

4

1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS

11 Preacutesentation et historique du CNRS

Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le

plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement

public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle

administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche

Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute

des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le

CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la

recherche fondamentale

En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14

400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel

est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce

son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de

service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes

eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de

rechercheraquo

Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts

ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon

le classement mondial laquo Webometrics raquo

12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes

Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute

dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et

Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et

Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)

5

Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La

diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont

actives

13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation

Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et

de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre

en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du

vivant

Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les

modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des

domaines varieacutes incluant par exemple la meacutedecine et lagronomie

Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des

universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3

Etudiants en thegravese titulaires de bourses du ministegravere

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 4: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

3

Introduction

Dans le cadre du master I2A speacutecialiteacute base de donneacutees jrsquoai reacutealiseacute un laquo stage en

entreprise raquo Lrsquoentreprise que jrsquoai choisie nrsquoen est pas une puisque crsquoest le Centre National de

la Recherche Scientifique soit un organisme de recherche public En effet le monde de la

recherche mrsquoattire et je voulais profiter de ce stage pour le deacutecouvrir de lrsquointeacuterieur De plus

mon souhait eacutetait de faire un stage mecirclant lrsquoinformatique avec les matheacutematiques et si

possible la biologie

Tocirct dans lrsquoanneacutee je suis donc entreacute en contact avec Etienne Pardoux enseignant chercheur du

LATP car je savais qursquoil travaillait avec des biologistes Apregraves lui avoir exposeacute mon deacutesir de

reacutealiser mon stage dans son eacutequipe il mrsquoa rapidement proposeacute un sujet de stage qui mrsquoa tout

de suite inteacuteresseacute et qui a eacuteteacute adopteacute par lrsquoeacutequipe enseignante du master eacutecrire un

programme en Java qui permet de deacuteterminer lrsquoeacutetat geacuteneacutetique de reproduction drsquoun type fleur

(Oenothera) en fonction des donneacutees environnementales en utilisant la meacutethode

matheacutematique ABC

Dans ce rapport je vais donc vous preacutesenter lrsquoeacutequipe qui mrsquoa accueilli vous deacutecrire le sujet

du stage plus en profondeur expliquer plus en deacutetail le travail reacutealiseacute et enfin partager ce que

mrsquoa apporteacute cette expeacuterience professionnelle

4

1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS

11 Preacutesentation et historique du CNRS

Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le

plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement

public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle

administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche

Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute

des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le

CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la

recherche fondamentale

En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14

400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel

est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce

son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de

service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes

eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de

rechercheraquo

Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts

ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon

le classement mondial laquo Webometrics raquo

12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes

Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute

dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et

Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et

Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)

5

Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La

diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont

actives

13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation

Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et

de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre

en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du

vivant

Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les

modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des

domaines varieacutes incluant par exemple la meacutedecine et lagronomie

Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des

universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3

Etudiants en thegravese titulaires de bourses du ministegravere

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 5: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

4

1 Structure drsquoaccueil lrsquoeacutequipe EBM du CNRS

11 Preacutesentation et historique du CNRS

Le Centre national de la recherche scientifique plus connu sous le sigle CNRS est le

plus grand organisme public franccedilais de recherche scientifique Classeacute comme eacutetablissement

public agrave caractegravere scientifique et technologique (EPST) il est placeacute sous la tutelle

administrative du Ministegravere de lEnseignement supeacuterieur et de la Recherche

Fondeacute par le deacutecret-loi du 19 octobre 1939 le CNRS eacutetait chargeacute de laquo coordonner lrsquoactiviteacute

des laboratoires en vue de tirer un rendement plus eacuteleveacute de la recherche scientifique raquo Le

CNRS fut reacuteorganiseacute apregraves la Seconde Guerre mondiale et sorienta alors nettement vers la

recherche fondamentale

En 2007 il employait environ 30 000 personnes 26 100 permanents (11 700 chercheurs et 14

400 ingeacutenieurs techniciens et administratifs ainsi que 4000 contractuels) Son budget annuel

est denviron 3 milliards deuros dont 500 millions de ressources propres Le CNRS exerce

son activiteacute dans tous les domaines de la connaissance agrave travers 1260 uniteacutes de recherche et de

service dont la plupart sont geacutereacutees avec dautres structures (universiteacutes autres EPST grandes

eacutecoles industries) pour quatre ans sous la forme administrative dlaquouniteacutes mixtes de

rechercheraquo

Le CNRS figure au quatriegraveme rang mondial (apregraves la NASA et deux autres instituts

ameacutericains) et au premier rang europeacuteen (avant le Max-Planck Gesellschaft et le CERN) selon

le classement mondial laquo Webometrics raquo

12 Le Laboratoire drsquoAnalyse Topologie Probabiliteacutes

Le LATP est une uniteacute mixte du CNRS de lUniversiteacute dAix-Marseille I et de lUniversiteacute

dAix-Marseille III se reacutepartissant en six eacutequipes Algegravebre (6 membres) Analyse et

Geacuteomeacutetrie Complexes (17 membres) Analyse Appliqueacutee (26 membres) Probabiliteacutes et

Statistiques (16 membres) Theacuteorie des Nombres (3 membres) et Topologie (14 membres)

5

Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La

diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont

actives

13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation

Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et

de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre

en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du

vivant

Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les

modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des

domaines varieacutes incluant par exemple la meacutedecine et lagronomie

Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des

universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3

Etudiants en thegravese titulaires de bourses du ministegravere

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 6: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

5

Les matheacutematiques et les matheacutematiques appliqueacutees sont donc paritairement repreacutesenteacutees La

diversiteacute des thegravemes abordeacutes par le laboratoire est tregraves grande et toutes ses eacutequipes sont

actives

13 Lrsquoeacutequipe Evolution Biologique et Modeacutelisation

Cette eacutequipe du LATP est le fruit de la rencontre de biologistes speacutecialistes de leacutevolution et

de matheacutematiciens speacutecialistes du calcul des probabiliteacutes Ces chercheurs ont deacutecideacute de mettre

en synergie leurs compeacutetences pour faire progresser la compreacutehension de leacutevolution du

vivant

Le but de cette eacutequipe est de deacutevelopper de nouveaux concepts en eacutevolution biologique de les

modeacuteliser et de les inteacutegrer dans des systegravemes informatiques pour les appliquer dans des

domaines varieacutes incluant par exemple la meacutedecine et lagronomie

Pour cela cette eacutequipe dirigeacutee par Pierre Pontarotti est composeacutee de 3 professeurs des

universiteacutes 2 maicirctres de confeacuterences 1 Ingeacutenieur Informaticien 1 Post Doctorant et 3

Etudiants en thegravese titulaires de bourses du ministegravere

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 7: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

6

2 Le stage inteacutegreacute au travail de lrsquoeacutequipe

21 Vocabulaire

Plusieurs termes de vocabulaire sont neacutecessaires afin de comprendre lrsquoenjeu du stage

Taxon Un taxon est une entiteacute conceptuelle qui est censeacutee regrouper tous les

organismes vivants posseacutedant en commun certains caractegraveres (morphologiques

physiologiques geacuteneacutetiques etc) bien deacutefinis

Phylogeacutenie La phylogeacutenie est leacutetude de la formation et de leacutevolution des

organismes vivants en vue deacutetablir leur parenteacute La phylogenegravese est le terme le plus

utiliseacute pour deacutecrire la geacuteneacutealogie dune espegravece dun groupe despegraveces mais eacutegalement

agrave un niveau intraspeacutecifique la geacuteneacutealogie entre populations ou entre individus On

repreacutesente couramment une phylogeacutenie par un arbre phylogeacuteneacutetique La proximiteacute

des branches de cet arbre repreacutesente le degreacute de parenteacute entre les taxons les nœuds les

ancecirctres communs des taxons la longueur des branches repreacutesente la distance

geacuteneacutetique (temporelle) entre taxons

Meacutethodes Phylogeacuteneacutetiques Comparatives Ces meacutethodes (PCM) utilisent les

informations des arbres phylogeacuteneacutetiques pour comparer les espegraveces et leur eacutevolution

Ces meacutethodes sont le plus souvent utiliseacutees pour tester la correacutelation entre un

changement dans lrsquoeacutevolution et un changement de caractegravere

Oenothera sections Anogra amp Kleinia Les plantes oenothera sont vivaces annuelles

ou bisannuelles Leurs fleurs sont abondantes mais de courte dureacutee Elles preacutefegraverent le

plein soleil et un sol sableux bien draineacute

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 8: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

7

22 Eacutevolution geacuteneacutetique et eacutevolution environnementale

Lrsquohumaniteacute se trouve confronteacutee agrave des problegravemes environnementaux de plus en plus graves et

freacutequents le reacutechauffement climatique la destruction et le morcellement des habitats

naturels la surexploitation des oceacuteans lrsquoapparition de nouvelles maladies hellip

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 9: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

8

Les systegravemes eacutecologiques sont caracteacuteriseacutes par une complexiteacute unique aucune autre science

lie une si grande multitude de niveaux (gegravenes individus populations espegraveces communauteacutes

eacutecosystegravemes) interagissant sur des eacutechelles temporelles et spatiales aussi diffeacuterentes Le deacutefi

est de comprendre comment de tels systegravemes fonctionnent et eacutevoluent

23 Thegraveme geacuteneacuteral du stage

Le but de notre projet est dappliquer la meacutethode ABC (Approximate Bayesian

Computation) sur leacutevolution des fleurs On a donc des plantes (fleurs) qui peuvent exister

dans 2 eacutetats geacuteneacutetiques diffeacuterents concernant sa reproduction

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire

- Etat Clonage La fleur peut se reproduire elle-mecircme

Pour cela on dispose de donneacutees environnementales concernant le climat (Au cours du stage

seule la tempeacuterature a eacuteteacute eacutetudieacutee) On veut deacutecider si les conditions climatologiques influent

sur leacutetat geacuteneacutetique de la fleur On a pour cela un arbre phylogeacuteneacutetique qui relie les fleurs

entre elles On peut supposer sur larbre que

1113088 La tempeacuterature satisfait une eacutequation diffeacuterentielle stochastique (EDS)

1113088 Leacutetat geacuteneacutetique eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa et qui deacutependent de la tempeacuterature

Gracircce agrave la meacutethode ABC on voudra estimer quatre paramegravetres

1113088 a et b qui sont les valeurs de la tempeacuteratures pour lesquelles on passe dune valeur tempeacutereacutee

agrave une valeur extrecircme

1113088 α et β qui correspondront aux valeurs de λ(t) et micro(t) en fonction de la valeur de la

tempeacuterature

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 10: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

9

24 La meacutethode Approximate Bayesian Computation (ABC)

Approche Bayesienne Le theacuteoregraveme de Bayes est utiliseacute en statistique pour deacuteterminer les

estimations drsquoune probabiliteacute ou drsquoun paramegravetre quelconque agrave partir des observations et des

lois de probabiliteacute de ces observations

Lideacutee de base de cette approche reacuteside dans le fait que lon suppose connaicirctre une information

a priori sur les paramegravetres θ et que lon peut la traduire sous la forme dune loi a priori q(θ)

Lobjectif eacutetant donc dutiliser cette information Sachant que linformation contenue dans les

observations x est contenue dans p(x|θ) et linformation a priori sur θ dans q(θ) on peut

utiliser la regravegle de Bayes pour combiner ces deux types dinformations et deacutefinir la loi a

posteriori qui contiendra donc toute information sur θ

Regravegle de Bayes

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 11: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

10

Approximate Bayesian Computation Lideacutee de la meacutethode est de se donner pour les

paramegravetres dune observation θ une loi de probabiliteacute a priori q(θ) de sorte que le paramegravetre

est conccedilu comme la reacutealisation dune variable aleacuteatoire Θ Si on note D le vecteur des

variables aleacuteatoires qui sont observeacutees et d le vecteur des valeurs observeacutees (d comme

donneacutees) la vraisemblance Pθ (D = d) est alors vue comme la probabiliteacute conditionnelle P

(D = d |θ)

On cherche alors la probabiliteacute a posteriori P (θ |D = d) gracircce agrave la formule de Bayes

1113096 La caracteacuteristique la plus eacutevidente de cette meacutethode est quelle integravegre les connaissances a

priori que lon peut avoir sur les paramegravetres Cest eacutegalement ce qui en fait une meacutethode

controverseacutee puisque le choix de la probabiliteacute a priori nest pas anodin et neacutecessite donc une

ideacutee conccedilue avant lobservation On peut bien sucircr deacutefinir une probabiliteacute a priori uniforme

pour θ mais ce nest pas vraiment eacutequivalent agrave dire que lon ne connaicirct rien de θ

Un des inteacuterecircts est que la quantiteacute obtenue est aiseacutement interpreacutetable il sagit de la

probabiliteacute davoir un jeu de paramegravetres donneacute connaissant lobservation

Lapproche dite ABC (pour Approximate Bayesian Computations) combine deux eacutetapes

successives La premiegravere consiste agrave simuler des jeux de donneacutees fictifs obtenus en tirant des

valeurs au hasard des paramegravetres et agrave reacutesumer linformation quils contiennent agrave laide de

statistiques bien choisies Lideacutee est de saturer au mieux lespace des paramegravetres au sens de la

distribution a priori de ces paramegravetres La seconde eacutetape consiste agrave eacutetablir la distribution a

posteriori des paramegravetres par une analyse de reacutegression locale (des paramegravetres par rapport aux

statistiques reacutesumeacutees) centreacutee autour des valeurs des statistiques calculeacutees agrave partir des

donneacutees observeacutees

Cette approche preacutesente deux caracteacuteristiques dun grand inteacuterecirct La premiegravere est de permettre

danalyser des situations complexes en particulier dans des cas ougrave il nest pas possible de

calculer la vraisemblance degraves lors quon est capable de mettre en oeuvre les simulations

correspondantes

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 12: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

11

La seconde est de permettre sans grand effort suppleacutementaire une eacutevaluation de la qualiteacute des

estimations (biais erreur quadratique moyenne) En outre lapproche ABC permet de

prendre en compte une eacuteventuelle liaison geacuteneacutetique entre marqueurs ce quaucune autre

meacutethode ne peut faire pour linstant

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 13: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

12

3 Deacuteroulement du stage

31 Adaptation et compreacutehension

Le stage srsquoest deacuterouleacute dans les locaux de lrsquoeacutequipe EBM agrave la faculteacute de St Charles agrave

Marseille ougrave il mrsquoa eacuteteacute fourni un iMac 20 pouces Afin de deacutevelopper dans un environnement

connu jrsquoy ai installeacute Eclipse et diffeacuterents plugin (eclemma junit etchellip) Le logiciel R mrsquoa

eacutegalement servi pour certaine partie de calcul et drsquoanalyse matheacutematiques Jrsquoai eacutegalement

travailleacute sur mon ordinateur personnel lorsque la Faculteacute eacutetait inaccessible (blocage ou autres

raisons) ou encore lorsque je travaillais en dehors du laboratoire Durant le stage jrsquoai eacuteteacute

encadreacute par Etienne Pardoux mon maicirctre de stage mais eacutegalement par Manuela Royer pour

lrsquoaspect matheacutematique et jrsquoai eacutegalement eacuteteacute aideacute par Olivier Chabrol pour lrsquoaspect

informatique

Durant le stage jrsquoai assisteacute agrave des groupes de travail par exemple celui sur la geacuteneacutetique des

populations ougrave jrsquoai rencontreacute Michael Blum (speacutecialiste de la meacutethode ABC de lrsquoeacutequipe

biologie et matheacutematique du laboratoire de Techniques de lrsquoIngeacutenierie Meacutedicale et de la

Complexiteacute - Informatique Matheacutematiques et Applications de Grenoble) Jrsquoai aussi participeacute

agrave une journeacutee du seacuteminaire du CIRM (Centre International de Rencontres Matheacutematiques)

traitant des Modegraveles probabilistes de leacutevolution du vivant ougrave jrsquoai rencontreacute Margaret Evans

chercheuse du laboratoire Ecologie amp Evolution travaillant sur lrsquoeacutevolution geacuteneacutetique de

lrsquoOenothera

La premiegravere eacutetape du stage aurait ducirc bien entendu ecirctre de rencontrer toute lrsquoeacutequipe et de

comprendre les speacutecialiteacutes de chacun Mais pour mon premier jour de stage la Faculteacute St

Charles a connu son premier jour de fermeture en raison des eacutemanations des gaz toxiques

Sachant qursquoil serait neacutecessaire de me plonger dans la biologie matiegravere que jrsquoai quitteacute lors de

mon entreacutee en classe de 1egravere Science de lrsquoIngeacutenieur jrsquoai donc passeacute ce temps de fermeture

une semaine environ agrave assimiler un certain nombre notions de bases Heureusement pour

savoir sur quelles notions je devais me pencher jrsquoai pu mrsquoappuyer sur le meacutemoire de deux

eacutetudiantes en GSI (Fatou Drameacute et Roxane Fabre) qui ont reacutealiseacute lrsquoeacutetude matheacutematique du

problegraveme que jrsquoallais traiter durant mon stage

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 14: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

13

Eacutevidemment degraves la reacuteouverture de la Faculteacute jrsquoai pu faire connaissance avec les membres du

laboratoire et en savoir plus sur leur travail Ensuite il mrsquoa fallu comprendre lrsquoorientation des

recherches du laboratoire afin de savoir comment srsquointeacutegrait mon stage dans cette eacutequipe

Avant de commencer le deacuteveloppement et la programmation Etienne Pardoux et Manuela

Royer ont pris le temps de mrsquoexpliquer deux points matheacutematiques importants

- Comment simuler la tempeacuterature

- La meacutethode ABC

32 Planification

Une fois que jrsquoai compris toutes les eacutetapes qui seraient neacutecessaires pour mener agrave bien le

projet jrsquoai eacutetabli un ordre selon lequel jrsquoallais programmer

A Etude des donneacutees

B Simulations de la tempeacuterature et tests

C Simulations des Etat de la fleur en fonction de la tempeacuterature et tests

D Simulations en parcourant un arbre phylogeacuteneacutetique et tests

E Simulations de parcours drsquoarbre en variant les paramegravetres et tests

F Comparaison des simulations et les donneacutees reacuteelles garder les meilleures en deacuteduire la

loi des paramegravetres

33 Deacutevelopper

Comme je lrsquoai eacutecrit dans la planification lrsquoideacuteal est de disposer des donneacutees reacuteelles

avant de commencer tout travail de deacuteveloppement Malheureusement cela nrsquoest pas toujours

possible Comme cela a eacuteteacute le cas lors de notre projet appeleacute Djamass durant mon stage jrsquoai

eu les donneacutees agrave ma disposition tardivement dans lrsquoavancement du projet Jrsquoai donc

commenceacute agrave deacutevelopper en supposant avoir certains types de donneacutees

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 15: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

14

Le programme que jrsquoeacutecris sera repris dans un futur pour par exemple y modifier la

simulation de la tempeacuterature Il eacutetait donc important drsquoeacutecrire des meacutethodes avec un but bien

deacutefini qui peut ecirctre remplaceacute sans modifier le reste du programme Toujours dans lrsquoaspect

drsquoutilisation etou modification du programme par une autre personne les commentaires ont

une grande importance je me suis donc appliqueacute agrave commenter tout le code

Par ailleurs pour faciliter la compreacutehension de la structure jrsquoai reacutealiseacute un diagramme de

classe qui permet de comprendre rapidement les liens entre les diffeacuterentes classes

Concernant les tests unitaires jrsquoai utiliseacute JUnit dans la mesure du possible En effet

lrsquoutilisation est limiteacutee par le fait qursquoun grand nombre de variables sont tireacutees aleacuteatoirement

et il est donc difficile de reacutealiser des tests sur ce genre drsquoobjet Jrsquoai donc creacuteeacute des jeux de tests

agrave la main mais qui ne permettent pas de tester en conditions reacuteelles puisque les ordres de

grandeur en nombres de variables sont tregraves grands

331 Simulation de tempeacuterature

La simulation de tempeacuterature est un point important du projet Sa principale difficulteacute est

drsquoarriver agrave trouver les bons laquo reacuteglages raquo des paramegravetres afin drsquoobtenir une eacutevolution de

tempeacuterature qui correspond avec ce qui est possible dans le monde reacuteel

Pour simuler la tempeacuterature nous avons utiliseacute le modegravele de Cox-Ingersoll-Ross (CIR) Ce

modegravele est utiliseacute en matheacutematiques financiegraveres pour modeacuteliser leacutevolution des taux dinteacuterecirct

court terme Il srsquoagit en fait de la solution drsquoune eacutequation diffeacuterentielle inteacutegrant un

mouvement brownien (un processus stochastique)

Utiliser ce modegravele permet drsquoavoir des variations de tempeacuteratures en eacutevitant des sauts trop

brutaux et drsquoavoir une tempeacuterature qui revient toujours autour de la moyenne tout en restant

comprise entre un maximum et un minimum que nous avons deacutetermineacute en fonction des

observations

Les paramegravetres agrave laquo reacutegler raquo sont donc la valeur moyenne agrave laquelle doit revenir la

tempeacuterature ainsi que la vitesse agrave laquelle elle y revient Plus de deacutetails sur le modegravele CIR

sont donneacutes en annexe dans le meacutemoire des eacutetudiantes en GSI

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 16: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

15

Voici un exemple de simulation de tempeacuteratures

et lrsquoanalyse reacutealiseacutee avec le logiciel R

Cet histogramme et cette laquo boicircte agrave moustache raquo permettent de veacuterifier que la plupart des

valeurs sont autour de la moyenne

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 17: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

16

Comme je le disais la difficulteacute est drsquoarriver agrave bien reacutegler les paramegravetres afin drsquoavoir une

simulation correspondante au monde reacuteel Dans notre cas une autre difficulteacute srsquoy ajoute nous

ne connaissons pas la tempeacuterature reacuteelle En effet nous souhaitons simuler ces tempeacuteratures

pour simuler le climat notamment des ancecirctres de la plante Or nous ne connaissons pas le

climat passeacute et de plus les diffeacuterentes espegraveces de fleurs sont situeacutees dans diffeacuterentes zones

geacuteographiques et donc avec diffeacuterents climats

Au final la simulation de la tempeacuterature reste agrave ameacuteliorer peut-ecirctre en essayant de prendre en

compte les minces informations que nous avons sur le climat passeacute Concernant le stage il est

difficile de dire dans quelle mesure la qualiteacute des simulations de tempeacuteratures joue sur les

reacutesultats finaux

332 Simulation des eacutetats de reproduction de la plante

Comme il est eacutecrit dans la description geacuteneacuterale du problegraveme la fleur peut prendre deux eacutetats

- Etat laquo normal raquo La fleur a besoin dautres plantes et insectes transportant le pollen pour se

reproduire noteacute 0

- Etat Clonage La fleur peut se reproduire elle-mecircme noteacute 1

Leacutetat eacutevolue comme un processus markovien de sauts agrave valeur dans 0 1

De plus on a les taux λ(t) et micro(t) pour lesquels on passe dun eacutetat normal agrave un eacutetat de clonage

et vice-versa Nous simulons les plateaux des taux micro(t) et λ(t) par deux processus de Poisson

dintensiteacute α et β Un processus de Poisson est un processus de comptage qui donne donc

toujours une valeur supeacuterieure agrave la preacuteceacutedente

Par ailleurs lrsquoeacutevolution de lrsquoeacutetat de reproduction de la plante deacutepend aussi de la tempeacuterature

Nous allons donc aussi eacutecrire la tempeacuterature sous forme drsquoun processus de saut Pour cela

nous consideacuterons que la tempeacuterature agrave deux Etats

- Tempeacuterature extrecircme

- Tempeacuterature tempeacutereacutee

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 18: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

17

Une tempeacuterature est consideacutereacutee comme tempeacutereacutee si elle entre une valeur a et une valeur b a

et b eacutetant deacutefinis tels que 16 des tempeacuteratures soit infeacuterieur agrave a et 16 des tempeacuteratures soit

supeacuterieur agrave b

Nous avons donc trois processus de sauts

Un processus de saut de tempeacuterature qui saute agrave chaque changement tempeacutereacuteextrecircme

Un processus de saut de Poisson drsquointensiteacute α qui saute agrave chaque changement Etat

Clonage vers Etat Normal

Un processus de saut de Poisson drsquointensiteacute β qui saute agrave chaque changement Etat

Normal vers Etat Clonage

Lrsquoeacutetat de reproduction E est noteacute 0 srsquoil est normal srsquoil est clonage alors il est noteacute 1

La tempeacuterature Y dans la tranche tempeacutereacutee est noteacutee 1 et 0 en cas de tempeacuterature extrecircme

On considegravere au deacutepart que nous avons le couple (EY) = (01) soit eacutetat de reproduction

normal et tempeacuterature tempeacutereacutee

Le tableau suivant nous indique quel processus de Poisson il faut regarder en fonction de la

valeur du couple (EY)

Etat E = 0 Etat E = 1

Tempeacuterature Y =

0 Processus (α) Processus (β)

Tempeacuterature Y =

1 Processus (β) Processus (α)

La valeur de Y ne varie que en fonction du processus de saut de tempeacuterature

Si E=Y alors lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute α

Sinon lrsquoEtat de reproduction change en fonction du processus de poisson drsquointensiteacute β

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 19: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

18

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 20: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

19

333 Parcours de lrsquoarbre

Pour le parcours de lrsquoarbre jrsquoai utiliseacute une librairie sous licence GNU-GPL deacutejagrave existante

speacutecialiseacutee dans les arbre phylogeacuteneacutetiques forester (httpsourceforgenetprojectsforester-

atv) Cette librairie comprend plusieurs meacutethodes drsquoanalyse drsquoarbre phylogeacuteneacutetique eacutecrites en

Java et en Perl et un jar qui permet notamment de visualiser un arbre avec interface

graphique et drsquoen afficher plusieurs informations (longueur de branches distance agrave la racine

nombre drsquoancecirctres nombre de feuilles descendantes de ce nœud)

figure forester 1

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 21: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

20

figure forester2

Cette librairie accepte les arbres sous diffeacuterents formats phyloXML NHX Newick Nexus

etchellip) mais dans le cadre du stage je nrsquoutiliserai qursquoun seul format le NHX (New Hampshire

eXtended)

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 22: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

21

Pour bien comprendre lrsquoimportance drsquoun outil tel que forester voici un exemple drsquoarbre

phylogeacuteneacutetique eacutecrit en NHX

(((((eur0002361cal0002361)0006291(az0007341(av0006507neo0006507)834E-

4)0001311)0002625

(((((pip0005981cog0005981)0001391(deh0005219wig0005219)0002153)783E-

4how0008155)0001749amb0009904)16E-

4(((lat0006297runc0006297)00pal0006297)336E-

4tri0006633)0003431)0001213)109E-

4(eng0009687alb0009687)00017)0003516(nut0013674cor0013674)0001228)00

Le code source eacutetant ouvert jrsquoai pu utiliser des classes pour parcourir lrsquoarbre et reacutecupeacuterer des

informations utiles comme connaicirctre la hauteur de lrsquoarbre le nombre de feuilles ou les

informations eacutenonceacutees plus haut Cela peut paraicirctre simple mais cette librairie nrsquoa pas de

documentation et pour trouver les bonnes meacutethodes il faut donc partir laquo agrave la pecircche raquo dans le

code

334 Les donneacutees

Crsquoest agrave ce niveau de programmation que jrsquoai eu agrave ma disposition les donneacutees reacuteelles lrsquoarbre

phylogeacuteneacutetique de lrsquoespegravece (celui afficheacute par forester sur la figure forester1) qui est donc un

arbre agrave 19 feuilles et un tableau deacutecrivant les tempeacuteratures aux feuilles et lrsquoeacutetat geacuteneacutetique de la

plante agrave lrsquoheure actuelle crsquoest agrave dire agrave la feuille

Agrave partir de ces donneacutees jrsquoai pu deacuteterminer ce que lrsquoon considegravere comme une tempeacuterature

extrecircme ou tempeacutereacutee Jrsquoai eacutegalement pu analyser les correacutelations entre les eacutetats des feuilles et

les tempeacuteratures en utilisant la reacutegression logistique et un test du Chi2 sur R La conclusion

est conforme agrave ce que nous attendions La tempeacuterature influe fortement sur leacutetat geacuteneacutetique

Margaret Evans mrsquoa fourni un chronogramme de lrsquoespegravece qui mrsquoa permis de savoir sur quel

ordre de grandeur en temps lrsquoarbre descend eacutetablissant ainsi le pas pour la simulation des

tempeacuteratures

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 23: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

22

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 24: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

23

Avec ceci eacutetait joint un diagramme indiquant la probabiliteacute de lrsquoEtat geacuteneacutetique en fonction de

la tempeacuterature

Ce diagramme confirme encore lrsquohypothegravese de deacutepart la tempeacuterature influe sur lrsquoEtat

geacuteneacutetique

335 Comparaison simulation ndash observation

Pour reacutealiser cette comparaison jrsquoai utiliseacute une distance simple

Pour une feuille si lrsquoeacutetat de tempeacuterature correspond agrave lrsquoeacutetat tempeacuterature de la mecircme feuille

observeacutee ET que lrsquoeacutetat geacuteneacutetique correspond agrave lrsquoeacutetat geacuteneacutetique de la mecircme feuille observeacutee

alors la similariteacute est increacutementeacutee de 1 La similariteacute pour chaque simulation drsquoarbre est donc

comprise entre 0 et 19 (nombre de feuilles de lrsquoarbre)

Ensuite on regarde la similariteacute de la x-iegraveme meilleure x eacutetant 1 du nombre de simulations

reacutealiseacutees Et on garde toutes les simulations ayant une similariteacute supeacuterieure ou eacutegale Nous

avons donc gardeacute un peu plus de 1 des simulations

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 25: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

24

Par ailleurs nous avons reacutealiseacute ces simulations en utilisant 3 modegraveles diffeacuterents avec

diffeacuterentes faccedilons de deacutefinir les intensiteacutes de processus de poisson α et β

1er modegravele α suit une loi uniforme sur [01 1] et β suit une loi uniforme sur [11 5]

et donc α lt β

2egraveme modegravele α = β et suivent une loi uniforme sur lrsquointervalle [01 5]

3egraveme modegravele on tire deux variables qui suivent une loi uniforme sur lrsquointervalle [0 5]

et on attribue la plus petite valeur agrave α et la plus grande agrave β et donc α lt β

Ensuite on compare les reacutesultats des modegraveles de maniegravere agrave voir si un modegravele fournit de

meilleurs reacutesultats

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 26: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

25

Sur cette figure par exemple on voit que le modegravele laquo lambda1 = lambda2 raquo ce qui

correspondant en fait agrave α = β fournit de meilleure reacutesultats que lrsquoautre

Une fois le meilleur modegravele deacutetermineacute on regarde les valeurs de α et β pour ses meilleures

simulations (meilleures au sens expliqueacute plus haut) et gracircce agrave une reacutegression reacutealiseacutee sur R on

en deacuteduit la loi que suivent α et β crsquoest la loi a posteriori

Pour finir on refait des simulations avec les α et β qui suivent la loi a posteriori et on attend

des taux de similariteacute eacuteleveacutes

Malheureusement le temps a manqueacute pour pouvoir mener agrave bout lrsquoanalyse de ces reacutesultats

En effet un grand nombre de simulation eacutetant neacutecessaire (plusieurs millions) avec agrave chaque

fois un parcours drsquoarbre en entier eacutecriture dans des fichiers etchellip Le temps drsquoexeacutecutions est

assez long (environ 6h) et les simulations de tempeacuterature nrsquoeacutetant pas optimums les reacutesultats

obtenus ne sont pas exploitables En effet les meilleurs reacutesultats de simulation ont une

similariteacute de 10 pour 19 feuilles ce qui est trop peu pour pouvoir tirer des conclusions de

maniegravere sure

Neacuteanmoins le programme fonctionne bien et est eacutecrit pour tout faire jusqursquoagrave la comparaison

des reacutesultats et le script de R pour trouver la loi a posteriori est eacutecrit aussi

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 27: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

26

Conclusion

Depuis mon arriveacutee agrave lrsquoUniversiteacute je voulais mecircler les matheacutematiques et lrsquoinformatique et si

possible appliquer ce duo agrave la biologie Dans cette optique jrsquoai donc suivi un parcours

Matheacutematiques-Informatique puis commenceacute un master GSI en pensant emprunter le

parcours bio-informatique qui finalement nrsquoa pas ouvert Par ailleurs jrsquoai deacutecouvert

lrsquoexistence du master I2A speacutecialiteacute base de donneacutees et son contenu Tout de suite jrsquoai

compris que ce que jrsquoapprendrais cette anneacutee me permettrait de reacutealiser mon souhait Mecircme

si lrsquoaspect biologie ne fait pas partie du cursus je savais que je pourrai reacutealiser un stage dans

ce domaine Crsquoest aujourdrsquohui chose faite

En plus de pouvoir travailler dans un environnement pluridisciplinaire ce stage mrsquoa permis de

passer quatre mois dans le monde de la recherche publique qui mrsquoattirait depuis longtemps

Jrsquoai pu deacutecouvrir un monde laquo bouillonnant raquo et composeacute de passionneacutes Je nrsquooublierai jamais

ce repas au CIRM ougrave la serveuse srsquoarrachait les cheveux de voir au milieu de la table pendant

le repas des courbes de tempeacuterature un ordinateur ouvert sur un langage incompreacutehensible

ougrave personne ne mangeait au mecircme rythme et ougrave les discussions mecirclaient anglais et franccedilais

Lrsquoaspect pluridisciplinaire mrsquoa eacutenormeacutement apporteacute mecircme si il nrsquoest pas toujours facile de se

comprendre mais avec la bonne volonteacute de chacun cela a toujours eacuteteacute couronneacute de succegraves

Du point de vue informatique manquant drsquoexpeacuterience en deacuteveloppement faire un stage dont

crsquoeacutetait une grande partie mrsquoa permis de me renforcer dans ce domaine Ce stage mrsquoa

eacutegalement permis drsquoappliquer les connaissances acquises cette anneacutee comme les tests

unitaires ou tout ce qui est meacutethode drsquoanalyse comme la reacutegression logistique De plus le

stage mrsquoa donneacute la possibiliteacute de travailler sur des volumes de donneacutees importants ce qursquoon

ne peut reacutealiser pendant lrsquoanneacutee universitaire puisqursquoon ne peut pas se permettre de lancer

une exeacutecution qui dure 6h ou plus

Par ailleurs jrsquoai appris les rudiments de R qui est souvent utiliseacute en biologie ce qui pourra

mrsquoecirctre fort utile pour la suite ou plutocirct pour le deacutebut de ma carriegravere professionnelle

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 28: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

27

Drsquoun point de vue humain jrsquoai appris agrave travailler en eacutequipe agrave distance (chercheurs agrave Grenoble

et aux Etats-Unis) ce qui je pense sera de plus en plus le cas dans les anneacutees agrave venir Cela

neacutecessite une confiance mutuelle et une prise de responsabiliteacute de chacun ce mode de travail

mrsquoa donc appris agrave ecirctre autonome et agrave reacutesumer le travail effectueacute pour permettre lrsquoavancement

du travail des collegravegues Ce stage mrsquoa beaucoup apporteacute humainement et professionnellement

et mrsquoa convaincu de travailler plus tard en partenariat avec un laboratoire de recherche

publique et de continuer dans la voix de la pluridisciplinariteacute

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr

Page 29: Rapport de Stage : Application de la méthode ABC …sites.univ-provence.fr/.../rapports/simonmore_rapportdestage_bda.pdf · Maître de Stage : Etienne PARDOUX Responsables du Master

28

Bibliographie et Webographie

[1] Cleacutement Fabre Meacutethodes Bayeacutesiennes pour la phylogeacutenie [2] Freacutedeacuteric Delsuc et Emmanuel JP Douzery les meacutethodes probabilistes en phylogeacutenie moleacuteculaire [3] Etienne Pardoux Processus de Markov et Applications [4] Mark A Beaumont Wenyang Zhang and David J Balding Approximate Bayesian Computation in Population Genetics [5] Jean-Marie Cornuet Infeacuterence bayeacutesienne dans des sceacutenarios eacutevolutifs complexes avec populations meacutelangeacutees application agrave labeille domestique [6] Vincent Plagnol and Simon Tavareacute Approximate Bayesian Computation and MCMC [7] Spencer CHBarrett The Evolution of Plant Sexual Diversity [8] Kent E Holsinger Reproductive systems and evolution in vascular plants [9] Boris Igic Russell Lande and Joshua RKohn Loss Of Self-Incompatibility And Its Evolutionary Consequences [10] Naoki Takebayashi And Peter L Morrell Is Self-Fertilization An Evolutionary Dead End Revisiting An Old Hypothesis With Genetic Theories And A Macroevolutionary Approach [11] Daniel Barker Mark Pagel Predicting Functional Gene Links from Phylogenetic-Statistical Analyses of Whole Genomes [12] Revell L J and D C Collar Phylogenetic analysis of the evolutionary correlation using likelihood [13] httpfrwikipediaorg et httpenwikipediaorg [14] httpwwwcnrsfr httpsitesuniv-provencefrevolindexphp et httpecologiesnvjussieufr