View
41
Download
3
Category
Preview:
DESCRIPTION
ÉLUCIDATION DU METABOLISME DESMICROORGANISMES PAR LA MODELISATION ETL’INTERPRETATION DES DONNEESD’ESSENTIALITE DE GENES.APPLICATION AU METABOLISME DE LA BACTERIEACINETOBACTER BAYLYI ADP1.
Citation preview
2009EVRY0017
ÉLUCIDATION DU METABOLISME DES
MICROORGANISMES PAR LA MODELISATION ET
L’INTERPRETATION DES DONNEES
D’ESSENTIALITE DE GENES.
APPLICATION AU METABOLISME DE LA BACTERIE ACINETOBACTER BAYLYI ADP1.
MAXIME DUROT
Thèse de Doctorat Spécialité : Bioinformatique, biologie structurale et génomique
Université Evry Val d’Essonne
École doctorale : Des génomes aux organismes
Soutenue le 12 octobre 2009 devant le jury composé de :
Jean-Pierre MAZAT rapporteur Stefan SCHUSTER rapporteur Antoine DANCHIN examinateur Eytan RUPPIN examinateur Vincent SCHACHTER directeur de thèse Jean WEISSENBACH directeur de thèse
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
3
RESUME
Deux échelles d’observations sont traditionnellement utilisées pour étudier le métabolisme des microorganismes: d’une part, à l’échelle locale, la caractérisation individuelle des réactions ayant lieu dans la cellule et d’autre part, à l’échelle globale, l’étude de la physiologie de la cellule. Ces deux échelles ont bénéficié de progrès technologiques récents : l’analyse des génomes séquencés permet d’identifier une large fraction des enzymes catalysant les réactions ; la physiologie des microorganismes peut être étudiée à haut débit pour de nombreux environnements et perturbations génétiques. Cependant, l’exploitation conjointe de ces deux échelles demeure complexe car le comportement physiologique global de la cellule résulte de l’action coordonnée de nombreuses réactions. Les approches de modélisation mathématique ont toutefois récemment permis de relier ces deux échelles à l’aide de modèles globaux du métabolisme. Dans cette thèse, nous explorerons l’utilisation de ces modèles pour compléter la connaissance des réactions à l’aide d’une catégorie particulière de données d’échelle globale : les essentialités de gènes déterminées en observant les phénotypes de croissance de mutants de délétion. Nous nous appuierons pour cela sur la bactérie Acinetobacter baylyi ADP1 pour laquelle une collection complète de mutants de délétion a été récemment constituée au Genoscope. Après avoir présenté les étapes clés et les développements que nous avons effectués pour reconstruire un modèle global du métabolisme d’A. baylyi, nous montrerons que la confrontation entre phénotypes observés et phénotypes prédits permet de mettre en évidence des incohérences entre les deux échelles d’observations. Nous montrerons ensuite qu’une interprétation formelle de ces incohérences permet de corriger le modèle et d’améliorer la connaissance du métabolisme. Nous illustrerons ce propos en présentant les corrections que nous avons réalisées à l’aide des phénotypes de mutants d’A. baylyi. Enfin, dans une dernière partie, nous proposerons une méthode permettant d’automatiser la correction des incohérences causées par des erreurs d’association entre gènes et réactions.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
5
ABSTRACT
Model-based investigation of microbial metabolism to interpret gene essentiality results, illustrated on Acinetobacter baylyi ADP1 metabolism. Microbial metabolism has traditionally been investigated at two different scales: the finest involves characterizing individually each reaction occurring in the cell; the largest focuses on global cell physiology. Both scales have recently benefited from technological advances: analyzing sequenced genomes identifies a large fraction of reaction-catalyzing enzymes; cell physiology can be determined at high-throughput for several environmental conditions and genetic perturbations. Combining both scales remains, however, especially complex as the global physiological behavior of a cell results from the coordinated action of a large network of reactions. Mathematical modeling approaches have yet shown recently that genome-scale metabolic models could help in linking both scales. In this thesis, we explore the use of such models to expand the knowledge of reactions with a specific type of high-level data: gene essentiality data, assessed using growth phenotypes of deletion mutants. We will use as model organism the bacterium Acinetobacter baylyi ADP1, for which a genome-wide collection of gene deletion mutants has recently been created. Following a presentation of the key steps and developments that have been required to reconstruct a global metabolic model of A. baylyi, we will show that confronting observed and predicted phenotypes highlight inconsistencies between the two scales. We will then show that a formal interpretation of these inconsistencies can guide model corrections and improvements to the knowledge of metabolism. We will illustrate this claim by presenting model corrections triggered by A. baylyi mutant phenotypes. Finally, we will introduce a method that automates the correction of inconsistencies caused by wrong associations between genes and reactions.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
7
REMERCIEMENTS
Je tiens à remercier en premier lieu Vincent Schachter, pour m'avoir tout d'abord
convaincu d'entreprendre cette thèse puis guidé scientifiquement ces quatre années. Il
aura été le garant de la présence de développements méthodologiques et théoriques
dans mes travaux, sachant me faire prendre du recul à bon escient lorsqu’il m’arrivait
de me perdre dans les détails de la biochimie d’Acinetobacter baylyi.
Professionnellement, je lui suis largement redevable de m'avoir introduit dans la vie
scientifique internationale à travers les collaborations, projets européens, séminaires
et conférences auxquels il m'a associé.
Je remercie de même Jean Weissenbach pour avoir accepté de diriger ma thèse et
permis le développement de mon sujet de recherche, relativement original au
Genoscope. Mes travaux se sont fondés sur les nombreux échanges qu’il aura su
favoriser avec les équipes expérimentales du laboratoire.
Un très grand merci à tous les membres de l’équipe Nemo, présents et passés, avec
qui j’ai travaillé au quotidien et pu échanger des idées sur mes travaux : F. Le Fèvre,
B. Pinaud, S. Smidtas, C. Combe, M. Heinig, V. Sabarly, P-Y. Bourguignon, G.
Vieira et R. Baran. Merci en particulier à François Le Fèvre avec qui j’ai partagé la
lourde tâche de parcourir le métabolisme entier d’A. baylyi et pour ses
encouragements de collègue de bureau.
Je remercie vivement l’ensemble de l’équipe Thesaurus Métabolique du
Genoscope, et en particulier Véronique de Berardinis et Marcel Salanoubat, pour
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
8
avoir apporté de la « réalité expérimentale » à mes travaux. Merci d’avoir passé de
longues heures à m’aider à mieux comprendre les habitudes d’A. baylyi et de ses
mutants !
Je remercie également Alain Perret et Christophe Lechaplais pour leurs
contributions expérimentales à cette thèse, ainsi qu’Annett Kreimeyer et Georges
Cohen pour avoir pris le temps de puiser dans leur formidable connaissance du
métabolisme pour répondre à mes questions.
Merci à l’Atelier de Génomique Comparative, et en particulier à David Vallenet
pour m’avoir donné une loupe pour explorer les génomes bactériens et à Claudine
Médigue pour m’avoir permis de conclure ma thèse dans son équipe.
L’aide de l’équipe informatique du Genoscope m’aura souvent été précieuse,
merci à eux pour leur support et leurs conseils.
Je remercie les membres du jury pour m’avoir fait l’honneur de leur présence à ma
soutenance et m’avoir aidé, par leur remarques et conseils, à améliorer mon
manuscrit.
Je suis très reconnaissant envers le Genoscope et le CEA pour m'avoir permis de
réaliser cette thèse conjointement avec mes activités professionnelles.
Enfin, un grand merci pour leur soutien sans faille à mes parents, ma sœur, ma
belle-famille et l’ensemble de mes proches que je ne saurai lister ici. Et, plus que tout,
merci à ma femme, Marie-Perrine, pour son amour qui aura toujours su me remotiver
dans les moments difficiles et pour avoir mené de front avec succès préparation de
mariage et soutien de conjoint en rédaction de thèse !
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
9
TABLE DES MATIERES
RESUME ........................................................................................................................................................3
ABSTRACT ...................................................................................................................................................5
REMERCIEMENTS ....................................................................................................................................7
TABLE DES MATIERES ...........................................................................................................................9
AVANT-PROPOS.......................................................................................................................................13
INTRODUCTION.......................................................................................................................................17
1 LE METABOLISME : LA CHIMIE DU VIVANT .......................................................................17
1.1 QUELQUES FAITS REMARQUABLES ................................................................................................17 1.2 LES ACTEURS DU METABOLISME....................................................................................................22
1.2.1 Métabolites .............................................................................................................................22 1.2.2 Réactions ................................................................................................................................23 1.2.3 Enzymes ..................................................................................................................................24 1.2.4 Cinétique des réactions métaboliques ..................................................................................25 1.2.5 Contrôle des réactions métaboliques ...................................................................................28 1.2.6 Aspects thermodynamiques ...................................................................................................29
1.3 STRUCTURE ET ORGANISATION DU METABOLISME .......................................................................31 1.3.1 Le réseau métabolique...........................................................................................................31 1.3.2 Organisation globale du métabolisme..................................................................................34
1.4 METHODES D’EXPLORATION DU METABOLISME ...........................................................................37 1.4.1 Élucidation expérimentale des voies métaboliques .............................................................37 1.4.2 Méthodes bioinformatiques de reconstruction des réseaux métaboliques.........................39 1.4.3 Vers une étude globale du métabolisme...............................................................................41
2 PHENOTYPES DE CROISSANCE ET ESSENTIALITE DE GENES .....................................44
2.1 PHENOTYPES DE CROISSANCE ........................................................................................................44 2.2 EXPLORATION GENETIQUE DES PHENOTYPES DE CROISSANCE .....................................................46
2.2.1 Techniques expérimentales ...................................................................................................47 2.2.2 Exploitation des données d’essentialité................................................................................53
3 MODELISATION DU METABOLISME .......................................................................................56
3.1 APPROCHES DE MODELISATION DU METABOLISME .......................................................................57 3.2 LES MODELES A BASE DE CONTRAINTES : RECONSTRUCTION ET APPLICATIONS .........................63
3.2.1 Article de revue ......................................................................................................................64 3.2.2 Compléments méthodologiques ............................................................................................65
3.3 MODELISATION DU METABOLISME ET PHENOTYPES DE CROISSANCE: ETAT DE L’ART ...............71 3.3.1 Modèles à base de graphe.....................................................................................................71
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
10
3.3.2 Modèles à base de contraintes..............................................................................................72
4 NOTRE ORGANISME MODELE : ACINETOBACTER BAYLYI ADP1 .................................73
4.1 CARACTERISTIQUES REMARQUABLES............................................................................................73 4.2 ANNOTATION DU GENOME .............................................................................................................76 4.3 COLLECTION DE MUTANTS DE DELETION ......................................................................................79
5 SYNTHESE ET OBJECTIFS DE LA THESE ...............................................................................83
RECONSTRUCTION D’UN MODELE GLOBAL DU METABOLISME D’ACINETOBACTER
BAYLYI ADP1 .............................................................................................................................................85
6 PROCESSUS DE RECONSTRUCTION.........................................................................................85
6.1 IDENTIFICATION DES ACTIVITES METABOLIQUES..........................................................................88 6.2 ADAPTATION AUX « CONTRAINTES » DE MODELISATION .............................................................93
6.2.1 Fonctionnement des voies métaboliques ..............................................................................93 6.2.2 Équilibre des équations bilans..............................................................................................95 6.2.3 Conservation de l’énergie .....................................................................................................96 6.2.4 Localisation cellulaire.........................................................................................................101 6.2.5 Spécificité des métabolites ..................................................................................................102 6.2.6 Réversibilité des réactions ..................................................................................................105 6.2.7 Associations gènes-réactions ..............................................................................................106 6.2.8 Composition de la biomasse................................................................................................108
7 LE MODELE D’ACINETOBACTER BAYLYI .............................................................................116
7.1 COMPOSITION METABOLIQUE GLOBALE ......................................................................................117 7.2 PREDICTIONS QUANTITATIVES DE CROISSANCE ..........................................................................120
7.2.1 Comparaison des prédictions de taux de croissance à des mesures expérimentales......120 7.2.2 Sensibilité des prédictions de taux de croissance aux paramètres énergétiques ............124
7.3 DISPONIBILITE DU MODELE ..........................................................................................................126
EXPLOITATION DES PHENOTYPES DE CROISSANCE DE MUTANTS PAR LE MODELE
......................................................................................................................................................................129
8 ARTICLE : « ITERATIVE RECONSTRUCTION OF A GLOBAL METABOLIC MODEL
OF ACINETOBACTER BAYLYI ADP1 USING HIGH-THROUGHPUT GROWTH
PHENOTYPE AND GENE ESSENTIALITY DATA » .....................................................................130
9 SYNTHESE.........................................................................................................................................131
9.1 LE MODELE CONFRONTE EFFICACEMENT DONNEES PHENOTYPIQUES ET CONNAISSANCE DU
METABOLISME.........................................................................................................................................131 9.2 CADRE FORMEL D’INTERPRETATION DES INCOHERENCES ..........................................................133 9.3 EXPLOITATION DES INCOHERENCES NON CORRIGEES .................................................................135 9.4 LIMITES .........................................................................................................................................137
9.4.1 Interprétation des phénotypes de croissance faible...........................................................137 9.4.2 Incohérences d’origine métabolique non prises en compte..............................................140
10 EXTENSION DE L’INTERFACE WEB DE PREDICTION A D’AUTRES
ORGANISMES : CYCSIM .....................................................................................................................142
AUTOMATISATION DE L’INTERPRETATION DES INCOHERENCES D’ORIGINE
GENETIQUE.............................................................................................................................................144
11 LA METHODE AUTOGPR ..........................................................................................................144
11.1 PRINCIPE .....................................................................................................................................144 11.2 ALGORITHMES ............................................................................................................................154
11.2.1 Génération exhaustive des corrections GPR ...................................................................154 11.2.2 Test d’existence de correction GPR .................................................................................161
12 RESULTATS....................................................................................................................................162
12.1 COMPLEXITE DES GPR DANS LES MODELES METABOLIQUES...................................................164 12.2 STATISTIQUES GLOBALES SUR LES PROPOSITIONS D’AUTOGPR..............................................170
12.2.1 Confrontation des modèles aux données d’essentialité...................................................170
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
11
12.2.2 Tests simples d’existence de correction GPR ..................................................................172 12.2.3 Proposition exhaustive de corrections GPR ....................................................................176
12.3 COMPARAISON DES CORRECTIONS D’AUTOGPR AUX INTERPRETATIONS EXPERTES..............180 12.3.1 Comparaison aux corrections des modèles d’A. baylyi ..................................................181 12.3.2 Comparaison aux interprétations expertes des modèles de B. subtilis et S. cerevisiae186
13 LIMITES ET PERSPECTIVES....................................................................................................191
13.1 REDUCTION DE LA COMBINATOIRE DES PROPOSITIONS DE CORRECTION .................................191 13.2 AMELIORATION DE LA SPECIFICITE POUR LES CORRECTIONS DE GENES NON-ESSENTIELS......192 13.3 AU DELA DES TROIS HYPOTHESES FONDAMENTALES D’AUTOGPR .........................................193
13.3.1 Associations gène-réaction prédéfinies............................................................................193 13.3.2 Composantes RESEAU et BIOMASSE fixes ....................................................................194 13.3.3 GPR constantes sur tous les milieux ................................................................................195
13.4 PERSPECTIVES D’UTILISATION DES DELETIONS MULTIPLES......................................................195
CONCLUSIONS ET PERSPECTIVES ................................................................................................197
14 CONTRIBUTIONS PRINCIPALES ............................................................................................197
15 REVUE DE TRAVAUX SUR LE MEME SUJET EFFECTUES SUR LA PERIODE DE LA
THESE (2005–2009) .................................................................................................................................199
16 PERSPECTIVES .............................................................................................................................202
REFERENCES BIBLIOGRAPHIQUES ..............................................................................................205
ANNEXE ....................................................................................................................................................227
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
13
AVANT-PROPOS
Les organismes vivants sont tous de formidables chimistes aux capacités souvent
insoupçonnées. Chaque cellule est le siège d’un nombre considérable de réactions qui
lui permettent de créer les molécules nécessaires à sa vie à partir des molécules de son
environnement. Cet ensemble de réactions biochimiques, que l’on appelle le
métabolisme des cellules, a attiré depuis longtemps la curiosité de l’homme. Non
seulement, d’un point de vue fondamental, il est essentiel d’aborder la chimie des
cellules pour en comprendre leur fonctionnement et leurs interactions avec le milieu
extérieur, mais également, d’un point de vue pratique, l’utilisation de leurs
métabolismes occupe une place significative dans les activités humaines. De la
fermentation alcoolique à la synthèse de biocarburants en passant par l’épuration des
eaux usées, les compétences biochimiques des organismes offrent des solutions
technologiques à de nombreux besoins.
Cette thèse aborde l’étude du métabolisme de manière pluridisciplinaire, associant
biochimie, génétique et modélisation mathématique. Traditionnellement, deux
échelles d’observations sont utilisées pour appréhender le métabolisme. D’une part,
les approches classiques de biochimie permettent de caractériser la chimie des
réactions ayant lieu dans les cellules. Ainsi au cours des dernières décennies et encore
aujourd’hui, un nombre croissant de réactions métaboliques sont élucidées de cette
manière, principalement chez les quelques organismes modèles. D’autre part, à une
échelle plus grande, l’observation de la physiologie des cellules permet d’en
caractériser la biochimie de manière globale : par exemple quelles molécules
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
14
extérieures sont requises et en quelles proportions pour permettre la croissance. Bien
que présentant le métabolisme sous deux échelles différentes, associer ces deux types
d’observations n’est pas chose simple. Le grand nombre et la complexité des
enchaînements de réactions métaboliques rendent en effet difficile la déduction de
caractéristiques métaboliques globales à partir de la seule connaissance des réactions
le composant. Dans ce but, des modèles mathématiques du métabolisme ont
récemment été introduits pour effectuer ce raisonnement de manière appropriée. Cette
thèse se propose d’approfondir l’utilisation des modèles du métabolisme dans
l’objectif d’élucider au mieux le métabolisme de microorganismes encore peu étudiés
en exploitant conjointement données physiologiques globales et caractérisations
locales de réactions.
Ce type d’approche est aujourd’hui rendu possible grâce à des avancées
technologiques récentes. D’une part, alors que les techniques expérimentales
traditionnelles de biochimie ont un débit beaucoup trop faible pour détecter
exhaustivement les réactions métaboliques de nouveaux organismes, le séquençage et
l’annotation de leurs génomes offrent une solution alternative efficace. L’avènement
des méthodes comparatives permet en effet de déduire la fonction biochimique d’une
proportion significative des gènes par homologie aux gènes connus chez les autres
organismes, et d’inférer ainsi une grande partie de ses réactions métaboliques. Mais
l’utilisation exclusive de ces méthodes trouve rapidement ses limites pour des
activités biochimiques spécifiques à l’organisme ou encore peu étudiées. D’autre part,
le débit des expériences sur la physiologie des organismes a également augmenté
récemment, en particulier pour les microorganismes. Nous utiliserons une catégorie
particulière de ces expériences, mêlant à grande échelle perturbation génétique et
caractérisation physiologique. Elles consistent à créer systématiquement un mutant de
délétion pour chacun des gènes d’un organisme. La capacité ou non de croître de
chacun de ces mutants dans des environnements chimiques donnés (leurs phénotypes
de croissance) offre une information utile quant au rôle du gène délété – et par
extension de la fonction biochimique inactivée – dans le métabolisme de la bactérie.
Cette thèse explore spécifiquement l’utilisation des modèles du métabolisme pour
compléter la connaissance du métabolisme obtenue par les données de séquences avec
les phénotypes de croissance expérimentaux. La bactérie Acinetobacter baylyi ADP1
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
15
(que nous nommerons simplement A. baylyi) nous accompagnera tout au long de ce
manuscrit, se prêtant comme sujet d’étude à la fois in vivo et in silico.
La première partie de ce manuscrit introduit les notions manipulées dans la thèse :
le métabolisme, les expériences de génétique et la modélisation mathématique du
métabolisme. Cette partie cherche à balayer l’état de l’art dans ces trois domaines et à
placer la contribution de la thèse dans le contexte des travaux antérieurs pertinents.
Dans une deuxième partie, nous présenterons de manière détaillée la
reconstruction du modèle métabolique global d’A. baylyi à partir de son annotation
génomique. Cette section décrit naturellement le processus ayant permis d’identifier
les activités métaboliques présentes chez cette bactérie, mais également les
spécificités associées à la modélisation retenue. Il nous a semblé en effet important de
nous attarder sur les hypothèses de modélisation et leurs conséquences sur la
construction des modèles. Alors même que de nombreux articles de revue présentent
comment reconstruire des voies métaboliques à partir d’une annotation d’un génome,
peu d’entre eux détaillent les points clés liés à la modélisation.
La troisième partie du manuscrit aborde l’exploitation des phénotypes de mutants
par les modèles métaboliques. Nous montrerons, toujours sur la base du métabolisme
d’A. baylyi, qu’en identifiant les incohérences entre les phénotypes prédits par le
modèle et les phénotypes observés, des erreurs dans la connaissance du métabolisme
peuvent être pointées précisément. Nous verrons dans quelle mesure ces erreurs
peuvent être corrigées à l’aide de ces données. Nous discuterons également à cette
occasion de la notion d’essentialité des gènes, et de ses liens avec le métabolisme et
l’environnement de la cellule.
La quatrième partie traite de l’automatisation de l’interprétation de ces
incohérences lorsqu’elles sont d’origine génétique. À travers une formalisation
rigoureuse du raisonnement portant sur l’association entre gènes et réactions, nous
montrerons qu’il est possible de déduire automatiquement les associations gènes -
réactions qui soient compatibles avec les phénotypes de mutants observés. Ces
raisonnements retrouvent une partie des interprétations effectuées « manuellement »
et forment une brique indispensable à l’interprétation métabolique à grande échelle
des phénotypes de mutants.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
16
Enfin, dans une dernière partie, nous reprendrons les principales conclusions de
nos travaux et les mettrons en perspective des évolutions de la discipline. La
thématique de la thèse étant en plein essor, nous réeffectuerons un tour d’horizon des
travaux similaires publiés à la fin de la thèse. Plus largement, nous discuterons
également de la place d’approches de modélisation dans la reconstruction du
métabolisme de nouveaux organismes, à l’heure où le débit des nouvelles
technologies permet de séquencer un génome bactérien en quelques jours.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
17
INTRODUCTION
Ce chapitre a pour but d’introduire au lecteur les concepts biologiques et
mathématiques utilisés dans cette thèse et d’effectuer un état de l’art dans les
domaines couverts. Nous l’avons divisé en cinq parties. La première s’attache à
introduire les notions utiles à la compréhension du métabolisme des microorganismes
ainsi qu’à présenter l’état de l’art quant à son exploration. La deuxième partie se
concentrera sur l’utilisation des phénotypes de croissance pour étudier le métabolisme
et en particulier aux techniques de génétique à haut débit associées. Dans la troisième
partie, le lecteur trouvera une revue actuelle des méthodes de modélisation
mathématique appliquées au métabolisme, ainsi qu’une présentation détaillée du
cadre de modélisation que nous avons retenu : la modélisation à base de contrainte.
Dans la quatrième, nous présenterons les caractéristiques et les ressources disponibles
sur l’organisme modèle utilisé dans cette thèse, Acinetobacter baylyi ADP1. Enfin,
nous effectuerons en dernier lieu une synthèse de l’état de l’art et présenterons le sujet
de notre thèse dans ce contexte.
1 Le métabolisme : la chimie du vivant
1.1 Quelques faits remarquables
Une des caractéristiques majeures des organismes vivants est leur aptitude à
croître et à se reproduire par eux-mêmes. Pour ce faire, les processus mis en œuvre
sont en grande majorité de nature chimique (biochimique), impliquant une grande
variété de molécules. On désigne généralement par métabolisme les processus
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
18
biochimiques ayant pour rôle la synthèse et la dégradation de ces biomolécules ainsi
que la transformation d’énergie chimique. Cette définition distingue ainsi le
métabolisme d’autres processus chimiques à l’œuvre dans les cellules, tels que la
signalisation, la réplication et la transcription de l’ADN, ou l’assemblage des
protéines.
Le métabolisme est indispensable à la vie. D’un point de vue thermodynamique,
les organismes vivants sont des systèmes fondamentalement hors d’équilibre qui
nécessitent pour maintenir cet état d’échanger continuellement de l’énergie et de la
matière avec le milieu extérieur (nous aborderons ce point plus en détails section
1.2.6). Le métabolisme joue un rôle essentiel dans cet échange d’énergie et de
matière. Cependant, toutes les entités vivantes ne possèdent pas nécessairement de
métabolisme propre, encore que les nombreuses définitions d’ « être vivant » soient
parfois associées à sa présence1. C’est le cas des virus et dans une moindre mesure de
certaines bactéries parasites ; ceux-ci exploitent directement les ressources de leurs
hôtes. À titre d’exemple, la bactérie parasite Rickettsia prowazekii, qui vit
majoritairement dans le cytoplasme de son hôte, dépend très fortement du
métabolisme de ce dernier ; elle ne peut synthétiser elle-même la plupart de ses
constituants et profite dès que possible de l’énergie chimique de son hôte (Andersson
et al. 1998).
Néanmoins, dans leur très grande majorité, les cellules des organismes vivants
consacrent une grande partie de leurs activités à exploiter et à transformer les
molécules de leur entourage (leur environnement) pour en retirer de l’énergie et créer
les molécules qui serviront à leur propre construction. Ce sont ces réactions qui font
des organismes vivants de véritables chimistes.
1 Voir par exemple les nombreuses définitions proposées dans l’article Wikipedia sur les organismes vivants : http://en.wikipedia.org/wiki/Life#Definitions .
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
19
Figure 1. Couches d’oxides de fer ayant précipité sous l’action de l’oxygène produit par la photosynthèse. Photographie d’un échantillon issu de la péninsule supérieure du Michigan (source http://en.wikipedia.org/wiki/Banded_iron_formation )
Le volume d’action du métabolisme peut être considérable. Pour ne prendre
qu’un exemple, nous rappellerons au lecteur qu’une très grande majorité du
dioxygène présent dans l’atmosphère terrestre est d’origine « biologique».
L’apparition de la photosynthèse dans l’arsenal métabolique du vivant a en effet
modifié significativement la composition de l’atmosphère, il y a environ deux
milliards d’années (Knoll 2003). La production massive de dioxygène par les
organismes photosynthétiques transforma alors l’atmosphère réductrice en une
atmosphère oxydante, laissant des traces visibles dans les couches géologiques de
l’époque (voir Figure 1). On estime que le flux actuel de création de dioxygène par la
photosynthèse permettrait de régénérer l’ensemble de l’oxygène atmosphérique en
2000 ans (Dole 1965).
Le métabolisme marque également par sa diversité. Certains organismes, et en
particulier des bactéries, ont été découverts dans des environnements très variés, au
sein desquels les molécules sources d’énergie et de matière diffèrent de manière
considérable. À titre illustratif, pour générer leur énergie, les bactéries tirent parti de
diverses manières des potentiels d’oxydoréduction des molécules de leur
environnement. Tandis que dans les milieux aérobies courants, les molécules
organiques sont généralement oxydées en utilisant l’oxygène comme accepteur
d’électron, en milieu anaérobie certains organismes remplacent ce dernier par d’autres
molécules organiques (par exemple lors de la fermentation) ou des formes oxydées de
l’azote (ex. : nitrate, nitrite), du soufre (ex. : sulfate ou sulfite) ou de métaux (ex. : fer,
manganèse, voire même certains métaux lourds). À l’inverse, on a découvert des
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
20
organismes pouvant remplacer les molécules organiques par d’autres donneurs
d’électrons2. Ces organismes génèrent leur énergie en oxydant par exemple les
molécules réduites de dihydrogène, de soufre (inorganique par ex.), d’azote
(ammoniaque) ou de fer.
Le répertoire des molécules organiques pouvant être « métabolisées » est lui-
même extrêmement large. On estime qu’environ un millier de molécules composent
le métabolisme primaire3 de la majorité des organismes. À cet ensemble, les
organismes supérieurs – en particulier les plantes et les champignons – ajoutent les
molécules de leur métabolisme secondaire4 dont on estime la diversité à plusieurs
centaines de milliers (Villas-Boas et al. 2007, pp.25-26). Les structures de ces
molécules sont souvent remarquablement complexes (voir Figure 2), leurs rôles
biologiques dépendant en grande partie de ces structures et se révélant parfois
extrêmement sensibles à tout changement de chiralité5. À cet effet, certaines voies de
synthèse du métabolisme sont particulièrement efficaces à produire spécifiquement
certains énantiomères donnés.
2 On les nomme lithotrophes, par opposition aux organotrophes. 3 Le métabolisme primaire regroupe les activités métaboliques participant au développement et à la croissance de l’organisme, telles que la génération d’énergie et la synthèse des constituants de la cellule. Ces activités sont relativement ubiquitaires entre les organismes. 4 Le métabolisme secondaire regroupe les activités de synthèse de molécules ne contribuant pas directement à la croissance de la cellule. Ces molécules ont par exemple des rôles dans la communication ou les interactions écologiques. 5 Une molécule est chirale si elle n’est pas superposable à son image dans un miroir. Les deux molécules images l’une de l’autre sont alors appelées énantiomères. Deux énantiomères ont des formules développées identiques mais ont des structures tridimensionnelles distinctes. Cette différence peut leur conférer des propriétés physiques, chimiques ou biologiques distinctes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
21
Figure 2. La molécule de Taxol, utilisée en chimiothérapie. Cette molécule a été découverte dans l’écorce d’une espèce d’if, Taxus brevifolia.
Similairement à ces capacités de synthèse, les organismes ont développé un
ensemble de réactions leur permettant de dégrader et d’utiliser à leur avantage un
large spectre de molécules. Ceci est notamment vrai pour les bactéries, lesquelles ont
développé un ensemble de stratégies pour croître dans des environnements chimiques
variés voire extrêmes. Leurs remarquables capacités d’adaptation les ont même
amenées à exploiter des molécules non naturelles produites par l’homme (molécules
xénobiotiques), tels que des composés organochlorés ou polyaromatiques (Janssen et
al. 2005; van der Meer et al. 1992) .
L’homme utilise depuis longtemps les compétences biochimiques des organismes.
Depuis leur utilisation pour la production de fromage, de bière et de vin par
fermentation (dont on retrouve des traces de pratique datant de la préhistoire
(McGovern et al. 1996)), les applications du métabolisme des microorganismes se
sont étendues à de nombreux autres domaines. La pratique de l’ingénierie du
métabolisme permet de produire efficacement une large gamme de produits par voie
biologique : compléments alimentaires, substances énergétiques, solvants,
antibiotiques, vitamines, polymères, pigments (Stephanopoulos et al. 1998, pp.203-
283). La voie de production biologique prend surtout son sens lorsque la synthèse
chimique se révèle difficile et coûteuse, comme cela est le cas par exemple pour le
1,3-propanediol (Tong et al. 1991), un précurseur de nombreux polymères à forte
valeur ajoutée, ou l’artémisinine (Ro et al. 2006), une molécule active contre le
paludisme. Les capacités de dégradation des microorganismes sont également
utilisées à des fins pratiques, l’exemple le plus flagrant étant leur utilisation
primordiale dans les processus d’épuration des eaux usées. L’aptitude des
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
22
microorganismes à s’adapter pour utiliser des substances variées en fait des candidats
prometteurs pour dégrader des polluants complexes, tels que les polychlorobiphényles
(PCB) ou les mélanges de benzène, toluène et xylène (BTX) (Stephanopoulos et al.
1998, pp.266-273).
1.2 Les acteurs du métabolisme
Avant de présenter plus en détail l’organisation du métabolisme au sein des
organismes, nous allons préalablement définir dans cette section les « acteurs »
impliqués. Nous rappellerons en outre au lecteur quelques notions physiques en
rapport avec les réactions biochimiques. En effet, le comportement du métabolisme
découle in fine de ces notions physiques ; les modèles mathématiques du métabolisme
s’appuient de ce fait de manière fondamentale sur la physique à l’œuvre, aux échelles
à la fois de la molécule (description des réactions) et de la cellule (cinétique et
thermodynamique).
1.2.1 Métabolites
On utilise généralement le terme de métabolite pour désigner les molécules
impliquées dans le métabolisme cellulaire. Ces molécules sont, dans leur grande
majorité, des molécules organiques, composées de carbone et d’hydrogène mais
également d’oxygène et dans une moindre mesure d’azote, de phosphore et de soufre.
À titre illustratif, la composition moyenne de la bactérie Lactobacillus lactis en ces
éléments (relativement au carbone) a été évaluée à C1H1,9O0,6N0,2P0,02S0,01 (Oliveira et
al. 2005). Cette composition n’est pas fixe et évolue notamment en fonction de
l’environnement de croissance de l’organisme, mais elle est indicative de l’ordre de
grandeur de la répartition de ces éléments6. La forte proportion du carbone dans la
composition des métabolites n’est pas anodine. En effet, les propriétés électroniques
6 On retrouve en réalité d’autres éléments dans la composition des cellules, souvent en moindre quantité. Ce sont principalement des ions jouant le rôle d’électrolytes afin de maintenir une pression osmotique et un pH constants et de favoriser l’import de métabolites (potassium, sodium, calcium, manganèse, chlore). De nombreux métaux de transition (fer, zinc, manganèse, molybdène, cuivre, cobalt, nickel) sont également présents à l’état de trace ; ils sont néanmoins essentiels à l’activité de certaines enzymes. Cependant, dans la très grande majorité des cas, ces éléments n’entrent pas dans la composition des métabolites.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
23
de l’atome de carbone font qu’il établit facilement jusqu’à quatre liaisons covalentes
relativement solides ; cette caractéristique lui permet de générer une combinatoire
extrêmement grande de molécules organiques en assemblant plusieurs atomes de
carbone entre eux.
1.2.2 Réactions
Les métabolites se transforment chimiquement au cours des réactions
métaboliques : des métabolites substrats réagissent entre eux pour donner des
métabolites produits. On représente généralement la réaction par son équation bilan,
laquelle met en évidence la stœchiométrie de la réaction, c’est-à-dire les proportions
dans lesquelles les métabolites sont consommés et produits (voir Figure 3).
L’équation bilan répertorie exhaustivement les substrats et produits impliqués par la
réaction. De ce fait, et étant donné que les transformations à l’œuvre sont purement
chimiques – celles-ci mettent uniquement en jeu des échanges d’atomes ou de
groupes d’atomes entre métabolites par modification de leurs liaisons chimiques – la
quantité de chaque élément et la charge globale est conservée : l’équation bilan est
dite équilibrée.
Figure 3. Equation bilan de la réaction catalysée par l’enzyme isocitrate dehydrogénase. Extrait de BRENDA (http://www.brenda-enzymes.info).
On distingue souvent deux types de métabolites dans une réaction biochimique :
les substrats et produits principaux d’une part et les cofacteurs (ou coenzymes) d’autre
part. Le premier type désigne les métabolites directement transformés par la réaction
chimique : il s’agit par exemple de l’isocitrate, du 2-oxoglutarate et du CO2 dans le
cas de la réaction présentée sur la Figure 3. Les cofacteurs désignent quant à eux les
métabolites aidant la transformation chimique principale, que ce soit en apportant de
l’énergie, en agissant comme accepteur ou donneur d’électron (tels que NADP+ et
NADPH dans la réaction de la Figure 3) ou en favorisant le transfert de groupements
chimiques. Les transformations chimiques des cofacteurs sont réversibles et, comme
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
24
nous le verrons plus loin, une partie des activités métaboliques de la cellule consiste
justement à régénérer les cofacteurs en les retransformant dans leur état initial.
1.2.3 Enzymes
Aux cotés des métabolites, les enzymes constituent le deuxième acteur clé du
métabolisme. Ces dernières jouent en effet le rôle de catalyseurs sans lesquels la
plupart des réactions métaboliques ne pourraient se dérouler à des vitesses
compatibles avec la vie de la cellule. Le principe de la catalyse enzymatique repose
sur une interaction entre l’enzyme et les substrats qui favorise la stabilisation de l’état
de transition de la réaction (Koshland 1958). Cette stabilisation abaisse l’énergie à
fournir pour atteindre l’état de transition (énergie d’activation) et, de ce fait, un
nombre plus élevé de substrats d’énergie moindre pourront interagir, accélérant ainsi
la réaction (voir Figure 4).
Figure 4. Illustration de la diminution d’énergie d’activation d’une réaction par catalyse enzymatique. E, enzyme ; S, substrat ; S‡, état de transition ; P, produit ; !G, énergie d’activation avec (!GC) ou sans (!GU) catalyse. Adapté de Wikipedia7.
Des mécanismes enzymatiques relativement différents permettent d’abaisser
l’énergie d’activation, allant d’une stabilisation par effet électrostatique au
rapprochement forcé des substrats. Nous n’entrerons cependant pas dans leurs détails
qui seraient hors du propos de cette thèse.
Il est cependant important de noter que, dans la grande majorité des cas, les
enzymes catalysent des réactions spécifiques alors que les métabolites peuvent
7 http://en.wikipedia.org/wiki/Enzyme_catalysis
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
25
généralement réagir entre eux de diverses manières. En abaissant l’énergie
d’activation pour un chemin réactionnel donné – en stabilisant par exemple un état de
transition particulier – les enzymes favorisent alors spécifiquement une réaction
particulière par rapport aux autres. Le caractère spécifique de la catalyse enzymatique
est au moins aussi important dans le métabolisme que l’accélération de la vitesse des
réactions. Il lui permet en effet d’assurer la transformation des métabolites en des
produits particuliers, évitant la production d’autres produits qui en réduiraient le
rendement et pourraient s’avérer néfastes. En résumé, le double aspect spécificité et
accélération de la catalyse enzymatique donne à l’organisme le contrôle des
transformations métaboliques se déroulant dans la cellule.
À la grande variété de réactions métaboliques correspond une grande variété
d’enzymes. Afin d’organiser la description des enzymes identifiées, l’International
Union of Biochemistry and Molecular Biology (IUBMB)8 élabore une classification
des enzymes basée sur le type de réaction catalysée : la classification EC (pour
Enzyme Commission). Bien que mise à jour lentement par rapport aux découvertes de
nouvelles activités enzymatiques, la classification EC est largement utilisée pour
décrire l’activité des enzymes et souvent, par extension, pour assigner une fonction
enzymatique à un gène.
Nombre EC Type d'enzyme Type de réactions catalysées
1.-.-.- Oxidoreductases Réactions d'oxidoréduction
2.-.-.- Transferases Réactions de transfert de groupes fonctionnels 3.-.-.- Hydrolases Réactions d'hydrolyse d'un substrat en deux produits
4.-.-.- Lyases Réactions de coupure de liaisons covalentes par un procédé autre que l'oxydation ou l'hydrolyse
5.-.-.- Isomerases Réactions de réarrangement intramoléculaire, isomérisation
6.-.-.- Ligases Réactions de jonction covalente de deux molécules utilisant l'hydrolyse d'ATP
Tableau 1. Premier niveau de la classification EC. Un nombre EC se compose de quatre nombres représentant quatre niveaux de classification qui caractérisent de plus en plus finement la réaction catalysée. Le premier niveau présenté ici distingue six grandes classes de réactions. Le dernier niveau spécifie généralement les substrats précis de la réaction.
1.2.4 Cinétique des réactions métaboliques
Une bonne grandeur pour décrire le fonctionnement du métabolisme est la vitesse
des réactions métaboliques, également appelée flux. En effet, la survie des cellules
8 Voir http://www.chem.qmul.ac.uk/iubmb/
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
26
dépend fortement de leur capacité à transformer en permanence les métabolites pour
produire l’énergie et construire ses constituants. Plus que les concentrations de tels ou
tels métabolites, les flux des réactions renseignent directement sur les conversions
métaboliques ayant lieu dans la cellule ; ils représentent en quelque sorte l’état
fonctionnel du métabolisme. Nous reviendrons plus en profondeur sur la notion de
flux et sa signification pour représenter l’état du métabolisme dans la section
introduisant la modélisation.
La vitesse d’une réaction s’exprime généralement avec l’unité mol.L-1.s-1 qui
décrit la quantité de substrats transformés par unité de volume de solution et par unité
de temps9. Cette unité est bien adaptée à la description des flux lorsque les réactions
se déroulent in vitro, mais l’est moins lorsqu’elle se déroulent dans des cellules ; on
lui substitue alors l’unité mmol.h-1.(g DW)-1 où DW représente la masse sèche des
cellules. Cette unité rapporte ainsi indirectement la quantité de substrat transformé par
unité de temps à la quantité de cellule.
La vitesse d’une réaction enzymatique dépend de nombreux facteurs :
concentration des substrats et produits, concentration de l’enzyme, efficacité
catalytique de l’enzyme, température, pH, pression, entre autres facteurs… Sans
vouloir exposer ici un état de l’art sur la cinétique enzymatique qui n’est pas le sujet
de cette thèse, nous souhaitons rappeler au lecteur à titre illustratif un modèle simple
de cinétique enzymatique qui permette d’appréhender l’influence de certains de ces
facteurs. Michaelis et Menten déterminèrent, de manière d’abord empirique, une
relation entre vitesse de réaction et concentration en substrat dépendant de deux
paramètres liés à l’enzyme (Michaelis & Menten 1913; Cornish-Bowden 2004) :
!
v = vmax
cS
Km
+ cS
où v est la vitesse de réaction, cS la concentration en substrat et vmax et Km les deux
paramètres en question. Le premier paramètre, vmax, représente la vitesse maximale
que la réaction peut atteindre en présence d’une quantité fixe d’enzyme et pour un
9 La vitesse de la réaction dépend de l’écriture de son équation bilan. La vitesse de production d’un produit (par la réaction) est en effet égale à la vitesse de la réaction multipliée par le coefficient stœchiométrique du produit dans l’équation bilan.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
27
quantité saturante du substrat. Ce paramètre dépend linéairement de la quantité
d’enzyme et traduit son efficacité à réaliser la transformation chimique. Définie en
termes de nombre de molécules de substrat converties par une enzyme en une
seconde, cette efficacité peut s’échelonner sur plusieurs ordres de grandeur, de 0.5 s-1
pour le lysozyme à 600 000 s-1 pour la carbonate déshydratase (Stephanopoulos et al.
1998; Barthelmes et al. 2007). Le second paramètre, Km, également appelé constante
de Michaelis, est égal à la concentration de substrat pour laquelle la vitesse de la
réaction vaut ! vmax (voir Figure 5). Ce paramètre est indépendant de la quantité
d’enzyme et traduit l’affinité de l’enzyme au substrat (un Km plus faible traduit une
affinité plus élevée).
vmax
1/2.vmax
Km concentration de substrat c
S
vitesse de
réaction v
Figure 5. Relation entre vitesse de réaction et concentration de substrat pour une cinétique de type Michaelis-Menten.
Aux concentrations élevées de substrat (cS >> Km), la vitesse de la réaction tend
vers vmax. L’enzyme est saturée et la vitesse de la réaction dépend linéairement de sa
quantité. Aux concentrations faibles de substrat (cS << Km), la vitesse de la réaction
tend vers (vmax/Km).cS auquel cas elle dépend linéairement de la concentration en
substrat et en enzyme. La concentration Km délimite en quelque sorte les deux régimes
de fonctionnement.
La cinétique de Michaelis-Menten s’interprète avec un modèle de transformation
moléculaire simple où le substrat se lie réversiblement à l’enzyme avant d’être
transformé irréversiblement en produit (Briggs & Haldane 1925) :
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
28
!
E + S"k#1
k1
ES$k2
E + P
En supposant que le complexe enzyme-substrat ES est à l’état stationnaire, la
relation de Michaelis-Menten est retrouvée avec :
!
vmax
= k2.cE ,tot
et Km
=k"1
+ k2
k1
où cE,tot représente la quantité totale d’enzyme.
La cinétique de Michaelis-Menten traduit un mécanisme réactionnel relativement
simple et en réalité beaucoup d’enzymes suivent des cinétiques bien plus complexes
(Cornish-Bowden 2004). Elle est en revanche illustrative des influences respectives
des enzymes et métabolites sur les flux de réaction et elle permet d’introduire les
phénomènes de contrôle des réactions.
1.2.5 Contrôle des réactions métaboliques
Que la cinétique d’une réaction enzymatique soit Michaelienne ou non, l’enzyme
en elle-même influence largement le flux de la réaction. Celui-ci dépend en effet à la
fois de la quantité d’enzymes présentes et de leur efficacité à catalyser la réaction.
Cette dépendance est exploitée de manière fondamentale par les organismes pour
contrôler leur métabolisme, que ce soit simplement pour activer ou inactiver des
réactions ou, de manière plus élaborée, pour ajuster finement la vitesse des réactions
en fonction de leurs besoins. Les processus biologiques de contrôle sont généralement
désignés sous le terme de régulation métabolique. On distingue typiquement deux
grandes catégories de contrôles : (1) l’ajustement de la quantité d’enzymes et (2) la
modulation directe de leur activité.
La régulation de la quantité d’enzymes s’opère communément en modulant les
vitesses de production et de dégradation des enzymes (Stephanopoulos et al. 1998,
pp.173-180). Des mécanismes complexes de régulation permettent en effet d’activer
ou d’inhiber la transcription et la traduction de protéines en réponse à un signal
particulier (par exemple la présence ou l’absence d’un métabolite particulier). Les
microorganismes utilisent largement ce type de mécanisme, notamment pour adapter
leur métabolisme aux environnements chimiques qu’ils rencontrent en ne produisant
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
29
que les enzymes appropriées à l’environnement. De même, en adressant les enzymes
à des localisations spécifiques dans l’organisme, celui-ci peut contrôler à quel endroit
les réactions se dérouleront, permettant par exemple d’éviter des interactions
chimiques indésirables entre métabolites.
De nombreux mécanismes permettent également de réguler l’efficacité catalytique
des enzymes. D’une part, les enzymes peuvent être totalement inactivées ou activées
par des modifications covalentes irréversibles de leur structure ; ces modifications
consistent fréquemment à les phosphoryler, ou à leur ajouter ou enlever divers
groupes fonctionnels par l’intermédiaire de protéines ou de métabolites particuliers.
D’autre part, et il s’agit de la classe de mécanisme la plus courante, des métabolites
inhibiteurs ou activateurs peuvent interagir avec l’enzyme – souvent de manière
réversible – pour modifier graduellement son activité. Divers mécanismes ont été
identifiés, chacun conduisant à des comportements cinétiques souvent distinguables
(Cornish-Bowden 2004). Ainsi, le métabolite régulateur peut tout aussi bien être un
analogue du substrat et agir en tant que concurrent pour l’accès au site actif de
l’enzyme, ou être différent et agir via un autre site sur la conformation de l’enzyme et
altérer son efficacité catalytique ou son affinité au substrat (cas des enzymes
allostériques).
Ces mécanismes de régulation agissent souvent de manière fine sur les flux des
réactions en réponse à des signaux variés. Ceux-ci sont indispensables à l’organisme
car ils lui permettent de réellement contrôler son « usine biochimique », pour
notamment assurer la stabilité de sa composition chimique, économiser la production
d’enzymes inutiles (en programmant par exemple leurs productions uniquement au
moments opportuns (Zaslaver et al. 2004)) et répondre aux changements ou stimulus
de leurs environnements (voire même les anticiper (Tagkopoulos et al. 2008; Mitchell
et al. 2009) !).
1.2.6 Aspects thermodynamiques
Du point de vue thermodynamique, les organismes vivants sont des systèmes
particuliers. Ils appartiennent à la classe des systèmes dissipatifs dont la
caractéristique principale est de maintenir voire d’accroître leurs états d’ordre interne
en prenant de l’énergie au milieu extérieur et lui retransmettant de l’entropie. Pour ce
faire, ces systèmes doivent se maintenir en permanence hors de l’état d’équilibre
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
30
grâce à leurs échanges avec leur environnement ; ils sont fondamentalement ouverts10
et tout arrêt de ces échanges conduit à leur disparition. Dans le cas des cellules
vivantes, le maintien de cet état hors d’équilibre leur permet de croître et d’assurer la
permanence de l’organisation de leur structure. Le métabolisme assure donc l’échange
continuel de matière et d’énergie avec l’environnement : il exploite en général11
l’énergie de métabolites d’énergie élevée et d’entropie faible importés de
l’environnement en les transformant en métabolites d’énergie plus faible mais
d’entropie plus élevée (von Stockar & Liu 1999; Stephanopoulos et al. 1998). De
manière à assurer un flux de transformation permanent, qui est donc
thermodynamiquement fondamental pour la vie de l’organisme, les réactions du
métabolisme sont également elles-mêmes hors d’équilibre.
L’enthalpie libre de réaction, notée !rG, permet de décrire le sens d’évolution
spontané des réactions. À température et pression constante, la réaction opère en effet
dans le sens de diminution de l’enthalpie libre, tel que !rG < 0. Dès lors que !rG
atteint zéro, le flux net de la réaction devient nul. Le métabolisme doit ainsi s’assurer
que les enthalpies libres des réactions sont bien négatives pour transformer les
métabolites avec un flux net positif.
L’enthalpie libre de réaction dépend de l’enthalpie libre standard de réaction
(!rG°) qui ne dépend que de la température et de la pression, et des concentrations de
ses substrats et produits :
!
"rG = "
rG° + R.T.ln Q( )
où R la constante des gaz parfaits et Q est le quotient de la réaction :
!
Q =p1
" p1 .p2
" p2 ...
s1
" s1 .s2
" s2 ...
10 Un système ouvert peut échanger de l’énergie et de la matière avec le milieu extérieur, au contraire des systèmes isolés. Selon le second principe de la thermodynamique, un système isolé évolue toujours de manière à augmenter son entropie et tend invariablement à rejoindre son état d’équilibre. 11 Dans le cas de la photosynthèse, l’énergie ne provient pas des métabolites mais de la lumière.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
31
avec s1, s2 les activités12 des substrats, p1, p2 celles des produits et les !i leurs
coefficients stœchiométriques.
Deux « leviers » peuvent ainsi conduire à une enthalpie de réaction négative, le
quotient de réaction et l’enthalpie libre standard de réaction. D’une part, le quotient de
la réaction peut être diminué par un déséquilibre net de concentration dans lequel les
substrats sont en excès par rapport aux produits. En consommant par exemple les
produits au fur et à mesure de leur apparition, le métabolisme peut maintenir le
déséquilibre de concentration et assurer la continuité de la réaction. Cependant,
certaines conversions biochimiques possèdent des enthalpies libres de réaction trop
élevées pour être favorisées uniquement par un déséquilibre de concentrations (en
gardant des niveaux de concentrations « physiologiques »). Ceci est le cas par
exemple de réactions de biosynthèse des constituants de la cellule, pour lesquelles les
produits sont plus « énergétiques » que les substrats, conduisant à une enthalpie libre
standard de réaction élevée. Ces réactions sont rendues réalisables en les couplant
avec une réaction apportant de l’énergie, au premier rang desquelles figure
l’hydrolyse de l’ATP. La réaction combinée, dont le couplage s’effectue d’ailleurs
souvent au sein de la même enzyme (Stephanopoulos et al. 1998, pp.629-694),
possède alors une enthalpie libre standard de réaction moins élevée la rendant
thermodynamiquement réalisable aux concentrations physiologiques. Ce cas de figure
illustre l’importance des cofacteurs énergétiques et des processus métaboliques
associés à leur maintenance.
1.3 Structure et organisation du métabolisme
1.3.1 Le réseau métabolique
D’un point de vue plus global, le métabolisme d’un organisme se compose d’un
nombre élevé de réactions (typiquement plus d’un millier de réactions distinctes pour
une bactérie « de taille moyenne » comme Escherichia coli (Keseler et al. 2009)) qui
12 Dans le cas des réactions en solution aqueuse, les activités s’identifient quasiment aux concentrations, moyennant quelques corrections liées notamment à la force ionique. On effectue également cette approximation dans le cas des réactions biochimiques intracellulaires, bien que le « solvant » constitué par le milieu cytoplasmique soit loin d’être aussi idéal qu’une solution aqueuse. Des corrections sont cependant souvent requises pour corriger les déviations trop importantes (Maskow & von Stockar 2005; Vojinovi" & von Stockar 2009).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
32
convertissent un nombre tout aussi élevé de métabolites. Cependant, du fait que les
métabolites sont partagés par les réactions (produits par certaines et consommés par
d’autres), métabolites et réactions se structurent sous la forme d’un réseau,
couramment appelé réseau métabolique (voir Figure 6). Au sein de ce réseau, on peut
distinguer les enchaînements de réactions qui transforment étape par étape les
métabolites, formant en quelques sortes des chemins de conversion dans le
métabolisme. Comme mentionné ci-dessus à propos de la thermodynamique,
l’enchaînement des réactions a d’ailleurs une réalité bien physique, du fait que pour
maintenir les flux de conversion, les produits de chaque réaction doivent en
permanence être réutilisés pour maintenir le déséquilibre thermodynamique.
Cependant, une représentation complète du réseau métabolique telle que celle
présentée sur la Figure 6 illustre uniquement de manière statique le métabolisme. Elle
représente en effet l’ensemble des réactions chimiques pouvant avoir lieu, mais pas la
réalité des conversions chimiques ayant lieu à un instant t dans la cellule. Toutes les
conversions métaboliques possibles ne se réalisent pas toutes ensemble, mais plutôt
en fonction des besoins de la cellule. Le contrôle des réactions métaboliques présenté
ci-dessus joue à cet effet un rôle primordial pour orienter les conversions
métaboliques selon certains chemins bien précis.
Comme illustré sur la Figure 6, certains métabolites sont connectés à un nombre
de réactions nettement plus élevé que d’autres. Ceux-ci forment en quelque sorte des
points d’embranchement13 du réseau métabolique, à partir desquels commencent
plusieurs branches métaboliques. En contraste, d’autres métabolites ne sont reliés
simplement qu’à deux réactions, ne formant que des intermédiaires de voies de
conversion. Nous verrons rapidement dans la partie suivante sur la modélisation que
de nombreux travaux se sont attachés à étudier les propriétés topologiques des
réseaux métaboliques.
13 Le terme consacré en anglais, et parfois par abus en français, est « hub ».
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
33
Figure 6. Illustration d’un réseau métabolique global. Les nœuds (points) correspondent à des métabolites et les liens (lignes) à des réactions (ou successions de réactions) convertissant les métabolites. Les grandes catégories fonctionnelles du métabolisme sont indiquées dans les encadrés. Dans le cercle : aperçu détaillé d’une partie du réseau métabolique. Source des cartes : KEGG (http://www.genome.jp/kegg/atlas/) et Roche Applied Science (http://www.expasy.ch/tools/pathways/).
De manière à obtenir une description fonctionnelle claire du métabolisme, les
biochimistes ont traditionnellement regroupé les réactions en voies métaboliques, qui
peuvent être vues comme des parties du réseau métabolique – souvent des
enchaînements linéaires de réactions. La grande majorité des voies métaboliques sont
définies pour correspondre à des fonctions métaboliques bien précises, mais cette
classification est arbitraire et varie souvent d’une personne à l’autre, reposant parfois
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
34
sur des critères historiques relatifs au contexte de leur découverte, organisationnels ou
purement subjectifs. Le découpage du réseau métabolique en voies fournit cependant
une vision modulaire du métabolisme qui a permis d’en appréhender le
fonctionnement global d’une manière simple.
1.3.2 Organisation globale du métabolisme
Sans chercher à rentrer dans le détail des voies composant le métabolisme, celui-ci
peut être décrit de manière simple en distinguant une partie catabolique et une partie
anabolique.
Les réactions du métabolisme catabolique ont pour fonction de dégrader
(cataboliser) des composés chimiques provenant principalement de l’environnement
de l’organisme14 pour fournir de l’énergie, des cofacteurs réducteurs et des
précurseurs nécessaires à la synthèse des constituants de la cellule. On peut y
distinguer également deux types de voies en fonction de « l’originalité » des
métabolites à cataboliser. D’une part des voies relativement ubiquitaires entre les
organismes sont en charge de produire massivement l’énergie de la cellule ainsi que
les précurseurs et cofacteurs à partir de métabolites communs ; elles sont parfois
désignées par le terme métabolisme central. Parmi les voies métaboliques appartenant
à cette première catégorie figurent notamment la glycolyse (produisant de l’énergie,
des cofacteurs réduits et des précurseurs par oxydation d’hexoses, généralement
glucose et fructose), le cycle de Krebs (ou cycle de l’acide citrique, voie métabolique
centrale produisant de l’énergie, des cofacteurs réduits et des précurseurs par
oxydation de l’acide citrique (voir Figure 7)), la phosphorylation oxydative (ou
respiration, produisant de l’énergie par oxydation des cofacteurs réduit généralement
grâce à l’oxygène du milieu) et des voies de fermentation (permettant de générer de
l’énergie et de réoxyder les cofacteurs réduits en milieu anaérobie).
14 le catabolisme peut également recycler des métabolites internes à la cellule.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
35
Figure 7. Schéma du cycle de l’acide citrique (citrate), pour E. coli. L’acetyl-coA est condensé avec l’oxaloacetate pour former le citrate. Celui-ci est progressivement oxydé et perd deux carbones sous forme de CO2. Au cours d’un cycle, 1 ATP est produit, ainsi que 3 NADH et 1 QH2 (ubiquinol), potentielles sources d’ATP si oxydées par l’oxygène dans la chaîne respiratoire. Adapté de Wikipedia (http://en.wikipedia.org/wiki/Citric_acid_cycle)
Lorsque les métabolites du métabolisme central ne sont pas directement
disponibles dans l’environnement, ce qui est en réalité majoritairement le cas, des
voies plus spécialisées se chargent de les créer en dégradant les composés qui s’y
trouvent, tout en collectant l’énergie issue de cette dégradation. La répartition de ces
voies dans les organismes est beaucoup plus disparate car elle dépend fortement de
leurs milieux habituels de vie. Ainsi, les entérobactéries possèdent des voies de
dégradation spécialisées dans l’utilisation de nombreux sucres tandis que les bactéries
du sol disposent plutôt de voies de dégradation de composés issus des plantes,
comportant par exemple des cycles aromatiques. Alors que le panel de composés
« catabolisables » est extrêmement vaste, les voies de dégradation correspondantes
ont cependant en commun de produire in fine des métabolites communs (centraux)
pouvant être réutilisés ensuite par le reste du réseau métabolique.
Le métabolisme anabolique synthétise quant à lui les constituants de la cellule à
partir des précurseurs et cofacteurs créés par le catabolisme ou directement importés
de l’extérieur. Les cellules sont en effet constituées d’un assemblage hétérogène de
macromolécules aux fonctions nombreuses (voir Tableau 2) , notamment le maintien
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
36
de la structure de la cellule (lipides, peptidoglycane), la conservation et la
transmission d’information (ARN, ADN, protéines), la catalyse des réactions
biochimiques (protéines, ARN). Ces molécules sont nommées macromolécules car
celles-ci sont des molécules de grande taille formés en général par polymérisation de
métabolites élémentaires, par exemple les acides aminés pour les protéines, les acides
nucléiques pour l’ARN et l’ARN, et l’acetyl-coA pour les lipides. Les molécules
synthétisées par l’organisme ne servent pas toutes directement au fonctionnement de
la cellule, mais peuvent être utilisées également par l’organisme pour interagir avec
son environnement ou d’autres organismes. Certaines peuvent par exemple être
excrétées pour solubiliser l’environnement extérieur, aider à se sédentariser sur un
support (création de biofilms), ou éliminer des bactéries concurrentes (synthèse
d’antibiotiques). En résumé, le métabolisme anabolique comprend l’ensemble des
réactions permettant à l’organisme de créer l’arsenal de composés chimiques qui lui
seront utiles.
Macromolécule Fraction de la masse sèche totale
Protéine 55,0%
ARN 20,5%
ARNr 16,7%
ARNt 3,0%
ARNm 0,8%
ADN 3,1%
Lipide 9,1%
Lipopolysaccharide 3,4%
Peptidoglycane 2,5%
Glycogène 2,5%
Fraction soluble 3,9%
Tableau 2. Composition moyenne en macromolécules de cellules d’Escherichia coli. Données issues de Neidhardt et Umbarger (1996).
Les précurseurs utilisés par le métabolisme anabolique sont quasiment universels
et appartiennent au métabolisme central. Cependant, comme mentionné plus haut,
certains organismes ne peuvent pas synthétiser par eux-mêmes tous les métabolites
requis à leur survie et doivent importer ceux-ci de leur environnement. D’autres
organismes sont au contraire extrêmement efficaces pour les synthétiser à partir de
molécules très basiques comme des composés à un seul carbone (CO2 ou CH4). De
même que pour les voies cataboliques, une partie des voies anaboliques est
relativement universelle entre les organismes – ce sont celles aboutissant aux
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
37
constituants ubiquitaires et vitaux des cellules. L’autre partie des voies anaboliques
est, au contraire, répartie très inégalement entre les organismes et brosse un éventail
beaucoup plus grand de molécules biologiques. En particulier, on trouve une très
grande variété de molécules issues du métabolisme secondaire chez les organismes
supérieurs et notamment celui des plantes qui ont développé un vaste arsenal de
défense « moléculaire ». Cependant, cette thèse étant focalisée sur le métabolisme des
microorganismes, nous ne ferons que l’évoquer occasionnellement.
1.4 Méthodes d’exploration du métabolisme
1.4.1 Élucidation expérimentale des voies métaboliques
Historiquement, l’identification des voies métaboliques débuta peu après la
découverte des premières enzymes à la toute fin du 19e siècle. Le développement de
méthodes de purification et de caractérisation des enzymes associées aux techniques
d’identification chimique et de marquage radioisotopique des métabolites ainsi qu’à
l’étude de la physiologie des microorganismes permit alors rapidement à un grand
nombre de biochimistes de découvrir les principales voies métaboliques de divers
organismes modèles. Ce travail, qui fut notamment très prononcé au milieu du 20e
siècle, généra une connaissance considérable sur l’enchaînement des réactions dans
les voies métaboliques mais aussi sur les caractéristiques catalytiques, cinétiques et
régulatoires des enzymes. La classification EC de l’IUBMB (voir 1.2.3) fut d’ailleurs
créée à la fin des années 50 pour fournir une classification et une nomenclature
uniformisée des enzymes, permettant d’organiser les nombreuses activités
enzymatiques déjà identifiées. Dans un deuxième temps (deuxième moitié du 20e
siècle), le développement des techniques de biologie moléculaire permit d’associer
des gènes aux enzymes identifiées et apportèrent un angle de vision complémentaire
sur le fonctionnement du métabolisme.
La somme des connaissances accumulées sur le métabolisme à la fin du 20e siècle
fut considérable et relativement complète pour quelques organismes modèles, au
premier rang desquels Escherichia coli pour les procaryotes (Neidhardt 1996) et
Saccharomyces cerevisiae pour les eucaryotes (Strathern et al. 1982). Pour ces
organismes modèles, la majeure partie des voies métaboliques fut décrite en détail,
permettant aujourd’hui d’appréhender la globalité de leur métabolisme. Cependant,
cette connaissance fut accumulée sous la forme d’un nombre tout aussi considérable
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
38
de publications. Pour organiser ces informations disparates, des initiatives de
regroupement de l’information au sein de bases de données ont vu le jour depuis une
vingtaine d’années. Deux grands types de bases de données liées au métabolisme ont
été développés. D’une part, des répertoires de données biochimiques sur les enzymes ;
les ressources les plus significatives sont BRENDA (Barthelmes et al. 2007) et
ENZYME (Bairoch 2000). D’autre part, des bases de données répertoriant selon
diverses organisations la biochimie des voies métaboliques. Parmi ces dernières,
KEGG (Kanehisa et al. 2007) et MetaCyc (Caspi et al. 2008) regroupent les voies
indépendamment des organismes, EcoCyc est spécifique au métabolisme d’E. coli
(Keseler et al. 2009), et UM-BBD se concentre sur les voies de dégradation
microbiennes (Ellis et al. 2006).
Malgré le développement de techniques d’investigation en biochimie de plus en
plus performantes – incluant notamment la chromatographie, la RMN et la
spectrométrie de masse – la découverte de nouvelles activités enzymatiques marqua le
pas à la fin du 20e siècle. D’une part, la majeure partie des voies métaboliques
principales des organismes modèles cultivables fut déjà élucidée, et d’autre part, les
centres d’intérêts majoritaires en biologie se sont déplacés plutôt sur des sujets de
biologie moléculaire.
Aujourd’hui, la recherche de nouvelles activités enzymatiques bénéficie cependant
d’un regain d’intérêt notable. Tout d’abord, l’augmentation rapide du nombre de
génomes et de métagénomes15 séquencés identifie une quantité toujours plus
importante de gènes de fonctions inconnues, dont une fraction significative code
vraisemblablement pour des enzymes métaboliques. Inversement, l’étude des
phénotypes de croissance (voir ci-dessous, chapitre 2), de la physiologie des
microorganismes et du contenu métabolomique16 des cellules (Dunn et al. 2005;
Breitling et al. 2008; Steuer 2006) permet d’identifier, parfois de manière ciblée, des
15 On désigne par métagénome tout matériel génétique d’une communauté microbienne extrait directement d’un échantillon. Il contient ainsi indistinctement les matériels génétiques des divers organismes présents dans cet environnement, permettant leur étude en s’affranchissant de l’isolement des organismes et de leur mise en culture, souvent difficiles voire impossibles. 16 Le métabolome, dans la lignée des termes en -ome (p.ex. génome, transcriptome, protéome), désigne l’ensemble des métabolites présents dans une cellule.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
39
activités métaboliques dont les gènes et enzymes sont inconnus17 (Lespinet &
Labedan 2006b; Lespinet & Labedan 2006a; Pouliot & Karp 2007). De nombreux
projets se sont développés récemment pour tenter de relier gènes et activités
enzymatiques sur ces deux bases. Les résultats attendus sont prometteurs, dans la
mesure où la disponibilité du matériel génétique pour de nombreux organismes, qu’ils
soient cultivables ou non, voire non identifiés à l’instar des métagénomes, ouvre la
voie à l’étude de l’activité d’enzymes auparavant difficilement accessibles. Les
méthodes expérimentales mises en œuvre incluent notamment le criblage d’activité de
banques d’enzymes (Kitagawa et al. 2005) sur des ensembles de substrats
(Saghatelian et al. 2004; Saito et al. 2006) et la recherche d’associations entre gènes et
phénotypes métaboliques (Aghaie et al. 2008).
1.4.2 Méthodes bioinformatiques de reconstruction des réseaux métaboliques
La mise en évidence expérimentale des activités métaboliques opérant dans un
organisme constitue la preuve la plus directe de leur existence. Cependant, quand bien
même le débit des techniques expérimentales correspondantes a fortement augmenté
ces dernières années, celles-ci restent encore beaucoup trop lourdes à réaliser pour
élucider globalement le métabolisme de tout nouvel organisme.
La possibilité de séquencer des génomes complets à moindre coût offre
aujourd’hui une solution alternative efficace (Feist et al. 2009). En effet, le
développement du séquençage s’est accompagné de la mise en place de méthodes
bioinformatiques permettant d’une part de détecter les gènes sur la séquence du
génome et d’autre part d’inférer leurs fonctions, processus appelé annotation du
génome (Médigue & Moszer 2007). L’inférence de la fonction des gènes se base
essentiellement sur la recherche d’homologies avec les gènes de fonctions déjà
connues : deux gènes codant pour des séquences protéiques très proches ont de fortes
chances de coder pour des protéines de fonctions similaires. De cette manière, les
activités enzymatiques associées à certains gènes peuvent être propagées par
homologie aux gènes nouvellement séquencés, bien que la transitivité de ce processus
puisse induire des erreurs d’annotation. Afin d’augmenter la fiabilité des annotations
17 Activités orphelines
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
40
prédites, les processus actuels d’annotation automatique combinent les sources
d’informations (Médigue & Moszer 2007). En particulier, ceux-ci étudient par
exemple le contexte génomique18 des gènes pour confirmer et préciser les annotations
prédites. En moyenne, ces méthodes permettent de prédire une fonction pour 50 à 80
pour cent des gènes d’un organisme bactérien nouvellement séquencé (Serres et al.
2004).
Les fonctions enzymatiques prédites par les méthodes d’annotation constituent
une source primordiale de données permettant de reconstruire le réseau métabolique
de l’organisme étudié. Les méthodes classiquement utilisées pour annoter les
génomes sont cependant généralistes et ne précisent pas nécessairement le détail des
conversions métaboliques associées à une fonction enzymatique. De plus, la
spécificité des conversions catalysées par une enzyme prédite peut se révéler difficile
à établir sur la seule base d’homologie de séquences. Des méthodes dédiées à la
reconstruction du métabolisme à partir de génomes annotés ont été développées pour
répondre à ces faiblesses. Elles reposent sur des bases de données de réactions
métaboliques qui leur permettent d’énumérer les réactions potentiellement catalysées
par les fonctions enzymatiques annotées et d’en détailler la biochimie. Afin de
sélectionner les réactions les plus probables et de préciser leur spécificité, ces
méthodes examinent également leur contexte métabolique : l’existence d’une réaction
prédite peut en effet être confortée par la présence d’autres réactions impliquant ses
substrats et ses produits.
D’autres méthodes bioinformatiques ont été élaborées pour détecter les activités
métaboliques manquant dans le réseau métabolique reconstruit. Une partie d’entre-
elles se base sur la connaissance des voies métaboliques complètes pour détecter les
« trous » dans les voies constitués par les réactions manquantes. De nombreuses
méthodes ont également été développées pour combler ces trous et rechercher des
18 On appelle contexte génomique d’un gène toute information apportée par son voisinage chromosomique. Il peut s’agir par exemple d’un type de fonction biologique lorsque plusieurs gènes voisins possèdent des rôles contribuant à une fonction biologique particulière. L’utilisation du contexte génomique peut être renforcée par la recherche de synténies, c.-à-d. de groupes de gènes voisins co-conservés chez différents organismes. La conservation groupée des gènes peut être un indice du fait que les gènes contribuent ensemble à une fonction biologique.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
41
gènes candidats, sur la base de leur contexte génomique, de leur occurrence
phylogénétique ou de leur expression.
Nous n’avons énuméré ici que les principales idées des méthodes
bioinformatiques de reconstruction des réseaux métaboliques. Nous en effectuerons
un état de l’art beaucoup plus détaillé plus loin dans le manuscrit, dans la revue
consacrée aux modèles globaux du métabolisme (voir section 3.2.1).
1.4.3 Vers une étude globale du métabolisme
L’efficacité des méthodes bioinformatiques de reconstruction du métabolisme
dépend directement de la variété de voies métaboliques et d’activités biochimiques
préalablement élucidées et de leur « proximité » avec l’organisme étudié.
L’accumulation considérable de connaissances sur les voies métaboliques fait
qu’aujourd’hui une part significative du métabolisme d’un organisme nouvellement
séquencé peut être reconstruite à l’aide de ces méthodes. À l’instar des organismes
modèles pour lesquels la majeure partie du métabolisme fut découverte par
expérimentation, la reconstruction in silico du métabolisme des organismes dont on
dispose de la séquence ouvre la voie à l’exploration globale de leurs voies
métaboliques et de leurs capacités de conversions. Il est évident que ces méthodes ne
peuvent détecter de novo des fonctions métaboliques originales, ces dernières n’ayant
jamais été identifiées auparavant et encore moins associées à un gène. Cependant, en
reconstituant rapidement la part déjà connue du métabolisme, ces méthodes
contribuent justement à en cerner la partie encore inconnue qui constitue souvent le
cœur d’intérêt de l’étude.
Le choix d’étudier le métabolisme d’un organisme en particulier est, dans de
nombreux cas, guidé par une caractéristique de sa physiologie : par exemple sa
capacité à exploiter un nutriment particulier, son efficacité accrue à survivre dans un
environnement donné ou son aptitude à produire un métabolite. Ces observations
traduisent généralement à l’échelle cellulaire des caractéristiques particulières de leur
métabolisme, caractéristiques dont l’élucidation est le but de ces études. De manière
plus générale, effectuer le lien entre des observations macroscopiques du métabolisme
d’une cellule – efficacité de conversion, vitesses de croissance ou de
consommation/production de métabolites, capacité de survie dans des environnements
chimiques donnés – et le détail des activités enzymatiques identifiées présente de
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
42
nombreux intérêts. D’une part, ces observations macroscopiques apportent des
informations supplémentaires sur le métabolisme, permettant d’évaluer la pertinence
des voies métaboliques reconstruites et de guider leur investigation. D’autre part, ces
observations sont la trace du fonctionnement in vivo du métabolisme et des flux de
conversions ayant réellement lieu dans la cellule. Elles complètent avantageusement
la vision statique des voies métaboliques en donnant des indications sur les
conversions réellement à l’œuvre.
Les techniques expérimentales d’investigation des « états cellulaires » ont en outre
considérablement progressées dans la dernière décennie, à la fois dans leurs
précisions et leurs débits (Joyce & Palsson 2006). Elles permettent ainsi d’étudier à
grande échelle le niveau de transcription des gènes (transcriptomique), la
concentration intracellulaire des protéines (protéomique), des métabolites
(métabolomique) et, pour l’instant dans une moindre mesure, le niveau des flux des
réactions métaboliques (fluxomique). Les données générées fournissent des
indications directes sur l’état des acteurs du métabolisme, offrant la capacité sans
précédent d’accéder aux états physiologiques internes de la cellule. Néanmoins, elles
nécessitent d’être intégrées, interprétées et combinées dans le contexte global du
métabolisme pour en tirer des conclusions pertinentes sur le fonctionnement
biochimique réel de la cellule.
La connaissance à grande échelle du métabolisme offre justement la possibilité
d’explorer globalement le fonctionnement du métabolisme et de le relier aux
comportements macroscopiques observés.
Afin de réduire la complexité des réseaux métaboliques, les biochimistes et les
microbiologistes ont traditionnellement utilisé le regroupement des réactions en voies
métaboliques pour raisonner globalement sur les conversions métaboliques (voir
1.3.1). Chaque voie métabolique y est vue indépendamment l’une de l’autre et est
caractérisée par son bilan, à savoir la transformation des métabolites d’entrées en
métabolites produits. En raisonnant sur les conversions des quelques métabolites clés
par ces voies métaboliques, un aperçu global de la physiologie de la cellule pouvait
alors être prédit et corroboré avec les observations réelles. De même, ce découpage du
métabolisme est régulièrement utilisé pour visualiser les données expérimentales dans
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
43
le contexte du métabolisme global (Kanehisa et al. 2006; Paley & Karp 2006;
Shannon et al. 2003).
Cette méthode de raisonnement trouve toutefois rapidement ses limites, pour au
moins deux raisons. Premièrement, la juxtaposition de voies métaboliques simplifie
souvent de manière exagérée les interconnexions existant entre processus
métaboliques. En effet, le bon fonctionnement d’une voie métabolique requiert
fréquemment l’exécution de conversions métaboliques « annexes », par exemple la
synthèse de précurseurs particuliers ou la régénération de métabolites cofacteurs. Un
raisonnement basé uniquement sur l’étude de l’enchaînement des voies métaboliques
risque ainsi de laisser de côté certaines interdépendances métaboliques jouant un rôle
significatif dans le comportement global. Ensuite, l’étude du fonctionnement réel du
métabolisme nécessite dans un grand nombre de cas de tenir compte de ses aspects
quantitatifs : comment se répartissent les flux de matière dans les voies métaboliques,
quelle quantité d’énergie est consommée par le fonctionnement de ces voies ? Quand
bien même il est possible de prendre manuellement en considération ces aspects
quantitatifs pour un nombre limité de voies métaboliques, étendre leur usage à
l’échelle du métabolisme entier nécessite l’emploi de méthodes plus systématiques.
Les modèles mathématiques du métabolisme répondent justement à ces deux types
de difficultés (voir section 3). Ils combinent généralement une description plus ou
moins détaillée des activités métaboliques présentes dans la cellule avec la capacité de
raisonner sur leurs états fonctionnels (concentrations de métabolites et d’enzymes,
flux de réactions) en appliquant les principes physiques déterminants. Ils ont ainsi été
particulièrement utilisés pour étudier la dynamique précise de voies métaboliques,
intégrer des données métaboliques expérimentales de diverses origines et prédire des
comportements métaboliques macroscopiques. Nous effectuerons une revue plus
complète des types de modélisation métabolique existant dans la section 3.
Notre thèse s’inscrit directement dans ce schéma. Son objectif est de développer
des outils et méthodes permettant au mieux d’interpréter un certain type
d’observations métaboliques macroscopiques – les phénotypes de croissance (voir
section 2) – à la lumière du réseau métabolique, en utilisant pour cela la modélisation
mathématique.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
44
2 Phénotypes de croissance et essentialité de gènes
2.1 Phénotypes de croissance
On appelle phénotype toute caractéristique observable d’un organisme. Un
phénotype de croissance désigne ainsi toute caractéristique propre à la croissance des
microorganismes. Par exemple : dans quels environnements sont-ils capables de se
développer, à quelle vitesse ; dans quelles proportions les nutriments sont-ils
consommés, quels sont les composés produits. Alors que les approches d’exploration
du métabolisme présentées ci-dessus sont particulièrement adaptées pour décrire le
détail des conversions chimiques à l’œuvre, l’étude des phénotypes de croissance
fournit des informations d’échelle plus large mais néanmoins complémentaires sur le
fonctionnement du métabolisme.
Les expériences de cultures suivies de microorganismes permettent de mesurer à
intervalles de temps réguliers la composition chimique de l’environnement des
organismes, ainsi que la quantité de biomasse créée (voir Figure 8). À l’aide de ces
mesures, les échanges métaboliques entre les organismes et leur environnement
(consommation de substrats, excrétion de produits) peuvent être déterminés
quantitativement et reliés à leur vitesse de croissance. Ces observations de la
physiologie des organismes fournissent des informations importantes sur le
fonctionnement in vivo du métabolisme, quand bien même elles sont d’échelle
macroscopique. Par exemple, les suivis de la consommation d’oxygène et de substrat
carboné ainsi que de la production de dioxyde de carbone sont traditionnellement
utilisés pour évaluer le rendement de production énergétique des microorganismes
(Neijssel et al. 1996). De même, lorsque l’ensemble des échanges suivis est
suffisamment exhaustif, un bilan « d’utilisation du carbone » par le métabolisme peut
être effectué, permettant de déterminer quel usage est fait des nutriments carbonés par
les organismes. La répartition du carbone entre les molécules de dioxyde de carbone,
produits de fermentation et biomasse fournit des indications quant au régime
métabolique en cours dans les microorganismes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
45
Figure 8. Expérience de croissance suivie pour une population d’Escherichia coli cultivée dans un fermenteur en condition aérobie. Tracé des concentrations de glucose, biomasse, acétate et éthanol en fonction du temps.
Une autre classe d’expériences consiste à cribler à grande échelle la croissance des
microorganismes sur des milieux distincts. En utilisant des milieux minimaux19 dans
lesquels les métabolites sources de carbone, azote, phosphore et soufre sont testés de
manière systématique, ces expériences permettent de déterminer rapidement quels
métabolites sont exploités par l’organisme. Ces résultats sont utilisés de manière
courante par les microbiologistes pour classer les microorganismes et définir les
espèces20 ; ils fournissent également des indications quant à leurs environnements
naturels. De plus, le fait d’associer les métabolites aux types de contributions
métaboliques (apport en carbone, azote, phosphore ou soufre ; accepteur d’électron)
guide la recherche des voies métaboliques sous-jacentes.
Habituellement, ces expériences sont réalisées « manuellement » en testant la
croissance sur un ensemble de milieux minimaux préparés séparément. Cependant, la
société Biolog a récemment développé et commercialisé un procédé permettant
d’augmenter le débit de ces tests en utilisant des plaques à 96 puits contenant des
19 Un milieu minimal est un milieu de culture de composition contrôlée, couvrant de manière minimale les besoins en nutriments de la cellule. Généralement, un milieu minimal possède un seul type de métabolite contribuant à chaque apport de carbone, azote, phosphore et soufre. 20 Voir http://www.bacterio.cict.fr/
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
46
milieux minimaux distincts. Ces milieux sont tous des variations autour d’une même
base, permettant de cribler de manière systématique les sources de carbone, azote,
soufre ou phosphore (Bochner 2009). Après inoculation, la croissance et l’activité
métabolique21 sont automatiquement suivies au cours du temps dans chacun des puits
(voir Figure 9). À l’heure actuelle, Biolog propose 20 plaques de phénotypage
différentes, représentant un ensemble de 1920 milieux. Parmi eux, 190 testent des
sources de carbone, 380 des sources d’azote et 95 des sources de soufre et de
phosphore. Les milieux restants évaluent la sensibilité des cellules à diverses
molécules chimiques, dont une majorité d’antibiotiques, ainsi qu’à des changements
de pH et de force ionique.
Figure 9. Activités métaboliques comparées de deux souches bactériennes sur 96 sources de carbone distinctes. En rouge et vert, cinétiques de croissance spécifiques à chacune des souches. En jaune, partie commune de leurs cinétiques. Extrait de Bochner (2009)
2.2 Exploration génétique des phénotypes de croissance
Les phénotypes représentent des caractéristiques de l’organisme étudié, qui sont
souvent aisément observables. Le développement de la biologie moléculaire, et
notamment du génie génétique, a fourni des outils permettant d’investiguer ces
phénotypes et de rechercher des associations fonctionnelles entre eux et les gènes.
Une grande classe d’expériences développées dans cet esprit consiste à rechercher les
21 Dans la méthodologie Biolog, un rapporteur coloré de la respiration cellulaire (le tetrazolium) est incorporé aux puits. Son niveau est suivi en parallèle à la quantité de cellule obtenue par mesure de la densité optique (Bochner 2009).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
47
pertes de phénotypes provoquées par la suppression d’un gène. Pour ce faire, elles
comparent les phénotypes de l’organisme sauvage avec ceux de l’organisme dont le
gène ciblé a été inactivé ou éliminé par génie génétique, organisme mutant. Ces
expériences permettent ainsi de mettre expérimentalement en évidence des liens de
causalité entre la présence d’un gène et l’occurrence d’un phénotype particulier.
S’agissant des phénotypes de croissance, l’altération recherchée la plus
significative est la létalité, c’est-à-dire la perte de la capacité à croître
consécutivement à l’inactivation ou l’élimination d’un gène. Ces gènes sont
généralement désignés comme essentiels22. De plus, la létalité peut n’être observée
que pour une partie des environnements testés, on parle dans ce cas de gènes
conditionnellement essentiels.
Dans cette section, nous donnerons un bref aperçu des principales techniques
expérimentales permettant de tester à grande échelle les effets de l’inactivation de
gènes, puis nous présenterons les principales applications de ces méthodes, en
particulier pour l’exploration du métabolisme.
2.2.1 Techniques expérimentales
Deux aspects de ces techniques expérimentales peuvent être distingués (bien qu’ils
ne soient pas complètement indépendants) : d’une part la méthode utilisée pour
inactiver ou éliminer les gènes et d’autre part la stratégie employée pour détecter à
grande échelle les gènes essentiels.
Inactivation des gènes
Trois catégories de techniques expérimentales permettent d’inactiver les gènes :
(1) l’insertion d’un transposon dans le gène, (2) la délétion totale du gène par
recombinaison et (3) l’inactivation des transcrits par ARN interférents.
Le mécanisme de transposition23 offre un outil d’inactivation génique puissant et
relativement simple à utiliser (Hayes 2003). Le principe de l’inactivation consiste à
22 Par opposition aux gènes non-essentiels. La terminologie principalement utilisée en anglais est « essential genes » et « dispensable genes ». 23 Les transposons sont des séquences ADN pouvant se déplacer, et a fortiori, s’intégrer de manière autonome dans le génome. Le mécanisme de transposition
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
48
insérer le transposon au sein de la séquence du gène ciblé de manière à empêcher la
transcription de sa séquence complète (voir Figure 10). Les sites d’insertion des
transposons étant difficilement contrôlables et modifiables en fonction des gènes
ciblés, les techniques d’inactivation génique emploient des stratégies d’insertion
aléatoire des transposons dans le génome. D’un point de vue pratique, les transposons
utilisés sont donc choisis pour pouvoir s’insérer de la manière la moins biaisée
possible à n’importe quel endroit du génome. Différentes stratégies expérimentales
ont été développées pour favoriser la transposition ; d’une part des stratégies in vivo
utilisant des plasmides ou des phages introduisant les séquences ADN des transposons
dans les cellules, et d’autre part des stratégies in vitro, réalisant tout ou partie de la
transposition hors de la cellule avant intégration dans le génome (Reznikoff &
Winterberg 2008). Les techniques d’inactivation par transposition présentent
l’avantage de pouvoir « inactiver » très facilement de nombreux sites dans le génome,
de manière non ciblée. Combinées avec des méthodes efficaces de sélection des
mutants (voir ci-dessous), ces techniques permettent de révéler rapidement des
altérations chromosomiques délétères. L’interprétation de « l’altération
chromosomique » provoquée par l’insertion d’un transposon n’est cependant pas
forcément évidente. D’une part, l’inactivation du gène par insertion n’est en effet pas
forcément réalisée et, d’autre part, l’insertion peut provoquer des effets polaires
perturbant la transcription de gènes éloignés du site d’insertion, mais présents dans le
même opéron. D’autre part, le biais d’insertion des transposons, même faible, rend
inaccessibles à l’étude certaines régions du génome et perturbe l’analyse statistique
des études par insertion aléatoire (Hayes 2003).
repose sur l’utilisation d’une enzyme, la transposase, capable d’exciser puis d’intégrer le transposon dans la séquence ADN.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
49
Figure 10. Illustration du mode d’action d’un transposon. Le transposon, préalablement excisé de son vecteur et attaché à la transposase, se lie au gène cible. La transposase catalyse alors l’intégration du transposon dans la séquence de l’ADN ciblé, altérant la structure du gène X. Illustration issue de Reznikoff & Winterberg (2008).
Afin de maîtriser au mieux l’inactivation des gènes, l’excision précise et totale du
gène de la séquence génomique est parfois privilégiée, même si le coût humain et
matériel est nettement supérieur à celui des méthodes de transposition. Les techniques
utilisées à cet effet s’appuient généralement sur les processus de recombinaison
homologue permettant de remplacer la région génomique ciblée par une séquence de
substitution introduite dans la cellule, portant un marqueur de sélection destiné à
identifier les mutants corrects (de Berardinis et al. 2008; Baba et al. 2006; Giaever et
al. 2002). La séquence de substitution peut ensuite être éliminée pour réduire les
effets polaires et pouvoir répéter le processus de délétion à un autre endroit du
génome. Nous détaillerons plus loin dans ce manuscrit un exemple de protocole de
délétion utilisé pour la bactérie Acinetobacter baylyi (section 4.3). Bien que très
précise, chaque délétion doit cependant être réalisée individuellement, rendant le
processus laborieux pour la délétion systématique de nombreux gènes (du fait du
nombre important de constructions génétiques spécifiques à réaliser).
Enfin, un dernier grand type de technique utilisé consiste à inactiver, non pas le
gène directement, mais ses transcrits à l’aide d’ARN interférents. Largement utilisée
dans le cas des cellules eucaryotes et notamment d’organismes supérieurs
(Dykxhoorn et al. 2003), cette technique est employée également avec succès chez les
bactéries (Engdahl et al. 1997; Ji et al. 2001; Forsyth et al. 2002). Elle permet
d’inactiver spécifiquement l’action du gène ciblé avec des risques moindres
d’interactions avec celles d’autres gènes. L’inactivation n’est souvent cependant que
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
50
partielle, une petite partie des transcrits pouvant ne pas être détruite et maintenant une
expression faible mais bien présente.
Stratégies de détection des gènes essentiels
De manière générale, la recherche d’essentialité des gènes se base sur l’étude des
phénotypes de croissance des mutants obtenus par les techniques d’inactivation
précédentes. Les méthodes d’étude des phénotypes de croissance (voir la section
précédente) s’appliquent donc également au cas des mutants. Des stratégies
particulières ont néanmoins été développées pour augmenter l’efficacité de la
recherche des gènes ayant un impact significatif sur la croissance.
Il est tout d’abord utile de distinguer deux manières d’évaluer l’aptitude à croître
des mutants, dont les différences ont des conséquences significatives sur
l’interprétation de leurs résultats (Gerdes et al. 2006). D’une part, la croissance des
mutants peut être évaluée de manière clonale, séparément pour chacun d’entre eux. Le
phénotype observé correspond alors directement à l’aptitude brute à croître du mutant.
Celle-ci peut également être quantifiée (voir partie précédente) afin de comparer non
seulement l’aptitude mais aussi l’efficacité à croître. D’autre part, le second type de
test consiste à évaluer l’aptitude à croître des mutants au sein de populations de
cellules mélangeant mutants et souches sauvages. Dans cette configuration, la
croissance s’effectue en compétition avec les autres souches ; on observe les effets
des mutations sur la valeur sélective des individus. L’essentialité des gènes est donc
définie ici par rapport à leur contribution à l’efficacité de survie de l’organisme (gènes
essentiels au succès reproducteur), et non plus seulement par rapport à leur seule
capacité à croître (gènes essentiels à la survie). Le choix de la méthode dépend alors
de l’exploitation faite des résultats. La première identifie de manière nette les gènes
indispensables au phénotype observé, permettant d’investiguer leurs liens, tandis que
la seconde, plus large, permet d’identifier des gènes de contributions moindres mais
potentiellement importantes du point de vue évolutif.
La stratégie la plus directe de détection des gènes essentiels consiste à inactiver
systématiquement chacun des gènes du génome et à tester les phénotypes de
croissance des mutants correspondants. Cette approche requiert de pouvoir générer les
mutants de manière ciblée. Pour cette raison, les techniques majoritairement utilisées
sont les délétions par recombinaison homologue et l’interférence par ARN (Carpenter
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
51
& Sabatini 2004), mais des protocoles ont également été développés sur la base de
transposons (Kang et al. 2004; Reznikoff & Winterberg 2008; Kobayashi et al. 2003).
L’avantage principal de cette stratégie réside dans sa couverture complète du génome,
tous les gènes sont systématiquement testés (aux impossibilités expérimentales près).
De plus, les mutants créés sont généralement conservés et peuvent être aisément
phénotypés ultérieurement pour de nouvelles conditions expérimentales, bénéficiant
par exemple alors du débit apporté par des méthodes du type Biolog. E revanche, la
création systématique d’un mutant pour chaque gène est une opération lourde, de
débit faible.
Afin d’augmenter le débit de l’expérience, des stratégies basées sur l’inactivation
aléatoire (ou « shotgun ») des gènes – par transposon (Reznikoff & Winterberg 2008)
ou ARN interférent (Ji et al. 2001) – ont été développées. Le principe de ces stratégies
consiste à générer un nombre suffisamment élevé de mutants d’inactivation24 afin
que, statistiquement, chacun des gènes ait une probabilité significative d’avoir été
inactivé (ou plutôt, une probabilité faible de ne pas avoir été inactivé). En observant
ensuite dans les mutants viables à quels endroits sur le génome se retrouvent les
transposons (voir Figure 11) ou correspondent les ARN interférents, les gènes non-
essentiels peuvent être déterminés. La couverture statistique suffisante des
inactivations (appelée saturation) permet alors de déduire que les gènes jamais
impactés sont essentiels dans les conditions de l’expérience. Comme mentionné plus
haut, le test de croissance des mutants peut être réalisé de manière clonale ou au sein
d’une population. La méthode de « genetic footprinting », relativement répandue pour
rechercher les gènes spécifiquement associés à un phénotype particulier, correspond à
ce dernier cas (Smith et al. 1995; Hare et al. 2001). Les lieux d’insertions des
transposons (déterminés par PCR25, voir Figure 11) sont comparés pour deux
populations similaires mais cultivées dans des environnements distincts. Les
24 Dans le cas des transposons, la non spécificité de l’insertion garantit dans une certaine mesure la couverture aléatoire des inactivations. Dans le cas des ARN interférents, des banques aléatoires d’ARN antisens sont généralement créées par fractionnement aléatoire de la séquence génomique (Ji et al. 2001). 25 PCR : « Polymerase Chain Reaction ». Méthode d’amplification d’une région précise de l’ADN à partir d’oligonucléotides délimitant les extrémités de la région et servant d’amorces à l’ADN polymérase. La région amplifiée est appelée produit de PCR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
52
différences significatives de fréquence d’insertion à certaines localisations du génome
révèlent alors l’essentialité conditionnelle des gènes correspondants. Le principal
inconvénient des stratégies aléatoires est la faible maîtrise de l’inactivation des gènes,
rendant parfois difficile l’interprétation de l’origine de l’essentialité.
Figure 11. Méthode de « genetic footprinting ». Les lieux d’insertion des transposons sont déterminés par la longueur des produits de PCR entre les amorces choisies à des endroits connus du génome et les amorces placées dans les transposons. Les zones vides du gel d’électrophorèse correspondent aux régions génomiques n’ayant pas retenu d’insertion après sélection des mutants, révélant une possible essentialité des gènes présents à ces loci. Demi-flèches, amorces de PCR ; losanges, lieux d’insertion des transposons. Figure extraite de
Scholle & Gerdes (2008).
Ces stratégies furent appliquées à un nombre pour l’instant relativement restreint
d’organismes (voir Tableau 3). Cependant, leur accessibilité est en constante
amélioration, et il est probable qu’elles occuperont une place plus importante dans la
boîte à outils des biologistes moléculaires (Carpenter & Sabatini 2004). S’agissant des
résultats d’essentialités existants, il est utile de mentionner les initiatives ayant pour
but de les centraliser (Yamazaki et al. 2008; Zhang & Lin 2009).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
53
Organisme Méthode d’inactivation
Test de croissance des mutants
Référence
A. baylyi ADP1 Délétion ciblée Clones (de Berardinis et al. 2008)
M. genitalium, M. pneumonia
Transposon, aléatoire
Population (Hutchison et al. 1999)
M.genitalium Transposon, aléatoire
Clones (Glass et al. 2006)
M. pulmonis Transposon, aléatoire
Clones (French et al. 2008)
S. aureus WCUH29
ARN interférent, aléatoire
Clones (Ji et al. 2001)
S. aureus RN4220
ARN interférent, aléatoire
Clones (Forsyth et al. 2002)
H. influenzae Rd Transposon, aléatoire
Population (Akerley et al. 2002)
S. pneumoniae Rx-1
Disruption ciblée Clones (Thanassi et al. 2002)
S. pneumoniae D39
Délétion ciblée Clones (Song et al. 2005)
M. tuberculosis H37Rv
Transposon, aléatoire
Population (Sassetti et al. 2003)
B. subtilis 168 Disruption ciblée Clones (Kobayashi et al. 2003)
E. coli K-12 MG1655
Transposon, aléatoire
Population (Gerdes et al. 2003)
E. coli K-12 MG1655
Transposon, ciblée Clones (Kang et al. 2004)
E. coli K-12 MG1655
Délétion ciblée Clones (Baba et al. 2006)
P. aeruginosa PAO1
Transposon, aléatoire
Clones (Jacobs et al. 2003)
P. aeruginosa PA14
Transposon, aléatoire
Clones (Liberati et al. 2006)
S. typhimurium Disruption aléatoire Clones (Knuth et al. 2004)
H. pylori G27 Transposon, aléatoire
Population (Salama et al. 2004)
F. novicida Transposon, aléatoire
Clones (Gallagher et al. 2007)
Tableau 3. Études expérimentales à grande échelle de l’essentialité des gènes pour des organismes bactériens. Données issues et complétées à partir de Gerdes et al (2006).
2.2.2 Exploitation des données d’essentialité
Historiquement, les premières études d’essentialité de gènes chez les bactéries
furent motivées par la recherche de cibles thérapeutiques pour des médicaments anti-
infectieux (Ji et al. 2001; Thanassi et al. 2002; Forsyth et al. 2002; Hare et al. 2001;
Arigoni et al. 1998; Reich et al. 1999; Chalker & Lunsford 2002). De nombreuses
études furent ainsi conduites pour des bactéries pathogènes, notamment dans le cadre
des recherches de groupes privés.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
54
Toujours à des fins d’applications pratiques, l’étude des phénotypes d’inactivation
de gènes est également utilisée en ingénierie du métabolisme. Elle permet d’identifier
des mutations optimisant l’efficacité de production (ou de dégradation, selon
l’objectif recherché) de l’organisme utilisé en neutralisant par exemple des voies
alternatives en compétition pour les ressources ou des régulations inhibitrices (Park et
al. 2008).
Plus fondamentalement, les études portant sur l’évolution des organismes, et
notamment de leurs génomes, ont exploité avec intérêt les résultats d’essentialité des
gènes. Un grand nombre d’entre elles ont ainsi cherché à établir des corrélations entre
l’essentialité des gènes et leurs caractéristiques évolutives, par exemple la vitesse
d’évolution ou les biais de leurs séquences, leur conservation entre les espèces ou leur
position dans le génome (Fang et al. 2005; Gong et al. 2008; Papp et al. 2004;
Harrison et al. 2007; Rocha & Danchin 2003). Ces analyses sont motivées par
l’exploration des mécanismes d’évolution ; la distinction entre gènes essentiels et
gènes non-essentiels permet d’une part d’estimer l’impact de la valeur sélective des
gènes sur leur évolution et d’autre part d’évaluer l’importance de la robustesse aux
perturbations génétiques comme caractère marquant de l’évolution. Une autre partie
des études liées à l’évolution se sont basées sur l’hypothèse que les gènes essentiels
représentent des fonctions universellement requises, devant donc être retrouvées dans
chaque organisme. En combinant données d’essentialité et analyses de la conservation
des gènes entre organismes, ces études ont cherché à élucider des scénarios évolutifs
et à reconstruire des génomes ancestraux (Koonin 2003). De manière connexe, de
nombreuses initiatives ont été entreprises pour construire des génomes minimaux, à la
fois via des méthodes bioinformatiques ou expérimentales (Koonin 2003; Glass et al.
2006; Mushegian & Koonin 1996).
Enfin, et plus proche du sujet de cette thèse, les phénotypes de croissance de
mutants sont aussi largement utilisés pour rechercher les fonctions de gènes et
comprendre le fonctionnement de processus biologiques. Ces approches sont basées
sur la recherche de liens de causalités spécifiques entre la présence d’un gène et
l’occurrence d’un phénotype, afin de guider soit la recherche des gènes impliqués
dans la réalisation d’une fonction particulière (approche de génétique classique), soit
la recherche de fonctions biologiques associées à un gène particulier (approche de
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
55
génétique inverse, voir Figure 12). À ces deux types d’approches correspondaient
traditionnellement des types d’expériences distinctes, par exemple le « genetic
footprinting » en génétique classique ou le phénotypage à haut débit en génétique
inverse. La réalisation de banques de mutants d’inactivation à grande échelle permet
désormais de lier les deux approches, où les phénotypes de chacun des mutants
peuvent être systématiquement testés (Carpenter & Sabatini 2004). Ces approches
sont utilisées à des fins exploratoires (Aghaie et al. 2008) mais également de
confirmation ou d’invalidation de fonctions de gènes, lorsque celles-ci sont attribuées
sur la base d’indices faibles (de Berardinis et al. 2008; Joyce et al. 2006; Baba et al.
2006). Les processus métaboliques se prêtent bien à l’utilisation de ces approches
(Gerdes et al. 2006), qui ont d’ailleurs largement contribué à l’identification des gènes
impliqués dans les voies métaboliques connues. En effet, des tests phénotypiques
caractérisant assez précisément une fonction métabolique peuvent être élaborés en
combinant complémentation par des substrats et inactivation de voies métaboliques.
Une formalisation de cette démarche a d’ailleurs été récemment développée et mise
en pratique dans un robot réalisant automatiquement à la fois les raisonnements et les
expériences correspondant à ce type d’approche (King et al. 2009; King et al. 2004).
Figure 12. Principes des approches de génétique classique et de génétique inverse.
Toutes ces études reconnaissent cependant l’existence de difficultés dans
l’utilisation des données d’essentialités de gènes. Tout d’abord, comme souligné plus
haut, l’effet phénotypique d’une inactivation de gène s’interprète parfois de manière
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
56
ambiguë. La non-viabilité d’un mutant dépend en effet fortement des conditions de
croissance de celui-ci et de sa mise en compétition ou non au sein d’une population de
cellules. L’environnement de croissance a de plus un effet majeur sur l’essentialité
des gènes, surtout pour ceux jouant un rôle dans le métabolisme. Cet aspect est mis à
profit pour justement identifier les gènes spécifiques à un environnement dans un
organisme donné, mais il brouille les comparaisons d’essentialité entre organismes
(Gerdes et al. 2006). Enfin, et surtout, l’essentialité d’une fonction biologique dans un
organisme n’implique pas nécessairement l’essentialité du ou des gènes associés à sa
réalisation. La présence de mécanismes alternatifs ou de gènes de fonctions
redondantes peut en effet rendre chacun des gènes individuellement non-essentiels.
Cette robustesse aux perturbations génétiques motive par ailleurs de nombreuses
études (Papp et al. 2004; Kuepfer et al. 2005; Deutscher et al. 2006; Stelling et al.
2004; Kitano 2007) mais rend la recherche de fonctions essentielles plus délicate. Le
recours aux délétions multiples permet d’aller un cran plus loin dans cette recherche
(Tong et al. 2004; Butland et al. 2008), mais l’explosion du nombre de combinaisons
à tester rend impossible l’utilisation naïve de ces approches.
Dans le cas du métabolisme, la connaissance des voies métaboliques et des
associations entre gènes et activités réactionnelles peut aider à interpréter
correctement les résultats d’essentialité au regard de l’environnement et des
potentielles redondances (Gerdes et al. 2006). Cependant, comme déjà mentionné plus
haut, la complexité du métabolisme et le grand nombre de résultats à interpréter
rendent ces analyses souvent difficiles à réaliser. La modélisation du métabolisme
peut justement assister l’investigateur dans cette tâche en réalisant ces raisonnements
automatiquement. Ceci constitue le sujet des travaux de notre thèse qui s’inscrit dans
un mouvement global d’initiatives en ce sens, dont nous effectuerons une revue dans
la partie suivante.
3 Modélisation du métabolisme
Dans cette section, nous donnerons tout d’abord une rapide vue d’ensemble des
méthodes de modélisation du métabolisme – avec un point de vue orienté vers la prise
en compte de l’ensemble du métabolisme de la cellule – avant de présenter plus en
détail la méthode de modélisation retenue dans cette thèse. En dernier lieu, nous
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
57
effectuerons un état de l’art à la date du début de la thèse – fin 2005 – sur
l’exploitation des phénotypes de croissance et des essentialités de gènes à l’aide des
modèles métaboliques.
3.1 Approches de modélisation du métabolisme
Largement employées en physique, mécanique ou chimie, la modélisation et la
simulation informatique ne sont en comparaison utilisées que depuis récemment en
biologie, à l’exception notable de l’écologie et de l’épidémiologie dans lesquelles les
mathématiques occupent une place significative depuis longtemps (May 2004). Les
systèmes physico-chimiques étudiés en biologie ont en effet longtemps été jugés
difficiles à aborder par ces approches du fait de leur grande complexité et surtout de la
part importante d’inconnu dans leur fonctionnement. Cependant, depuis quelques
décennies, des progrès considérables ont été effectués dans leur compréhension grâce
notamment aux avancées technologiques qui permettent de caractériser un nombre
toujours croissant de leurs acteurs et interactions. La reconnaissance toujours présente
(et même accrue) de la complexité de ces systèmes associée à la disponibilité
d’informations sur leurs acteurs ont alors motivé le développement d’approches plus
formelles pour la compréhension globale de ces systèmes26 dans lesquelles les
mathématiques et la modélisation jouent un rôle primordial. Le projet Physiome,
consacré à l’étude du fonctionnement du cœur par la modélisation à différentes
échelles – moléculaire, cellulaire, de l’organe entier – et de différentes composantes –
mécanique, biochimique, électrique –, est un exemple phare de ce type d’approche
(Noble 2002; Hunter & Borg 2003).
S’agissant du métabolisme, une variété relativement large de méthodes de
modélisation ont été élaborées, dont la nature dépend souvent à la fois des questions
posées et de la « culture » scientifique – informatique, mathématique, physique – de
leurs auteurs. En première approximation, on peut distinguer ces méthodes selon le
niveau de détail de leurs prédictions (Figure 13) (Stelling 2004).
26 Désignées communément sous le terme de biologie des systèmes (Kitano 2002; Stelling 2004).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
58
Figure 13. Formalismes de modélisation du métabolisme classés selon leurs niveaux de détails. (a) modélisation sous forme de graphes, construits à partir d’informations sur les interactions entre les acteurs du métabolisme, (b) modélisation à base de contraintes, tenant compte des relations quantitative entre flux de réaction lorsque le métabolisme opère en régime stationnaire, (c) modélisation cinétique, représentant l’évolution temporelle des quantités d’enzymes et de métabolites. Les illustrations sur la ligne inférieure représentent des résultats typiques de ces méthodes : (a) métabolites centraux (liés à un grand nombre de métabolites) en rouge dans un réseau métabolique, (b) ensemble des valeurs de flux réactionnels possibles en régime stationnaire (pour plus de détails su ce formalisme, voir section 3.2), (c) dynamique de la concentration de métabolites. Figure issue de Stelling (2004).
La méthode de modélisation a priori la plus naturelle pour un physicien consiste à
décrire l’évolution dans le temps des quantités de métabolites et d’enzymes ; il s’agit
de la modélisation cinétique ou modélisation quantitative (Di Ventura et al. 2006).
Pour cela, des modèles mathématiques de la cinétique des enzymes (voir la section
1.2.4 et Cornish-Bowden (2004)) sont utilisés pour représenter les dépendances entre
ces grandeurs, le plus souvent sous la forme d’équations différentielles. Leur
résolution analytique est le plus souvent impossible sauf dans les cas très simples. On
utilise alors la simulation informatique pour obtenir une solution numérique – des
courbes d’évolution dans le temps des grandeurs – ou des outils théoriques, tels que
les analyses de bifurcation et de stabilité, pour caractériser le comportement du
système (Di Ventura et al. 2006). La complexité des modèles cinétiques varie
significativement, en fonction des hypothèses simplificatrices formulées et de la taille
du réseau métabolique considéré. Ainsi, certains modèles prennent en compte la
localisation spatiale des molécules dans la cellule (Lemerle et al. 2005; Moraru et al.
2008) tandis que d’autres (la majorité) supposent une répartition homogène. De
même, la sensibilité des processus aux fluctuations aléatoires peut nécessiter un
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
59
traitement stochastique de ces phénomènes, rendant leur résolution plus complexe (Di
Ventura et al. 2006; Gillespie 2007). Les modèles cinétiques ont été employés avec
succès pour analyser le comportement dynamique de petits systèmes métaboliques et
prédire leurs réponses à des perturbations (Klipp et al. 2002; Zaslaver et al. 2004).
Leurs applications les plus significatives jusqu’à présent portent toutefois plutôt sur
les processus de signalisation ou de régulation transcriptionnelle (Di Ventura et al.
2006; Barkai & Leibler 1997; Bonneau et al. 2007).
Les phénotypes de croissance sont une manifestation globale du fonctionnement
du réseau métabolique. Leur étude requiert donc de tenir compte de l’ensemble des
réactions. La modélisation cinétique ne peut satisfaire actuellement cette contrainte.
D’une part, les comportements cinétiques des enzymes ne sont de loin pas tous
caractérisés27 et reposent sur de nombreux paramètres numériques souvent
inconnus28. D’autre part, le nombre de réactions impliquées rend les analyses
extrêmement complexes et souvent difficiles à réaliser, même par simulation
numérique. Pour ces raisons, des cadres de modélisation de moindres capacités
prédictives – prédictions moins précises ou hypothèses plus restrictives – mais aux
formalismes utilisables à des tailles de réseaux métaboliques plus importantes ont été
élaborés.
L’analyse du contrôle métabolique a pour objectif de quantifier les dépendances
entre les différentes grandeurs d’un système métabolique – flux de réaction,
concentrations de métabolites ou d’enzymes – fonctionnant en première
approximation autour d’un régime stationnaire (Kacser & Burns 1973; Heinrich &
Rapoport 1974; Fell 1992). Ce type d’analyse détermine typiquement des coefficients
de contrôle exprimant dans quelle mesure les variations de certaines grandeurs
influent sur les autres grandeurs et le comportement global du système. L’application
de ce type d’analyse à des voies métaboliques linéaires a par exemple pu montrer que
le contrôle du flux à l’état stationnaire d’une voie métabolique de ce type se répartit
entre les différentes enzymes de cette voie et n’est pas simplement déterminé par une
27 Même si des initiatives cherchent à établir des cinétiques « génériques » pour les enzymes (Liebermeister & Klipp 2006). 28 Malgré l’existence de bases de données centralisant les informations sur ces paramètres (Barthelmes et al. 2007; Wittig et al. 2006).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
60
seule d’entre elle29, « l’étape limitante » (Fell 1992). D’un point de vue plus global et
plus proche des phénotypes de croissance, ce type d’analyse a également été utilisé
pour étudier les dépendances entre l’efficacité à se reproduire d’organismes et les flux
dans certaines de leurs voies métaboliques clés (Dykhuizen et al. 1987). Néanmoins,
ces analyses nécessitent toujours de déterminer un nombre relativement élevé de
paramètres numériques (quantifiant les dépendances), bien que plus réduit que ceux
des modèles cinétiques. Pour cette raison, l’analyse du contrôle métabolique est
majoritairement appliquée dans deux cas de figures distincts : (1) la démonstration
théorique d’un type de comportement métabolique et (2) l’étude précise du
comportement d’un ensemble de quelques voies métaboliques en exploitant des
données expérimentales.
À un niveau de simplification supplémentaire se situe la modélisation à base de
contraintes (Price et al. 2004), que nous avons adoptée dans cette thèse et dont nous
présenterons le formalisme et les références majeures dans la section suivante (section
3.2). Ce cadre de modélisation se concentre exclusivement sur l’étude des régimes
stationnaires du métabolisme, mais sans chercher à quantifier leurs dépendances aux
variations des grandeurs du système tel que le fait l’analyse du contrôle métabolique.
Dans un souci de simplicité, il décrit le fonctionnement du métabolisme uniquement
avec les flux de réaction. Plutôt que de chercher à déterminer la valeur précise de ces
flux, tâche difficile et nécessitant une grande quantité d’information (c’est un des
objectifs des modèles cinétiques), le principe de ces modèles consiste au contraire à
exploiter au mieux l’information disponible pour affiner progressivement la
caractérisation des flux métaboliques. Ces modèles raisonnent ainsi sur des ensembles
de valeurs de flux possibles compte tenu de l’information disponible : peu
d’information résulte en de grands ensembles de valeurs possibles tandis que l’ajout
d’information réduit leurs tailles (et affine donc la connaissance des flux).
L’information est prise en compte dans ces modèles sous forme de contraintes
mathématiques sur les flux. Celles-ci peuvent simplement définir des plages de
valeurs connues (ou mesurées) pour certaines réactions ou traduire des dépendances
complexes entre flux. L’hypothèse de régime stationnaire entre dans ce dernier cas ;
29 La répartition du contrôle n’est cependant pas homogène et, quand bien même il n’existe pas une unique étape limitante, le but de l’analyse du contrôle métabolique est de déterminer lesquelles contribuent le plus significativement au contrôle.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
61
elle se traduit mathématiquement par des relations linéaires entre flux exprimant la
conservation de la matière. Le principal atout de cette méthode est donc de pouvoir
gérer le manque d’information et de pouvoir ainsi être appliquée pour des systèmes de
tailles plus conséquentes que pour les modèles cinétiques. Dans la pratique, son
utilisation pour des réseaux métaboliques globaux permet d’obtenir des prédictions
intéressantes sur la valeur de leurs flux, notamment grâce au fait que la contrainte de
régime stationnaire puisse être appliquée à cette échelle30 et contribue à affiner
significativement la caractérisation des flux. Nous reviendrons plus en détail sur ce
cadre de modélisation dans la partie suivante.
La représentation du réseau métabolique sous forme de graphe permet d’en
simplifier encore plus sa modélisation (voir Figure 13). Un graphe est un concept
mathématique et informatique permettant de représenter des liens (éventuellement
orientés) entre objets ; il se compose simplement d’un ensemble d’objets et d’un
ensemble de liens entre objets31. Les développements de la théorie des graphes ont
apporté un vaste panel de méthodes pour explorer leurs propriétés : recherche de
chemins entre objets à travers les liens du graphe, statistiques topologiques, recherche
de motifs topologiques caractéristiques, décomposition en sous-graphes de densités de
liens plus élevées… De par sa nature, le réseau métabolique se prête bien à
l’utilisation des graphes. Il peut être représenté sous la forme d’un graphe simple où
les objets sont les réactions ou les métabolites et les liens indiquent que les réactions
(respectivement les métabolites) partagent un ou plusieurs métabolites
(respectivement une ou plusieurs réactions). Il peut être également représenté de
manière plus complète en utilisant un graphe à deux types d’objets32 dans lequel à la
fois les métabolites et les réactions sont représenté ; les liens associent alors les
métabolites aux réactions auxquelles ils participent (voir Figure 14).
30 La seule information requise est la stœchiométrie des réactions, qui est en général connue dans le métabolisme. 31 La nomenclature usuelle appelle les objets nœuds et les liens arêtes. 32 Graphe biparti.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
62
Figure 14. Représentations sous forme de graphes d’un réseau métabolique théorique. Les métabolites sont représentés par des cercles et désignés par des nombres, les réactions représentées par des carrés et désignées par des lettres. À gauche, représentation sous forme d’un graphe biparti ; au centre, graphe simple de métabolites ; à droite, graphe simple de réactions.
La simplicité des graphes métaboliques permet leur utilisation dès lors que les
réactions du réseau métabolique sont connues. C’est pourquoi ils ont connu un intérêt
prononcé au moment où les réseaux métaboliques globaux de plusieurs organismes
ont été reconstruits, à la suite du séquençage et de l’annotation de leurs génomes. Une
première catégorie d’études s’est principalement attachée à analyser la structure de
ces graphes, dans le but de mettre en évidence des propriétés structurelles communes
entre organismes (Jeong et al. 2000) ou de décomposer les réseaux en modules
fonctionnels similaires à la notion de voie métabolique (Ravasz et al. 2002). Une
seconde catégorie d’études a quant à elle été consacrée à élaborer des algorithmes
permettant d’explorer les capacités de conversion des réseaux métaboliques en
fonction de leurs environnements. Ces études – basées sur des méthodes dites
d’expansion de réseau – permettent typiquement de générer l’ensemble des
métabolites pouvant être potentiellement synthétisés par un réseau de réactions à
partir d’un ensemble initial de métabolites (Handorf et al. 2005; Romero & Karp
2001; Raymond & Segrè 2006). La simplicité extrême des graphes métaboliques
limite cependant leurs capacités prédictives. Les aspects quantitatifs, et notamment la
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
63
stœchiométrie des réactions, sont en effet ignorés malgré leur importance dans la
compréhension du fonctionnement métabolique (de Figueiredo et al. 2009). Ils sont
donc majoritairement utilisés lorsque la reconstruction des réseaux métaboliques ne
peut être effectuée que de manière grossière – notamment pour les études
comparatives de nombreux réseaux – ou lorsque la taille des réseaux nécessite une
modélisation « allégée ».
Des initiatives ont cependant cherché à améliorer les capacités prédictives des
graphes métaboliques en les étendant au sein de cadres de modélisation
informatique33 plus élaborés (Fisher & Henzinger 2007). Parmi ces derniers, les
réseaux de Petri se sont révélés être particulièrement bien adaptés à l’étude du
métabolisme, permettant notamment d’aborder de façon qualitative la dynamique de
certaines voies métaboliques (Simão et al. 2005; Hofestädt 2003; Reddy et al. 1996;
Koch et al. 2005). Ces cadres de modélisation passent toutefois encore difficilement à
l’échelle du métabolisme cellulaire tout entier, pour lequel prédomine l’utilisation des
graphes ou des modèles à base de contraintes.
3.2 Les modèles à base de contraintes : reconstruction et applications
Cette partie présente de manière détaillée la modélisation à base de contraintes.
Elle couvre trois aspects : (1) le formalisme mathématique sous-jacent, (2) la
reconstruction pratique de ces modèles, notamment les méthodes et ressources
bioinformatiques de reconstruction des réseaux métaboliques (évoquées dans la
section 1.4), et (3) ses principales applications. Dans un premier temps, nous invitons
le lecteur à lire un article de revue – que nous avons rédigé au cours de la thèse pour
le journal FEMS Microbiology Reviews (Durot et al. 2009) – traitant des deux
33 Un modèle informatique se distingue d’un modèle mathématique de par son exécution directe par un ordinateur (Fisher & Henzinger 2007). Les modèles mathématiques sont généralement exprimés par des équations dont la résolution n’est pas nécessairement simple à réaliser. L’informatique peut aider à leur résolution en utilisant des programmes dédiés (notamment la simulation numérique). A l’inverse, les modèles informatiques sont exprimés sous la forme d’un langage ou d’un algorithme pouvant être directement exécuté par l’ordinateur. Ils se basent sur la description d’états et spécifient sous quelles conditions ces états évoluent. Ils sont donc par construction de nature qualitative.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
64
derniers aspects. Nous donnerons dans un deuxième temps des précisions au lecteur
sur le cadre mathématique de la modélisation.
3.2.1 Article de revue
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
R E V I EW A R T I C L E
Genome-scalemodelsof bacterialmetabolism: reconstructionandapplicationsMaxime Durot, Pierre-Yves Bourguignon & Vincent Schachter
Genoscope (CEA) and UMR 8030 CNRS-Genoscope-Universite d’Evry, Evry, France
Correspondence: Vincent Schachter,
Genoscope (CEA) and UMR 8030 CNRS-
Genoscope-Universite d’Evry, 2 rue Gaston
Cremieux, CP5706, 91057 Evry, Cedex,
France. Tel.:133 1 60 87 25 92; fax: 133 1
60 87 25 14; e-mail: vs@genoscope.cns.fr
Received 30 July 2008; revised 22 October
2008; accepted 22 October 2008.
First published online December 2008.
DOI:10.1111/j.1574-6976.2008.00146.x
Editor: Victor de Lorenzo
Keywords
metabolic network; systems biology;
computational methods; genome-scale
metabolic models; metabolic engineering;
omics data integration.
Abstract
Genome-scale metabolic models bridge the gap between genome-derived bio-chemical information and metabolic phenotypes in a principled manner, provid-ing a solid interpretative framework for experimental data related to metabolicstates, and enabling simple in silico experiments with whole-cell metabolism.Models have been reconstructed for almost 20 bacterial species, so far mainlythrough expert curation efforts integrating information from the literature withgenome annotation. A wide variety of computational methods exploiting meta-bolic models have been developed and applied to bacteria, yielding valuableinsights into bacterial metabolism and evolution, and providing a sound basis forcomputer-assisted design in metabolic engineering. Recent advances in computa-tional systems biology and high-throughput experimental technologies pave theway for the systematic reconstruction of metabolic models from genomes of newspecies, and a corresponding expansion of the scope of their applications. In thisreview, we provide an introduction to the key ideas of metabolic modeling, surveythe methods, and resources that enable model reconstruction and refinement, andchart applications to the investigation of global properties of metabolic systems,the interpretation of experimental results, and the re-engineering of theirbiochemical capabilities.
Introduction
The flow of genome sequencing, metagenome sequencingand other high-throughput experimental efforts aimed atexploring the space of microbial biochemical capabilities hasbeen steadily growing in recent years. At the time of writing,more than 1800 bacterial genome-sequencing projectshave been initiated and nearly 650 have been completed(http://www.genomesonline.org, http://www.ebi.ac.uk/integr8).Combined with increasingly efficient annotation methods,these set the stage for the systematic identification of mostenzymes encoded in the genomes of the correspondingbacterial species. A variety of so-called ‘-omics’ technologiesnow routinely provide large-scale functional clues on mole-cular interactions and cellular states, offering snapshots ofthe dynamic operation of metabolism under specified con-ditions, and adding to the store of accumulated knowledgeon microbial biochemistry and physiology.
Simultaneously, the expected wealth of new biochemicalactivities, the progress of metabolic engineering techniques
aimed at harnessing these activities, and the perspective ofapplications to white and green biotechnology have triggereda strong renewed interest in the exploration of bacterialmetabolism. In addition to charting the range of naturallyevolved chemical transformations, relevant research ques-tions include the following: How does the global metabolismof a bacterium react to changes in its environment? Whatkind of joint metabolic operation of distinct species can helpsustain a bacterial community? How can genomic andbiochemical information be best exploited to gain insightsinto the relationship between an organism’s genotype and itsphenotype? For instance, can we predict changes in metabo-lism-related phenotypic traits caused by simple or complexgenotype modifications? How did metabolic processesevolve? How can metabolic networks be efficiently repro-grammed for a variety of utilitarian purposes?
Investigations of a bacterium’s metabolism are typically fedby knowledge (ultimately from observations) at two differentscales of description of the chemistry at work within cells. Thelarger scale focuses on the physiology of the whole bacterial
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
cell. For instance, which media is it able to grow on?What arethe relative quantities of chemical nutrients it requires forgrowth? How efficient is the cell at converting chemicals fromthe environment into its own components? Such metaboliccapabilities result from the coordinated action of the enzymesexpressed in the respective species, the knowledge of whichbelongs to the finer, molecular scale. Each of the correspond-ing biochemical conversions can be identified either directlyby performing enzymatic assays, or indirectly, from thegenome sequence, through a homology relationship withproteins whose function has been previously elucidated. To-gether, the reactions that have been demonstrated to poten-tially occur in the cell form the metabolic network of theorganism. Metabolic networks can thus be viewed as listsof those molecular mechanisms (reactions) and associatedmolecular components (enzymes, substrates, and products)that are most directly related to the metabolic capabilitiesmentioned above.
For a given bacterial species, confronting knowledge fromthese two scales, molecular vs. cellular, can reveal inconsis-tencies. For instance, it may happen that no sequence ofidentified reactions is capable of producing one of theessential cell components from the set of compounds avail-able in a defined growth medium, even though the species isknown to grow on that medium. Furthermore, when the twoscales are consistent, their relationship can be investigatedfurther in order to enumerate the possible implementationsof the physiology that the metabolic network can achieve.Biochemists have traditionally performed such investigationsby modularizing the set of reactions intometabolic pathways,typically grouping together reactions that allow the conver-sion of one or more ‘input’ metabolites into ‘output’ meta-bolites. Pathways boundaries are somewhat arbitrary, eventhough inputs and outputs tend to be metabolites involved inseveral reactions. Pathway-based analyses are thus focused onthe possible fates of a restricted number of compounds, andare amenable to manual expertise thanks to the simplificationbrought by the modularized view (Huanget al., 1999; Teusinket al., 2005; Risso et al., 2008).
Yet, metabolic pathways typically involve a large numberof ‘side metabolites’ such as cofactors and byproducts ofchemical reactions, and metabolism is as much aboutconverting nutrient into cell components as it is aboutregenerating cofactors and recycling (or secreting) ulti-mately unused byproducts. The latter transformations typi-cally involve several pathways, and are dependent on thestoichiometry and rates of the reactions. Manual approachesare insufficient to assess their feasibility by a given networkfor at least two reasons: metabolic networks are too large,and the question requires a quantitative analysis.
Bridging that gap between knowledge of the metabolicnetwork structure and observed metabolic phenotypes isprecisely where metabolic models come into play. Generally
speaking, a model of a natural system is one of manypossible mathematical representation of that system,explicitly describing some of its features and supportingpredictions on some other features, the latter being typicallytime- or environment dependent. In this particular case,knowledge of the metabolic network alone is not quitesufficient to predict the metabolic capabilities of a cell. Alsoneeded are a structured (mathematical) representation ofthat network, together with a set of rules and possiblyquantitative parameters enabling simulations or predictionson the joint operation of all network reactions in a givenenvironment, and in particular predictions on the values ofmetabolite fluxes and/or concentrations (Papin et al., 2003).The above, in short, constitutes a metabolic model.
Constraint-based genome-scale models of metabolism(Palsson, 2006) are a category of models precisely aimed atassessing the physiological states achievable by a given meta-bolic network, and at uncovering their biochemical imple-mentation in terms of metabolic fluxes. They offer anidealized view of the cell as a set of ‘pipes,’ with metabolitesflowing through each pipe, and biochemical conversionstaking place at junctions between pipes. Some metabolitescan also be exchanged with the environment, flowing in or outof the system through dedicated pipes that can be opened orshut, and may have upper bounds on their throughput. Thecell is required to achieve balanced production and consump-tion of all the intermediate substrates and products involvedin its metabolism: what flows in a junction must flow out.
Constraint-based models can help investigate in a sys-tematic manner most of the research questions listed at thestart of this introduction, because they provide a way toexplore the consequences on the operation of the entiremetabolic network of the piecemeal information availableon each of its parts. They are especially well suited to ‘whatif ’ experiments involving genetic or environmental pertur-bations, such as: how would the cell behave in an environ-ment with a different chemistry than the ones that have beenexperimented on? How would one or more deletions affectits metabolic capabilities? Which deletions would maximizethe production of both metabolite x and biomass?
Before a model for a given species can be used to gain newinsights into its metabolic capabilities or evolutionaryhistory, it must first be built from the scattered genomic,biochemical, and physiological information available onthat species up to a point where known physiology can bepredicted from biochemistry without major mistakes. Thisprocess is sometimes known as ‘model reconstruction’; itsendpoint is a functional genome-scale model, i.e. a struc-tured representation of the current state of knowledgeon the metabolism of the respective species (Reed et al.,2006a). The model provides a framework to interpret newexperimental data gathered at the cellular or molecular scale.That data may be incompatible with the current model, in
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
165Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
which case either or both should be questioned, leading topossible revisions or improvements. If, on the other hand,data and model are compatible, the new evidence may stillnarrow down the set of possible metabolic behaviors of thecell, thus enriching the model (Covertet al., 2004).
This review article covers both the reconstruction ofgenome-scale metabolic models and their applicationsto basic and applied research in microbiology. Following aprimer on constraint-based models, we will review the stateof the art in model reconstruction. Next, we will survey themain applications of metabolic models, from phenotypepredictions to data interpretation or metabolic engineering.Practical aspects of direct relevance to the working micro-biologist will be covered by a sketch of the main dedicateddatabase and software resources. We will conclude thereview with a discussion on future directions in the field.
Foundations of genome-scale metabolicmodeling
The metabolic state of a cell and its variation over time canbe described by metabolite concentrations and reactionrates, which can be viewed as the ‘endpoints’ of metabolicoperation. These quantities are related by the law of con-servation of matter, which states that the net production rateof a metabolite equals the sum of the rates of the reactionsconsuming or producing it, weighted by the associatedrelative stoichiometric coefficients. Conversely, enzymekinetics express reaction rates as complex functions ofmetabolite concentrations and enzymatic activities, whichvary over time as a result of transcriptional and metabolicregulation (Smallbone et al., 2007). Deriving meaningfulpredictions from these two types of equations for largemetabolic systems is a very challenging proposition, notonly because of the mathematics, but also because many ofthe parameters are not known, difficult to measure, andpossibly context dependent. In practice, these pitfalls restrictthe use of kinetic modeling to metabolic systems muchsmaller than ‘whole-cell’ metabolic networks, which typi-cally include hundreds of reactions for a bacterium.
Constraint-based models bypass these difficulties byfocusing on the average reaction rates achievable by cellsgrown in steady or slowly varying environmental condi-tions. Rates are typically averaged over minutes, fitting withthe typical time scale of uptake or secretion rates measure-ments. Such averages are not affected by transient statesbecause the characteristic relaxation time of metabolicsystems – i.e. the time it takes for chemical reactions withinthe cell to reach a steady state – is much shorter than aminute. Moreover, because environmental changes andvariations of enzyme concentrations occur on longer timescales, one need not take into account regulatory changes toassess average reaction rates over minutes. Turnover rates of
most intracellular metabolites are high in bacterial cells(Stephanopoulos et al., 1998). At the time scale consideredhere, their concentrations have therefore generally reachedsteady levels, and remain constant as long as environmentalconditions do not change. As a consequence, the law ofconservation of matter constrains the production and con-sumption rates of these metabolites to be balanced. Theseassumptions are usually summarized under the expressionsteady-state hypothesis and the corresponding constraint onreaction rates as a mass balance (or stoichiometric) con-straint (Stephanopoulos et al., 1998). Obviously, this rea-soning applies only to metabolites that are neither taken infrom an external pool (e.g. nutrients) nor excreted from thecell or accumulated in large quantities (e.g. cell componentssuch as nucleic acids, amino acids, or some lipids). For eachmetabolite that can be ‘balanced,’ the mass balance con-straint can be expressed mathematically by a linear equationrelating reaction rates of the form
Psjnj= 0, where sj is the
stoichiometric coefficient of the metabolite in reaction j, andnj the rate of reaction j.
In addition to mass balance constraints, reactions that areknown to be thermodynamically irreversible in vivo areconstrained to have a non-negative reaction rate. Similarly,upper bounds on the reaction rates can be known frommeasurements or theory and included in the model asadditional constraints on the reaction fluxes (Reed &Palsson, 2003).
Mass balance, irreversibility and upper-bound constraintsresult from the application of simple laws of physics toindividual reactions or metabolites from the network. Theseconstraints propagate from reaction to reaction throughoutthe metabolic network; the constraint-based modelingframework is designed to automatically compute the result-ing balance. To that end, it makes use of a succinctmathematical representation of all reaction stoichiometries:the stoichiometric matrix (see Fig. 1). In this matrix, columnsrepresent reactions and rows metabolites. The stoichio-metric coefficient of a metabolite within a reaction isincluded at the intersection of the corresponding row andcolumn (see Fig. 1). Reaction rates are represented inconstraint-based models by single numbers, the reactionfluxes, which are normalized by the weight of the cellsharboring the reactions to account for the size of the colony(a reaction flux is typically expressed with the Unitmmol h!1 g!1 dry wt). Because the goal is to describe thejoint operation of many metabolic reactions, it is convenientto define a flux distribution as a collection of reaction fluxescovering the entire system. Under the steady-state approx-imation, the concentrations of balanced metabolites beingconstant, a flux distribution carries sufficient information tocompletely describe a state of the system. Using the stoichio-metric matrix, a simple matrix equation – summarizing allmass balance equations shown above – can then be used to
FEMS Microbiol Rev 33 (2009) 164–190c" 2008 CEA–GenoscopeJournal compilation c" 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
166 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
enforce the mass balance constraints on all reactions fluxes:S.n= 0, where S is the stoichiometric matrix and n the fluxdistribution represented as a vector.
A precise definition of the boundary of the system to bemodeled is also needed to formulate an explicit mathematicalrepresentation. The system typically includes the whole celland its vicinity, in order to encompass all the exchanges ofmatter between the cell and its environment. Transportreactions that allow for exchange of specific metabolites withthe extracellular space through the membrane are also in-cluded in the model. Environmental conditions are thenmodeled by acting on the balance of the external metabolites:metabolites that are available from the environment can betaken up by transporters while the others can only be excreted.
A flux distribution that is compatible with all the con-straints in a given environment is considered achievable (or
feasible) by the cell, whereas a distribution that violates atleast one of these constraints is not. The simplicity of thesystem of linear equations that represent constraints is oneof the main strengths of the framework, because it permitsfast assessments of the feasibility of a flux distribution usinga computer and standard algorithms.
The simplicity of constraint-based models comes at theexpense of a number of limitations in their predictivecapabilities. Such models focus solely on reaction fluxes,and completely ignore the influence of metabolites andenzymes. In reality, however, enzyme kinetics, and tran-scriptional or metabolic regulation may significantly influ-ence reaction fluxes. Regulation can for instance limit theuse of a pathway by downregulating some of its enzymeswhen particular environmental conditions are met. Thesemechanisms, if they could somehow be taken into account,
Fig. 1. Genome-scale modeling of metabolism. A metabolic network (top left) is transformed into a model by defining the boundaries of the system, a
biomass assembly reaction, and exchange fluxes with the environment (top right). Using the corresponding stoichiometric matrix (bottom right), the
achievable flux distributions compatible with enforced constraints can be found (a particular one is depicted in the bottom left figure).
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
167Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
would eliminate flux distributions otherwise allowed by con-straint-based models. In other words, models may allow ‘false-positive’ metabolic states, which respect the enforced meta-bolic constraints but are inconsistent with other biologicalprocesses. Several attempts have been made to extend theconstraint-basedmodeling framework, in order to account forregulatory interactions (Covert et al., 2001), signaling pro-cesses (Lee et al., 2008b), the first and second laws ofthermodynamics (Beard et al., 2002, 2004), or metaboliteconcentrations (Kummel et al., 2006b; Henry et al., 2007).Nevertheless, these extensions require the inclusion of addi-tional experimental data and may result in more complexmathematical formulation hindering their practical use.
Some predictions of constraint-based models may bewrong in cases where modeling assumptions do not hold.For instance, some metabolites do accumulate in the cell, andthe mass balance assumption clearly does not hold for these.In general, the concentration of specific metabolites may behigh enough relatively to the fluxes they are involved in for themass balance approximation to become clearly false.
In practice, many of the analytical methods that havebeen developed for constraint-based models focus on defin-ing and characterizing sets of feasible flux distributions.Others focus on a single distribution. The diversity of fluxdistributions compatible with constraints in a given envir-onment can be viewed as reflecting the diversity of themetabolic states the cell may find itself in. Nevertheless, thespace of feasible flux distributions features biologicallyinformative properties whose determination requires ade-quate techniques; these will be introduced in the nextsections of this review.
Building the models
The level of detail necessary to build a constraint-based modelof a bacterium’s metabolism is relatively low; the onlyinformation required is the precise reaction stoichiometriesand directions, in order to account for mass balance andirreversibility constraints. To reflect the global biochemicalcapabilities of the organism, the model also needs to encom-pass the complete set of metabolic activities that can occurwithin it – or a reasonable approximation thereof. Thiscomprehensiveness requirement and the high number ofmetabolic reactions make the actual construction of suchmodels a challenging task in itself. In this section, we willreview the main methods and resources helping in this task.We will first show how information from genome annotationcan be used to infer biochemical reactions at large scale, a taskcommonly called metabolic network reconstruction. We willthen review the techniques commonly used to assess theconsistency of reconstructed models, and show how missingbiochemical activities can be identified to complete the model.
Initial reconstruction of metabolic models
The most reliable evidence from which the presence of ametabolic reaction in a species can be inferred is experimentalproof of the respective biochemical activity. Such biochemicalresults have been accumulated for several decades, mostly fromdedicated experiments targeting well-defined activities. As aconsequence, the corresponding reactions have often beenprecisely and reliably characterized. Exploiting these results toreconstruct the whole metabolism of an organism is a labor-intensive task, however, as it requires processing a high volumeof literature. Most existing metabolic models have been recon-structed in this manner and for extensively studied organisms.For instance, the most complete bacterial model available todate – namely iAF1260, the latest model ofEscherichia colimetabolism – includes references to more than 320 articles(Feist et al., 2007). Two types of databases centralize biochem-ical knowledge: enzyme-centric ones, which collect functionalinformation acquired on enzymes, for example BRENDA(Barthelmes et al., 2007) or SwissProt (Boutet et al., 2007);and pathway databases, aimed at describing the biochemistryof metabolic processes, for example EcoCyc for E. colimetabolism (Karp et al., 2007) or UM-BDD for microbialbiodegradation pathways (Elliset al., 2006) (see Table 1).
These biochemical clues are typically incomplete rela-tively to the set of all possible activities, especially for lessstudied organisms. In addition, while technologies aiming athigh-throughput characterization of biochemical activitiesare improving, they are not yet mature enough to providereasonably good coverage. Genes corresponding to enzymesthat have been experimentally characterized have never-theless been identified. Their homologues in the genome ofsuch species can be identified using comparative genomicsmethods, thereby indicating the presence of the associatedbiochemical activities.
The traditional path to inferring metabolic reactions fromthe genome of an organism is gene-centric, at least in its firststeps. Nearly all available genome sequences are now system-atically processed through automated annotation pipelines,which identify coding sequences and infer functional annota-tions. Covering all relevant methods would be beyond thescope of this article, but thorough reviews can be found else-where (Medigue & Moszer, 2007). Basically, coding sequencesare first identified using highly efficient gene-finding algo-rithms [such as GENEMARK (Besemer et al., 2001), GLIMMER
(Delcher et al., 1999), or AMIGENE (Bocs et al., 2003)], whichdiscard the ORFs that are not likely to be coding for a protein.Functional annotations are then sought for each gene usingcomplementary approaches: sequence homology with pro-teins of known function [stored for instance in UniprotKB(UniProt, 2008)], conservation of genomic structure withannotated species (e.g. synteny), and prediction of functionaldomains (Apweiler et al., 2000; Claudel-Renard et al., 2003).
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
168 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Combining the above methods and information sourcesincreases the reliability of the annotation transfers fromproteins of known function to new genes. Current annotationpipelines succeed at assigning a function to 50–80% of thegenes (Serreset al., 2004). A number of databases provide suchautomatically generated annotations for most sequencedbacterial genomes (see Table 1).
In order to build a metabolic model, it is necessary toidentify the specific chemical conversions catalyzed by each
enzyme, together with the corresponding stoichiometries.Functional annotations of enzymes therefore need to betranslated into appropriate chemical equations. The EnzymeCommission (EC) numbers classification offers an unam-biguous way to identify enzyme-catalyzed reactions. Whenprovided by the enzyme annotations, these numbers directlyspecify which reactions they catalyze. Several enzyme andmetabolic databases provide the correspondence betweenEC numbers and reactions (see Tables 1 and 2). These
Table 1. Data sources for metabolic model reconstruction and refinement
DNA sequence and genome annotation databases
DDBJ http://www.ddbj.nig.ac.jp/ General nucleotide sequence database
EMBL http://www.ebi.ac.uk/embl/ General nucleotide sequence database
GenBank http://www.ncbi.nlm.nih.gov/Genbank/ General nucleotide sequence database
Integr8 http://www.ebi.ac.uk/integr8/ Integrated information on complete genomes
CMR http://cmr.jcvi.org/ Integrated information on complete prokaryotic genomes
IMG http://img.jgi.doe.gov/ Integrated system for analysis and annotation of microbial genomes
SEED http://seed-viewer.theseed.org/ Integrated system for analysis and annotation of genomes using functional
subsystems
Protein and enzyme databases
BRENDA http://www.brenda-enzymes.info/ Comprehensive enzyme information system gathering data collected from the
literature by curators
ENZYME http://www.expasy.ch/enzyme/ Enzyme nomenclature database providing extensive information on all enzymes
with an associated EC number
UniProt http://www.ebi.ac.uk/uniprot/ Universal Protein Resource gathering protein sequences and annotations from
SwissProt (manually reviewed), trEMBL (computer annotated), and PIR
TransportDB http://www.membranetransport.org/ Predictions of membrane transport proteins for fully sequenced genomes
PSORTdb http://db.psort.org/ Repository of experimentally determined and predicted protein localizations
Prolinks http://prolinks.mbi.ucla.edu/ Database of predicted functional links between proteins
STRING http://string.embl.de/ Database of known and predicted protein–protein interactions
Metabolic databases
CheBI http://www.ebi.ac.uk/chebi/ Database on small molecules of biological interest
Pubchem http://pubchem.ncbi.nlm.nih.gov/ Database on small molecules
LipidMaps http://www.lipidmaps.org/ Database on lipid metabolites
Reactome http://www.reactome.org/ Curated database of biological pathways
KEGG http://www.genome.jp/kegg/ Suite of databases comprising information on compounds, reactions, pathways,
genes/proteins
BioCyc http://www.biocyc.org/ Collection of organism-specific pathway/genome databases, including a curated
multiorganism pathway database: MetaCyc
UniPathway http://www.grenoble.prabi.fr/
obiwarehouse/unipathway/
Curated resource of metabolic pathways linked to UniProt enzyme database
UM-BBD http://umbbd.msi.umn.edu/ Database on microbial biocatalytic reactions and biodegradation pathways
Experimental data repositories
IntAct http://www.ebi.ac.uk/intact/ Repository of reported protein interactions
DIP http://dip.doe-mbi.ucla.edu/ Database of experimentally determined interactions between proteins
Array Express http://www.ebi.ac.uk/aerep/ Public repository of microarray data
GEO http://www.ncbi.nlm.nih.gov/geo/ Public repository of microarray data
ASAP http://asap.ahabs.wisc.edu/ Repository of results of functional genomics experiments for selected bacterial
species
E. coli multi-omics DB http://ecoli.iab.keio.ac.jp/ Comprehensive dataset of transcriptomic, proteomic, metabolomic, and fluxomic
experiments for E. coli K12
Systomonas http://www.systomonas.de/ Repository of ‘omics’ datasets and molecular networks for pseudomonads species
PubMed http://www.pubmed.org/ Database on biomedical literature
Metabolic model repositories
BiGG http://bigg.ucsd.edu/ Repository of reconstructed genome-scale metabolic models
BioModels http://www.ebi.ac.uk/biomodels/ Database of mathematical models of biological systems
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
169Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
metabolic databases are often comprehensive catalogues ofknown biochemical reactions with the associated chemicalinformation, including stoichiometry: they include most ofthe reference knowledge needed to build metabolic models.
Several issues hinder this translation process. First, enzy-matic activities that have been identified only recently areusually not included in the EC classification. Furthermore, fullEC numbers are not always systematically assigned in theannotation process. As a result, many annotations retrievedfrom protein databases are only textual (as in UniProtKB) orontology based [as in Gene Ontology (Ashburneret al., 2000)]and do not provide the required metabolic informationdirectly. To address this shortcoming,PATHOLOGIC, the meta-bolic network reconstruction software tied to the BioCycmetabolic databases, includes an algorithm performing theidentification of gene-reaction links from textual annotations(Karp et al., 2002) (see Table 3). This procedure relies on adictionary of synonyms, however, and may fail at recognizingan explicit reaction when uncommon terms are used. Anexpert curation step is thus necessary, for which metabolicpathway databases provide useful guidance. Recent initiativesspecifically aim at solving this issue: for instance, textualannotations in UniProtKB/SwissProt are being progressivelyreplaced by direct references to reactions from UniPathway, ametabolic database in which all reaction steps are specified upto the chemical level (see Table 1).
The broad specificity of some enzymes may also signifi-cantly increase the number of distinct reactions they cancatalyze. For instance, enzymes annotated with alcoholdehydrogenase activity (EC 1.1.1.1) may catalyze the degra-dation of several distinct alcohols. Similarly, enzymes actingon lipids are often not specific to the length of their carbonchain. In such cases, functional annotations often report theactivity using generic metabolites (e.g. ‘an alcohol’ or ‘a fattyacid’) representing the entire set of possible substrates.Instantiating reactions with specific metabolites is requiredwhen building a metabolic model, however, as accountingfor the mass balance constraint requires that all metabolitesshould be well defined. It is thus necessary to identify foreach generic compound the corresponding set of specificcompounds, as much for primary substrates as for cofactors.This task is complicated by the combinatorial effect, becausethe number of substrate combinations may significantlyincrease the number of specific reactions. To address thisissue, databases of chemical species can be used to identifyall metabolites of a given chemical category (see Tables 1 and2). In order to determine which metabolites are preferen-tially recognized by enzymes, processing the literature orbrowsing information collected in enzyme databases such asBRENDA (Barthelmes et al., 2007) is often necessary.Metabolites involved in metabolic pathways that havealready been inferred may also help in selecting the mostrelevant substrates.Ta
ble
2.Typeofinform
ationprovided
byeach
datasource
Typeofinform
ation
Biochem
icalactivities
Typ
e of
info
rmat
ion
DDBJ EMBL GenBank Integr8 CMRIMGSEED BRENDA ENZYME UniProt TransportD
BPSORTdb Prolinks STRING CheBI Pubchem LipidMaps Reactome KEGG BioCyc UniPathwayUM-BBD IntAct DIPArra
y Express
GEOASAP E. coli m
ulti-omics
DB
Systomonas
PubMed
Bio
chem
ical
act
iviti
esE
nzym
e sp
ecifi
city
Enz
yme
loca
lizat
ion
Rea
ctio
n eq
uatio
n
Rea
ctio
n di
rect
ion
Met
abol
ite fo
rmul
a
GP
R a
ssoc
iatio
n1
Bio
mas
s co
mpo
sitio
n
Exp
erim
enta
l obs
erva
tions
Enzymespecificity
Enzymelocalization
Reactioneq
uation
Reactiondirection
Metab
oliteform
ula
GPR
association
Biomasscomposition
Experim
entalo
bservations
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
170 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Alternative approaches to metabolic network reconstruc-tion bypass the classical annotation step altogether, takinginstead advantage of the curated links between enzyme-encoding gene sequences and reactions [or EC numbers, asin the Genome-Based Modeling (GEM) system (Arakawaet al., 2006)] provided by some metabolic databases. Orthol-ogy relationships are sought between reference sequencesfrom these databases and the coding sequences from the newgenome. While these methods [e.g. AUTOGRAPH (Notebaartet al., 2006), or IDENTICS (Sun & Zeng, 2004), see Table 3]simplify the reconstruction process, they usually do notbenefit from advanced annotation techniques, such as thosederived from structural genomics or domains recognition,and are more difficult to combine with expert annotation.They are also conditioned on the availability of curatedgene-reaction associations for a set of reference organisms.
The reconstruction of the metabolism of a new organismcan also benefit from the knowledge of complete pathwaysin related organisms. Metabolic databases often groupreactions into pathways or modules that indicate knownco-occurrence relationships between reactions that holdacross several organisms. Three main resources provide thistype of information: MetaCyc (Caspi et al., 2006), KEGGModules (Kanehisa et al., 2007), and SEED (Overbeek et al.,2005) (see Tables 1 and 2). Metabolic model reconstructionprocedures tied to such databases can exploit the known co-occurrences of reactions across reference organisms whosemetabolism has been extensively studied (Arakawa et al.,2006). An instance of a reconstruction procedure takingadvantage of this notion of metabolic context is againPATHOLOGIC, which infers the presence of pathways ratherthan that of single reactions when possible. A reconstructionprocedure based on the SEED database was also proposed
recently (DeJongh et al., 2007); it includes a check that theinferred pathways can be properly connected to form a‘working’ model. By leveraging a specific form of ‘guilt-by-association,’ approaches of this type may be able to retrievereactions catalyzed by enzymes that cannot be correctlyidentified using current methods. In addition, the presenceof spontaneous reactions in the organism may be identifiedby the occurrence of neighboring reactions in referencemetabolic pathways.
In addition to their equations, the reversibility andlocalization of reactions need to be determined for meta-bolic models. Few metabolic or enzyme databases report onthe reversibility of reactions in in vivo conditions (see Table2). When not found in the literature, reversibility is there-fore often determined using simple thermodynamic con-siderations based on the reaction Gibbs energy, if it isknown, or on basic rules depending on the energy equiva-lents (e.g. NADH or ATP) involved in the reactions (Ma &Zeng, 2003; Kummel et al., 2006a). Even though very fewcompartments divide bacterial cells (with periplasm andcytoplasm as the only main compartments in gram-negativebacteria), the presence of such physical separation betweenmetabolites need to be included in their metabolic models.Enzymes present in one compartment cannot interact withmetabolites present in another one. To properly model theeffect of compartments, the localization of enzymes and thetransport of metabolites need to be determined. Informa-tion on the localization of enzymes and reactions is seldomincluded in metabolic databases. Curated versions of BioCycdatabases, especially MetaCyc, are a welcome exception,however (Caspi et al., 2006). When not found in theliterature, localization can be inferred using ab initio predic-tions from enzyme sequences (Schneider & Fechner, 2004),
Table 3. Methods for model reconstruction
Metabolic model reconstruction (beyond the use of dedicated metabolic databases)
Identification of metabolic reactions from textual gene annotations Karp et al. (2002)
Direct inference of metabolic reactions from genome sequence Sun & Zeng (2004), Arakawa et al. (2006), Notebaart et al. (2006)
Use of metabolic context to complete pathways Karp et al. (2002), Arakawa et al. (2006), DeJongh et al. (2007)
Metabolic model consistency checks
Flux variability analysis: identification of reactions that are predicted to never
carry any flux
Mahadevan & Schilling (2003)
Identification of dead-end metabolites, which can never be produced or
consumed.
Segre et al. (2003), Ebenhoh et al. (2004), Imielinski et al. (2005),
Kumar et al. (2007)
Assessment of thermodynamic consistency and assignment of reaction
directions.
Yang et al. (2005), Kummel et al. (2006a, b)
Gap filling and model expansion
Graph-based metabolic network expansion using shortest metabolic paths Arita (2003), Boyer & Viari (2003)
GapFill: optimization-based network expansion and reaction reversibility
changes to solve dead-end metabolite inconsistencies
Kumar et al. (2007)
Optimization-based metabolic network expansion to resolve inconsistent
growth phenotypes
Reed et al. (2006a, b)
Network-based identification of candidate genes for orphan metabolic activities Osterman & Overbeek (2003), Green & Karp (2004), Chen & Vitkup
(2006), Kharchenko et al. (2006), Fuhrer et al. (2007)
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
171Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
or determined experimentally, for example using fluores-cence microscopy (Meyer & Dworkin, 2007). Transport ofmetabolites can be inferred using comparative genomicstools that identify transport enzymes [e.g. TransportDB(Ren et al., 2004)]. Yet, such methods hardly determine thespecificity of transporters; knowledge of transported meta-bolites is therefore often completed using direct informationon the microorganism’s physiology and the metabolites itwas shown to utilize in growth experiments.
Overall, reconstructing a constraint-based model for anorganism’s metabolism involves collecting various types ofinformation. A summary of the respective contributions ofeach data source to themodel construction is shown in Table 2.
Checking the consistency of reconstructedmodels
Once a draft metabolic model is obtained, its consistencycan be checked using a set of simple tests (see Fig. 2): is themodel chemically and physically coherent? Are there re-maining ‘dead-ends’ in metabolic pathways or reactionsbound to be inactive? Is the model able to produce essentialmetabolites from a known growth medium?
Constraint-based metabolic models fundamentally relyon reaction stoichiometries to properly account for the massbalance in metabolism at steady state. It is therefore crucialthat all chemical equations are correctly balanced to avoidunrealistic creation or destruction of matter. To control thecorrectness of the reaction stoichiometries, the atom balanceof each reaction can be checked using the chemical formulae
of the metabolites, which are typically found in databases ofchemical compounds (see Table 1). For cases where theformula is not available for all metabolites, a method wasrecently introduced to detect such balance errors in meta-bolic models by solely comparing chemical equations – forinstance, reactions A ! B and A ! B1C would be identi-fied by this method as ‘stoichiometrically inconsistent,’because balancing both equations would require that atleast one of the metabolites has a null or negative mass(Gevorgyan et al., 2008).
The assumptions on which constraint-based models arefounded do not enforce thermodynamic consistency on thefluxes. Flux distributions obeying conservation of mass canstill include internal cycles that violate thermodynamic laws,allowing for instance the artificial generation of high-energycofactors. To prevent models from predicting such unrealis-tic metabolic modes, extensions of the modeling frameworkwere proposed that directly enforce these laws (Beard et al.,2002). Their nonlinear nature entails costly computations,however, which hinder the use of such modeling extensionsin practice. In order to provide thermodynamically consis-tent models without including such extensions, methodshave been developed to detect inconsistent cyclic modes indraft metabolic models, and propose changes in reactionreversibility that would avoid those modes from beingpredicted (Yang et al., 2005; Kummel et al., 2006a).
Before one can reap the benefits of having a model, themodel should be functional, i.e. it should be checked thatnon-null fluxes can actually be predicted. This relates to thecompleteness of the model, because for instance a missing
Fig. 2. Pipeline for model reconstruction and
refinement. An initial model is reconstructed
from genome annotations and from preexisting
knowledge on the species’ biochemistry and
physiology. Besides collecting the biochemical
activities, this task includes several additional key
steps. The resulting model is then iteratively
corrected and refined, according to internal
consistency criteria and by comparing its
predictions to experimental data.
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
172 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
reaction in a linear pathway would prevent any non-null fluxfrom being predicted in it at steady state, thereby inactivat-ing all other reactions in the pathway. Metabolites that arenever consumed or never produced, so-called ‘dead-ends,’typically reveal that reactions are missing. In order to helpinvestigate and correct these so-called ‘metabolic gaps,’methods have been developed that assess whether reactionscan be active in the model (Reed & Palsson, 2004), identifydead-end metabolites (Kumar et al., 2007) or directly trackthe producibility of metabolites from source metabolites(Segre et al., 2003; Ebenhoh et al., 2004). In case the model islater used to predict growth phenotypes (see Applications ofmetabolic models), the producibility of biomass precursorsand the completeness of their biosynthetic pathways should beespecially checked beforehand. Dedicated procedures havebeen designed to systematically perform these checks fornewly reconstructed models (Segre et al., 2003; Imielinskiet al., 2005; Senger & Papoutsakis, 2008). Solving suchinconsistencies often involves filling metabolic gaps or com-pleting the network with additional metabolic pathways.
The methods presented in this section check the consistencyof the reconstructed model with respect to a set of basic rules(see Table 3). We will review in the section on model applica-tions how model predictions can also be confronted withexperimental data, providing consistency checks of the modelwith respect to diverse additional experimental evidence.Interpreting and solving identified inconsistencies of eithertype are key to improving the quality of the metabolic model.
Targeted searches for missing metabolicactivities
Consistency checks (either internal to the model or relative toexperimental datasets) may showthat the reconstructedmodelis incomplete and lacks some metabolic reactions. Resolvingthese metabolic gaps entails expanding the model by identify-ing and including missing biochemical activities. This processbasically consists of two steps: (1) identifying plausible candi-date reactions that could complete the model and (2) findinggenes that could catalyze the hypothesized activities.
Reactions contained in metabolic databases are the pri-mary source of information for completing the metabolicmodel (see Table 1). The search for candidate reactionswithin these databases can be facilitated using knowledge ofexisting pathways (as in MetaCyc, SEED, or UM-BBD, seeTable 1) or computational methods (Arita, 2003; Boyer &Viari, 2003; Kumar et al., 2007) (see Table 3). In the lattercategory, the GapFill method was specifically developed toidentify dead-ends in models, and correct them by addingreaction from a global repository of reactions, changing thereversibility status of reactions, or adding transporters(Kumar et al., 2007). The addition of reactions to the modelis guided by an optimization step minimizing the number of
reactions. Similarly, Reed et al. (2006b) proposed a methodwhich drives the expansion of the metabolic model toaccount for the utilization of additional external com-pounds. For metabolites experimentally shown to be usedby the organism but not predicted as such by the model (seeApplications of metabolic models on growth phenotypepredictions for methods to perform these predictions), theirmethod automatically proposes minimal sets of reactionsfrom a repository of reactions that, if added, would allow themodel to exploit the external metabolites.
The set of reactions referenced in metabolic databases is farfrom being comprehensive: the right candidates for complet-ing the model may not yet be known. Computational andexperimental approaches have been proposed to extend this‘universe of possible reactions.’ On the computational side,several methods originating from the field of chemo-infor-matics have been designed to infer chemical transformations(Gasteiger, 2005). Some of them have been more specificallyadapted to biochemical transformations, using rules on enzy-matic conversions to infer new conversions for biologicallyrelevant metabolites (Klopman et al., 1994; Arita, 2000;Hatzimanikatiset al., 2005; Ellis et al., 2008).
Numerous experimental methods are also being devel-oped to explore the range of possible biochemical reactions.MS and nuclear magnetic resonance (NMR) techniques areable to identify and quantify large sets of metabolites at highthroughput (Dunn et al., 2005; Dettmer et al., 2007).Computational methods have been proposed to infer reac-tions from MS data, by analyzing mass differences betweenrelated metabolites (Breitling et al., 2006) or correlationsbetween metabolite concentrations across distinct conditions(Steuer, 2006). They do not provide direct evidence for bio-chemical transformations, however: their predictions should betreated as clues to be confirmed by additional information.Although mostly used to determine metabolic fluxes, atom-labeling experiments could also become powerful tools toelucidate novel metabolic pathways (Sauer, 2006). They canadvantageously complement computationalab initio pathwayinference methods by selecting candidate pathways that arecompatible with observed isotopic patterns. Finally, untargetedenzyme activity screenings have recently been performed toidentify the substrates of enzymes of unknown function anddiscover novel activities (Saghatelianet al., 2004; Saito et al.,2006). The availability of large-scale libraries of ORF clones(Kitagawa et al., 2005) should increase the likelihood of suchmethods expanding the store of known reactions.
The search for candidate genes for orphan metabolicactivities is in some ways the reverse of the classical genomeannotation problem (i.e. searching the function of identifiedgenes). Yet, many of the tools developed to determine genefunctions can be adapted for this purpose. Sequence homol-ogy to already characterized genes is central to mostmethods for candidate gene detection, but combining it
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
173Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
with additional types of evidence can significantly improveperformance. For instance, several approaches exploit func-tional links, such as gene neighborhood, gene co-expression,protein interaction, or phylogenetic co-occurrence, to relatecandidate genes with genes involved in the same metabolicpathways or close in the metabolic network (Osterman &Overbeek, 2003; Green & Karp, 2004; Chen & Vitkup, 2006;Kharchenko et al., 2006; Fuhrer et al., 2007). Databases suchas STRING (von Mering et al., 2007) or Prolinks (Bowerset al., 2004) compile large sets of functional links across awide range of organisms. On the experimental side, enzymeactivity screenings are used to validate the generated candi-dates. Furthermore, when the orphan activity is associatedto a specific phenotype, screens of systematic knockoutmutant phenotypes can help in identifying candidates(Aghaie et al., 2008).
The two types of methods – finding candidate reactionsor candidate genes – benefit from being used in combina-tion, as identifying genes for putative reactions can help inselecting the proper reactions to include.
Applications of metabolic models
A wealth of computational methods has been developed tohelp analyze biological properties revealed by reconstructedmetabolic models. Not only would a comprehensive andtechnical description exceed the scope of this review, butthese methods have been extensively covered elsewhere,either on the technical side (Price et al., 2004) or forapplications on a specific organism, i.e. E. coli (Feist &Palsson, 2008). We will provide here the reader with a reviewon the main applications for which constraint-based modelshave been most successful and are mostly promising forbacterial species. We will distinguish four main types ofapplications: (1) analysis of network properties of metabo-lism, (2) prediction and analysis of bacterial growth pheno-types, (3) model-based interpretation of experimental data,and (4) metabolic engineering.
Analysis of network properties
The principle of constraint-based modeling consists in study-ing the set of reaction fluxes – namely flux distributions – thatare achievable at steady state given the constraints imposed onthe system. Reaction fluxes can vary inside a continuous set ofpossible values. This set can encompass significant variabilityat the level of individual pathway or reaction fluxes. A widerange of methods have been designed to explore that varia-bility and analyze specific properties of metabolites andreactions which emerge from the flux constraints.
One approach consists in sampling the set of achievableflux distributions (Almaas et al., 2004; Reed & Palsson, 2004;Wiback et al., 2004). Methods that provide a uniformsampling of the possible states have been proposed (Almaas
et al., 2004; Wiback et al., 2004). By sampling a significantnumber of metabolic states, these approaches offer an over-view of the range of flux distributions that can occur in themetabolic network at steady state. The ‘uniform’ nature ofthe sampling is based only on the mathematical descriptionof the set of possible flux distributions, avoiding any priorassumption on which metabolic states are most likely to beselected in vivo. For instance, these sampling methods havebeen used to evaluate the relative occurrence of reactionswithin the set of possible flux distributions and acrossseveral environmental conditions (Almaas et al., 2004). Thisanalysis showed that a few reactions are active in manysampled flux distributions and carry high fluxes – forming aso-called high-flux metabolic backbone – while many othersare active in few sampled flux distributions and carry lowfluxes. Similar methods were also used to evaluate thecorrelation of flux values between pairs of reactions acrosssampled metabolic states (Reed & Palsson, 2004; Beckeret al., 2007) and thereby determine metabolic dependenciesbetween reactions. From a more theoretical angle, samplingwas also used to evaluate the size of the set of possible fluxdistributions (Wiback et al., 2004; Braunstein et al., 2008).When computed for distinct (genetic perturbation! environ-mental condition) pairs, the relative sizes of the correspondingflux distribution sets were interpreted as indicators of therespective diversity of metabolic states in the tested conditions(Wiback et al., 2004).
The diversity of achievable metabolic fluxes can also beevaluated locally for each reaction. Flux variability analysiswas designed for this purpose: an optimization procedurecomputes the minimal and maximal allowed flux of eachreaction independently (Mahadevan & Schilling, 2003). Thisprocedure identifies reactions that do not carry any flux, orconversely those that carry non-null flux in all possiblemetabolic states. Flux variability analysis has been broadlyused to predict the activity of reactions for specific sets ofmetabolic constraints (Mahadevan & Schilling, 2003; Reed& Palsson, 2004; Teusink et al., 2006; Feist et al., 2007; Henryet al., 2007; Shlomi et al., 2007a).
Flux sampling or flux variability approaches only providepartial description of the set of possible flux distributions.To get a comprehensive picture of the possibilities, methodswhich compute elementary modes (Schuster et al., 2000)and extreme pathways (Schilling et al., 2000) have beendeveloped. These notions differ only slightly in their math-ematical formulation (Klamt & Stelling, 2003; Papin et al.,2004): the main idea is to determine the set of elementaryand independent metabolic routes that can occur in themetabolic model. These elementary routes are flux distribu-tions that (1) respect all assumed constraints, includingsteady state and irreversibility, and (2) are elementary inthe sense that they are composed of a minimal set of activereactions. This second condition ensures that the flux
FEMS Microbiol Rev 33 (2009) 164–190c" 2008 CEA–GenoscopeJournal compilation c" 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
174 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
distribution is not decomposable into a combination ofsmaller elementary routes. It can be shown that any achiev-able flux distribution can be expressed as a combination ofsuch elementary routes. This property, together with the factthat the set of elementary routes is unique, independently ofthe method used to compute it (Klamt & Stelling, 2003), hasinspired numerous applications. This subfield is also knownas metabolic pathway analysis. For instance, elementarymodes and extreme pathways have been used to exhaustivelydescribe the independent metabolic routes occurring innewly reconstructed models, often sorted by metabolicfunction (Schilling & Palsson, 2000; Van Dien & Lidstrom,2002; Papin et al., 2002). The redundancy of routes can beassessed and the respective yields of routes of conversion canbe compared (Papin et al., 2002). Conversely, the relativeimportance of reactions in metabolism was scored usingelementary routes, reactions involved in many routes beinglikely to be key players in metabolism (Stelling et al., 2002).Finally, metabolic dependencies between reactions which arestronger than those determined only by analyzing the correla-tion of fluxes in sampled distributions can be deduced fromknowing elementary routes. Reactions that always appearjointly in elementary routes are bound to operate together(Pfeiffer et al., 1999). The main obstacle in metabolic pathwayanalysis is the size and complexity of the metabolic models, asthe number of elementary routes dramatically increases withthe size of the model (Yeunget al., 2007). The computation ofall routes is currently only tractable for medium-size models,although significant progresses have been made recently(Terzer & Stelling, 2008).
Alternative approaches have been developed in order toexplore metabolic dependencies in models of larger size.One of them, flux coupling analysis, has become a popularanalytical tool (Burgard et al., 2004). Flux coupling analysisidentifies all pairs of reactions whose fluxes are alwayscoupled at steady state. It has been used in a wide range ofstudies, and the resulting sets of coupled reactions were forinstance compared with correlations observed in the tran-scriptional states of enzymes (Reed & Palsson, 2004;Notebaart et al., 2008), interpreted with respect to thestructure of the metabolic regulation (Notebaart et al.,2008), and used to study the horizontal transfer of genesduring bacterial evolution (Pal et al., 2005a, b). Similarmethods were developed to study metabolic relationshipsbetween metabolites, either by simply examining theco-occurrence of metabolites in reactions (Becker et al.,2006) or by determining conservation relations betweenmetabolites (Nikolaev et al., 2005; Imielinski et al., 2006).This last type of method was applied to determine couplingrelationships between metabolite concentrations, identifymetabolite pools sharing conserved chemical moieties(Nikolaev et al., 2005), and exhaustively predict distinctminimal growth media for E. coli (Imielinski et al., 2006).
Prediction of growth phenotypes
One of the primary uses of genome-scale metabolic modelsis the prediction of growth phenotypes (Price et al., 2004;Palsson, 2006). Because these models aim at comprehen-siveness, they are able to account for all main metabolicprocesses contributing to growth, i.e. the production ofenergy and biomass precursors from external metabolites.Growth phenotypes can therefore be predicted by examiningto which extent metabolic requirements for growth, in termsof energy generation and biomass precursors synthesis, canbe fulfilled by flux distributions from the model. Growthphenotypes can be predicted either in a qualitative manner(prediction of the mere ability to grow) by checkingpiecemeal for the producibility of each biomass precursormetabolite (Imielinski et al., 2005), or in a quantitativemanner (prediction of growth performance) by including abiomass reaction consuming them in proportion to theirratio in biomass composition and studying the flux values itcan attain (Price et al., 2004). Determining biomass compo-sition is therefore a necessary prerequisite to growth pheno-type predictions. This is often achieved by examining therelevant literature or adapting known biomass compositionsof related organisms. The Flux Balance Analysis (FBA)method was specifically designed to predict quantitativegrowth phenotypes (Varma & Palsson, 1994b; Price et al.,2004). It computes the maximal growth yield achievable inthe metabolic model by maximizing the biomass reactionflux (representing the growth rate) given a set of boundedintake rates for external substrates. FBA relies on the strongassumption that bacteria have optimized their growthperformance in a subset of possible environments duringtheir evolution, thereby making the maximization of bio-mass production a driving principle for metabolic operation(Varma & Palsson, 1994b). This assumption has beenconfirmed by experiments in several cases (Edwards et al.,2001). Using FBA, global quantitative relationships can bepredicted between the input rates of nutrients, the outputrates of byproducts, and the growth rate (Stephanopouloset al., 1998; Edwards et al., 2002; Price et al., 2004).
The global energy consumption of the cell can signifi-cantly influence the outcome of quantitative growth pheno-type predictions. Two ATP hydrolysis fluxes are added to themodels in order to properly account for it. One is constantand models the non-growth-associated maintenance, whichrepresents the fraction of the energy demand necessary forthe cell survival that is independent from its growth rate, forexample to maintain the right ionic strength (Stouthamer &Bettenhaussen, 1973). The second flux is proportional to thegrowth rate and corresponds to the energy demand asso-ciated with growth beyond the mere requirements of meta-bolic pathways – which are already directly accounted for inthe model – for example energy for cell division or assembly
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
175Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
of higher order cell structures. These two parameters areusually determined by fitting growth yield predictionsderived using FBA to measured growth yields provided bygrowth monitoring experiments (Reed et al., 2006a).Measurements of growth yields for distinct growth rates aresufficient to fit both growth-associated and non-growth-associated maintenance parameters (Varma & Palsson,1994a). The values of these parameters were determinedusing experimental growth measurements for a significantproportion of reconstructed models (see Table 4).
Once fitted, and assuming these parameters remain con-stant across environments, the model can be used to predictgrowth rates on different media (Edwards et al., 2001).Predicted growth yields revealed to be consistent withobserved ones on a significant number of media for E. coli(Edwards et al., 2001). Inconsistencies between predictedand observed growth yields can have multiple interpreta-tions. First, the assumption of optimal substrate utilizationcan be questionable for growth predictions on environmentsthat are not commonly encountered by the organism (Ibarraet al., 2002; Schuster et al., 2008). Using an adaptive
evolution experiment on E. coli cells grown in glycerolminimal medium, Ibarra and colleagues actually observedthat, while the initial growth yield was suboptimal, itprogressively evolved to reach the optimal value predictedby the model. Other biological constraints, such as regula-tion or capacity constraints, may also prevent the organismfrom using optimal flux distributions (Oliveira et al., 2005;Feist et al., 2007). Comparing predictions of growth pheno-types with experimental measures may also help in refiningthe model. A model component that is often refined usingquantitative growth predictions is the stoichiometry ofproton translocation that occurs in reactions of electrontransport systems, such as the respiratory chain. These stoi-chiometries are often hard to determinea priori, yet theyimpact directly the P/O ratio and the efficiency of energygeneration (Reed et al., 2006a). With the help of a metabolicmodel and growth yield measurements on several distinctmedia, Feist et al. (2006) studied the unknown proton translo-cation stoichiometry of such a reaction in Methano-sarcina barkeri by determining for each media the modelmaintenance parameters that provided the best growth yield
Table 4. Existing genome-scale metabolic models for bacterial organisms
Organism Reference Genes Reactions! Metabolitesw
Experimental assessment
Wild-type
growth
phenotypes
Knockout mutant
growth phenotypes
Quantitative
growth
measures
Acinetobacter baylyi Durot et al. (2008) 774 875 701 173/190 (91%) 1138/1208 (94%) –
Bacillus subtilis Oh et al. (2007) 844 1020 988 200/271 (74%) 720/766 (94%) –
Clostridium acetobutylicum Lee et al. (2008a) 432 502 479 10/11 (91%) – X
Clostridium acetobutylicum Senger & Papoutsakis (2008) 474 552 422 – – –
Escherichia coliz Feist et al. (2007) 1260 2077 1039 129/170 (74%) 1152/1260 (92%) X
Geobacter sulfurreducens Mahadevan et al. (2006) 588 523 541 – – X
Haemophilus influenza Schilling & Palsson (2000) 412 461 367 – – –
Helicobacter pylori‰ Thiele et al. (2005) 341 476 485 – 54/72 (75%) –
Lactobacillus plantarum Teusink et al. (2006) 721 643 531 – – X
Lactococcus lactis Oliveira et al. (2005) 358 621 422 – – X
Mannheimia succiniciproducens Hong et al. (2004) 335 373 332 – – –
Mycobacterium tuberculosis Beste et al. (2007) 726 849 739 – 547/705 (78%) X
Mycobacterium tuberculosis Jamshidi & Palsson (2007) 661 939 828 – 132/237 (56%) X
Neisseria meningitidis Baart et al. (2007) 555 496 471 – – X
Pseudomonas aeruginosa Oberhardt et al. (2008) 1056 883 760 78/95 (82%) 893/1056 (85%) –
Pseudomonas putida Nogales et al. (2008) 746 950 710 84/90 (93%) 665/746 (89%)z X
Rhizobium etli Resendis-Antonio et al. (2007) 363 387 371 – – –
Staphylococcus aureus Becker & Palsson (2005) 619 641 571 – – –
Staphylococcus aureus Heinemann et al. (2005) 551 774 712 – 8/14 (57%) –
Streptomyces coelicolor Borodina et al. (2005) 700 700 500 54/58 (93%) 11/12 (92%) X
First two columns of experimental assessment show the number of correct predictions among all experimentally determined qualitative growth
phenotypes. Last column specifies whether the model has been assessed against quantitative growth rate measurements.!Number of distinct reactions including transport processes.wNumber of biochemically distinct metabolites.zThis model is an update of two earlier models for E. coli (Edwards & Palsson, 2000; Reed et al., 2003).‰This model is an update of an earlier model for H. pylori (Schilling et al., 2002).zUsing gene essentiality data for Pseudomonas aeruginosa.
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
176 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
predictions for different hypothesized values of the stoichiome-try. Assuming thatmaintenance should not significantly changeacross media, they selected the stoichiometry that triggered thesmallest variation among the determined maintenance para-meters across the environments.Other studies investigated thestoichiometry of proton translocation in the respiratory chainby directly exploiting measured ratios of electron acceptor (e.g.oxygen, or Fe(III) in Geobacter sulfurreducens) consumptionrate vs. carbon source consumption rate and growth rate(Heinemann et al., 2005; Mahadevanet al., 2006).
Models can readily predict the effect of gene deletion ongrowth phenotypes. To that end, a layer of Gene ProteinReaction associations – usually called GPR (Reed et al.,2003) – is added to the model to predict the effect of genedeletion on reaction activity. Each reaction is associated toits enzyme-encoding genes by a Boolean rule: genes encod-ing for subunits of an enzymatic complex are linked with anAND rule, while genes encoding for alternative enzymes arelinked with an OR rule. Using GPR rules, gene deletions aretranslated into ‘blocked’ reactions, which are then inacti-vated in the model by constraining their fluxes to zero. FBAcan be applied to predict growth phenotypes of gene knock-out mutants. Nevertheless, the hypothesis of optimal growthis largely debatable for such genetically engineered mutants,as their metabolism was not exposed to evolutionarypressure. Basing on the assumption that metabolism in aknockout mutant operates as closely as possible to metabo-lism in the wild-type strain, two specific methods wereintroduced. They predict knockout mutant growth pheno-types by minimizing either the overall flux change [MoMA(Segre et al., 2002)] or the number of regulatory changes[ROOM (Shlomi et al., 2005)] between the wild-type strainand the mutant strain (see Table 5). Both methods wereshown to provide slightly better predictions than FBA.
The throughput of experiments evaluating qualitativegrowth phenotypes – i.e. described simply as viable or lethal– has increased dramatically in the last few years. PhenotypeMicroarrays from Biolog Inc. typically report growth phe-notypes for several hundreds of media in a single experi-ment (Bochner et al., 2001). In parallel to this, collections ofknockout mutants are being built for a growing number ofbacteria (Akerley et al., 2002; Jacobs et al., 2003; Kobayashiet al., 2003; Baba et al., 2006; Liberati et al., 2006; Suzukiet al., 2006; de Berardinis et al., 2008). The systematicassessment of growth phenotypes of knockout mutantsprovides a significant resource for exploring the metaboliccapabilities of organisms and investigating their gene func-tions (Carpenter & Sabatini, 2004), but their direct inter-pretation is made difficult by the complexity and size ofmetabolic networks (Gerdes et al., 2006). These results canbe readily compared with model predictions, however,providing a way to interpret them and assess the modelcorrectness. Given the qualitative nature of these growth
phenotypes, two types of inconsistencies may arise: falseviable predictions – growth was predicted yet not observedexperimentally – and false lethal predictions – growth wasnot predicted yet observed experimentally. On the one hand,these inconsistencies may be caused by limitations of themodel or cases where the modeling assumptions do nothold. Regulation may for instance trigger a lethal phenotypeby blocking an alternate pathway, which would not bepredicted as blocked in the merely metabolic model. Onthe other hand, examining the inconsistencies may identifyerrors in the model and lead to its refinement. All modelcomponents may comprise errors, including the GPR asso-ciations, the metabolic network itself, and the stated bio-mass requirements. False lethal predictions are often cluesthat some biomass component is actually not essential, orthat the model lacks an alternative gene or pathway thatwould allow it to survive in the given experimental condi-tions. Conversely, false viable predictions can help detectmissing essential biomass components, genes falsely anno-tated as encoding isozymes or reactions that were wronglyassigned or are inactive in the experimental conditions(Duarte et al., 2004; Joyce et al., 2006). Growth phenotypepredictions have been evaluated for a significant proportionof reconstructed models, whenever experimental data wereavailable (see Table 4). Interpretation of inconsistent casesby expert examination led to several annotation and modelrefinements, some of which were supported by the results oftargeted experiments (Covert et al., 2004; Duarte et al., 2004;Joyce et al., 2006; Reed et al., 2006b). Automated methodswere recently introduced to systematically look for inter-pretations of inconsistencies and possible modifications inthe model. Corrections of the GPR associations can besystematically proposed that match the gene essentialityobservation with predicted reaction essentiality (M. Durotet al., unpublished data). With regard to the metabolicnetwork itself, metabolic gap filling approaches have beenadapted to propose network corrections that resolve wronglypredicted growth phenotypes (Reed et al., 2006b). Finally,valuable insights into the determination of essential biomassprecursors can be provided by methods that analyze correla-tions between lethality and metabolite production (Imielinskiet al., 2005; Kim et al., 2007). All these methods act indepen-dently on distinct components of the model. A unifyingmethod integrating all types of corrections, which is yet tocome, could lead to an integrated platform for the systematicinterpretation of upcoming growth phenotyping results.
Models can actually predict growth phenotypes for anyenvironmental condition and any combination of gene dele-tions, which is beyond reach of experiments. Given thecombinatorial complexity of mixing several gene deletions,dedicated methods have been designed to analyze the effects ofmultiple deletions and applied to identify epistatic interac-tions between genes (Klamt & Gilles, 2004; Deutscheret al.,
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
177Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
2006, 2008; Imielinski & Belta, 2008). Prediction of growthphenotypes have also been used to automatically assigncondition-dependent roles to genes (Shlomiet al., 2007b),investigate the causes of gene dispensability (Pappet al., 2004;Kuepfer et al., 2005), or study bacterial evolution (Pal et al.,2005a, 2006). These two latter studies on bacterial evolutionused an E. colimodel to analyze the effect of changing growthenvironments on the acquisitionof new metabolic capabilitiesby horizontal gene transfer (Pal et al., 2005a) and to simulatethe reductive evolution of metabolism in specific environ-mental conditions (Pal et al., 2006).
Model-based interpretation of experimentaldata
The recent development of experimental techniques hasenabled measurements at genome-scale of several types ofquantities, generating so-called ‘omics’ datasets. These data-sets provide partial yet comprehensive snapshots of cellularmechanisms (Ishii et al., 2007a), but their interpretation ismade difficult by the volume of data. Computationalmethods are thus needed if meaningful biological resultsare to be extracted (Joyce & Palsson, 2006). A variety of
Table 5. Main analytical methods for genome-scale models sorted by type of application
Analysis of network properties
Flux sampling: random sampling of flux distribution among the set of possible
metabolic states
Almaas et al. (2004), Reed & Palsson (2004), Wiback et al. (2004)
Flux variability analysis: examination of flux variability for each reaction Mahadevan & Schilling (2003)
Metabolic pathway analysis, elementary modes/extreme pathways: comprehensive
description of all independent metabolic modes achievable in the metabolic network
Schilling et al. (2000), Schuster et al. (2000), Klamt & Stelling
(2003)
Flux coupling: identification of reaction pairs whose fluxes are coupled Burgard et al. (2004)
Metabolite coupling/evaluation of conserved metabolite pools Nikolaev et al. (2005), Becker et al. (2006), Imielinski et al. (2006)
Prediction and interpretation of bacterial growth phenotypes
Producibility analysis of biomass precursors Imielinski et al. (2005)
FBA: quantitative prediction of growth yield by maximization of growth rate given
bounded nutrient input rates
Varma & Palsson (1994a, b)
MOMA: prediction of gene deletion mutant flux distribution by minimizing overall
flux changes with wild type
Segre et al. (2002)
ROOM: prediction of gene deletion mutant growth by minimizing regulatory
changes with wild type
Shlomi et al. (2005)
Identification of multiple gene deletion essentialities Klamt & Gilles (2004), Deutscher et al. (2006), Imielinski & Belta
(2008)
Model-based interpretation of experimental data
Metabolic flux measurements
Metabolic Flux Analysis using labeled metabolites: prediction of attainable reaction
fluxes given observed metabolite isotopic patterns
Wiechert (2001), Sauer (2006)
Global prediction of reaction activities using metabolic flux measurements on
subsets of reactions
Herrgard et al. (2006a, b)
Identification of metabolic objectives best describing observed fluxes Burgard & Maranas (2003), Schuetz et al. (2007)
Metabolite concentrations
Comparison of model coverage with experimentally detected metabolites Oh et al. (2007)
NETanalysis and TMFA: application of thermodynamic constraints to reaction
directions using metabolite concentrations
Kummel et al. (2006a, b), Henry et al. (2007)
Gene expression
Identification of metabolic pathways correlated with gene expression levels Schwartz et al. (2007)
Refinement of flux distribution predictions by blocking reactions corresponding
to unexpressed genes
Akesson et al. (2004)
Evaluation of consistency of gene expression levels with metabolic objectives Becker & Palsson (2008)
rFBA and SR-FBA: prediction of gene expression states using Boolean regulatory
rules
Covert et al. (2001), Barrett et al. (2005), Barrett & Palsson
(2006), Shlomi et al. (2007a, b)
Metabolic engineering
Systematic identification of gene deletions enhancing metabolite production yield Burgard et al. (2003), Patil et al. (2004), Alper et al. (2005a, b)
OptStrain: systematic identification of reaction additions enabling the production
of novel metabolites
Pharkya et al. (2004)
Prediction of adjustments of enzyme expression levels enhancing metabolite
production yield
Pharkya & Maranas (2006), Lee et al. (2007)
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
178 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
methods have been developed to exploit experimental datarelated to metabolic states, for example measurements ofmetabolic fluxes, metabolite concentrations, enzyme levels,or gene expression, in the light of genome-scale models. Twocases generally arise: either experimental observations aredirectly comparable to model predictions, or these observa-tions lead to the imposition of additional constraints thatrefine the set of predicted metabolic states. Observationsfalling in the second category allow for instance the selectionof those metabolic routes that are compatible with theexperimental observations, or help predict quantitative valuesfor the fluxes. When directly comparable to model predic-tions, experimental data may be used to assess model correct-ness and assumptions, identify inconsistencies, and targetimprovements, as illustrated above with growth phenotypes(Reed et al., 2006b). We will review such integration methodsin the following sections for three types of experimental data:measurement of (1) reaction fluxes, (2) metabolite concentra-tions, and (3) gene expression levels.
Refining the model with experimental data increases itscorrectness with respect to the observations but maydecrease its predictive power. Predictions performed with arefined model should actually be interpreted with care toavoid circular reasoning: data that have been directly used toimprove the model can no more be considered as predic-tions, they are part of the evidences on which the model isbased to perform predictions. For instance, a model whosemaintenance parameters have been determined usinggrowth rate measurement can no more predict the growthrate for the environmental condition. This problem canbecome serious when models are extensively fitted withexperimental data, as they then become more descriptivethan predictive. Nevertheless, some refinement processesapplied to genome-scale models involve finding additionalbiological evidence that supports the refinement, therebybreaking the circular reasoning. For instance, corrections ofinconsistent growth phenotype predictions by additions ofalternate enzymes often involve finding additional proofsthat the introduced enzymes possess the right activity.
Metabolic flux measurements
One of the most direct experimental accesses to metabolicfluxes is provided by atom-labeling experiments (Wiechert,2001; Sauer, 2006). By analyzing the fate of labeled metabo-lites, valuable information can be deduced about the reactionsthat are actually taking place. The most common techniquefor this consists in analyzing the stable isotope patterns(mostly using 13C) found in products of metabolism givenknown isotope patterns in nutrient metabolites (Wiechert,2001; Sauer, 2006). These data can be properly interpretedonly using a metabolic model that includes information aboutatom mappings for each reaction (Zupke & Stephanopoulos,
1994; Wiechert et al., 1999; Antoniewicz et al., 2007a). Suchmodels have been built for a few organisms, often usingexisting constraint-based models as a basis (Antoniewiczet al., 2007b; Suthers et al., 2007). While atom mappings forreactions are currently mostly inferred using chemoinfor-matics methods (Raymond et al., 2002; Arita, 2003; Hattoriet al., 2003), this information will likely be made accessible indedicated databases in the coming years.
By qualitatively examining isotope patterns in nutrientsand products, information can already be extracted aboutthe possible routes of conversion (van Winden et al., 2001;Sauer, 2006; Kuchel & Philp, 2008). Patterns in productsactually depend on their biosynthetic pathways. Observedpatterns that are inconsistent with the predicted possiblepatterns are clues that other pathways may occur in vivo.This approach was for instance recently used to evaluate themodel of G. sulfurreducens: an inconsistent isotope patternfor isoleucine led to the discovery of an isoleucine biosynth-esis pathway previously uncharacterized in this bacteria(Risso et al., 2008).
Quantitative interpretation of isotope patterns togetherwith measurement of extracellular metabolite fluxes can helpdetermine the value of intracellular reaction fluxes usingMetabolic Flux Analysis (Zupke & Stephanopoulos, 1994;Stephanopoulos et al., 1998; Wiechert et al., 1999; Sauer,2006; Antoniewicz et al., 2007a). Known flux values can thenbe directly exploited in models to characterize which meta-bolic pathways are operating and quantify their fluxes. As anapplication, Herrgard et al. (2006a) introduced the optimalmetabolic network identification method, which combinesflux measurements for a fraction of the reactions with theassumption of optimal growth from FBA to globally inferwhich reactions are active. This method has been for instanceused to identify bottleneck reactions that limit the growth inengineered strains, and discard putative reactions from newlyreconstructed models (Herrgard et al., 2006a).
Observed fluxes were also used to determine relevantobjective functions to choose when predicting metabolicstates with FBA (Burgard & Maranas, 2003). By evaluatingthe match of predicted fluxes with observed ones, thesestudies could identify those metabolic objectives that pro-vided the best fit. Distinct objectives, including maximiza-tion of ATP or biomass yields, were identified for instance inE. coli depending on the environmental conditions (Schuetzet al., 2007). Observed metabolic fluxes, however, oftenshow that metabolism does not necessarily operate accord-ing to optimality principles (Fischer et al., 2004), especiallywhen regulatory constraints are overlooked.
Metabolite concentrations
High-throughput measurement of intracellular metaboliteconcentrations is becoming common practice thanks to
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
179Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
recent developments in MS and NMR technologies (Dunnet al., 2005; Dettmer et al., 2007). Metabolite profiling experi-ments commonly detect thousands of peaks, among whichhundreds can usually be exploited to identify metabolites anddetermine their concentrations, using for instance knownspectra of reference metabolites (Dunnet al., 2005). Thesedatasets, while not fully comprehensive, provide significantinformation on metabolites present in the cell.
Merely comparing the set of detected metabolites to theset of metabolites present in the model already help inassessing the comprehensiveness of the model. For example,in the reconstruction process of Bacillus subtilis metabolicmodel, Oh et al. (2007) evaluated the overlap betweenmodel metabolites and intracellular metabolites identifiedin a metabolomics dataset; among 350 intracellular metabo-lites identified, only 160 were present in the model. Nopreviously known biochemical activities could be associatedwith the remaining metabolites, illustrating the fact that alarge part of B. subtilismetabolism remains unknown. Theseunaccounted metabolites can guide further investigationson missing activities, leading to expansion of the model’smetabolite scope consequently.
By extending the constraint-based modeling framework toencompass thermodynamic constraints on Gibbs energies ofreactions, knowledge of absolute metabolite concentrationscan be translated into constraints on flux directions (Kummelet al., 2006b; Henry et al., 2007). A first application isto check the consistency of metabolomic datasets with respectto metabolic fluxes predicted by the model. Methodsand software have been developed to pinpoint inconsistentconcentration measures (Zamboniet al., 2008). Conversely,metabolomic-derived constraints refine the characterizationof metabolic fluxes within the model; their integration hasallowed the prediction of ranges of concentrations for un-measured metabolites, reaction directions, and ranges ofGibbs energies of reactions, identifying thereby potentiallyregulated reactions (Kummel et al., 2006b).
Thermodynamic constraints merely enforce link betweenthe concentrations of metabolites and the directions ofreactions. Taking reaction kinetics into consideration couldreinforce that link and make it more quantitative. Extendingmodels to handle kinetics is still an open issue (Famili et al.,2005; Yugi et al., 2005; Ishii et al., 2007b; Smallbone et al.,2007; Covert et al., 2008; Jamshidi & Palsson, 2008), all themore challenging because of the potential influence ofregulation, the scarcity of kinetic parameter values and thelack of scalable analytical methods.
Gene expression data
Thanks to technological advances, gene expression levels areamong the most widely accessible type of ‘large-scale’ experi-mental data. While such datasets provide a global overview of
the level of expression of enzymes, deriving information onreaction fluxes from gene expression levels is hindered by thenumerous biological processes intervening between them.Changes in rates of translation or mRNA and enzymedegradation may significantly modify the quantity of enzymesavailable from a given amount of transcript. In addition,changes in substrate/product concentrations or metabolicregulations can influence the reaction fluxes irrespective tothe enzyme quantities. As a consequence, no simple correla-tions are necessarily observed between gene expression levelsand reaction fluxes (Gygiet al., 1999; ter Kuile & Westerhoff,2001; Yang et al., 2002; Akesson et al., 2004).
Some approaches have nonetheless been developed toexploit information from gene expression data using models.In the vein of pathway- or module-based methods interpret-ing changes of gene expressions at the level of pathways orbiological processes (Hanisch et al., 2002; Draghici et al.,2003; Yang et al., 2004), methods relying on a graph repre-sentation of metabolism (Patil & Nielsen, 2005) or on adecomposition of metabolic models into elementary modes(Schwartz et al., 2007) were introduced to correlate expres-sion levels with possible metabolic states. These approachesare merely descriptive: the model provides a suitable meta-bolic context to interpret the experimental data. Gene expres-sion data have also been used to refine the characterization ofmetabolic fluxes in models. For instance, by blocking reac-tions corresponding to unexpressed genes, metabolic fluxescould be characterized more precisely in a yeast model(Akesson et al., 2004). In the same spirit, a method wasrecently introduced to evaluate the consistency of geneexpression datasets with metabolic objectives, and identifysubsets of active reactions that best correlate with expressedgenes and metabolic objectives (Becker & Palsson, 2008).Even though these methods only rely on a limited depen-dency between gene expression level and reaction flux –reactions catalyzed by unexpressed genes should have lowfluxes – they succeed in somewhat improving the character-ization of metabolic states, or in assessing the consistency ofthe model with the experimental data.
As an attempt to account for transcriptional regulation,regulatory interactions were introduced in models by trans-lating them into Boolean rules (Covert et al., 2001). In suchjoint regulatory-metabolic model, Boolean variables quali-tatively describe the transcription state of genes, includinggenes coding for enzymes and transcription factors, whileBoolean rules determine their regulatory dependencies.Metabolic reactions are then allowed to have a nonzero fluxonly if the transcriptional state of their enzymes is true.Several methods have been developed to study these jointmodels. Regulatory FBA (rFBA) simulates time courses ofgene expression states: at each time step, the new transcrip-tional state is computed from the metabolic state predictedat the previous time step, and is used to constrain FBA
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
180 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
prediction of the current metabolic state (Covert et al.,2001). A specific representation scheme was later developedto encode the sequence of expression states predicted byrFBA in a unified manner, in order to compare regulatoryresponses across various environments (Barrett et al., 2005).Another type of method has been recently developed todetermine joint steady states of gene expression and meta-bolic fluxes. Examining these steady states contributed tothe identification of redundantly expressed enzymes and thequantification of the effect of transcriptional regulation indetermining flux activity in E. coli (Shlomi et al., 2007a).Finally, two studies compared experimental expressionlevels with predicted expression states to assess the correct-ness of joint regulatory-metabolic models of E. coli and yeast(Covert et al., 2004; Herrgard et al., 2006b). A significantproportion of inconsistent expression states could be cor-rected in these models by searching for missing interactions(Covert et al., 2004; Herrgard et al., 2006b). In the samevein, a method was recently designed to automate theidentification of experiments that are likely to bring mostinformation on potentially missing regulatory interactions(Barrett & Palsson, 2006).
Using genome-scale models for metabolicengineering
The use of microbial organisms for industrial purposes hasgrown considerably in the past few years, with potentialapplications ranging from the production of valuable meta-bolites to the degradation of pollutants and the generationof renewable energy (Janssen et al., 2005; Ro et al., 2006;Peng et al., 2008; Rittmann, 2008). The field of metabolicengineering aims at designing and improving industrialmicroorganisms through the rational design of geneticmanipulations leading to enhanced performance (Bailey,1991; Stephanopoulos et al., 1998). With the advent ofgenome-scale experimental technologies, the set of meta-bolic engineering methods is progressively expanding toinclude systems-wide analyses, enabling for instance tostudy the operation of regulatory and metabolic networksat large scale (Park et al., 2008). In this respect, genome-scalemetabolic models provide to engineers an effective toolboxto investigate the metabolic behavior of their strain ofinterest and target improvements (Kim et al., 2008).
As a first class of applications, all analytical methodspresented in the previous sections can be directly applied toengineering purposes. Such methods may help for instanceto evaluate the maximum theoretical efficiencies of path-ways or determine appropriate host strains by predictingtheir metabolic capabilities from their reconstructedmodels. More importantly, metabolic models can help incharacterizing the actual metabolism operation of engi-neered strains, especially when experimental data have been
acquired on them. Metabolic Flux Analysis provides forinstance quantitative values for intracellular fluxes, whichmay be used to determine the actual pathway utilization andpinpoint bottleneck reactions (Stephanopoulos et al., 1998).Such information is of high significance for the metabolicengineers, as it may help them in designing further meta-bolic modifications.
Metabolic models also provide the ability to formulatehypotheses and evaluate in silico the potential of geneticmodifications. A common cause of low production yieldslies in the presence of pathways that divert fluxes to theproduction of undesirable byproducts or compete for theutilization of precursors and cofactors. While such pathwaysmay be identified manually, their direct removal throughgene deletion may cause side effects, for example alter theregeneration of cofactors, the redox balance, or the energybalance (Kim et al., 2008). Genome-scale models can predictthe effect of gene deletions on metabolic phenotypes. Severalmethods were designed with the aim of selecting those genedeletions that would provide the greatest benefit for a givenmetabolite production goal. Alper et al. (2005a) developed aprocedure that sequentially screen the effect of single andmultiple gene deletions in order to select those enabling thebest product yields while maintaining sufficient growthrates. They successfully applied their method to enhancethe yield of a lycopene producing E. coli strain (Alper et al.,2005b). Screening in silico the high number of combinationsof multiple gene deletions may turn out to be costly andpractically impossible. Optimization methods based ongenetic (Patil et al., 2005) or linear programming (Burgardet al., 2003) algorithms were introduced to circumvent thisissue. The second optimization method, called OptKnock,specifically searches gene deletions coupling the productionof a targeted metabolite with growth rate; the rationale beingthat improving the growth rate by adaptive evolution wouldjointly improve the metabolite production rate and that thiscoupling would make the engineered strain more evolu-tionary stable (Burgard et al., 2003). Gene deletions pro-posed by this method were tested experimentally to enhancelactic acid production in an E. coli strain (Fong et al., 2005).Adaptive evolution experiments performed on the engi-neered strains actually showed that lactic acid productionwas coupled to growth and achieved increased secretionrates of the product. In addition to gene deletions, metabolicmodels can explore the effect of adding new pathways,and help select the most appropriate ones. In this aim,the OptStrain method was designed to systematically sug-gest additions of reactions to produce novel metabolites(Pharkya et al., 2004). OptStrain relies on a comprehensivedatabase of biochemical reactions and may propose alter-native solutions. A last set of methods consists in designingsuitable up- or downregulations of metabolic enzymes.Intervening on gene expression levels is indeed a powerful
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
181Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tool to tune metabolism operation, but the specific effects ofsuch interventions are often hardly predictable (Kim et al.,2008). In a study involving a L-threonine producing strain ofE. coli, Lee et al. (2007) made use of its metabolic model topredict gene expression changes enhancing the strain yield.Specifically, they predicted flux values of key reactionsleading to optimal L-threonine production and comparedthem with measured fluxes. They then used the relativedifference between them to guide the tuning of the expres-sion of the corresponding genes. A more systematicapproach was introduced with the OptReg method, whichidentifies at genome-scale the relative changes of flux valueswith respect to the wild-type flux distribution that providethe best production yield (Pharkya & Maranas, 2006).Results of OptReg can be used to identify candidate enzymesfor up- or downregulation.
Yet, two main issues limit the predictive capabilities ofmetabolic models. First, while regulation may play a centralrole in controlling the efficiency of product synthesis, it iscompletely overlooked in metabolic models. Studying regu-latory interactions – using for instance models of regulatorynetworks – may actually provide useful insights, for exampleto remove feedback inhibitions or fine-tune transcriptionalregulatory circuits commanding the product biosynthesis(Kim et al., 2008). Not accounting for enzyme quantities butonly reaction fluxes imposes a second limitation to genome-scale models. Implementing changes in flux values – sug-gested for instance by metabolic model optimizationmethods– by altering the quantity of enzymes is a difficult task, asenzyme kinetics and metabolite concentrations may signifi-cantly influence the flux change. In order to determine theeffect of enzyme quantity changes on metabolic fluxes, moredetailed approaches are required, for example metaboliccontrol analysis (Fell, 1992).
Resources, databases, and tools
At the time of this review, genome-scale models have beenreconstructed for at least 17 bacteria (see Table 4). For all ofthem, extensive manual curation was required in order tointegrate information from the literature on their biochem-istry and physiology with functional information fromgenome annotation. These models are therefore of highquality on average, and mostly complete with respect to thecurrent knowledge of their metabolism. An increasing sub-set is being assessed and corrected against large-scale experi-mental data (see Table 4), and an impressive array ofanalytical studies has been applied to the most popular ones,for example E. coli (Feist & Palsson, 2008).
Models used to be made available independently by theirauthors, under a variety of naming conventions and for-mats. This is a significant obstacle to their reusability, assignificant effort is required to adapt them to modeling
software other than the ones they were constructed with.Differences in reaction and metabolite names also hamperdirect comparisons between different models. Fortunately,some attempts to address these issues are under way. Thegeneral-purpose SBML format (Systems Biology MarkupLanguage) (Hucka et al., 2003) is often used to exchangeconstraint-based models, thus playing the role of a ‘default’standard for models. While SBML can be imported by manymodeling tools, it is not fully adapted to the specifics ofmodels; this may result in information or functionality lossduring exchange. In addition to providing a standard format,SBML supports the association of model components withexternal references, such as reaction andmetabolite identifiersin universal metabolic databases, using MIRIAM annotations(Le Novere et al., 2005). If widely used, this feature shouldfacilitate model reuse and comparison.
In order to facilitate model reuse and comparison,dedicated model repositories have been developed. Perhapsthe most widely adopted initiative of this type is theBiomodels.net repository (Le Novere et al., 2006) whichstores biochemical models of any type in SBML format.Because of its focus on more detailed dynamic models andthe related generic format choice, the repository is not fullycompatible with constraint-based models and qualitativepredictions, as illustrated by the current low number of suchmodels included. Agreements with several journals make itmandatory for authors to deposit models mentioned intheir manuscripts in Biomodels.net, where they are checkedfor syntactic correctness. On some models, a more elaboratetest on the compatibility between model predictions andresults presented in the associated paper is also performed.
Currently, the only freely accessible (to academic users)repository dedicated to constraint-based models is the BiGGdatabase (http://bigg.ucsd.edu). Its unified dictionary of me-tabolite and reaction names enables direct comparisonsbetween its metabolic models.
Relatively few software tools have been specifically devel-oped to handle genome-scale constraint-based models,compared with the number of tools developed for kineticmodeling. As the modeling framework relies primarily onlinear algebra and linear programming, general purposemathematical software platforms, for example MATLAB
(http://www.mathworks.com/) and MATHEMATICA (http://www.wolfram.com/), or optimization modeling packages,for example GAMS (http://www.gams.com/), are well suited.Specialized optimization packages can be added for greaterefficiency. In addition, modules dedicated to constraint-basedmodeling have been developed for MATLAB: FLUXANALYZER
(Klamt et al., 2007), the COBRA TOOLBOX (Becker et al.,2007), or METATOOL (von Kamp & Schuster, 2006) forelementary mode analysis are good representatives. Librariesfor importing SBML models within these programs are alsoprovided by the SBML developer community (Bornstein
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
182 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
et al., 2008). Among the software tools that are stand-alone,one should mention the SYSTEMS BIOLOGY RESEARCH TOOLBOX
(Wright & Wagner, 2008), SCRUMPY (Poolman, 2006), META-
FLUXNET (Lee et al., 2003), or FLUXEXPLORER (Luo et al., 2006),each with their own specific strengths. Interestingly, very fewprograms focus or even support the model reconstructionprocess by providing the analytical capabilities for consis-tency checks: the commercial SYMPHENY platform (http://www.genomatica.com/) associates a metabolic databasewith several analytical methods, while YANASQUARE (Schwarzet al., 2007) facilitates the reconstruction of models fromKEGG and performs selected structural analyses (e.g. ele-mentary modes). Very recently, web-based tools have beenreleased to enable on-line analyses on specific metabolicmodels (Beste et al., 2007; Durot et al., 2008). Given theneed for faster and better reconstruction, we expect moreprogress in that direction.
Concluding remarks and future directions
Constraint-based genome-scale metabolic models can beviewed as ‘systems-level’ analytical layers which enable com-putation and reasoning on the consequences of the accumu-lated knowledge on the biochemistry encoded in a givengenome, and confrontation of that knowledge with the knownphysiology of the corresponding species or with additionalexperimental evidence. These models thus bridge the gapbetween genotype and phenotype and enable a wide spectrumof analyses and in silico experiments, providing a solidfoundation for systems analyses and metabolic engineering.
The systematic and automated reconstruction of genome-scale models from genomes and additional high-throughputdata may seem like a natural extension of genome annotation(Reed et al., 2006a), but remains beyond the reach of currentmethods. While genome-scale models can be reconstructedusing only sequence and qualitative functional information,gaining the additional predictive and analytical power ofmodels still requires significant effort and expertise. Genomeannotations must first be translated into a network, whichmust then be turned into a model with the helpof additional information, and systematically checked withrespect to biochemical consistency rules and experimentalobservations. Only after a model is complete enough toenable meaningful predictions at the phenotypic level can itbe used to predict phenotypes or other properties beyondthose that can be immediately verified.
Obstacles to automating this process include technicaldifficulties in translating annotations into proper biochem-ical activities, and also the fact that methods for modelrefinement have been designed and applied separately foreach type of experimental data. There is increasing pressurefor this situation to evolve, however, as the boost in thethroughput of experimental techniques and the advent of
‘multi-omics’ datasets (Ishii et al., 2007a) promises a wealthof information that will be exploitable only by computer-assisted interpretation, with the help of models. At the sametime, the field of metabolic modeling is now approachingthe level of maturity necessary for several data integrationmethods to be used together as components in integratedmodel reconstruction and refinement strategies.
Significant benefits could result from the availability of awider spectrum of bacterial metabolic models. They wouldprovide an integrated view of metabolic pathways across thetree of life, thereby enabling so-called transverse approachesto annotation, and a variety of comparative metabolicanalysis. To that end, the notion of pathway – definedunambiguously as the conversion between specified sets ofinput compounds (reactants) and output compounds (pro-ducts) – can bring a useful decomposition of metabolisminto basic biochemical functional units, in the spirit pio-neered by SEED (Overbeek et al., 2005), KEGG Modules(Kanehisa et al., 2007), or MetaCyc (Caspi et al., 2006). Thefield of bacterial evolution is poised to benefit as well: forinstance, the availability of models for several bacteria alongthe phylogenetic tree would allow more comprehensivestudies on the constraints implied by bacteria’s metaboliccapabilities and their evolution. While this type of study hasbeen pioneered with a few selected models (Pal et al., 2005a,2006), working with a larger set of models will undoubtedlybring different insights (see (Kreimer et al., 2008) for anexample with networks). Modeling can also help in studyingbacterial communities, as chemical interactions occurringbetween bacteria often need to be understood within thecontext of their metabolisms. Indeed, models have alreadybeen reconstructed and analyzed for small communities(Stolyar et al., 2007); progress on that front may prove veryuseful in studying metabolic interactions in more complexcommunities, assisting in the functional interpretation ofmetagenome sequences. Last but not least, metabolic en-gineering applications would clearly benefit from the avail-ability of a large set of bacterial models, as these wouldconstitute a repository of characterized metabolic pathways,facilitating the combinatorial design of new catalytic sys-tems, providing solid bases to test hypothetical geneticconstructions, and helping with the selection of relevantstrains for specific engineering objectives.
Acknowledgements
We would like to thank the two anonymous reviewers fortheir numerous suggestions, which helped improve themanuscript. We are grateful for the support of the EuropeanNetworks of Excellence BIOSAPIENS (contract no. LSHG-CT-2003-503265) and ENFIN (contract no. LSHG-CT-2005-518254).
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
183Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Statement
Re-use of this article is permitted in accordance with theCreative Commons Deed, Attribution 2.5, which does notpermit commercial exploitation.
ReferencesAghaie A, Lechaplais C, Sirven P et al. (2008) New insights into
the alternative D-glucarate degradation pathway. J Biol Chem283: 15638–15646.
Akerley BJ, Rubin EJ, Novick VL, Amaya K, Judson N &Mekalanos JJ (2002) A genome-scale analysis for identificationof genes required for growth or survival of Haemophilusinfluenzae. P Natl Acad Sci USA 99: 966–971.
Akesson M, Forster J & Nielsen J (2004) Integration of geneexpression data into genome-scale metabolic models.MetabEng 6: 285–293.
Almaas E, Kovacs B, Vicsek T, Oltvai ZN & Barabasi AL (2004)Global organization of metabolic fluxes in the bacteriumEscherichia coli. Nature 427: 839–843.
Alper H, Jin Y-S, Moxley JF & Stephanopoulos G (2005a)Identifying gene targets for the metabolic engineering oflycopene biosynthesis in Escherichia coli.Metab Eng 7:155–164.
Alper H, Miyaoku K & Stephanopoulos G (2005b) Constructionof lycopene-overproducing E. coli strains by combiningsystematic and combinatorial gene knockout targets. NatBiotechnol 23: 612–616.
Antoniewicz MR, Kelleher JK & Stephanopoulos G (2007a)Elementary metabolite units (EMU): a novel framework formodeling isotopic distributions. Metab Eng 9: 68–86.
Antoniewicz MR, Kraynie DF, Laffend LA, Gonzalez-Lergier J,Kelleher JK & Stephanopoulos G (2007b) Metabolic fluxanalysis in a nonstationary system: fed-batch fermentationof a high yielding strain of E. coli producing 1,3-propanediol.Metab Eng 9: 277–292.
Apweiler R, Attwood TK, Bairoch A et al. (2000) InterPro – anintegrated documentation resource for protein families,domains and functional sites. Bioinformatics 16: 1145–1150.
Arakawa K, Yamada Y, Shinoda K, Nakayama Y & Tomita M(2006) GEM system: automatic prototyping of cell-widemetabolic pathway models from genomes. BMCBioinformatics 7: 168.
Arita M (2000) Metabolic reconstruction using shortest paths.Simulat Pract Theory 8: 109–125.
Arita M (2003) In silico atomic tracing by substrate-productrelationships in Escherichia coli intermediary metabolism.Genome Res 13: 2455–2466.
Ashburner M, Ball CA, Blake JA et al. (2000) Gene ontology: toolfor the unification of biology. The gene ontology consortium.Nat Genet 25: 25–29.
Baart G, Zomer B, de Haan A, van der Pol L, Beuvery EC,Tramper J & Martens D (2007) Modeling Neisseriameningitidis metabolism: from genome to metabolic fluxes.Genome Biol 8: R136.
Baba T, Ara T, Hasegawa M et al. (2006) Construction of
Escherichia coli K-12 in-frame, single-gene knockout mutants:
the Keio collection.Mol Syst Biol 2: 2006.0008.Bailey JE (1991) Toward a science of metabolic engineering.
Science 252: 1668–1675.Barrett CL & Palsson BO (2006) Iterative reconstruction of
transcriptional regulatory networks: an algorithmic approach.
PLoS Comput Biol 2: e52.Barrett CL, Herring CD, Reed JL & Palsson BO (2005) The global
transcriptional regulatory network for metabolism in
Escherichia coli exhibits few dominant functional states. P Natl
Acad Sci USA 102: 19103–19108.Barthelmes J, Ebeling C, Chang A, Schomburg I & Schomburg D
(2007) BRENDA, AMENDA and FRENDA: the enzyme
information system in 2007. Nucleic Acids Res 35: D511–D514.Beard DA, Liang S-D & Qian H (2002) Energy balance for
analysis of complex metabolic networks. Biophys J 83: 79–86.Beard DA, Babson E, Curtis E & Qian H (2004) Thermodynamic
constraints for biochemical networks. J Theor Biol 228:
327–333.Becker SA & Palsson BO (2005) Genome-scale reconstruction of
the metabolic network in Staphylococcus aureus N315: an
initial draft to the two-dimensional annotation. BMC
Microbiol 5: 8.Becker SA & Palsson BO (2008) Context-specific metabolic
networks are consistent with experiments. PLoS Comput Biol 4:
e1000082.Becker SA, Price ND & Palsson BØ (2006) Metabolite coupling in
genome-scale metabolic networks. BMC Bioinformatics 7: 111.Becker SA, Feist AM, Mo ML, Hannum G, Palsson BØ &
Herrgard MJ (2007) Quantitative prediction of cellular
metabolism with constraint-based models: the COBRA
toolbox. Nat Protoc 2: 727–738.Besemer J, Lomsadze A & Borodovsky M (2001) GeneMarkS: a
self-training method for prediction of gene starts in microbial
genomes. Implications for finding sequence motifs in
regulatory regions. Nucleic Acids Res 29: 2607–2618.Beste D, Hooper T, Stewart G et al. (2007) GSMN-TB: a web-
based genome scale network model of Mycobacterium
tuberculosis metabolism. Genome Biol 8: R89.Bochner BR, Gadzinski P & Panomitros E (2001) Phenotype
microarrays for high-throughput phenotypic testing and assay
of gene function. Genome Res 11: 1246–1255.Bocs S, Cruveiller S, Vallenet D, Nuel G & Medigue C (2003)
AMIGene: Annotation of microbial genes. Nucleic Acids Res
31: 3723–3726.Bornstein BJ, Keating SM, Jouraku A & Hucka M (2008)
LibSBML: an API library for SBML. Bioinformatics 24:
880–881.Borodina I, Krabben P & Nielsen J (2005) Genome-scale analysis
of Streptomyces coelicolor A3(2) metabolism. Genome Res 15:
820–829.Boutet E, Lieberherr D, Tognolli M, Schneider M & Bairoch A
(2007) UniProtKB/Swiss-Prot: the manually annotated section
of the UniProt KnowledgeBase.Methods Mol Biol 406: 89–112.
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
184 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Bowers PM, Pellegrini M, Thompson MJ, Fierro J, Yeates TO &
Eisenberg D (2004) Prolinks: a database of protein functional
linkages derived from coevolution. Genome Biol 5: R35.Boyer F & Viari A (2003) Ab initio reconstruction of metabolic
pathways. Bioinformatics 19(suppl 2): ii26–ii34.Braunstein A, Mulet R & Pagnani A (2008) Estimating the size of
the solution space of metabolic networks. BMC Bioinformatics
9: 240.Breitling R, Ritchie S, Goodenowe D, Stewart ML & Barrett MP
(2006) Ab initio prediction of metabolic networks using
Fourier transform mass spectrometry data.Metabolomics 2:
155–164.Burgard AP & Maranas CD (2003) Optimization-based
framework for inferring and testing hypothesized metabolic
objective functions. Biotechnol Bioeng 82: 670–677.Burgard AP, Pharkya P &Maranas CD (2003) Optknock: a bilevel
programming framework for identifying gene knockout
strategies for microbial strain optimization. Biotechnol Bioeng
84: 647–657.Burgard AP, Nikolaev EV, Schilling CH & Maranas CD (2004)
Flux coupling analysis of genome-scale metabolic network
reconstructions. Genome Res 14: 301–312.Carpenter AE & Sabatini DM (2004) Systematic genome-wide
screens of gene function. Nat Rev Genet 5: 11–22.Caspi R, Foerster H, Fulcher CA et al. (2006) MetaCyc: a
multiorganism database of metabolic pathways and enzymes.
Nucleic Acids Res 34: D511–D516.Chen L &Vitkup D (2006) Predicting genes for orphan metabolic
activities using phylogenetic profiles. Genome Biol 7: R17.Claudel-Renard C, Chevalet C, Faraut T & Kahn D (2003)
Enzyme-specific profiles for genome annotation: PRIAM.
Nucleic Acids Res 31: 6633–6639.Covert MW, Schilling CH & Palsson B (2001) Regulation of gene
expression in flux balance models of metabolism. J Theor Biol
213: 73–88.Covert MW, Knight EM, Reed JL, Herrgard MJ & Palsson BO
(2004) Integrating high-throughput and computational data
elucidates bacterial networks. Nature 429: 92–96.Covert MW, Xiao N, Chen TJ & Karr JR (2008) Integrating
metabolic, transcriptional regulatory and signal transduction
models in Escherichia coli. Bioinformatics 24: 2044–2050.de Berardinis V, Vallenet D, Castelli V et al. (2008) A complete
collection of single-gene deletion mutants of Acinetobacter
baylyi ADP1. Mol Syst Biol 4: 174.DeJongh M, Formsma K, Boillot P, Gould J, Rycenga M & Best A
(2007) Toward the automated generation of genome-scale
metabolic networks in the SEED. BMC Bioinformatics 8: 139.Delcher AL, Harmon D, Kasif S, White O & Salzberg SL (1999)
Improved microbial gene identification with GLIMMER.
Nucleic Acids Res 27: 4636–4641.Dettmer K, Aronov PA & Hammock BD (2007) Mass
spectrometry-based metabolomics.Mass Spectrom Rev 26:
51–78.
Deutscher D, Meilijson I, Kupiec M & Ruppin E (2006) Multiple
knockout analysis of genetic robustness in the yeast metabolic
network. Nat Genet 38: 993–998.Deutscher D, Meilijson I, Schuster S & Ruppin E (2008) Can
single knockouts accurately single out gene functions? BMC
Syst Biol 2: 50.Draghici S, Khatri P, Martins RP, Ostermeier GC & Krawetz SA
(2003) Global functional profiling of gene expression.
Genomics 81: 98–104.Duarte NC, Herrgard MJ & Palsson BO (2004) Reconstruction
and validation of Saccharomyces cerevisiae iND750, a fully
compartmentalized genome-scale metabolic model. Genome
Res 14: 1298–1309.Dunn WB, Bailey NJC & Johnson HE (2005) Measuring the
metabolome: current analytical technologies. Analyst 130:
606–625.Durot M, Le Fevre F, de Berardinis V et al. (2008) Iterative
reconstruction of a global metabolic model of Acinetobacter
baylyi ADP1 using high-throughput growth phenotype and
gene essentiality data. BMC Syst Biol 2: 85.Ebenhoh O, Handorf T & Heinrich R (2004) Structural analysis
of expanding metabolic networks. Genome Infor 15: 35–45.Edwards JS & Palsson BO (2000) The Escherichia coli MG1655 in
silico metabolic genotype: its definition, characteristics, and
capabilities. P Natl Acad Sci USA 97: 5528–5533.Edwards JS, Ibarra RU & Palsson BO (2001) In silico predictions
of Escherichia coli metabolic capabilities are consistent with
experimental data. Nat Biotechnol 19: 125–130.Edwards JS, Ramakrishna R & Palsson BO (2002) Characterizing
the metabolic phenotype: a phenotype phase plane analysis.
Biotechnol Bioeng 77: 27–36.Ellis LBM, Roe D &Wackett LP (2006) The University of
Minnesota Biocatalysis/Biodegradation Database: the first
decade. Nucleic Acids Res 34: D517–D521.Ellis LBM, Gao J, Fenner K & Wackett LP (2008) The University
of Minnesota pathway prediction system: predicting metabolic
logic. Nucleic Acids Res 36: W427–W432.Famili I, Mahadevan R & Palsson BO (2005) k-Cone analysis:
determining all candidate values for kinetic parameters on a
network scale. Biophys J 88: 1616–1625.Feist AM & Palsson BØ (2008) The growing scope of applications
of genome-scale metabolic reconstructions using Escherichia
coli. Nat Biotechnol 26: 659–667.Feist AM, Scholten JCM, Palsson BØ, Brockman FJ & Ideker T
(2006) Modeling methanogenesis with a genome-scale
metabolic reconstruction ofMethanosarcina barkeri.Mol Syst
Biol 2: 2006.0004.Feist AM, Henry CS, Reed JL et al. (2007) A genome-scale
metabolic reconstruction for Escherichia coli K-12 MG1655
that accounts for 1260 ORFs and thermodynamic
information. Mol Syst Biol 3: 121.Fell DA (1992) Metabolic control analysis: a survey of its
theoretical and experimental development. Biochem J 286:
313–330.
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
185Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Fischer E, Zamboni N & Sauer U (2004) High-throughput
metabolic flux analysis based on gas chromatography-mass
spectrometry derived 13C constraints. Anal Biochem 325:
308–316.Fong SS, Burgard AP, Herring CD, Knight EM, Blattner FR,
Maranas CD & Palsson BO (2005) In silico design and adaptive
evolution of Escherichia coli for production of lactic acid.
Biotechnol Bioeng 91: 643–648.Fuhrer T, Chen L, Sauer U & Vitkup D (2007) Computational
prediction and experimental verification of the gene encoding
the NAD1/NADP1-dependent succinate semialdehyde
dehydrogenase in Escherichia coli. J Bacteriol 189: 8073–8078.Gasteiger J (2005) Chemoinformatics: a new field with a long
tradition. Anal Bioanal Chem 384: 57–64.Gerdes S, Edwards R, Kubal M, Fonstein M, Stevens R &
Osterman A (2006) Essential genes on metabolic maps. Curr
Opin Biotech 17: 448–456.Gevorgyan A, Poolman MG & Fell DA (2008) Detection of
stoichiometric inconsistencies in biomolecular models.
Bioinformatics 24: 2245–2251.Green ML & Karp PD (2004) A Bayesian method for identifying
missing enzymes in predicted metabolic pathway databases.
BMC Bioinformatics 5: 76.Gygi SP, Rochon Y, Franza BR & Aebersold R (1999) Correlation
between protein and mRNA abundance in yeast.Mol Cell Biol
19: 1720–1730.Hanisch D, Zien A, Zimmer R & Lengauer T (2002) Co-clustering
of biological networks and gene expression data.
Bioinformatics 18(suppl 1): S145–S154.Hattori M, Okuno Y, Goto S & Kanehisa M (2003) Heuristics for
chemical compound matching. Genome Infor 14: 144–153.Hatzimanikatis V, Li C, Ionita JA, Henry CS, Jankowski MD &
Broadbelt LJ (2005) Exploring the diversity of complex
metabolic networks. Bioinformatics 21: 1603–1609.Heinemann M, Kummel A, Ruinatscha R & Panke S (2005) In
silico genome-scale reconstruction and validation of the
Staphylococcus aureus metabolic network. Biotechnol Bioeng
92: 850–864.Henry CS, Broadbelt LJ & Hatzimanikatis V (2007)
Thermodynamics-based metabolic flux analysis. Biophys J 92:
1792–1805.Herrgard MJ, Fong SS & Palsson BØ (2006a) Identification of
genome-scale metabolic network models using experimentally
measured flux profiles. PLoS Comput Biol 2: e72.Herrgard MJ, Lee B-S, Portnoy V & Palsson BØ (2006b)
Integrated analysis of regulatory and metabolic networks
reveals novel regulatory mechanisms in Saccharomyces
cerevisiae. Genome Res 16: 627–635.Hong SH, Kim JS, Lee SY et al. (2004) The genome sequence of
the capnophilic rumen bacterium Mannheimia
succiniciproducens. Nat Biotechnol 22: 1275–1281.Huang M, Oppermann-Sanio FB & Steinbuchel A (1999)
Biochemical and molecular characterization of the Bacillus
subtilis acetoin catabolic pathway. J Bacteriol 181: 3837–3841.
Hucka M, Finney A, Sauro HM et al. (2003) The systems biology
markup language (SBML): a medium for representation
and exchange of biochemical network models. Bioinformatics
19: 524–531.Ibarra RU, Edwards JS & Palsson BO (2002) Escherichia coli K-12
undergoes adaptive evolution to achieve in silico predicted
optimal growth. Nature 420: 186–189.Imielinski M & Belta C (2008) Exploiting the pathway structure
of metabolism to reveal high-order epistasis. BMC Syst Biol
2: 40.Imielinski M, Belta C, Halasz A & Rubin H (2005) Investigating
metabolite essentiality through genome-scale analysis of
Escherichia coli production capabilities. Bioinformatics 21:
2008–2016.Imielinski M, Belta C, Rubin H & Halasz A (2006) Systematic
analysis of conservation relations in Escherichia coli genome-
scale metabolic network reveals novel growth media. Biophys J
90: 2659–2672.Ishii N, Nakahigashi K, Baba T et al. (2007a) Multiple high-
throughput analyses monitor the response of E. coli to
perturbations. Science 316: 593–597.Ishii N, Nakayama Y & Tomita M (2007b) Distinguishing
enzymes using metabolome data for the hybrid dynamic/static
method. Theor Biol Med Model 4: 19.Jacobs MA, Alwood A, Thaipisuttikul I et al. (2003)
Comprehensive transposon mutant library of Pseudomonas
aeruginosa. P Natl Acad Sci USA 100: 14339–14344.Jamshidi N & Palsson B (2007) Investigating the metabolic
capabilities of Mycobacterium tuberculosis H37Rv using the in
silico strain iNJ661 and proposing alternative drug targets.
BMC Syst Biol 1: 26.Jamshidi N & Palsson BØ (2008) Formulating genome-scale
kinetic models in the post-genome era. Mol Syst Biol 4: 171.Janssen DB, Dinkla IJT, Poelarends GJ & Terpstra P (2005)
Bacterial degradation of xenobiotic compounds: evolution and
distribution of novel enzyme activities. Environ Microbiol 7:
1868–1882.Joyce AR & Palsson BØ (2006) The model organism as a system:
integrating ‘omics’ data sets. Nat Rev Mol Cell Bio 7: 198–210.Joyce AR, Reed JL, White A et al. (2006) Experimental and
computational assessment of conditionally essential genes in
Escherichia coli. J Bacteriol 188: 8259–8271.Kanehisa M, Araki M, Goto S et al. (2007) KEGG for linking
genomes to life and the environment. Nucleic Acids Res 36:
D480–D484.Karp PD, Paley S & Romero P (2002) The pathway tools software.
Bioinformatics 18(suppl 1): S225–S232.Karp PD, Keseler IM, Shearer A et al. (2007) Multidimensional
annotation of the Escherichia coli K-12 genome. Nucleic Acids
Res 35: 7577–7590.Kharchenko P, Chen L, Freund Y, Vitkup D & Church GM (2006)
Identifying metabolic enzymes with multiple types of
association evidence. BMC Bioinformatics 7: 177.
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
186 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Kim HU, Kim TY & Lee SY (2008) Metabolic flux analysis and
metabolic engineering of microorganisms. Mol Biosyst 4:
113–120.Kim P-J, Lee D-Y, Kim TY, Lee KH, Jeong H, Lee SY & Park S
(2007) Metabolite essentiality elucidates robustness of
Escherichia coli metabolism. P Natl Acad Sci USA 104:
13638–13642.Kitagawa M, Ara T, Arifuzzaman M, Ioka-Nakamichi T, Inamoto
E, Toyonaga H & Mori H (2005) Complete set of ORF clones
of Escherichia coli ASKA library (a complete set of E. coli K-12
ORF archive): unique resources for biological research.DNA
Res 12: 291–299.Klamt S & Gilles ED (2004) Minimal cut sets in biochemical
reaction networks. Bioinformatics 20: 226–234.Klamt S & Stelling J (2003) Two approaches for metabolic
pathway analysis? Trends Biotechnol 21: 64–69.Klamt S, Saez-Rodriguez J & Gilles ED (2007) Structural and
functional analysis of cellular networks with CellNetAnalyzer.
BMC Syst Biol 1: 2.Klopman G, Dimayuga M & Talafous J (1994) META. 1. A
program for the evaluation of metabolic transformation of
chemicals. J Chem Inf Comput Sci 34: 1320–1325.Kobayashi K, Ehrlich SD, Albertini A et al. (2003) Essential
Bacillus subtilis genes. P Natl Acad Sci USA 100: 4678–4683.Kreimer A, Borenstein E, Gophna U & Ruppin E (2008) The
evolution of modularity in bacterial metabolic networks. P
Natl Acad Sci USA 105: 6976–6981.Kuchel PW& Philp DJ (2008) Isotopomer subspaces as indicators
of metabolic-pathway structure. J Theor Biol 252: 391–401.Kuepfer L, Sauer U & Blank LM (2005) Metabolic functions of
duplicate genes in Saccharomyces cerevisiae. Genome Res 15:
1421–1430.Kumar VS, Dasika MS &Maranas CD (2007) Optimization based
automated curation of metabolic reconstructions. BMC
Bioinformatics 8: 212.Kummel A, Panke S & Heinemann M (2006a) Systematic
assignment of thermodynamic constraints in metabolic
network models. BMC Bioinformatics 7: 512.Kummel A, Panke S & HeinemannM (2006b) Putative regulatory
sites unraveled by network-embedded thermodynamic
analysis of metabolome data. Mol Syst Biol 2: 2006.0034.Lee J, Yun H, Feist A, Palsson B & Lee S (2008a) Genome-scale
reconstruction and in silico analysis of the Clostridium
acetobutylicum ATCC 824 metabolic network. Appl Microbiol
Biot 80: 849–862.Lee JM, Gianchandani EP, Eddy JA & Papin JA (2008b) Dynamic
analysis of integrated signaling, metabolic, and regulatory
networks. PLoS Comput Biol 4: e1000086.Lee KH, Park JH, Kim TY, Kim HU & Lee SY (2007) Systems
metabolic engineering of Escherichia coli for L-threonine
production.Mol Syst Biol 3: 149.Lee SY, Lee D-Y, Hong SH, Kim TY, Yun H, Oh Y-G & Park S
(2003) MetaFluxNet, a program package for metabolic
pathway construction and analysis, and its use in large-scale
metabolic flux analysis of Escherichia coli. Genome Infor 14:
23–33.Le Novere N, Finney A, Hucka M et al. (2005) Minimum
information requested in the annotation of biochemical
models (MIRIAM). Nat Biotechnol 23: 1509–1515.Le Novere N, Bornstein B, Broicher A et al. (2006) BioModels
database: a free, centralized database of curated, published,
quantitative kinetic models of biochemical and cellular
systems. Nucleic Acids Res 34: D689–D691.Liberati NT, Urbach JM, Miyata S et al. (2006) An ordered,
nonredundant library of Pseudomonas aeruginosa strain PA14
transposon insertion mutants. P Natl Acad Sci USA 103:
2833–2838.Luo R, Liao S, Zeng S, Li Y & Luo Q (2006) FluxExplorer: a
general platform for modeling and analyses of metabolic net-
works based on stoichiometry. Chin Sci Bull 51: 689–696.Ma H & Zeng A-P (2003) Reconstruction of metabolic networks
from genome data and analysis of their global structure for
various organisms. Bioinformatics 19: 270–277.Mahadevan R & Schilling CH (2003) The effects of alternate
optimal solutions in constraint-based genome-scale metabolic
models.Metab Eng 5: 264–276.Mahadevan R, Bond DR, Butler JE et al. (2006) Characterization
of metabolism in the Fe(III)-reducing organism Geobacter
sulfurreducens by constraint-based modeling. Appl Environ
Microb 72: 1558–1568.Medigue C & Moszer I (2007) Annotation, comparison and
databases for hundreds of bacterial genomes. Res Microbiol
158: 724–736.Meyer P & Dworkin J (2007) Applications of fluorescence
microscopy to single bacterial cells. Res Microbiol 158:
187–194.Nikolaev EV, Burgard AP & Maranas CD (2005) Elucidation and
structural analysis of conserved pools for genome-scale
metabolic reconstructions. Biophys J 88: 37–49.Nogales J, Palsson BO & Thiele I (2008) A genome-scale
metabolic reconstruction of Pseudomonas putida KT2440:
iJN746 as a cell factory. BMC Syst Biol 2: 79.Notebaart RA, van Enckevort FHJ, Francke C, Siezen RJ &
Teusink B (2006) Accelerating the reconstruction of genome-
scale metabolic networks. BMC Bioinformatics 7: 296.Notebaart RA, Teusink B, Siezen RJ & Papp B (2008) Co-
regulation of metabolic genes is better explained by flux
coupling than by network distance. PLoS Comput Biol 4: e26.Oberhardt MA, Pucha!ka J, Fryer KE, dos Santos VAPM & Papin
JA (2008) Genome-scale metabolic network analysis of the
opportunistic pathogen Pseudomonas aeruginosa PAO1. J
Bacteriol 190: 2790–2803.Oh Y-K, Palsson BO, Park SM, Schilling CH & Mahadevan R
(2007) Genome-scale reconstruction of metabolic network in
Bacillus subtilis based on high-throughput phenotyping and
gene essentiality data. J Biol Chem 282: 28791–28799.Oliveira AP, Nielsen J & Forster J (2005) Modeling Lactococcus
lactis using a genome-scale flux model. BMC Microbiology
5: 39.
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
187Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Osterman A & Overbeek R (2003) Missing genes in metabolic
pathways: a comparative genomics approach.Curr Opin Chem
Biol 7: 238–251.Overbeek R, Begley T, Butler RM et al. (2005) The subsystems
approach to genome annotation and its use in the project to
annotate 1000 genomes. Nucleic Acids Res 33: 5691–5702.Pal C, Papp B & Lercher MJ (2005a) Adaptive evolution of
bacterial metabolic networks by horizontal gene transfer. Nat
Genet 37: 1372–1375.Pal C, Papp B & Lercher MJ (2005b) Horizontal gene transfer
depends on gene content of the host. Bioinformatics 21
(suppl 2): 222–ii223.Pal C, Papp B, Lercher MJ, Csermely P, Oliver SG & Hurst LD
(2006) Chance and necessity in the evolution of minimal
metabolic networks. Nature 440: 667–670.Palsson BO (2006) Systems Biology. Properties of Reconstructed
Networks. Cambridge University Press, New York, NY, USA.Papin JA, Price ND, Edwards JS & Palsson BO (2002) The
genome-scale metabolic extreme pathway structure in
Haemophilus influenzae shows significant network
redundancy. J Theor Biol 215: 67–82.Papin JA, Price ND, Wiback SJ, Fell DA & Palsson BO (2003)
Metabolic pathways in the post-genome era. Trends Biochem
Sci 28: 250–258.Papin JA, Stelling J, Price ND, Klamt S, Schuster S & Palsson BO
(2004) Comparison of network-based pathway analysis
methods. Trends Biotechnol 22: 400–405.Papp B, Pal C & Hurst LD (2004) Metabolic network analysis of
the causes and evolution of enzyme dispensability in yeast.
Nature 429: 661–664.Park JH, Lee SY, Kim TY & Kim HU (2008) Application of
systems biology for bioprocess development. Trends Biotechnol
26: 404–412.Patil KR &Nielsen J (2005) Uncovering transcriptional regulation
of metabolism by using metabolic network topology. P Natl
Acad Sci USA 102: 2685–2689.Patil KR, Akesson M & Nielsen J (2004) Use of genome-scale
microbial models for metabolic engineering. Curr Opin
Biotech 15: 64–69.Patil KR, Rocha I, Forster J & Nielsen J (2005) Evolutionary
programming as a platform for in silicometabolic engineering.
BMC Bioinformatics 6: 308.Peng R-H, Xiong A-S, Xue Yet al. (2008) Microbial
biodegradation of polyaromatic hydrocarbons. FEMS
Microbiol Rev 32: 927–955.Pfeiffer T, Sanchez-Valdenebro I, Nuno JC, Montero F & Schuster
S (1999) METATOOL: for studying metabolic networks.
Bioinformatics 15: 251–257.Pharkya P & Maranas CD (2006) An optimization framework for
identifying reaction activation/inhibition or elimination
candidates for overproduction in microbial systems.Metab
Eng 8: 1–13.Pharkya P, Burgard AP & Maranas CD (2004) OptStrain: a
computational framework for redesign of microbial
production systems. Genome Res 14: 2367–2376.
Poolman MG (2006) ScrumPy: metabolic modelling with
Python. Syst Biol (Stevenage) 153: 375–378.Price ND, Reed JL & Palsson BO (2004) Genome-scale models of
microbial cells: evaluating the consequences of constraints.
Nat Rev Microbiol 2: 886–897.Raymond JW, Gardiner EJ & Willett P (2002) Heuristics for
similarity searching of chemical graphs using a maximum
common edge subgraph algorithm. J Chem Inf Comput Sci 42:
305–316.Reed JL & Palsson BO (2003) Thirteen years of building
constraint-based in silico models of Escherichia coli. J Bacteriol
185: 2692–2699.Reed JL & Palsson BO (2004) Genome-scale in silicomodels of E.
coli have multiple equivalent phenotypic states: assessment of
correlated reaction subsets that comprise network states.
Genome Res 14: 1797–1805.Reed JL, Vo TD, Schilling CH & Palsson BO (2003) An expanded
genome-scale model of Escherichia coli K-12 (iJR904 GSM/
GPR). Genome Biol 4: R54.Reed JL, Famili I, Thiele I & Palsson BO (2006a) Towards
multidimensional genome annotation. Nat Rev Genet 7:
130–141.Reed JL, Patel TR, Chen KH et al. (2006b) Systems approach to
refining genome annotation. P Natl Acad Sci USA 103:
17480–17484.Ren Q, Kang KH & Paulsen IT (2004) TransportDB: a relational
database of cellular membrane transport systems.Nucleic Acids
Res 32: D284–D288.Resendis-Antonio O, Reed JL, Encarnacion S, Collado-Vides J &
Palsson BØ (2007) Metabolic reconstruction and modeling of
nitrogen fixation in Rhizobium etli. PLoS Comput Biol 3: e192.Risso C, Van Dien SJ, Orloff A, Lovley DR & Coppi MV (2008)
Elucidation of an alternate isoleucine biosynthesis pathway in
Geobacter sulfurreducens. J Bacteriol 190: 2266–2274.Rittmann BE (2008) Opportunities for renewable bioenergy
using microorganisms. Biotechnol Bioeng 100: 203–212.Ro D-K, Paradise EM, Ouellet M et al. (2006) Production of the
antimalarial drug precursor artemisinic acid in engineered
yeast. Nature 440: 940–943.Saghatelian A, Trauger SA, Want EJ, Hawkins EG, Siuzdak G &
Cravatt BF (2004) Assignment of endogenous substrates to
enzymes by global metabolite profiling. Biochemistry 43:
14332–14339.Saito N, Robert M, Kitamura S et al. (2006) Metabolomics
approach for enzyme discovery. J Proteome Res 5: 1979–1987.Sauer U (2006) Metabolic networks in motion: 13C-based flux
analysis. Mol Syst Biol 2: 62.Schilling CH & Palsson BO (2000) Assessment of the metabolic
capabilities of Haemophilus influenzae Rd through a genome-
scale pathway analysis. J Theor Biol 203: 249–283.Schilling CH, Edwards JS, Letscher D & Palsson BO (2000)
Combining pathway analysis with flux balance analysis for the
comprehensive study of metabolic systems. Biotechnol Bioeng
71: 286–306.
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
188 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Schilling CH, Covert MW, Famili I, Church GM, Edwards JS &
Palsson BO (2002) Genome-scale metabolic model of
Helicobacter pylori 26695. J Bacteriol 184: 4582–4593.Schneider G & Fechner U (2004) Advances in the prediction of
protein targeting signals. Proteomics 4: 1571–1580.Schuetz R, Kuepfer L & Sauer U (2007) Systematic evaluation of
objective functions for predicting intracellular fluxes in
Escherichia coli. Mol Syst Biol 3: 119.Schuster S, Fell DA & Dandekar T (2000) A general definition of
metabolic pathways useful for systematic organization and
analysis of complex metabolic networks. Nat Biotechnol 18:
326–332.Schuster S, Pfeiffer T & Fell DA (2008) Is maximization of molar
yield in metabolic networks favoured by evolution? J Theor
Biol 252: 497–504.Schwartz J-M, Gaugain C, Nacher JC, de Daruvar A & Kanehisa
M (2007) Observing metabolic functions at the genome scale.
Genome Biol 8: R123.Schwarz R, Liang C, Kaleta C et al. (2007) Integrated network
reconstruction, visualization and analysis using YANAsquare.
BMC Bioinformatics 8: 313.Segre D, Vitkup D & Church GM (2002) Analysis of optimality in
natural and perturbed metabolic networks. P Natl Acad Sci
USA 99: 15112–15117.Segre D, Zucker J, Katz J et al. (2003) From annotated genomes to
metabolic flux models and kinetic parameter fitting.OMICS 7:
301–316.Senger RS & Papoutsakis ET (2008) Genome-scale model for
Clostridium acetobutylicum: part I. Metabolic network
resolution and analysis. Biotechnol Bioeng 101: 1036–1052.Serres MH, Goswami S & Riley M (2004) GenProtEC: an updated
and improved analysis of functions of Escherichia coli K-12
proteins. Nucleic Acids Res 32: D300–D302.Shlomi T, Berkman O & Ruppin E (2005) Regulatory on/off
minimization of metabolic flux changes after genetic
perturbations. P Natl Acad Sci USA 102: 7695–7700.Shlomi T, Eisenberg Y, Sharan R & Ruppin E (2007a) A genome-
scale computational study of the interplay between
transcriptional regulation and metabolism. Mol Syst Biol 3:
101.Shlomi T, Herrgard M, Portnoy V, Naim E, Palsson BØ, Sharan R
& Ruppin E (2007b) Systematic condition-dependent
annotation of metabolic genes. Genome Res 17: 1626–1633.Smallbone K, Simeonidis E, Broomhead DS & Kell DB (2007)
Something from nothing – bridging the gap between
constraint-based and kinetic modelling. FEBS J 274:
5576–5585.Stelling J, Klamt S, Bettenbrock K, Schuster S & Gilles ED (2002)
Metabolic network structure determines key aspects of
functionality and regulation. Nature 420: 190–193.Stephanopoulos GN, Aristidou AA & Nielsen J (1998) Metabolic
Engineering. Principles and Methodologies. Academic Press,
Elsevier Science, San Diego, CA, USA.Steuer R (2006) Review: on the analysis and interpretation of
correlations in metabolomic data. Brief Bioinform 7: 151–158.
Stolyar S, Van Dien SJ, Hillesland KL, Pinel N, Lie TJ, Leigh JA &
Stahl DA (2007) Metabolic modeling of a mutualistic
microbial community.Mol Syst Biol 3: 92.Stouthamer AH & Bettenhaussen C (1973) Utilization of energy
for growth and maintenance in continuous and batch cultures
of microorganisms. A reevaluation of the method for the
determination of ATP production by measuring molar growth
yields. Biochim Biophys Acta 301: 53–70.Sun J & Zeng A-P (2004) IdentiCS – identification of coding
sequence and in silico reconstruction of the metabolic network
directly from unannotated low-coverage bacterial genome
sequence. BMC Bioinformatics 5: 112.Suthers PF, Burgard AP, Dasika MS, Nowroozi F, Van Dien SJ,
Keasling JD & Maranas CD (2007) Metabolic flux elucidation
for large-scale models using 13C labeled isotopes.Metab Eng 9:
387–405.Suzuki N, Okai N, Nonaka H, Tsuge Y, Inui M & Yukawa H
(2006) High-throughput transposon mutagenesis of
Corynebacterium glutamicum and construction of a single-
gene disruptant mutant library. Appl Environ Microb 72:
3750–3755.ter Kuile BH & Westerhoff HV (2001) Transcriptome meets
metabolome: hierarchical and metabolic regulation of the
glycolytic pathway. FEBS Lett 500: 169–171.Terzer M & Stelling J (2008) Large scale computation of
elementary flux modes with bit pattern trees. Bioinformatics
24: 2229–2235.Teusink B, van Enckevort FHJ, Francke C, Wiersma A, Wegkamp
A, Smid EJ & Siezen RJ (2005) In silico reconstruction of the
metabolic pathways of Lactobacillus plantarum: comparing
predictions of nutrient requirements with those from growth
experiments. Appl Environ Microb 71: 7253–7262.Teusink B, Wiersma A, Molenaar D, Francke C, de Vos WM,
Siezen RJ & Smid EJ (2006) Analysis of growth of Lactobacillus
plantarum WCFS1 on a complex medium using a genome-
scale metabolic model. J Biol Chem 281: 40041–40048.Thiele I, Vo TD, Price ND & Palsson BØ (2005) Expanded
metabolic reconstruction of Helicobacter pylori (iIT341 GSM/
GPR): an in silico genome-scale characterization of single- and
double-deletion mutants. J Bacteriol 187: 5818–5830.UniProt C (2008) The universal protein resource (UniProt).
Nucleic Acids Res 36: D190–D195.Van Dien SJ & Lidstrom ME (2002) Stoichiometric model for
evaluating the metabolic capabilities of the facultative
methylotrophMethylobacterium extorquens AM1, with
application to reconstruction of C(3) and C(4) metabolism.
Biotechnol Bioeng 78: 296–312.van Winden WA, Heijnen JJ, Verheijen PJ & Grievink J (2001)
A priori analysis of metabolic flux identifiability from
(13)C-labeling data. Biotechnol Bioeng 74: 505–516.Varma A & Palsson BO (1994a) Stoichiometric flux balance
models quantitatively predict growth and metabolic by-
product secretion in wild-type Escherichia coliW3110. Appl
Environ Microb 60: 3724–3731.
FEMS Microbiol Rev 33 (2009) 164–190 c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological Societies
Published by Blackwell Publishing Ltd.
189Genome-scale models of bacterial metabolism
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Varma A & Palsson BO (1994b) Metabolic flux balancing: basicconcepts, scientific and practical use. Bio/Technology 12:994–998.
von Kamp A & Schuster S (2006) Metatool 5.0: fast and flexibleelementary modes analysis. Bioinformatics 22: 1930–1931.
von Mering C, Jensen LJ, KuhnM et al. (2007) STRING 7 – recentdevelopments in the integration and prediction of proteininteractions. Nucleic Acids Res 35: D358–D362.
Wiback SJ, Famili I, Greenberg HJ & Palsson BO (2004) MonteCarlo sampling can be used to determine the size and shape ofthe steady-state flux space. J Theor Biol 228: 437–447.
Wiechert W (2001) 13C metabolic flux analysis. Metab Eng 3:195–206.
Wiechert W, Mollney M, Isermann N, Wurzel M & de Graaf AA(1999) Bidirectional reaction steps in metabolic networks: III.Explicit solution and analysis of isotopomer labeling systems.Biotechnol Bioeng 66: 69–85.
Wright J & Wagner A (2008) The systems biology research tool:evolvable open-source software. BMC Syst Biol 2: 55.
Yang C, Hua Q & Shimizu K (2002) Integration of theinformation from gene expression and metabolic fluxes for the
analysis of the regulatory mechanisms in Synechocystis. ApplMicrobiol Biot 58: 813–822.
Yang F, Qian H & Beard DA (2005) Ab initio prediction ofthermodynamically feasible reaction directions frombiochemical network stoichiometry.Metab Eng 7: 251–259.
Yang HH, Hu Y, Buetow KH & Lee MP (2004) A computationalapproach to measuring coherence of gene expression inpathways. Genomics 84: 211–217.
Yeung M, Thiele I & Palsson B (2007) Estimation of the numberof extreme pathways for metabolic networks. BMCBioinformatics 8: 363.
Yugi K, Nakayama Y, Kinoshita A &Tomita M (2005) Hybriddynamic/static method for large-scale simulation ofmetabolism. Theor Biol Med Model 2: 42.
Zamboni N, Kummel A & Heinemann M (2008) anNET: a toolfor network-embedded thermodynamic analysis ofquantitative metabolome data. BMC Bioinformatics 9: 199.
Zupke C & Stephanopoulos G (1994) Modeling of isotopedistribution and intracellular fluxes in metabolicnetworks using atom mapping matrices. Biotechnol Prog 10:489–498.
FEMS Microbiol Rev 33 (2009) 164–190c! 2008 CEA–GenoscopeJournal compilation c! 2008 Federation of European Microbiological SocietiesPublished by Blackwell Publishing Ltd.
190 M. Durot et al.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
65
3.2.2 Compléments méthodologiques
L’article de revue ci-dessus est destiné à un lectorat peu familier des notions
mathématiques. Nous compléterons donc notre présentation des modèles à base de
contraintes dans les paragraphes qui suivent en explicitant le cadre mathématique
sous-jacent aux hypothèses de modélisation présentées dans la revue.
Représentation des flux de réactions
L’état du métabolisme est décrit dans les modèles à base de contraintes
uniquement par les flux de réactions. Pour un réseau donné de réactions, l’état du
système est ainsi modélisé par un ensemble de nombre réels représentant chacun le
flux d’une réaction du réseau. Cet ensemble de nombre est appelé distribution de flux
et est manipulé mathématiquement sous la forme d’un vecteur (voir Figure 15).
Figure 15. Représentation sous forme vectorielle d’une distribution de flux. À gauche, illustration d’un réseau métabolique théorique composé de 10 métabolites et 10 réactions. La zone jaune délimite le système (intérieur de la cellule par exemple). Les réactions R1, R2, R3 et R4 modélisent le transport des métabolites A, B, C et P entre l’extérieur et l’intérieur du système. Les valeurs des flux sont indiquées à proximité des réactions (en unités arbitraires) et illustrées par l’épaisseur de leurs flèches. À droite, représentation de la même distribution de flux sous forme vectorielle, telle qu’utilisée par les modèles à base de contraintes.
D’un point de vue physique, les flux de réactions manipulés représentent des
valeurs moyennées sur des intervalles de temps s’étendant entre la seconde à la
minute. L’échelle de temps choisie a une importance fondamentale pour ces modèles.
Elle se situe en effet entre, d’une part, les temps de relaxation des cinétiques
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
66
enzymatiques (beaucoup plus rapides34) et, d’autre part, ceux des changements
environnementaux considérés et des réponses régulatrices à ces changements
(beaucoup plus lentes) (voir Figure 16). Cette échelle de temps permet donc d’étudier
la répartition des flux métaboliques en réponse à différentes conditions
environnementales ou de régulation tout en ignorant les dynamiques complexes
d’ajustements rapides des cinétiques enzymatiques. Ces dernières peuvent être
supposées être dans un état quasi-stationnaire, flux et concentrations métaboliques
sont supposés constants (Stephanopoulos et al. 1998, pp.25-27, 82-83, 313-315). De
plus, cette échelle de temps correspond relativement bien aux observations
expérimentales typiquement réalisées : par exemple la mesure de taux de croissance
ou de vitesse de consommation / production de métabolites externes.
Figure 16. Temps de relaxations caractéristiques de différents processus cellulaires et du fonctionnement d’un bioréacteur. En rouge, temps caractéristiques considérés dans les modèles à base de contraintes. Adapté de (Stephanopoulos et al. 1998, p.25).
Lorsque aucune hypothèse n’est formulée sur le fonctionnement du métabolisme
et qu’aucune contrainte n’est appliquée aux flux, ceux-ci peuvent prendre n’importe
quelles valeurs réelles. L’ensemble des distributions de flux possibles dans le
métabolisme est donc représenté par l’espace vectoriel Rn tout entier, où n est le
nombre de réactions.
Expression mathématique des contraintes sur les flux
L’hypothèse d’état quasi-stationnaire se traduit dans le modèle par un ensemble de
contraintes de conservation de la masse entre les flux.
34 Notamment dans les conditions physiologiques, où les concentrations métaboliques sont faibles en regard des vitesses de réactions à cette échelle de temps (Stephanopoulos et al. 1998; Fell 1992).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
67
Ces contraintes statuent que, pour chacun des métabolites dont les concentrations
sont supposées stationnaires, les taux nets de formation sont nuls. En d’autres termes,
les flux des réactions consommant ces métabolites compensent ceux des réactions les
produisant. Cette contrainte n’est pas valide pour tous les métabolites. Certains
subissent de manière significative la dilution due à la croissance des cellules, tandis
que d’autres possèdent des concentrations non-stationnaires ou sont transformés par
des processus non modélisés. L’ajout de réactions artificielles dans le modèle –
réaction de biomasse dans le premier cas, réactions d’échange dans le deuxième (voir
Figure 1 de l’article de revue) – permet de modéliser ces effets et d’appliquer
correctement les contraintes de conservation de la masse à tous les métabolites.
L’utilisation d’une matrice stœchiométrique (voir Figure 1 de l’article de revue)
permet d’appliquer les contraintes de conservation de la masse simultanément pour
tous les métabolites. Le produit matriciel S.v, où S est la matrice stœchiométrique du
réseau métabolique et v le vecteur de distribution de flux, calcule en effet directement
le taux de formation de chacun des métabolites (voir Figure 17). Il en découle que
l’équation matricielle S.v=0 définit directement l’ensemble des distributions de flux
obéissant à la contrainte de conservation de la masse. Cette équation matricielle peut
être vue comme un système d’équations linéaires entre les flux. Bien que celui-ci soit
en général largement sous-déterminé, il contribue à préciser les distributions de flux
possibles dans le réseau, en éliminant celles qui ne sont pas compatibles avec la
conservation de la masse. En termes d’algèbre linéaire, l’application de cette
contrainte réduit l’espace des distributions de flux de Rn à un de ses sous-espaces de
dimension inférieure, Ker(S), appelé le noyau de la matrice S.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
68
!
S.v =
1 0 0 0 "1 "1 "1 0 0 0 0 0 0 0
0 1 0 0 1 0 0 "1 0 "1 0 0 0 0
0 0 1 0 0 0 0 "1 0 0 0 0 0 0
0 0 0 0 0 1 0 0 "1 1 0 0 0 0
0 0 0 0 0 0 1 0 "1 0 0 0 0 0
0 0 0 "1 0 0 0 1 1 0 0 0 0 0
"1 0 0 0 0 0 0 0 0 0 "1 0 0 0
0 "1 0 0 0 0 0 0 0 0 0 "1 0 0
0 0 "1 0 0 0 0 0 0 0 0 0 "1 0
0 0 0 1 0 0 0 0 0 0 0 0 0 "1
#
$
% % % % % % % % % % % % %
&
'
( ( ( ( ( ( ( ( ( ( ( ( (
.
vR1
vR2
vR3
vR4
vR5
vR6
vR7
vR8
vR9
vR10
vEA ( ext )
vEB ( ext )
vEC ( ext )
vEP ( ext )
#
$
% % % % % % % % % % % % % % % % % % %
&
'
( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (
=
vR1" v
R5" v
R6" v
R7
vR2
+ vR5" v
R8" v
R10
vR3" v
R8
vR6" v
R9+ v
R10
vR7" v
R9
"vR4
+ vR9
+ vR10
"vR1" v
EA ( ext )
"vR2" v
EB ( ext )
"vR3" v
EC ( ext )
vR4" v
EP ( ext )
#
$
% % % % % % % % % % % % %
&
'
( ( ( ( ( ( ( ( ( ( ( ( (
=d
dt
cA
cB
cC
cD
cE
cP
cA (ext )
cB (ext )
cC (ext )
cP (ext )
#
$
% % % % % % % % % % % % %
&
'
( ( ( ( ( ( ( ( ( ( ( ( (
= 0
Figure 17. Matrice stœchiométrique et conservation de la masse. L’exemple reprend le réseau présenté Figure 15 augmenté de réactions d’échanges pour les métabolites extracellulaires (notés EX(ext) pour un métabolite X). Les concentrations métaboliques sont notées cX.
Ces contraintes définissent principalement des relations entre les flux.
Typiquement, deux réactions se suivant dans une voie métabolique sans branchement
seront forcées par cette contrainte à se dérouler avec des flux égaux pour conserver la
quantité du métabolite intermédiaire.
Toute information sur la valeur des flux est également utilisée pour contraindre le
modèle. À ce sujet, nous avions montré dans l’article de revue qu’un large panel de
types de connaissances pouvait se traduire directement par des contraintes sur les
valeurs de flux. Il s’agit notamment de la réversibilité des réactions (flux uniquement
positifs pour les réactions irréversibles), de leur inactivation (flux nul), d’hypothèse
sur la valeur maximale de leurs flux (flux inférieurs à cette valeur), de valeurs
mesurées (flux directement égal à cette valeur), et de la connaissance de
l’environnement extérieur (flux des réactions d’échanges autorisés uniquement dans
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
69
le sens de l’excrétion pour les métabolites absents de l’environnement). Ces
informations se traduisent dans le modèle simplement par des équations d’égalités ou
d’inégalités sur les flux, vmin " v " vmax, qui viennent s’ajouter aux contraintes
précédentes. Ces équations affinent encore plus l’ensemble des distributions de flux
possibles dans le réseau. Notamment, les contraintes de conservation de la masse
« propagent » dans le réseau des connaissances locales de valeurs de flux. D’un point
de vue ensembliste, l’ajout de ces inégalités réduit le noyau de la matrice
stœchiométrique à un ensemble qui n’est plus un espace vectoriel, mais possède les
propriétés de linéarité et de convexité. Les ensembles ayant ces propriétés ont été
largement étudiés et un grand panel d’outils permettant de les explorer a été
développé et regroupé sous l’appellation analyse convexe (Rockafellar 1970).
Les contraintes engendrant des ensembles convexes de distribution de flux sont
majoritairement utilisées dans les modèles métaboliques à base de contraintes,
probablement grâce à la simplicité de leur utilisation. Elles suffisent à décrire les
hypothèses fondamentales de modélisation permettant de prédire les phénotypes de
croissance. Dans nos travaux, nous nous sommes donc limités à ces types de
contraintes. Comme évoqué dans l’article de revue, toute hypothèse ou connaissance
pouvant être traduite en contrainte sur les flux peut en principe être intégrée au
modèle. Des travaux ont été effectués dans ce sens pour tenir compte de la régulation
(Covert et al. 2001), de la signalisation (Lee et al. 2008), des lois de la
thermodynamique (Beard et al. 2002; Beard et al. 2004) ou de mesures de
concentrations métaboliques (Kümmel et al. 2006a; Henry et al. 2007) ; ils résultent
néanmoins en des contraintes mathématiques non linéaires et introduisant parfois des
variables entières. Toute la difficulté réside alors dans l’exploitation mathématique de
ces contraintes et la recherche des distributions de flux compatibles avec elles.
Exploration des états métaboliques
Les outils développés pour l’analyse convexe linéaire s’appliquent directement
aux modèles à base de contraintes lorsque les contraintes s’y prêtent. Nous en avons
évoqué trois classes dans l’article de revue : l’exploration de l’ensemble des
distributions de flux par échantillonnage (voir à ce propos une revue encore plus
récente par Schellenberger & Palsson (2009)), description de modes élémentaires et
optimisation. Nous ne reviendrons pas sur les deux premières méthodes ; elles sont
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
70
particulièrement bien adaptées à la caractérisation de l’ensemble des distributions de
flux, mais sont coûteuses en temps de calcul. Les méthodes d’optimisations, bien que
ne recherchant que des distributions de flux particulières, sont bien plus performantes
et également utilisables pour prédire des phénotypes de croissance.
L’essor de la recherche opérationnelle a stimulé le développement de méthodes
d’optimisation sous contraintes efficaces (Boyd & Vandenberghe 2004). Ces
méthodes ont typiquement pour but de résoudre des problèmes du type :
maximiser f0(x), tel que : fi(x) " bi pour i = 1,…,m
où le vecteur x = (x1,…,xn) est la variable à optimiser, f0 :Rn#R la fonction objectif,
les fi : Rn#R des fonctions de contraintes, et les bi les bornes des contraintes. Lorsque
les fonctions de contraintes et d’objectif sont linéaires, ces problèmes sont dits de
programmation linéaire. Des méthodes et des logiciels particulièrement performants
existent pour les résoudre35 (Boyd & Vandenberghe 2004; Moisdon 2000; Löfberg
2004).
La linéarité des contraintes sur les valeurs de flux et de conservation de la masse
permet d’exploiter ces outils. Leur application la plus courante est la prédiction de
phénotype de croissance par la méthode de « Flux Balance Analysis » (FBA) qui
consiste à maximiser le flux de la réaction de biomasse dans le modèle (c’est une
fonction objectif évidemment linéaire, le flux de la réaction de biomasse étant
directement une variable du problème) :
maximiser vRbiomasse , tel que : S.v = 0 vmin " v " vmax
où vRbiomasse est la variable correspondant au flux de la réaction de biomasse.
La résolution de ce problème explore les distributions de flux compatibles avec les
contraintes et en fournit une permettant d’atteindre un flux maximal pour la réaction
35 Voir par exemple un inventaire sur le Wiki des serveurs d’optimisation NEOS : http://wiki.mcs.anl.gov/NEOS/
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
71
de biomasse. Elle permet donc d’évaluer les capacités du réseau métabolique en terme
de production de biomasse.
Bien que ne caractérisant pas l’ensemble des distributions de flux possibles, les
méthodes d’optimisation permettent néanmoins d’interroger le modèle métabolique
au coup par coup quant à ses capacités à remplir un objectif donné. Dans le cas
présenté ci-dessus, il s’agit de l’aptitude à croître (c.-à-d. à former de la biomasse),
mais, utilisée astucieusement, l’optimisation permet d’explorer de nombreuses autres
caractéristiques du réseau métabolique (Price et al. 2004). Nous mentionnerons par
exemple l’étude de contraintes de couplages métaboliques entre réactions (Burgard et
al. 2004), le calcul de plages de flux possibles pour chaque réaction (Mahadevan &
Schilling 2003) ou, à l’inverse, la recherche d’un objectif métabolique représentant au
mieux des distributions de flux observées (Burgard & Maranas 2003; Schuetz et al.
2007).
3.3 Modélisation du métabolisme et phénotypes de croissance: état de l’art
Dans cette dernière partie introductive sur la modélisation du métabolisme, nous
effectuerons un état de l’art – à la date du début de la thèse, fin 2005 – des travaux
permettant d’interpréter les phénotypes de croissance à l’aide de modèles du
métabolisme.
3.3.1 Modèles à base de graphe
Malgré leur aisance à représenter un réseau métabolique cellulaire dans son
ensemble, les graphes métaboliques ont été relativement peu utilisés pour relier
phénotypes de croissance et métabolisme. Ces derniers se sont en effet révélés bien
adaptés à étudier l’organisation et la structure des réseaux métaboliques, mais
beaucoup moins à aborder leur fonctionnement en lui-même. De nombreux travaux
cherchant à interpréter des données d’essentialités à la lumière de graphes de réseaux
biologiques36 se sont en réalité limités à établir des corrélations entre caractéristiques
topologiques (ex. la « centralité » d’un gène) et importance phénotypique (Jeong et al.
2001; Batada et al. 2006; Hahn & Kern 2005).
36 Principalement pour les réseaux d’interactions protéines-protéines d’ailleurs.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
72
Quelques initiatives ont exploité les méthodes d’expansion de réseau pour prédire
l’effet du changement d’environnement ou de la délétion de gènes sur la viabilité des
cellules (Handorf et al. 2005; Wunderlich & Mirny 2006). Pour ce faire, ces travaux
examinèrent si les métabolites nécessaires à la survie de la cellule pouvaient être tous
synthétisés par le graphe métabolique perturbé par les délétions, à partir des
métabolites de l’environnement. Ces initiatives, bien qu’obtenant des performances de
prédictions relativement proches de celles des modèles à base de contraintes, restèrent
relativement isolées. Il est probable que l’aspect quantitatif des modèles à base de
contraintes et leur égale facilité de mise en œuvre ont favorisé leur utilisation.
3.3.2 Modèles à base de contraintes
Les modèles à base de contraintes furent très rapidement utilisés pour prédire des
phénotypes de croissance, dès lors que des réseaux d’échelles cellulaires furent
reconstruits. Ce type d’application contribua d’ailleurs fortement à populariser ce
cadre de modélisation37 (Edwards & Palsson 2000; Edwards et al. 2001). Nous avons
déjà longuement évoqué les travaux relatifs à la prédiction de phénotypes de
croissance dans l’article de revue, aussi nous contenterons-nous ici de rappeler ceux
ayant été effectués avant 2006 et en rapport avec notre thèse. Ils se répartissent en
deux types de contributions : celles d’ordre méthodologique et celles confrontant les
prédictions aux phénotypes expérimentaux.
Les méthodes de prédiction des phénotypes de croissance furent déjà largement
explorées fin 2005. À l’utilisation « classique » de la méthode FBA pour prédire les
phénotypes de mutants de délétions (Varma & Palsson 1994) vinrent s’ajouter les
méthodes MoMA (Segrè et al. 2002) et ROOM (Shlomi et al. 2005) ayant pour but de
corriger l’hypothèse de fonctionnement optimal du métabolisme. Dans le même ordre
d’idée, Imielinski et al (2005) proposa une méthode basée sur la productibilité des
métabolites pour associer la létalité des délétions à des métabolites, et définir un
ensemble de métabolites essentiels. Enfin, Klamt & Gilles (2004) proposèrent pour la
première fois une méthode permettant d’énumérer de manière exhaustive les
délétions, simples ou multiples, létales pour l’organisme.
37 Signe de l’intérêt grandissant pour ce type de modélisation, plusieurs groupes avaient publié, notamment en 2005, des reconstructions globales de modèles métaboliques (voir Table 4 de l’article de revue).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
73
La fiabilité des phénotypes de croissance prédits par les modèles à base de
contraintes fut démontrée par un grand nombre de travaux confrontant prédictions et
observations expérimentales. Cette démarche fut effectuée pour évaluer à la fois la
validité des prédictions quantitatives de taux de croissance (Edwards et al. 2001;
Ibarra et al. 2002; Duarte, Palsson et al. 2004) et celle des prédictions des phénotypes
qualitatifs de croissance pour des mutants de délétion (Edwards & Palsson 2000;
Famili et al. 2003; Covert et al. 2004; Duarte, Herrgard et al. 2004; Borodina et al.
2005; Kuepfer et al. 2005; Thiele et al. 2005). Dans la majorité de ces travaux, les
observations expérimentales furent simplement utilisées pour évaluer les
performances de prédiction des modèles. Néanmoins, les travaux les plus récents
évoquèrent l’idée d’exploiter les observations expérimentales faussement prédites
pour améliorer la connaissance du métabolisme : Duarte, Herrgard et al. (2004) ont,
dans le cas de la levure, classé les fausses prédictions par type de cause probable, et
Covert et al. (2004) ont corrigé des interactions régulatrices dans un modèle mixte
métabolisme-régulation d’E. coli sur la base de données expérimentales de
phénotypes de croissance et d’expression transcriptionnelle.
4 Notre organisme modèle : Acinetobacter baylyi ADP1
4.1 Caractéristiques remarquables
Tout au long des travaux de cette thèse, nous avons utilisé la bactérie
Acinetobacter baylyi ADP1 comme organisme modèle. Le choix de cet organisme fut
guidé par la réalisation au sein même du Genoscope d’un vaste projet expérimental
d’exploration de son métabolisme. Ce projet fut initié en 2002 par le séquençage et
l’annotation de son génome et poursuivi par la création et l’étude d’une collection de
mutants de délétion pour chacun de ses gènes (projet nommé
« Thesaurus métabolique » (de Berardinis et al. 2008)). La taille de la collection de
mutants et la capacité de tester leurs phénotypes de croissance sur divers
environnements ont constitué une ressource expérimentale précieuse à l’application
des méthodes de modélisation développées dans cette thèse. De plus, les
reconstructions du réseau et du modèle métabolique d’A. baylyi ont participé à
l’interprétation des résultats expérimentaux en apportant des outils d’analyse et de
visualisation des processus métaboliques identifiés chez la bactérie.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
74
A. baylyi ADP1 est une !-protéobactérie Gram négative, oxidase négative et
strictement aérobie du genre Acinetobacter, lui même appartenant à l’ordre des
Pseudomonales (voir Figure 18 B). La classification précise de cette souche –
précédemment désignée par BD413 et parfois anciennement classée dans l’espèce
Acinetobacter calcoaceticus – est très récente (Vaneechoutte et al. 2006). La
caractérisation de l’espèce A. baylyi remonte d’ailleurs seulement à 2003 (Carr et al.
2003). Historiquement, cette souche est issue des travaux de Taylor et Juni (1961a;
1961b; 1961c) portant sur la synthèse des capsules de polysaccharides chez les
procaryotes. Ceux-ci avaient isolé par enrichissement sur un milieu contenant du
butane-2,3-diol comme seule source de carbone une bactérie du sol produisant de
grandes quantités d’exopolysaccharides, qu’ils désignèrent par Acinetobacter
calcoaceticus BD4 (Taylor & Juni 1961a). Une étude ultérieure par mutagenèse
conduisit Juni et Janik (1969) à mettre en évidence l’aptitude naturelle à la
transformation de cette souche, et à en dériver la souche BD413 produisant une
capsule polysaccharidique très réduite facilitant sa manipulation. A. baylyi ADP1
provient directement de cette dernière souche. Dans la suite de ce manuscrit, nous
désignerons simplement par A. baylyi la souche ADP1 lorsqu’il n’y aura pas
d’ambiguïté.
Figure 18. Acinetobacter baylyi. A Vue au microscope d’une population d’Acinetobacter baylyi. B Classification taxonomique d’A. baylyi . En bleu sont indiqués les identifiants taxonomiques du NCBI (extrait de http://srs.ebi.ac.uk).
La caractéristique la plus remarquable d’A. baylyi est son exceptionnelle aptitude
naturelle à la transformation par de l’ADN exogène (aussi bien circulaire que
linéaire) : cette souche est naturellement compétente38 (Juni 1972; Palmen &
Hellingwerf 1997) et effectue facilement des recombinaisons homologues (de Vries &
Wackernagel 2002). Cette aptitude est a priori spécifique aux souches de l’espèce 38 La compétence désigne la capacité d’une cellule à importer de l’ADN extracellulaire.
A B
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
75
baylyi ; il a été montré que d’autres espèces d’Acinetobacter effectuent des
transformations naturelles, mais à des fréquences 100 à 1000 fois moindre
(Vaneechoutte et al. 2006). Alors que la question de l’avantage sélectif procuré par
cette aptitude dans un environnement naturel est encore largement ouverte (Young et
al. 2005, p.522), elle offre aux expérimentateurs un excellent outil de travail
génétique, pouvant avantageusement remplacer le modèle habituel Escherichia coli
K1239. Les possibilités expérimentales offertes sont nombreuses, en particulier : les
délétions simples ou multiples de séquences chromosomiques (notamment de gènes),
l’expression de gènes hétérologues (promouvant A. baylyi comme support à la
construction de nouveaux systèmes métaboliques), l’étiquetage de séquences
génétiques (« gene tagging »), ou le remplacement de gènes par des variants mutés
(Metzgar et al. 2004; Young et al. 2005).
Une autre caractéristique remarquable d’A. baylyi, partagée cette fois-ci avec
d’autres membres de l’ordre des Pseudomonales, est sa grande polyvalence
nutritionnelle. Étant une bactérie du sol, celle-ci est capable d’utiliser comme seules
sources de carbone et d’énergie un large panel de composés présents dans ce type
d’environnement, notamment des molécules aromatiques et des acides organiques à
longues chaînes (Young et al. 2005; Barbe et al. 2004) (voir plus loin Tableau 4). Ces
types de molécules sont en effet couramment produits par le métabolisme des plantes.
Les voies métaboliques de dégradation de ces composés chez A. baylyi ont été et font
d’ailleurs toujours l’objet de recherches relativement nombreuses, que ce soit sur les
conversions biochimiques elles-mêmes (Williams & Ray 2008) ou leurs régulations
(Gerischer et al. 2008). À l’inverse, et notamment par comparaison à Escherichia coli
dont l’environnement naturel se situe dans l’intestin d’animaux à sang chaud
(Neidhardt 1996), peu de sucres sont métabolisés par les bactéries du genre
Acinetobacter.
39 A. baylyi ADP1 est en effet 10 à 100 fois plus compétente que des cellules Escherichia coli rendues compétentes par traitement au chloride de calcium (Metzgar et al. 2004, p.5781).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
76
La souche A. baylyi ADP1 est non pathogène40 ; une caractéristique qui n’est pas
commune à toutes les espèces du genre Acinetobacter. En effet, certaines d’entre elles
– notamment Acinetobacter baumanii – sont impliquées dans des cas d’infections
nosocomiales41 et opportunistes, parfois de manière épidémique (Abbott 2005;
Bergogne-Bérézin & Towner 1996). Ces souches ont en outre développé des
résistances à de multiples antibiotiques, rendant le traitement des infections
particulièrement problématique (Fournier et al. 2006). La non-pathogénicité
d’A. baylyi la rend manipulable en laboratoire sans contrainte particulière et sa
proximité phylogénétique aux espèces pathogènes peut en faire un modèle d’étude
pour ces dernières sur certains aspects, comme cela a été le cas pour l’analyse de leurs
génomes (Fournier et al. 2006; Vallenet et al. 2008).
En dehors des études académiques, les bactéries du genre Acinetobacter et
A. baylyi en particulier occupent une place non négligeable dans les applications
biotechnologiques. Celles-ci sont en effet déjà utilisées pour dégrader des polluants,
tels que des biphényls, phénols, benzoates, nitriles ou du pétrole brut, et produire des
composés biochimiques, par exemple des lipases, protéases, bioémulsifiants, de
cyanophycine et différents types de biopolymères (Gutnick & Bach 2008; Abd-El-
Haleem 2003). La manipulation génétique aisée d’A. baylyi et l’intérêt croissant porté
à son métabolisme sont propices à favoriser de nouvelles utilisations industrielles
dans le futur.
4.2 Annotation du génome
Le Genoscope a entrepris en 2002 de séquencer et de réaliser une annotation
détaillée du génome d’A. baylyi. Ce travail fut achevé et publié en 2004 (Barbe et al.
2004). Un effort relativement conséquent fut consacré à l’annotation ; faisant suite à
une étape de prédiction automatique des gènes et de leurs fonctions, l’annotation de
chacun d’entre eux fut complétée et validée manuellement au regard des
40 Une étude récente de Chen et al (2008) attribue des cas d’infections nosocomiales à des souches de l’espèce A. baylyi, à partir d’analyses de leurs ARNr 16S. Le séquençage ultérieur de ces souches a cependant montré des dissimilarités notables avec A. baylyi ADP1 (B. Chen et V. de Berardinis, communication personnelle). 41 Infections dont la source se situe en milieu hospitalier.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
77
connaissances antérieures sur la biologie d’A. baylyi et de leurs contextes génomiques
(Barbe et al. 2004; Vallenet et al. 2006).
Le génome d’A. baylyi compte 3,6 millions de paires de bases et affiche une
composition en bases G et C de 40,4%. Ces caractéristiques le distinguent
notablement de ceux des bactéries pourtant proches Pseudomonas putida KT2440 et
Pseudomonas aeruginosa PAO1 (tailles d’environ 6,3 Mpb et composition en GC de
62-67%). Début 2009, son annotation comptait 3309 séquences codantes, incluant
3206 gènes validés et 103 annotés comme probablement non fonctionnels
(comprenant des pseudo-gènes, des gènes à séquences très courtes ou codant à faible
probabilité). La Figure 19 présente certaines des caractéristiques du génome sur une
vue circulaire.
Figure 19. Vue circulaire du génome d’A. baylyi. Légende des cercles, de l’intérieur vers l’extérieur : (1) biais GC (G+C)/(G-C), (2) îlots cataboliques (rouge), région phagique (marron), éléments transposables (triangles jaunes), ARNt (bleu), ARNr (vert), et (3) gènes prédits dans les sens antihoraire (intérieur) et horaire (extérieur) colorés leur appartenance à des catégories de fonctions : saumon, biosynthèse des acides aminés ; bleu clair, biosynthèse des cofacteurs ; vert clair, enveloppe cellulaire ; rouge, processus cellulaires; jaune, métabolisme de l’ADN ; vert, métabolisme énergétique ; violet, métabolisme des acides gras et phospholipides ; rose, synthèse des protéines ; orange, synthèse des nucléotides ; bleu, fonctions de régulation ; gris, transcription ; turquoise, protéines de
transport et d’interaction ; noir, protéines hypothétiques. Extrait de Barbe et al (2004).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
78
L’analyse du génome d’A. baylyi corrobora les caractéristiques de son
métabolisme connues précédemment (Barbe et al. 2004). Peu de gènes associés à des
voies de dégradation de sucres furent découverts dans le génome. Cependant, le
nombre de gènes impliqués dans le catabolisme de composés chimiques divers –
principalement des aromatiques et de longs acides organiques – est remarquablement
élevé (voir Tableau 4). L’examen de l’organisation de ces gènes sur le chromosome a
confirmé par ailleurs qu’une grande partie d’entre eux se regroupent dans des régions
chromosomiques précises, appelées îlots cataboliques (Doten et al. 1987) (voir
Tableau 4 et Figure 19). Le but de ces regroupements n’est pas élucidé ; une
hypothèse émise à ce sujet est la suivante : leur localisation dans le deuxième
quadrant leur permettrait de bénéficier des duplications fréquentes du chromosome à
cet endroit. La présence en plusieurs copies des gènes serait alors favorable à leur
expression accrue, leur évolution (une copie évolue tandis que l’autre assure le
maintien de la fonction initiale), voire leur échange avec d’autres organismes par
transformation naturelle (Reams & Neidle 2004). En dehors des processus
cataboliques, l’annotation du génome d’A. baylyi a permis d’élucider une part
significative des voies de biosynthèses et de génération d’énergie, comme nous le
verrons dans le chapitre consacré à la reconstruction de son réseau métabolique.
Tableau 4. Composés pouvant être catabolisés par A. baylyi et gènes associés aux processus de dégradation. ACIAD désigne les identifiants uniques des gènes d’A. baylyi. Extrait de Barbe et al (2004)
Le déchiffrage de la séquence génomique d’A. baylyi permit d’obtenir une vision
globale des activités biochimiques participant à son métabolisme. De plus, la
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
79
séquence ainsi que les annotations attenantes constituent une ressource de valeur pour
les projets de recherche sur cet organisme et ceux proches. En attestent les 67 travaux
référençant à ce jour l’annotation du génome42. L’interface MAGE met l’annotation de
ce génome à la disposition de tout utilisateur et la maintient à jour par rapport aux
gènes nouvellement annotés (Vallenet et al. 2006).
4.3 Collection de mutants de délétion
La simplicité des manipulations génétiques d’A. baylyi offerte par sa compétence
naturelle en fait un organisme idéal pour l’application à haut débit de méthodes
d’investigation génétique (Metzgar et al. 2004). Pour cette raison, et dans le but
notamment d’identifier de nouvelles fonctions enzymatiques, l’équipe Thesaurus du
Genoscope a construit une collection de mutants de délétion pour chacun des gènes
d’A. baylyi (de Berardinis et al. 2008). Ce travail s’inscrit directement dans la veine
des travaux de génétique à haut débit présentés ci-dessus (voir partie 2.2).
La technique de délétion utilisée tire naturellement parti des capacités de
transformation et de recombinaison d’A baylyi. Elle consiste à remplacer via une
recombinaison homologue le gène ciblé par une cassette d’intégration contenant un
gène de résistance à un antibiotique (la kanamycine), permettant de sélectionner sur
l’antibiotique les clones ayant recombiné correctement43 (voir Figure 20). L’insertion
correcte dans le locus ciblé est ensuite validée par une série de PCR qui amplifient des
fragments d’ADN situés à cheval entre le génome et le gène de résistance (PCR entre
amorces P1 et P6, P3 et P2, et P7 et P8, voir Figure 20). L’obtention de fragments
amplifiés de longueurs attendues confirme alors indirectement l’intégration du gène
de résistance au bon endroit dans le génome.
42 Nombre d’articles citant l’article de Barbe et al (2004) au 27 février 2009 d’après ISI Web of Knowledge (Thomson Reuters, Inc.). 43 La méthode de création de la cassette d’intégration est basée sur la technique de « spliced PCR » (Murphy et al. 2000) adaptée à A. baylyi par Metzgar et al (2004).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
80
Figure 20. Technique de remplacement d’un gène d’A. baylyi par recombinaison homologue. Tout d’abord, une cassette de remplacement est créée en encadrant un gène de résistance à la kanamycine (KanR) muni d’un promoteur fort (Pt5) par des séquences homologues aux extrémités du gène à remplacer (R1 et R2). L’assemblage de la cassette est réalisé par une succession de PCR. A. baylyi est ensuite transformée avec cette cassette et mise en culture sur un milieu minimal (avec du succinate comme seule source de carbone) contenant de la kanamycine, permettant de sélectionner les clones ayant intégrés la cassette dans leur génome. Diverses PCR sont finalement réalisées sur les clones sélectionnés pour vérifier la bonne intégration de la cassette en remplacement du gène ciblé (vérification des longueurs des fragments entre les amorces P7 et P8, P1 et P6, et p3 et p2). Figure extraite de de Berardinis et al (2008)
Cette étape de vérification a mis en évidence, au cours des expériences de création
des mutants, un phénomène de duplication de grandes régions chromosomiques
perturbant la délétion du gène ciblé. En effet, pour les clones de certains gènes ciblés,
les PCR d’amorces P7 et P8 (voir Figure 20) amplifièrent des fragments d’ADN de
deux longueurs différentes, l’une correspondant à la région génomique possédant le
gène ciblé intact et l’autre à la région génomique ayant intégré le gène de résistance
(clones appelés « doubles bandes »). Une approche par puce CGH44 montra alors que,
dans le cas de ces clones, de larges régions chromosomiques incluant les gènes ciblés
avaient effectivement été dupliquées, autorisant conjointement l’intégration du gène
44 CGH : « Comprehensive Genomic Hybridization array ». Puce d’hybridation génomique comparative permettant de comparer, pour deux sources d’ADN distinctes, le nombre de copies des fragments d’ADN correspondant aux oligonucléotides (sondes) placés sur la puce. Dans le cas d’A. baylyi, des sondes couvrant l’ensemble du génome furent placées sur les puces et les quantités d’ADN furent comparées entre une souche sauvage et le clone mutant testé.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
81
de résistance et la conservation d’une copie du gène cible (de Berardinis et al. 2008).
Toutefois, malgré l’échec apparent de la manipulation génétique, ces gènes ciblés
peuvent être considérés comme contribuant de manière significative à la survie de la
bactérie, voire comme étant essentiels. En effet, la fréquence d’occurrence de telles
duplications est rare (Reams & Neidle 2004) ; il est donc peu probable que des clones
présentant ces duplications aient été retenus lors de l’expérience sans que ces
duplications, et donc la conservation du gène ciblé, ne leur confère un avantage
sélectif significatif. L’interprétation d’essentialité de ces gènes a de plus été
corroborée par le fait qu’une grande majorité de leurs gènes homologues chez
Escherichia coli et Pseudomonas aeruginosa sont également essentiels (de Berardinis
et al. 2008).
Le processus de délétion fut appliqué à l’ensemble quasiment complet des gènes
d’A. baylyi. Parmi eux 2594 donnèrent lieu à des mutants viables, correspondant à des
gènes non-essentiels, et 499 à des mutants non viables ou « doubles bandes »,
correspondant aux gènes considérés comme essentiels. La totalité des 2594 mutants
viables a été conservée et constitue la collection de mutants d’A. baylyi.
L’examen des catégories fonctionnelles liées aux gènes essentiels montre que
ceux-ci composent une partie significative des voies métaboliques de biosynthèse
(voir Figure 21). Ce résultat est en accord avec la composition du milieu choisi pour
sélectionner les mutants. En effet, ce milieu minimal ne disposant que du succinate
comme source de carbone, le bon fonctionnement des voies de biosynthèses est
essentiel pour permettre aux mutants de disposer des métabolites nécessaires à leur
survie.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
82
Figure 21. Proportion de gènes essentiels pour chaque catégorie fonctionnelle de la classification TIGR Roles. En bleu, gènes essentiels ; en blanc, gènes non-essentiels. Les catégories ne sont pas exclusives, certains gènes appartiennent à plusieurs d’entre elles.
Plusieurs facteurs de différences ont été mis en évidence par la comparaison des
essentialités avec les gènes homologues chez Pseudomonas aeruginosa et Escherichia
coli (de Berardinis et al. 2008). Dans le cas de P. aeruginosa, le principal facteur de
différence est le milieu de sélection des mutants ; celui-ci est un milieu riche (LB)
contenant de nombreux métabolites rendant non nécessaires des voies de biosynthèse
(Liberati et al. 2006). De plus, la comparaison a révélé des gènes faussement
identifiés comme essentiels chez P. aeruginosa du fait de l’utilisation d’une technique
de transposon, moins fiable que la délétion ciblée (voir partie 2.2). Ces deux facteurs
ne sont pas présents dans la comparaison aux essentialités d’E. coli ; la technique
utilisée est similaire à celle d’A. baylyi et les mutants ont été phénotypés sur un milieu
minimal (glucose) (Baba et al. 2006). Les différences d’essentialité entre A. baylyi et
E. coli sont le reflet de différences dans leur métabolisme énergétique (la capacité
anaérobie d’E. coli rend non-essentielles certaines sous-unités de l’ATP synthase), de
la présence d’isoenzymes ou de voies métaboliques alternatives dans une seule des
deux bactéries, ou de réelles différences dans certaines voies métaboliques (de
Berardinis et al. 2008). En complément de ces analyses, la confrontation des voies
métaboliques connues pour A. baylyi aux essentialités de gènes permit de relever
certaines incohérences, notamment dans les voies de synthèse de la méthionine et de
l’ubiquinone (de Berardinis et al. 2008). Ces constats conduisirent à reconsidérer le
fonctionnement de ces deux voies et appellent d’autres expériences pour en élucider
précisément la structure.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
83
De manière à déterminer l’essentialité des gènes sur d’autres environnements,
l’équipe Thesaurus a mis en place une procédure de phénotypage de l’ensemble de la
collection de mutants sur milieu liquide (de Berardinis et al. 2008). Cette procédure,
également haut débit et basée sur des tests de croissance clonaux, se déroule
entièrement sur plaques 96 puits. Après une préculture des mutants dans le milieu
initial de sélection, ceux-ci sont inoculés dans des puits contenant le milieu à tester.
Suivent 24 heures d’incubation au terme desquels la densité optique à 600 nm de
chacun des puits est mesurée afin d’en quantifier la quantité de cellules présente.
Cette procédure a été appliquée pour un panel relativement large d’environnements.
Le phénotypage de la collection de mutants sur glucarate et galactarate a ainsi permis
de caractériser de nouveaux gènes impliqués dans leur dégradation (Aghaie et al.
2008), tandis que les résultats de phénotypage sur 2,3-butanediol et quinate ont
corroboré les voies de dégradation précédemment connues et permis de formuler des
hypothèses sur de nouveaux gènes impliqués (de Berardinis et al. 2008).
5 Synthèse et objectifs de la thèse
En conclusion de cette partie introductive, nous soulignerons les points suivants :
- Le métabolisme global d’un organisme peut être en grande partie
reconstruit à partir de l’annotation de son génome, ouvrant la voie à
l’exploration à grande échelle des caractéristiques métaboliques des
organismes séquencés. Cependant, les réseaux métaboliques reconstruits
de cette manière sont fortement biaisés par les méthodes d’annotation, qui
s’appuient pour l’essentiel sur les activités enzymatiques déjà identifiées ;
ils sont très probablement incomplets.
- L’étude des phénotypes de croissance donne une perspective
macroscopique sur le métabolisme des organismes (leur physiologie).
Associée à des techniques d’inactivation génétique, elle permet d’explorer
l’essentialité des gènes et d’associer certains d’entre eux à la survie sur
des environnements particuliers. Ces résultats peuvent compléter
utilement la connaissance issue de l’annotation. Néanmoins, leur bonne
interprétation d’un point de vue du métabolisme nécessite dans de
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
84
nombreux cas de considérer le fonctionnement global du métabolisme tout
en tenant compte des environnements de croissance.
- Les modèles métaboliques à base de contraintes se sont révélés bien
adaptés à prédire les phénotypes de croissance à partir d’une description
simple des réactions du métabolisme. Des travaux, récents au début de la
thèse, ont montré que la confrontation des phénotypes prédits aux
phénotypes observés permettait d’identifier des conflits entre la
connaissance du réseau métabolique et ces observations expérimentales.
Cependant, l’exploitation des phénotypes par les modèles manque d’un
cadre d’interprétation clair et de méthodes permettant de guider les
corrections à réaliser au réseau métabolique.
Le contexte scientifique du Genoscope s’est montré particulièrement favorable à
l’entreprise d’une étude globale du métabolisme à l’aide de phénotypes de croissance.
D’une part, l’annotation experte du génome d’A. baylyi offrait une base solide à la
reconstruction complète de son métabolisme et, d’autre part, les capacités
expérimentales de phénotypage de ses mutants fournissaient un ensemble de données
d’essentialité sans précédent pour cette bactérie.
Nous avons donc décidé d’explorer plus en détail les méthodes d’interprétations
des phénotypes de croissance à l’aide des modèles métaboliques, sur la base du
métabolisme d’A. baylyi. Dans cette optique, notre thèse s’attacha à atteindre trois
objectifs successifs. Tout d’abord, évaluer la performance des méthodes de l’état de
l’art pour reconstruire un modèle métabolique global fiable à partir de l’annotation et
de la connaissance initiale, et proposer des solutions aux faiblesses constatées.
Ensuite, confronter les phénotypes prédits par le modèle aux phénotypes observés et
proposer une méthodologie d’interprétation permettant d’exploiter au mieux leurs
incohérences dans le but de corriger le modèle reconstruit. Enfin, élaborer une
méthode originale de correction automatique des modèles à partir de données
phénotypiques expérimentales. Les résultats de nos recherches sur ces trois objectifs
sont présentés dans les trois grandes parties suivantes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
85
RECONSTRUCTION D’UN MODELE GLOBAL DU
METABOLISME D’ACINETOBACTER BAYLYI ADP1
Dans cette première partie consacrée à nos résultats, nous exposerons le processus
de reconstruction que nous avons mis en place pour obtenir un modèle global du
métabolisme d’A. baylyi qui représente le plus fidèlement possible notre connaissance
de son métabolisme. À cette occasion, nous présenterons les méthodes et vérifications
que nous avons notamment élaborées afin d’adapter la représentation des réactions
aux spécificités de la modélisation. Dans un deuxième temps, nous décrirons les
caractéristiques marquantes du modèle obtenu.
6 Processus de reconstruction
Fin 2005, alors même que les méthodes de modélisation du métabolisme
gagnaient en popularité, seules quelques équipes avaient entrepris de reconstruire des
modèles globaux pour un nombre limité d’organismes. Il s’avérait en effet – et à juste
titre – qu’une telle entreprise était une tâche laborieuse dont les difficultés n’étaient
pas encore toutes clairement identifiées. Des initiatives commençaient à être mises en
place pour répertorier et résoudre ces difficultés (Segrè et al. 2003), mais le processus
de reconstruction ne semble se rapprocher qu’aujourd’hui de la maturité, comme
peuvent en témoigner les apparitions récentes d’outils (DeJongh et al. 2007; Schwarz
et al. 2007) et d’articles de revue (Durot et al. 2009; Feist et al. 2009; Reed, Famili et
al. 2006). Pour cette raison, nous présenterons notre processus de reconstruction du
modèle d’A. baylyi en soulignant au lecteur les points-clés liés aux exigences de la
modélisation que nous aurons identifiés.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
86
Deux phases quasiment indépendantes se distinguent dans le processus de
reconstruction (voir Figure 22). La première consiste à répertorier les activités
métaboliques connues de l’organisme, à partir de l’annotation de son génome mais
également de la littérature biochimique et d’informations physiologiques. La seconde
adapte la représentation de ces réactions afin de construire un modèle compatible avec
les hypothèses de modélisation. Ces deux étapes sont décrites séparément dans les
deux sections suivantes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
87
Figure 22. Processus de reconstruction du modèle métabolique d’A. baylyi. Le réseau métabolique est schématisé par un graphe. Les nœuds grisés indiquent des métabolites génériques, les arrière-plans colorés des grandes catégories fonctionnelles du métabolisme.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
88
6.1 Identification des activités métaboliques
L’annotation experte du génome d’A. baylyi, réalisée avec une attention
particulière pour les processus métaboliques, offre une base solide à la reconstruction
de son réseau métabolique. Le travail des experts a en effet contribué non seulement à
vérifier et valider les annotations assignées automatiquement, mais également à en
préciser certaines et à en définir des nouvelles à partir des connaissances spécifiques à
la bactérie. L’ensemble des annotations représente donc une source d’information
relativement complète sur le métabolisme d’A. baylyi, sur laquelle nous avons choisi
d’appuyer notre processus de reconstruction. De plus, contrairement aux quelques
organismes modèles dont la biochimie a été largement étudiée expérimentalement,
l’annotation du génome représentait pour A. baylyi la seule source d’information pour
une large majorité de ses activités enzymatiques. Le processus de reconstruction suivi
est donc transposable à tout nouvel organisme dont le génome est séquencé et annoté.
La première étape du processus a consisté à traduire les annotations textuelles du
génome en réactions définies par leurs équations bilans (voir Figure 22). Pour cela,
nous nous sommes reposés sur les outils de l’état de l’art. Deux principales ressources
étaient disponibles pour réaliser cette opération à grande échelle, à savoir les bases de
données métaboliques KEGG (Kanehisa et al. 2004) et BioCyc (Karp et al. 2002).
Nous avons rapidement arrêté notre choix sur BioCyc. Bien que répertoriant un
vaste ensemble de réactions dans ses bases de données, KEGG ne disposait pas de
méthodes aussi élaborées que celles de BioCyc pour les associer automatiquement
aux annotations des génomes. En effet, KEGG se repose pour cela exclusivement sur
les identifiants EC attribués dans les annotations et est donc sensible à la qualité de
ces attributions. Dans la pratique, une proportion significative des gènes de fonction
enzymatique n’est pas annotée avec un identifiant EC complet, rendant leur
interprétation par KEGG impossible. Par exemple pour A. baylyi, pour 794 gènes
codant pour des enzymes, seuls 576 sont annotés avec un identifiant EC complet et
103 avec un identifiant incomplet, laissant 115 gènes sans identifiant EC45. De plus, à
ces absences d’annotation EC, causées principalement par la non-exhaustivité de la
45 Décompte réalisé à partir de l’annotation d’A. baylyi disponible dans MaGe au 28 avril 2009 (http://www.genoscope.cns.fr/agc/mage/). Le même décompte réalisé pour E. coli K12 donne des proportions similaires.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
89
classification (toutes les activités enzymatiques n’y sont pas représentées) et les
difficultés des annotateurs à déterminer sans ambiguïté les bons identifiants,
s’ajoutent des problèmes de compatibilité entre identifiants provoqués par les
modifications périodiques de la classification.
Contrairement à KEGG, BioCyc exploite, en complément des identifiants EC, les
noms d’enzymes attribués textuellement dans l’annotation, rendant la détection des
réactions plus performante (Karp et al. 2002). En outre, son logiciel de reconstruction
– Pathway Tools – réalise la reconstruction voie métabolique par voie métabolique,
permettant ainsi d’inférer d’éventuelles réactions manquantes (voir Introduction,
sections 1.4.2 et 3.2.1).
Nous avons exécuté Pathway Tools (version 8.0) sur l’annotation d’A. baylyi et
obtenu en résultat la base de donnée AcinetoCyc. Cette dernière contient l’ensemble
des réactions métaboliques identifiées par Pathway Tools pour A. baylyi. Chacune
d’entre elles y est décrite par son équation chimique et est reliée aux gènes et enzymes
la catalysant. AcinetoCyc contient ainsi l’information nécessaire à la construction
d’un modèle métabolique.
Le processus de reconstruction automatique BioCyc présente cependant certains
inconvénients rendant impossible l’utilisation directe des réactions inférées. Tout
d’abord, Pathway Tools tend à « surprédire » les voies métaboliques. En effet, il suffit
parfois qu’une petite fraction des enzymes d’une voie soit codée dans le génome pour
que l’ensemble de la voie et toutes ses réactions soient prédites par Pathway Tools.
Cette méthode engendre ainsi un nombre conséquent de faux positifs – des voies
métaboliques et réactions sans gène associé n’ayant pas de réalité biologique. Ensuite,
le procédé de détection des réactions à partir des annotations textuelles commet
parfois des erreurs et infère des réactions ne correspondant pas à l’annotation ; ce cas
de figure apparaît notamment lorsque la spécificité des substrats n’est pas précisée
dans l’annotation (ex. : alcool déshydrogénase). De plus, certaines activités
enzymatiques ne sont pas encore répertoriées dans la base de données de référence de
BioCyc (MetaCyc) ; lorsqu’elles sont présentes dans une annotation, Pathway Tools
ne peut créer les réactions correspondantes. Enfin, bien que l’ensemble des réactions
inférées soit organisé en voies métaboliques, ces dernières sont nombreuses, souvent
isolées les unes des autres et parfois redondantes. Il est difficile de ce fait
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
90
d’appréhender la structure globale du réseau métabolique et de comprendre les rôles
respectifs des voies métaboliques.
Pour ces raisons et afin de garantir la qualité du réseau métabolique reconstruit, le
processus automatique de création des réactions devait nécessairement être complété
par une phase de curation manuelle. De manière à maîtriser au mieux le contenu du
modèle et étant donné le grand nombre de « faux positifs » générés par Pathway
Tools, nous avons choisi de construire le modèle progressivement en ajoutant une à
une les réactions le constituant. Nous avons pour cela défini sept grandes catégories
métaboliques dans lesquelles nous avons réparti les réactions du réseau global :
- Métabolisme central,
- Métabolisme des acides aminés
- Métabolisme des lipides et des constituants de la membrane
- Métabolisme des nucléotides
- Biosynthèse des cofacteurs
- Voies de dégradations
- Processus de transport
Pour chaque catégorie fonctionnelle, nous avons examiné les voies métaboliques
concernées prédites dans AcinetoCyc. Nous avons alors retenu dans le modèle
uniquement les réactions pour lesquelles suffisamment d’informations justifiaient leur
présence : bonne adéquation de l’annotation du gène à la réaction, importance de la
réaction dans la catégorie fonctionnelle, participation de la réaction à une voie
métabolique connue de l’organisme. Ce processus de sélection des réactions fut
réalisé en utilisant systématiquement les connaissances initiales du métabolisme
d’A. baylyi contenues dans la littérature. Nous avons ainsi pu d’une part valider la
présence de réactions sans gène associé et d’autre part compléter la reconstruction en
ajoutant les réactions connues qui n’avaient pas été inférées par Pathway Tools (voir
Figure 22). Ce dernier cas comprend (1) les voies métaboliques spécifiques à A.
baylyi décrites dans la littérature, (2) les processus de transport de métabolites mis en
évidence grâce aux connaissances sur la physiologie de la bactérie et aux prédictions
de la ressource TransportDB (Ren et al. 2004), et (3) les activités enzymatiques
présentes dans l’annotation mais n’ayant pu être interprétées par Pathway Tools. De
plus, comme nous le verrons dans la partie suivante, le bon fonctionnement du modèle
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
91
nécessite d’avoir des voies métaboliques complètes, sans réaction manquante. Nous
avons de ce fait réalisé ces ajouts de réactions dans le souci d’obtenir des voies
métaboliques complètes et fonctionnelles.
Cette étape de curation manuelle – basée notamment sur l’examen de 66
références bibliographiques (voir partie 7.3) – nous a amené à compléter
significativement le réseau métabolique, comme en témoigne la Figure 23. Les
catégories fonctionnelles incluant le plus de réactions ajoutées manuellement sont
celles des voies de dégradation et des processus de transport. La première comprend
en effet un grand nombre d’activités relativement spécifiques à A. baylyi et non
inférées dans AcinetoCyc. Les processus de transport ne sont quant à eux pas prédits
par la méthode standard de Pathway Tools et ne sont de ce fait pas inclus dans
AcinetoCyc.
Figure 23. Proportion de réactions du modèle représentées dans MicroCyc. MicroCyc contient les reconstructions automatiques du métabolisme réalisées périodiquement par Pathway Tools à partir des génomes contenus dans MicroScope (http://www.genoscope.cns.fr/agc/microcyc). Compte tenu de l’évolution des identifiants de réactions BioCyc, nous avons choisi d’effectuer la comparaison entre le modèle et la reconstruction MicroCyc sur la base des gènes enzymatiques pris en compte par MicroCyc. La reconstruction MicroCyc utilisée ici a été effectuée par Pathway Tools version 13.0 sur l’annotation d’A. baylyi d’avril 2009.
Outre le fait de fournir une reconstruction organisée du métabolisme, le processus
de curation systématique de chaque réaction offre la possibilité de gérer la fiabilité de
leur présence, ce qui n’est pas effectué dans la reconstruction automatique de Pathway
Tools. Nous avons ainsi associé à chaque réaction un score de confiance évaluant la
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
92
fiabilité des informations soutenant sa présence. Celui-ci est principalement basé sur
le score de confiance attribué aux annotations de ses gènes et prend en compte les
informations supplémentaires issues de la littérature :
- 1 : activité confirmée expérimentalement dans A. baylyi
- 2 : gène annoté grâce à une homologie forte à un gène de fonction
prouvée, et activité définie précisément dans l’annotation
- 3 : annotation du gène réalisé à partir d’indice de moindre confiance
- 4 : présence de la réaction inférée pour compléter des voies métaboliques
essentielles.
Ces scores permettent d’évaluer la qualité de la reconstruction et pourront ensuite
être utilisés pour guider des corrections.
En conclusion, bien que significativement accélérée par les outils d’exploitation
automatique des annotations, l’énumération des réactions métaboliques nécessite un
travail de curation significatif, ne serait-ce que pour intégrer les connaissances
biochimiques non représentées dans les annotations.
D’un point de vue pratique, nous avons effectué ce travail au sein d’un tableur
regroupant les informations sur les réactions. En effet, aucun logiciel spécialisé
n’offrait la souplesse nécessaire à la construction d’un modèle de cette taille par ce
processus46. Les bases de données métabolique BioCyc, et a fortiori AcinetoCyc,
offre la possibilité d’être modifiée manuellement, mais elles se révèlent difficilement
utilisables pour manipuler simultanément de grands ensembles de réactions. Nous
avons donc exporté les réactions d’AcinetoCyc afin de les traiter dans le tableur. Nous
avons toutefois retranscrit dans AcinetoCyc une partie des modifications effectuées
lors de la construction du modèle – nous y avons notamment ajouté les voies
métaboliques supplémentaires – pour pouvoir utiliser AcinetoCyc à des fins de
visualisation47.
46 Les logiciels classiques de construction des modèles métaboliques (p.ex. CellDesigner (Funahashi et al. 2003)) ne sont en effet adaptés qu’à des réseaux de taille modeste. 47 AcinetoCyc est accessible à l’adresse http://www.genoscope.cns.fr/acinetocyc/
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
93
6.2 Adaptation aux « contraintes » de modélisation
Comme déjà évoqué dans notre revue sur les modèles à base de contraintes (voir
3.2.1), leur construction nécessite de prendre en compte certaines exigences liées aux
hypothèses de modélisation. C’est pourquoi, dans la deuxième phase du processus de
reconstruction (voir Figure 22), nous avons (1) identifié ces exigences, (2) vérifié que
le modèle y répondait et, le cas échéant, (3) appliqué des modifications pour adapter
le modèle. Dans cette partie, nous exposerons l’ensemble des vérifications et
modifications que nous avons effectué pour le modèle d’A. baylyi et détaillerons nos
contributions les plus significatives par rapport à l’état de l’art.
6.2.1 Fonctionnement des voies métaboliques
La contrainte de conservation de la masse impose aux flux de production et de
consommation de chaque métabolite interne de s’équilibrer au sein du modèle. Pour
être valide, cette contrainte suppose donc que toutes les réactions majoritairement
impliquées dans ces conversions sont incluses dans le modèle. Si tel n’était pas le cas,
cette contrainte imposerait des liens erronés entre les flux de réactions. Pour cette
raison, il est nécessaire d’inclure dans le modèle toutes les réactions majeures
impliquant chacun de ses métabolites, dans la limite, bien entendu, des activités
enzymatiques identifiées dans l’organisme.
Cette vérification est particulièrement importante car l’absence d’une réaction
peut provoquer le « blocage » d’une voie métabolique, voire du modèle entier. En
effet, si cette réaction est par exemple indispensable à la production d’un métabolite,
la contrainte de conservation de la masse imposera aux réactions consommant ce
métabolite un flux nul, lui-même potentiellement propagé à d’autres réactions par
cette même contrainte. Dans notre processus de reconstruction, nous avons donc prêté
une attention particulière à inclure des voies métaboliques complètes dans le modèle
et à vérifier la présence pour chaque métabolite de réactions de consommation et de
production. Cette vérification semble naturelle pour les métabolites intermédiaires de
grandes voies métaboliques linéaires, elle l’est moins, mais tout autant nécessaire,
pour les cofacteurs et autres métabolites dont les processus de production et
consommation sont répartis entre les catégories fonctionnelles du métabolisme.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
94
Cette vérification nous a conduit dans quelques cas à inférer et ajouter au modèle
des réactions indispensables au fonctionnement des voies métaboliques. Ces réactions
ont été choisies en examinant les voies métaboliques présentes dans A. baylyi et
déterminant les réactions les plus probables pour combler les conversions
métaboliques absentes. Dans la majorité des cas, nous nous sommes appuyés pour
cela sur les voies métaboliques connues chez les autres organismes et
automatiquement inférées par Pathway Tools (voir Figure 24). Pour refléter le peu
d’indices confirmant la présence de ces réactions, nous leur avons attribué un score de
fiabilité faible. Dans un rare cas, nous n’avons pu déterminer de réaction consommant
un métabolite : il s’agit du s-adenosyl-4-methylthio-2-oxobutanoate produit lors de la
biosynthèse de la biotine. Pour permettre le fonctionnement de la voie, nous avons
ajouté une réaction d’échange supplémentaire consommant artificiellement ce
métabolite.
Figure 24. Dernières étapes de la voie de biosynthèse de l’histidine. La réaction manquante (histidinol phosphatase, EC 3.1.3.15) a été inférée dans le modèle pour permettre le fonctionnement de la voie métabolique. Sa présence est cependant suggérée par l’existence des autres réactions de la voie et la présence dans le génome de gènes annotés comme phosphatases (sans mention du substrat). Illustration issue de AcinetoCyc.
Malgré ces vérifications, la contrainte de conservation de la masse peut tout de
même provoquer des « blocages » plus complexes à interpréter. Pour faciliter leur
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
95
détection, nous avons vérifié et validé le « fonctionnement » des voies métaboliques
au fur et à mesure de leur introduction dans le modèle. Cette stratégie nous a dispensé
d’utiliser les méthodes dédiées à la détection de ces blocages (voir revue section
3.2.1), dont les versions réellement performantes ne sont apparues que tardivement
(Kumar et al. 2007; Senger & Papoutsakis 2008).
6.2.2 Équilibre des équations bilans
La bonne application de la contrainte de conservation de la masse exige également
que les équations bilans des réactions soient correctement équilibrées. L’absence d’un
substrat ou d’un produit dans une équation fausse le bilan global de la réaction et peut
provoquer la production et consommation artificielles de certains métabolites. Seules
les réactions d’échanges, dont l’objectif est justement d’introduire ou d’extraire des
métabolites dans le modèle, ne sont pas équilibrées.
Nous nous sommes basés sur les formules chimiques des métabolites pour vérifier
l’équilibre des équations bilans, élément par élément. Toutefois, les métabolites
pouvant se trouver sous différents états de protonation, nous n’avons pas vérifié
l’équilibre des équations au proton près, en dehors des réactions impliquant le
transport de protons à travers la membrane cytoplasmique (voir partie suivante). Pour
chaque réaction à l’équation non équilibrée, nous avons alors cherché à résoudre
l’incohérence à l’aide d’autres ressources sur leur biochimie, dont principalement
BRENDA (Barthelmes et al. 2007). Les réactions créées dans AcinetoCyc contenaient
une proportion non négligeable d’erreurs dans leurs équations. Les dernières versions
de BioCyc ont cependant corrigé la grande majorité d’entre elles48.
Il est important de noter également que le fait d’équilibrer globalement toutes les
réactions du modèle implique de connaître spécifiquement tous les métabolites. Les
réactions définies à l’aide de métabolites génériques (par exemple un acide
dicarboxylique, représentant des acides carboxyliques de diverses chaînes carbonées)
ne peuvent ainsi être reliées aux autres réactions du modèle, alors même qu’elles sont
correctement équilibrées. Nous verrons plus loin au paragraphe 6.2.5 les méthodes
que nous avons mises en œuvre pour y répondre.
48 Voir l’historique des améliorations à l’adresse http://metacyc.org/release-notes.shtml .
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
96
6.2.3 Conservation de l’énergie
Afin de réaliser des conversions métaboliques à la thermodynamique peu
favorable, certaines réactions se couplent à des processus leur apportant de l’énergie
(voir en introduction section 1.2.6). Ces derniers sont majoritairement de nature
chimique – conversion exothermique d’un métabolite très énergétique, par exemple
l’ATP, en un métabolite moins énergétique, l’ADP – mais également physique –
utilisation d’un gradient de concentration de part et d’autre d’une membrane
cellulaire. Lorsque les échanges d’énergie se limitent à ces deux formes – ce qui est
majoritairement le cas pour les organismes qui exploitent l’énergie chimique contenue
dans les métabolites du milieu – la contrainte de conservation de la masse permet de
les prendre en compte dans le modèle. En appliquant cette contrainte aux métabolites
sous leurs différentes formes énergétiques, elle impose aux flux responsables de leur
production de compenser leur consommation.
Ainsi, dans l’exemple de l’ATP, la contrainte de conservation de la masse impose
aux réactions régénérant l’ATP de le produire à un flux comblant la consommation
d’ATP par les réactions du métabolisme. À leur tour, les réactions régénérant l’ATP
imposent un flux aux réactions leur permettant d’avoir lieu (cycle de Krebs),
permettant in fine de tenir compte de la demande énergétique dans le fonctionnement
global du métabolisme.
La contrainte de conservation de la masse modélise de manière similaire les
échanges d’énergie liés aux gradients de concentration. Dans ce cas, le niveau
d’énergie des métabolites est déterminé par leur localisation, interne ou externe à la
membrane cellulaire. Le modèle représente séparément les métabolites localisés
différemment, et traduit les processus de transport par des réactions « déplaçant » ces
métabolites d’un compartiment à un autre. En imposant la conservation de la quantité
des métabolites internes, le modèle impose alors indirectement un équilibre des
échanges au travers de la membrane forçant le maintien du gradient de concentration
dans le modèle (voir Figure 25A).
L’utilisation d’un gradient de concentration comme vecteur énergétique s’applique
principalement aux protons : certaines réactions entretiennent ce gradient en expulsant
des protons (notamment les réactions de la chaîne respiratoire) tandis que d’autres
exploitent son énergie en laissant entrer des protons (notamment l’ATP synthase et
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
97
des processus actifs de transport). La difficulté à déterminer les états de protonation
des métabolites complique cependant l’obtention de réactions équilibrées au proton
près et, par conséquent, l’application de la contrainte de conservation de la masse
pour les protons intracellulaires. Nous avons choisi de contourner cette difficulté en
supposant que seuls les processus de transport de protons contribuaient
significativement à leurs conversions. Nous n’avons donc équilibré au proton près que
les réactions transportant les protons, et appliqué la contrainte de conservation de la
masse uniquement aux protons transportés (voir Figure 25B).
Figure 25. Contrainte de conservation de la masse appliquée aux protons. A. La contrainte est appliquée à l’ensemble des protons intracellulaires et exige alors d’équilibrer au proton près toutes les équations bilans. B. La contrainte est appliquée uniquement aux processus transportant les protons, ces derniers étant supposés contribuer majoritairement aux conversions de proton.
Afin d’évaluer les effets de ce choix de modélisation sur les prédictions du
modèle, nous avons comparé le modèle d’E. coli iJR904 équilibrant tous les protons
intracellulaires (Reed et al. 2003) à une version que nous avons modifié pour
n’équilibrer que les protons des processus de transport (voir Figure 25).
Nous avons tout d’abord déterminé les taux de croissance prédits pour chacun de
ces modèles sur un ensemble de 10 000 conditions environnementales composées
d’un ensemble minimal fixe de molécules (dioxyde de carbone, eau, proton, fer II,
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
98
potassium et sodium) complété aléatoirement par un métabolite de chacune des
catégories suivantes : accepteur d’électron (4 métabolites), sources de carbone (89
métabolites), sources d’azote (34 métabolites), sources de phosphore (4 métabolites)
et sources de souffre (2 métabolites). Pour chaque environnement, nous avons prédit
le taux de croissance optimal de chaque modèle par la méthode Flux Balance Analysis
(Varma & Palsson 1994) et comparé leurs valeurs. La Figure 26 trace l’histogramme
des différences relatives entre taux de croissance, calculé par la formule :
!
Drel
=µmodèle simplifié "µmodèle complet
max µmodèle simplifié,µmodèle complet( )
Figure 26. Histogramme des différences relatives entre les taux de croissance prédits par les deux modèles sur les 10000 environnements simulés.
Dans 99% des environnements, la différence relative est contenue entre -30% et
30%. Pour une majorité d’entre eux (75%), le modèle simplifié prédit un taux de
croissance supérieur à celui du modèle complet. Ce résultat est dû au fait que, en
moyenne, les voies métaboliques requises pour la croissance produisent plus de
protons qu’elles n’en consomment. Le modèle complet tient compte de ces protons,
ce qui pénalise légèrement l’équilibre du gradient. Dans ce modèle, plus d’énergie est
consacrée au maintien du gradient de concentration.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
99
Pour les 1% d’environnements restants, le modèle simplifié prédit au contraire un
taux de croissance significativement plus faible que celui du modèle complet
(diminution supérieure à 30%). Pour 10 environnements de ce type, le modèle réduit
prédit un taux de croissance nul alors même que le modèle complet prédit un taux de
valeur classique. L’examen des voies métaboliques utilisées pour croître sur ces
environnements a révélé des voies pouvant capturer des protons internes et les
excréter hors de la cellule au sein d’autres métabolites. Par exemple, la voie
représentée sur la Figure 27 importe de la guanine de l’environnement, la convertit en
ammonium et xanthine qui sont ensuite excrétés dans l’environnement. Dans le
modèle, la guanine deaminase (GUAD) capture un proton qui est ensuite excrété sous
la forme de l’ion ammonium. Le bilan net de cette voie consomme un proton
intracellulaire (voir Figure 27). En utilisant cette voie avec un flux élevé, le modèle
complet réussit à maintenir une excrétion de proton suffisante à la croissance.
h , h2o
gua xan
nh4
gua[e] nh4[e] xan[e]
GUAt
GUAD
NH4t
XANt
h2o[e]
H2Ot
h , h2o
gua xan
nh4
gua[e] nh4[e] xan[e]
GUAt
GUAD
NH4t
XANt
h2o[e]
H2Ot
Figure 27. Consommation nette de proton intracellulaire par deamination de la guanine. Le bilan net de cette voie est en effet gua[e] + h2o[e] + h ! nh4[e] + xan[e]. gua, guanine; xan, xanthine ; nh4, ammonium ; h, proton ; h2o, eau ; GUAD, guanine deaminase.
Les différences majeures de prédictions de taux de croissance correspondent à des
situations similaires impliquant des voies de ce type. Ces voies ne correspondent
cependant pas à leur utilisation physiologique réelle, le flux nécessaire pour exporter
les protons de cette manière étant sans comparaison avec leurs flux habituels. Bien
que, dans l’ensemble, le modèle complet tienne compte correctement de l’effet des
consommations internes de proton, certains cas de figures semblent ainsi fausser la
prise en compte des processus majeurs de maintien du gradient.
Dans un deuxième temps, nous avons évalué l’effet du type de modélisation sur la
prédiction de phénotypes de croissance de mutants. Pour chacun des 10 000
environnements, nous avons prédit le taux de croissance d’un mutant de délétion
simple de gène choisi au hasard, et calculé la diminution relative au taux de
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
100
croissance prédit pour la souche sauvage. La Figure 28 présente les différences de
prédiction de ces diminutions relatives prédites par les deux types de modélisation.
Figure 28. Histogramme des différences entre les diminutions relatives de taux de croissance par délétion de gène prédites par les deux modèles sur les 10000 environnements simulés.
Dans la très grande majorité des cas (94%), la diminution de croissance est
identique. Ce résultat inclut cependant un grand nombre de cas (la moitié) pour
lesquels la délétion est sans effet. Dans 2% des cas, la souche sauvage ne pouvait
croître, empêchant le calcul de la diminution de croissance. Seuls 4% des cas
présentaient une différence de prédiction de diminution de croissance entre les types
de modélisation, de valeur relativement limitée (la majorité est contenue entre -20% et
+20%).
En conclusion, cette étude nous a montré que la modélisation de l’équilibre des
protons restreinte aux processus de transport (1) prédit des taux de croissance
similaires à ceux d’une modélisation complète (quoique supérieur en moyenne), (2)
prédit des phénotypes de croissance de mutants très similaires à ceux de la
modélisation complète et (3) évite l’occurrence de voies métaboliques modifiant
l’équilibre des protons de façon physiologiquement irréaliste. Nous avons donc choisi
d’appliquer ce type de modélisation au modèle d’A. baylyi.
La stœchiométrie des réactions transportant les protons à travers la membrane est
un autre point nécessitant une attention particulière du modélisateur. Leur valeur peut
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
101
en effet influer significativement sur l’efficacité du métabolisme à générer de
l’énergie. Cependant, ces stœchiométries peuvent varier en fonction du processus de
transport, des conditions environnementales (pH) et du gradient de concentration ;
leurs valeurs ne sont pas fixées de manière aussi rigoureuse que celles des
conversions chimiques. Des études pour quelques organismes modèles ont permis
d’en déterminer des valeurs moyennes pour des conditions environnementales
précises (Gennis & Stewart 1996) ; dans le cas d’A. baylyi, nous avons retenu des
valeurs similaires à celles de ces organismes car aucune étude précise n’avait été
réalisée pour A. baylyi. Comme évoqué dans notre revue sur les modèles (section
3.2.1), ces valeurs peuvent également être inférées à partir de données physiologiques
à l’aide des modèles.
6.2.4 Localisation cellulaire
La contrainte de conservation de la masse ne s’applique en toute rigueur qu’aux
pools de métabolites situés dans le même compartiment cellulaire. Deux enzymes
situées dans deux compartiments différents n’opèrent en effet pas sur le même
ensemble de métabolites. Il est donc essentiel de tenir compte de la localisation des
enzymes pour appliquer correctement cette contrainte.
Dans le cas d’A. baylyi, bactérie gram-négative, seuls deux compartiments
segmentent son métabolisme : le cytoplasme et le périplasme. La très grande majorité
de son métabolisme se déroule dans le cytoplasme, seules quelques voies bien
identifiées opèrent dans le périplasme. Il s’agit notamment des premières étapes de la
glycolyse et des voies de dégradations du quinate, du shikimate et du chlorogenate
(Young et al. 2005). L’examen de la littérature associée à ces voies nous a permis de
déterminer précisément la localisation des enzymes impliquées dans ces voies.
Les processus de transport doivent également être modélisés avec attention pour
autoriser les échanges de métabolites entre compartiments. Lorsque l’annotation
n’indiquait pas d’enzyme impliquée dans le transport d’un métabolite, nous nous
sommes basés sur des informations physiologiques de l’organisme (métabolites
connus pour être transportés) pour inférer ces réactions et compléter le modèle.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
102
6.2.5 Spécificité des métabolites
Comme nous l’avons vu plus haut, l’équilibre des équations bilan appliqué à
l’ensemble du réseau métabolique exige que chaque métabolite soit connu
précisément. Cependant, les substrats précis de certaines enzymes ne sont pas toujours
spécifiés dans l’annotation, soit parce qu’ils sont inconnus, soit parce que l’enzyme
possède un large spectre de substrats. De même, pour représenter cette large
spécificité, les réactions inférées par Pathway Tools utilisent des métabolites
génériques, non compatibles avec la modélisation.
Pour chaque enzyme de ce type, nous avons cherché à déterminer les substrats
spécifiques les plus probables. Nous nous sommes pour cela appuyés sur deux
grandes sources d’information.
Nous avons tout d’abord exploré la littérature associée à ces enzymes et les bases
de données enzymatiques (principalement BRENDA (Barthelmes et al. 2007)) pour
rechercher des informations sur la caractérisation expérimentale de ces enzymes. Une
large proportion de ces enzymes appartient aux voies cataboliques ; les études les
ayant identifiées ont de ce fait souvent cherché à délimiter expérimentalement le
spectre de substrats utilisables. Cette information n’est néanmoins en général pas
reprise exhaustivement dans l’annotation et subsiste uniquement dans la littérature et
les bases de données dédiées (BRENDA).
Nous avons également utilisé le contexte métabolique – constitué par les voies
métaboliques déjà reconstruites – pour identifier les substrats potentiels jouant déjà un
rôle dans le réseau métabolique et les plus à même de conférer à l’enzyme un rôle
significatif dans le métabolisme. Les bases de données répertoriant les métabolites par
catégories chimiques peuvent aider à énumérer tous les substrats potentiels
(Degtyarenko et al. 2008; Fahy et al. 2009).
Certaines enzymes ont une spécificité particulièrement large et agissent sur un
grand ensemble de métabolites. C’est le cas notamment des enzymes ayant pour
substrats des molécules à longues chaînes carbonées, incluant de nombreux lipides.
Les activités de ces enzymes sont alors représentées de manière synthétique à l’aide
de métabolites génériques spécifiant les groupes fonctionnels chimiques mais laissant
indéterminées les chaînes carbonées (voir Figure 29).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
103
Figure 29. Voie d’élongation des acides gras représentée dans AcinetoCyc. L’élongation de la chaîne des acides gras est représentée à l’aide de métabolites génériques (an acyl-ACP, acyln+2-ACP) correspondant à des chaînes carbonées de longueurs arbitraires.
Afin de faciliter le travail de transformation de ces voies génériques en réactions
aux métabolites spécifiques, nous avons développé un programme spécifiant
automatiquement ces réactions pour des chaînes carbonées données en paramètre.
Nous avons pour cela représenté chaque métabolite générique par une association
entre un groupe fonctionnel et une chaîne carbonée de nature indéterminée. Nous
avons ensuite formalisé les réactions génériques par des équations bilan impliquant
ces métabolites génériques et indiquant formellement toute modification de la chaîne
carbonée. Par exemple, la réaction générique correspondant à la 3-oxoacyl-ACP
synthase est représentée sous la forme :
malonyl-ACP + Cxx-ACP ! ACP + CO2 + Cxx[+2]-3oxo-ACP
où les métabolites Cxx-… sont les métabolites génériques et la notation [+2] indique
un allongement de 2 carbones de la chaîne carbonée.
Les métabolites spécifiques furent ensuite dérivés des métabolites génériques en
explicitant les chaînes carbonées. Nous avons caractérisé ces dernières par leurs
longueurs (nombre de carbones) et les nombres, types (cis ou trans) et positions de
leurs insaturations. De cette manière, une variété relativement large de chaînes
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
104
carbonées linéaires – correspondant à celles rencontrées majoritairement chez
A. baylyi – pouvaient être prises en compte. Les réactions génériques furent alors
explicitées pour chacune des chaînes carbonées considérées, en leur appliquant les
éventuelles modifications de longueurs. Reprenant l’exemple de la 3-oxoacyl-ACP
synthase pour une chaîne carbonée de longueur 12 possédant une insaturation de type
cis entre le 3e et le 4e carbone (chaîne notée C12:1(c3)), le processus donne la réaction
spécifique suivante :
malonyl-ACP + C12:1(c3)-ACP ! ACP + CO2 + C14:1(c5)-3oxo-ACP
Dans un deuxième temps, nous avons remplacé les noms systématiques générés
pour les métabolites spécifiques par leurs identifiants dans AcinetoCyc et le modèle,
lorsque ceux-ci existent. Cette étape est indispensable pour assurer la compatibilité
des réactions créées avec le reste du modèle, et permettre leur « branchement »
correct sur les autres voies métaboliques du réseau.
Nous avons utilisé ce programme pour générer les réactions spécifiques
correspondant à trois voies métaboliques d’A. baylyi : l’élongation des acides gras,
l’oxydation des acides gras et l’oxydation des acides dicarboxyliques. L’élongation
des acides gras comprend cinq réactions génériques que nous avons implémentées
pour les chaînes carbonées saturées paires de longueurs 2 à 18, et des chaînes paires
de longueurs 12 à 18 possédant une insaturation, représentant un total de 55 réactions.
Six réactions génériques composent la voie d’oxydation des acides gras, que nous
avons implémentées pour les mêmes chaînes carbonées, représentant un ensemble de
66 réactions. Enfin, les cinq réactions génériques de la voie d’oxydation des acides
dicarboxyliques furent spécifiées pour les chaînes carbonées saturées de longueurs 10
(sebacate), 8 (suberate), 6 (adipate), 7 (pimelate) et 5 (glutarate), constituant au total
25 réactions supplémentaires.
L’ensemble de ces réactions constitue une fraction significative du modèle
métabolique global. L’utilisation d’un programme les générant automatiquement à
partir des réactions génériques permet ainsi d’accélérer significativement la
reconstruction du modèle. De plus, toute modification effectuée sur les réactions
génériques peut de cette manière être propagée directement sur l’ensemble des
réactions spécifiques. En effet, les réactions spécifiques dérivant d’une même réaction
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
105
générique partagent des caractéristiques a priori communes : réversibilité,
stœchiométrie, lien avec les enzymes catalysant leur activité. Leur modification doit
de ce fait être répercutée sur l’ensemble des réactions spécifiques, ce qui est rendu
possible par leur génération automatique.
En conclusion, l’utilisation d’un programme générant automatiquement les
réactions spécifiques à partir de réactions génériques et d’un ensemble de substrats
semble nécessaire à la reconstruction rigoureuse et rapide des modèles. Il permet de
gérer au mieux la nécessité de spécificité des modèles en séparant d’un coté la
définition des activités enzymatiques (via des équations bilan génériques) et de l’autre
l’énumération des substrats spécifiques réellement concernés.
6.2.6 Réversibilité des réactions
Les contraintes de réversibilité jouent un rôle essentiel dans les modèles globaux
du métabolisme car elles empêchent certaines réactions de fonctionner dans un sens
thermodynamiquement impossible in vivo. Leur prise en compte dans les modèles
élimine de ce fait un grand nombre de distributions de flux impossibles du point de
vue de la thermodynamique – par exemple la régénération « gratuite » d’ADP en ATP
par des réactions à l’irréversibilité ignorée.
Les grandes bases de données métaboliques ne spécifiant pas de manière
rigoureuse la réversibilité des réactions, il revient au modélisateur de recueillir les
informations nécessaires à l’application de ces contraintes. Lors de la reconstruction
du modèle d’A. baylyi, nous avons recherché ces informations dans la littérature et la
base de données enzymatiques BRENDA. Lorsque ces informations n’étaient pas
disponibles, nous nous sommes alors appuyés sur un ensemble de règles simples
définies par Ma & Zeng (2003) à partir de considérations thermodynamiques. Ces
règles consistent à rendre irréversibles des réactions mettant en jeu un ensemble de
métabolites hautement énergétiques (Ma & Zeng 2003). Il est important de noter que,
en général, la contrainte de réversibilité est appliquée au modèle quelles que soient les
conditions considérées. Les irréversibilités retenues doivent donc être valables de
manière très générale.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
106
6.2.7 Associations gènes-réactions
Afin de prédire l’effet de l’inactivation d’un ou plusieurs gènes sur le
fonctionnement du métabolisme, le modèle doit pouvoir tenir compte des
dépendances entre les gènes et les réactions pour déterminer quelles réactions sont
inactivées par la perturbation génétique. Pour ce faire, à chaque réaction est associée
une règle booléenne appelée GPR (pour « Gene-Protein-Reaction associations »,
introduites par Reed et al (2003)) exprimant formellement la dépendance de la
réaction aux gènes codant pour ses enzymes (voir revue sur les modèles section
3.2.1) : des gènes codant pour des sous-unités d’un complexe enzymatique sont liés
par une règle ET (ils sont tous requis), tandis que des gènes codant pour des enzymes
alternatives sont liés par la règle OU (l’un ou l’autre est requis). À titre d’exemple, la
réaction de synthèse du glutamate à partir de glutamine et d’"-ketoglutarate
(glutamate synthase) est catalysée chez A. baylyi par deux complexes enzymatiques
distincts ; sa GPR dans le modèle est donnée par la formule :
(ACIAD3349 and ACIAD3350) or (ACIAD2525 and ACIAD2526 and ACIAD2527)
La construction des GPR à grande échelle est rendue difficile par la nécessité de
déterminer les complexes enzymatiques. Même si la participation du produit d’un
gène à un complexe plus grand est parfois mentionnée textuellement dans les
annotations (« enzyme subunit »), l’information n’est en général pas suffisamment
explicite et organisée pour inférer automatiquement tous les complexes enzymatiques.
Il est donc nécessaire de s’appuyer sur la connaissance des complexes identifiés dans
la bactérie (via la littérature correspondante) ou les bactéries proches (par homologie).
Certaines ressources répertorient de manière organisée les complexes identifiés
dans les organismes modèles, notamment EcoCyc pour E. coli (Keseler et al. 2009).
Afin d’accélérer la construction des GPR pour A. baylyi, nous avons cherché à
exploiter automatiquement cette connaissance en développant un programme
reconstituant les complexes d’A. baylyi par homologie à ceux d’E. coli. Pour chaque
complexe d’E. coli, ce programme recherche dans A. baylyi des homologues
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
107
proches49 pour chacun des gènes codant pour les protéines du complexe. Si un
homologue pour chacun des gènes est retrouvé dans A. baylyi, le complexe est alors
reconstitué avec ces homologues en conservant la même structure (voir Figure 30).
Nous avons implémenté ce programme en utilisant la librairie CYCLONE développée
par d’autres membres de notre groupe (Le Fèvre et al. 2007) pour interroger EcoCyc
et créer les complexes dans AcinetoCyc.
Figure 30. Inférence automatique de complexes par homologie aux complexes de E. coli. Pour chaque complexe de E. coli, un homologue49 à chacun des gènes impliqués est recherché chez A. baylyi. Si tous les gènes sont retrouvés, un complexe de même structure est alors inféré chez A. baylyi. La représentation sous forme de graphe est issue de AcinetoCyc.
L’exécution du programme a permis d’inférer la présence de 310 complexes chez
A. baylyi, pour 821 complexes examinés chez E. coli (version 9 d’Ecocyc, de 2005).
Parmi les complexes inférés, 241 sont homomériques et 69 hétéromériques, ces
derniers impliquant donc plusieurs gènes et pouvant donner lieu à des règles ET dans
les GPR.
L’inférence des complexes étant basée uniquement sur des critères d’homologie et
ne tenant pas compte des annotations fonctionnelles, nous avons (1) vérifié que les
complexes homologues catalysaient bien les mêmes réactions dans EcoCyc et
AcinetoCyc et (2) corroboré l’existence du complexe avec l’annotation des gènes
impliqués. Seuls les complexes vérifiés ont finalement été intégrés dans la dernière
version d’AcinetoCyc. Dans un deuxième temps, nous avons poursuivi ce travail de
curation manuelle en cherchant à identifier les complexes enzymatiques non prédits
(car n’existant pas chez E. coli). Nous avons pour cela exploré les annotations
49 Nous avons utilisé comme critères d’homologie un seuil minimal de similarité de 45%, une longueur d’alignement d’au moins 80% de la séquence la plus courte et une contrainte de meilleur alignement réciproque (« Bidirectional Best Hit »).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
108
textuelles (en recherchant les annotations possédant les mots clés « subunit »,
« complex », ou « component ») et la littérature relative aux voies métaboliques
étudiées chez A. baylyi. Une grande proportion des complexes non inférés était
constituée de transporteurs absents chez E. coli (majoritairement des transporteurs
ABC), illustrant la différence de ressources nutritionnelles utilisées par A. baylyi et E.
coli. Pour faciliter spécifiquement la reconstruction de ces complexes, nous avons
utilisé la ressource TransportDB qui décrit explicitement les sous-unités de chaque
transporteur et prédit leur présence dans le génome (Ren et al. 2004).
Le modèle d’A. baylyi comprend au total 63 complexes distincts, dont 28 furent
inférés directement par homologie à E. coli. Parmi les complexes déterminés
« manuellement », 26 possèdent une fonction enzymatique et les 9 restant assurent
des fonctions de transport.
6.2.8 Composition de la biomasse
L’introduction d’une réaction de biomasse dans les modèles à base de contraintes
permet de modéliser les effets de la croissance sur les flux métaboliques. Pour cela,
cette réaction consomme les métabolites précurseurs de la biomasse, simulant
quantitativement leur utilisation par la cellule pour construire les macromolécules
nécessaires à son fonctionnement et à sa croissance. Grâce à la contrainte de
conservation de la masse, les voies de biosynthèses de ces précurseurs sont alors
contraintes de fonctionner avec un flux permettant de répondre à cette consommation
(voir revue sur les modèles, section 3.2.1).
La définition de la réaction de biomasse se heurte cependant à une difficulté
majeure : la composition de la biomasse et les consommations en précurseurs
dépendent sensiblement des conditions de croissance, notamment l’environnement
extérieur, la vitesse de croissance atteinte ou les éventuelles perturbations génétiques.
À chaque condition de croissance devrait ainsi correspondre une réaction de biomasse
d’équation bilan particulière, rendant a priori difficile leur utilisation pour effectuer
des prédictions de croissance dans un grand ensemble de conditions. Dans un souci de
simplification, deux grandes catégories de réactions de biomasse sont utilisées, en
fonction des types de prédictions recherchées. D’une part, une première catégorie de
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
109
réactions de biomasse est formulée pour prédire quantitativement la croissance de
l’organisme sauvage50 dans des conditions expérimentales classiques. La
consommation des précurseurs est alors typiquement estimée à partir d’études de la
composition de la biomasse pour ces conditions expérimentales : on suppose que la
consommation des précurseurs est uniquement due à la dilution provoquée par la
croissance51 et est donc égale à la quantité de précurseurs employés dans la cellule
multipliée par le taux de croissance. D’autre part, la seconde catégorie de réactions de
biomasse est utilisée pour prédire qualitativement l’aptitude à croître de mutants de
délétion. Seuls sont alors retenus dans la réaction de biomasse les précurseurs
essentiels à la survie de la cellule. Ces réactions de biomasse sont généralement
formulées en soustrayant des précurseurs non vitaux aux réactions de biomasse de la
première catégorie.
Dans le cas d’A. baylyi, nous avons défini pour la souche sauvage une réaction de
biomasse « quantitative » que nous avons ensuite réduite pour prédire les phénotypes
de croissance des mutants (avec quelques améliorations opérées par la suite grâce aux
comparaisons avec les phénotypes expérimentaux, voir partie suivante). Étant donné
l’absence de données spécifiques à A. baylyi, nous nous sommes basés sur des études
de la composition de la biomasse de plusieurs souches du genre Acinetobacter en
supposant les résultats extrapolables à A. baylyi.
Afin de simplifier la « gestion » de la réaction de biomasse, nous l’avons
décomposée en plusieurs sous-réactions. Tout d’abord un ensemble de réactions
assemblant chacune un type de macromolécules à partir de ses précurseurs, puis une
réaction globale consommant toutes les macromolécules pour former la biomasse
« totale ». Nous avons retenu les macromolécules suivantes pour A. baylyi : protéines,
ADN, ARN, acides gras libres, triglycérides, wax-esters, phospholipides,
lipopolysaccharides, polysaccharides libres, peptidoglycanes et cofacteurs (ces
derniers ne constituant pas une macromolécule, mais rassemblant sous la forme d’un
métabolite virtuel un ensemble de cofacteurs dont la présence est nécessaire à la
survie de la cellule). Nous détaillerons dans les paragraphes ci-dessous les
50 Non modifié génétiquement. 51 On néglige dans ce cas les cycles potentiels de dégradation/synthèse des précurseurs de biomasse devant leur consommation par la croissance.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
110
compositions des macromolécules en précurseurs ainsi que la composition globale en
macromolécules retenues pour le modèle d’A. baylyi. Un compte rendu exhaustif et
détaillé des résultats extraits de la littérature est disponible sous la forme d’un tableur
Excel à l’adresse : http://www.biomedcentral.com/content/supplementary/1752-0509-
2-85-S4.xls .
Composition globale
La composition de la biomasse en macromolécules est, dans la plupart des études
expérimentales, donnée en pourcentage de la masse sèche totale de la biomasse. Le
modèle exprimant les quantités de métabolites converties en millimoles (l’unité de
flux choisie étant le mmol.h-1.(g DW)-1, voir 1.2.4) et non pas en masse, une étape de
conversion de grandeur est nécessaire pour intégrer ces résultats expérimentaux. Pour
ce faire, nous avons ajouté au modèle pour chaque métabolite dont l’expression en
masse est nécessaire (notamment les macromolécules), une réaction créant un
métabolite exprimé en masse :
métaboliteA # MMA métaboliteAW
(mmol) # (g.mmol-1) (g)
où MMA est la masse molaire du métabolite et l’indice W indique le métabolite
exprimé en masse. Ce dernier est inclu uniquement pour modéliser la formation de
biomasse et ne participe à aucune réaction biochimique.
La réaction globale de biomasse peut de ce fait être directement exprimée à partir
des proportions massiques en macromolécules :
pA macromoléculeAW + pB macromoléculeBW + … ! 1 biomasseW
où les pA, pB, etc. sont les proportions massiques de chacune des macromolécules. Il
est important de noter que le flux de cette réaction s’exprime alors avec l’unité
(g DW).h-1.(g DW)-1 = h-1, représentant ainsi directement le taux de croissance de
l’organisme.
Nous sommes appuyés sur diverses études présentées dans la littérature pour
déterminer la composition globale en macromolécules d’A. baylyi (voir Tableau 5).
Abbott et al (1974) et du Preez et al (1984) ont mesurés la composition de la
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
111
biomasse en protéines, ADN, ARN et carbohydrates pour A. calcoaceticus cultivée
sur des milieux minimaux d’éthanol et d’acetate. Nous avons retenu une moyenne de
leurs mesures pour un taux de croissance de 0,6 pour déterminer les proportions
massiques de protéines, ADN et ARN. Makula et al (1975) ont déterminé la
composition en lipides de la bactérie Acinetobacter sp. HO1-N cultivée sur milieu
riche et hexadecane. Nous avons retenu la composition mesurée sur milieu riche, le
milieu hexadecane provoquant une accumulation de lipides spécifique à ce type de
milieu. Les milieux étudiés par la suite se rapprochent en effet plus du milieu riche du
point de vue des lipides. Thorne et al (1973) et Scott et al (1976) ont étudié la
composition des membranes (interne pour les deux articles et externe pour Thorne et
al (1973)) de deux bactéries du genre Acinetobacter cultivées sur milieux riches.
Nous avons retenus leurs résultats pour déterminer les compositions en
polysaccharides, lipopolysaccharides et peptidoglycane. Enfin, nous avons estimé la
masse de cofacteurs et petites molécules par analogie à E. coli (Neidhardt &
Umbarger 1996).
Macromolécule Proportion massique
Référence
Peptidoglycane 2,8% (Thorne et al. 1973) Polysaccharides libres 4,1% (Abbott et al. 1974; du Preez et al. 1984;
Thorne et al. 1973)
Lipopolysaccharides 0,3% (Scott et al. 1976; Thorne et al. 1973) Phospholipides 4,1% (Makula et al. 1975)
Wax esters 0,6% (Makula et al. 1975) Triglycérides 0,2% (Makula et al. 1975) Acides gras libres 0,2% (Makula et al. 1975) ADN 3,2% (Abbott et al. 1974; du Preez et al. 1984) ARN 20% (Abbott et al. 1974; du Preez et al. 1984) Protéines 63,3% (Abbott et al. 1974; du Preez et al. 1984)
Cofacteurs 3,2% (Neidhardt & Umbarger 1996) Tableau 5. Composition massique de la biomasse en macromolécules retenue pour le modèle d’A. baylyi.
La consommation d’énergie requise par la croissance de la cellule est prise en
compte par deux termes énergétiques d’hydrolyse d’ATP : un terme inclu dans la
réaction de biomasse (terme proportionnel au taux de croissance) et un terme de flux
fixe (terme indépendant du taux de croissance) (voir revue sur les modèles, section
3.2.1). Ne disposant pas de mesures expérimentales de rendements de croissance
suffisamment précises pour A. baylyi, nous avons adopté celles du modèle d’E. coli
(Reed et al. 2003) :
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
112
- terme associé à la croissance : 40 mmol.(g DW)-1 d’ATP, inclus dans la
réaction globale de biomasse
- terme indépendant de la croissance : 10 mmol.h-1.(g DW)-1 d’ATP,
modélisé sous la forme d’une réaction d’hydrolyse d’ATP de flux fixe.
Nous verrons plus loin que les prédictions de taux de croissance sont d’ailleurs
peu sensibles à ces paramètres (voir 7.2).
Protéines
Nous n’avons trouvé aucune étude de la composition en acides aminés de
bactéries du genre A. baylyi. Nous nous sommes alors reportés sur la composition
d’E. coli pour construire la réaction d’assemblage de la macromolécule protéine à
partir des acides aminés (Neidhardt & Umbarger 1996) (voir Tableau 6). Nous avons
tenu compte directement, dans cette réaction, du coût énergétique de traduction
(polymérisation et correction d’erreur) à hauteur de 4,2 ATP hydrolysé par acide
aminé (Oliveira et al. 2005).
Acide aminé Composition molaire alanine 13% arginine 3% asparagine 4% aspartate 4% cystéine 2% glutamate 4% glutamine 4% glycine 20% histidine 1% isoleucine 5% leucine 7% lysine 5% méthionine 2% phénylalanine 2% proline 4% sérine 4% thréonine 5% tryptophane 1% tyrosine 2% valine 8%
Tableau 6. Composition moyenne des protéines en acides aminés retenue pour le modèle d’A. baylyi.
Acides nucléiques
Nous avons déterminé la composition en bases nucléotidiques des
macromolécules ADN et ARN à partir du pourcentage GC pour l’ADN (voir Tableau
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
113
7) et d’un décompte moyen des bases contenues dans les ARNr, ARNt et ARNm (voir
Tableau 8). ADN et ARN sont assemblés à partir de nucléotides triphosphates (dNTP
et NTP) et des coûts énergétiques supplémentaires (d’assemblage et correction
d’erreur) de respectivement 1,37 et 0,4 ATP hydrolysés par nucléotide sont ajoutés
aux réactions assemblant ces macromolécules (Oliveira et al. 2005).
Nucléotide Proportion molaire dAMP 30% dTMP 30% dGMP 20% dCMP 20%
Tableau 7. Composition moyenne en nucléotide de l’ADN retenue pour le modèle d’A. baylyi.
Nucléotide Proportion molaire AMP 22% UMP 26% GMP 22% CMP 30%
Tableau 8. Composition moyenne en nucléotide de l’ARN retenue pour le modèle d’A. baylyi.
Lipides
Nous avons exploité trois études de la composition des lipides de bactéries du
genre Acinetobacter pour déterminer une composition moyenne en termes de chaînes
carbonées dans les différents lipides retenus (Makula et al. 1975; Scott et al. 1976;
Thorne et al. 1973). Seules des chaînes de longueurs paires furent détectées (en
accord avec les voies biosynthétiques identifiées), avec éventuellement une
insaturation (voir Tableau 9). Pour chaque type de lipide, nous avons alors constitué
une macromolécule « générique » à partir des lipides de chaînes carbonées définies
selon les proportions décrites dans le Tableau 9.
Chaîne carbonée
Phospho- lipides
Triglycéri- des
Wax esters - a. gras
Wax esters - alcool
Acides gras libres
14:0 0% 2% 0% 0% 6% 16:0 10% 72% 24% 5% 28% 16:1 20% 5% 32% 48% 57% 18:0 10% 6% 0% 0% 0%
18:1 60% 15% 44% 47% 9% Tableau 9. Compositions molaires moyennes en types de chaînes carbonées des différents lipides pris en compte dans la biomasse du modèle d’A. baylyi.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
114
L’étude de Scott et al (1976) a également permis de déterminer la composition en
phospholipides de la membrane. Nous en avons repris les résultats (sur milieu riche)
dans le modèle (voir Tableau 10).
Phospholipide Proportion molaire phosphatidyl-glycerol 10% phosphatidyl-ethanolamine 73% cardiolipin 17%
Tableau 10. Composition moyenne des phospholipides retenue dans le modèle d’A. baylyi.
Paroi cellulaire
Nous avons tenu compte de deux types de macromolécules constituant la paroi
cellulaire (en plus des phospholipides traités ci-dessus) : le peptidoglycane et les
lipopolysaccharides (LPS).
S’agissant du peptidoglycane, nous avons retenu dans le modèle une composition
typique des bactéries gram-négatives, à savoir un enchaînement de résidus N-acétyl-
glucosamine et acide N-acétyl-muramique liés au pentapeptide L-ala / D-glu /
diaminopimelate / D-ala / D-ala (voir Figure 31).
Figure 31. Agencement des chaînes de peptidoglycane dans la paroi cellulaire. NAG, N-acétyl-glucosamine ; NAM, acide N-acétyl-muramique. Figure extraite de http://student.ccbcmd.edu/~gkaiser/
Les molécules de LPS se composent d’un lipide A et d’un cœur
d’oligosaccharides. Nous avons exploité l’analyse expérimentale de la paroi cellulaire
réalisée par Thorne et al (1973) pour définir la composition en lipides de chaque
molécules de lipide A (voir Tableau 11). Nous avons supposé que deux glucosamines
portaient les acides gras du lipide A.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
115
Type d’acide gras
Nombre de molécules par lipide A Composition
Type de chaîne carbonée
Beta-hydroxy 4 56% 12:betaOH 44% 14:betaOH Classique 2 62% 12:0 18% 16:0 10% 18:0 10% 18:1
Tableau 11. Composition lipidique du lipide A retenue dans le modèle d’A. baylyi.
Les travaux de Thorne et al (1973) et Bryan et al (1986) nous ont permis de définir
la composition des polysaccharides attachés au LPS. Pour chaque LPS, nous avons
associé au lipide A deux molécules de KDO ainsi que 5 molécules d’hexoses,
composés à parts égales de glucose, rhamnose et mannose.
Nous avons également adopté une composition équirépartie de ces trois hexoses
pour les polysaccharides libres (Bryan et al. 1986).
Cofacteurs
Les cofacteurs métaboliques sont inclus dans la réaction de biomasse dans le but
de tenir compte de leur essentialité pour la croissance des cellules. En effet, à l’état
stationnaire, la régénération des cofacteurs permet au modèle d’utiliser ces derniers
sans recourir à leur synthèse. Celle-ci est néanmoins vitale pour répondre à leur
dilution par la croissance.
Nous avons déterminé la liste des cofacteurs essentiels par analogie au modèle
d’E. coli (Reed et al. 2003) (voir Tableau 12).
coenzyme A fad fmn folate (THF) heme nad nadp pyridoxal-5p s-adenosylmethionine siroheme thiamin ubiquinone-8 undecaprenyl-pp
Tableau 12. Cofacteurs essentiels pris en compte dans le modèle.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
116
Prédiction qualitative des phénotypes de croissance de mutants
De manière à prédire qualitativement l’aptitude à croître de la bactérie ou d’un de
ses mutants sur un environnement donné (voir application partie suivante), nous
avons dérivé des réactions de biomasse présentées ci-dessus une liste réduite de
précurseurs que nous avons considéré comme essentiels à la croissance (voir Tableau
13). Nous avons prédit les phénotypes qualitatifs de croissance en analysant ensuite la
simple productibilité de chacun des métabolites de cette liste.
tetradecanoate (C14:0) ttp
hexadecanoate (C16:0) triacylglycerol cis-hexadec-7-enoate (C16:1) l-1-phosphatidyl-ethanolamine
cis-octadec-9-enoate (C18:1) l-1-phosphatidyl-glycerol gdp-mannose cardiolipin
udp-d-glucose fad
dtdp-rhamnose fmn
kdo2-lipid a s-adenosyl-l-methionine
peptidoglycane thiamine-pyrophosphate
protéine pyridoxal 5'-phosphate
ctp nadp
gtp ubiquinone(40) utp siroheme atp heme o
datp nad
dctp coenzyme A
dgtp thf Tableau 13. Liste des précurseurs de biomasse utilisés pour prédire la capacité à croître de l’organisme.
7 Le modèle d’Acinetobacter baylyi
À la suite de ce processus de reconstruction, nous avons obtenu un modèle global
du métabolisme d’A. baylyi que nous avons appelé iAbaylyiv1. L’indice v1 indique que
ce modèle constitue une première version reconstruite à partir de l’ensemble des
connaissances initialement disponibles sur le métabolisme d’A. baylyi. Au fur et à
mesure des améliorations apportées au modèle grâce à l’exploitation de données
expérimentales additionnelles (voir partie suivante), nous distinguerons les versions
du modèle en incrémentant cet indice.
Une grande partie des caractéristiques du modèle iAbaylyiv1 étant présentée dans
l’article Durot et al (2008) inclus dans la partie suivante, nous avons choisi d’exposer
dans ce chapitre uniquement quelques compléments utiles. Ainsi, nous donnerons tout
d’abord au lecteur un aperçu plus détaillé des voies métaboliques modélisées, puis
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
117
nous effectuerons quelques analyses sur les prédictions quantitatives de croissance,
enfin nous présenterons quelques détails techniques sur l’utilisation du modèle.
7.1 Composition métabolique globale
Le Tableau 14 présente l’ensemble des catégories fonctionnelles et voies
métaboliques prises en compte dans le modèle iAbaylyiv1, ainsi que les nombres de
réactions et gènes impliqués dans chacune d’entre elles.
Catégorie fonctionnelle Voie métabolique Réactions Gènes TOTAL 970 787 Amino acids metabolism 139 158 Alanine biosynthesis 3 7 Arginine biosynthesis 10 12 Arginine degradation 5 5 Aspartate / asparagine biosynthesis 2 3 Aspartate / asparagine degradation 2 3 Betaine biosynthesis 2 2 Biomass assembly 1 0 Chorismate biosynthesis 7 8 Cysteine biosynthesis 3 6 Glutamate / glutamin biosynthesis 4 11 Glutamate degradation 2 4 Glycine biosynthesis 1 1 Histidine metabolism 11 10 Isoleucine biosynthesis 5 8 Leucine and valine biosynthesis 8 12 Lysine biosynthesis 7 7 Methionine metabolism 8 8 Ornithine degradation 1 1 Other 3 3 Phenylalanine / tyrosine biosynthesis 7 6 Proline biosynthesis 4 3 Proline degradation 2 1 Serine / glycine biosynthesis 4 4 Sulfur metabolism 3 5 Threonine biosynthesis 5 7 tRNA charging pathway 22 26 Tryptophan biosynthesis 5 7 Urea degradation 2 4 Central metabolism 70 109 Acetate metabolism 3 6 Biomass assembly 1 0 Citrate cycle (TCA) 10 19 Entner-Doudoroff pathway 6 6 Glycerol metabolism 3 3 Glycolysis/gluconeogenesis 12 14 Glyoxylate shunt 2 2 Maintenance flux 1 0 Malonate metabolism 1 7 Other 1 0 Pentose phosphate 5 4
Propionate metabolism / methylcitrate pathway 7 6
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
118
Pyruvate metabolism 5 7 Radicals detoxification 3 6 Respiration 10 35 Cofactors biosynthesis 107 103 Biomass assembly 1 0 Biotin biosynthesis 5 5 Coenzyme A biosynthesis 9 8 FMN / FAD biosynthesis 9 7 Folate metabolism 16 16 Glutathione biosynthesis 2 2 Heme / siroheme biosynthesis 14 12 NAD / NADP biosynthesis 11 10 Other 4 8 Polyisoprenoids biosynthesis 14 13 Pyridoxal 5P biosynthesis 7 7 Thiamin biosynthesis 6 9 Ubiquinone biosynthesis 9 7 Degradation pathways 181 163
3,4-dihydroxyphenylpropionate degradation 2 2
3-hydroxy-isobutyrate degradation 2 5 Acetoacetate metabolism 4 6 Aldoxime / nitrile degradation 3 4 Alkane degradation 4 5 Allantoate degradation 2 2 Anthranilate degradation 1 3 Benzyl compounds degradation 7 9 Beta-ketoadipate degradation 2 9 Butanediol and acetoin degradation 3 6 Butyric acid metabolism 2 12 Caffeate degradation 4 3 Catechol degradation 3 3 Chlorogenate / quinate degradation 4 5 Coumarate degradation 5 5 Dicarboxylates degradation 24 7 Ethanol metabolism 2 7 Fatty acids degradation 58 43 Ferulate / vanillate degradation 6 6 Fructose utilisation 1 1 Galactarate / glucarate degradation 4 4 Glyceraldehyde degradation 3 5 Glycolaldehyde degradation 1 2 Lactate utilisation 3 2 Methylglyoxal degradation 2 2 Nitrogen assimilation 3 4 Other 6 8 Protocatechuate degradation 4 8 Ribose utilisation 1 1 Salicyl compounds degradation 5 8 Sarcosine degradation 1 4 Shikimate degradation 2 2 Sulfonate degradation 4 11 UDP-glucose utilisation 3 5 Lipid, cell wall biosynthesis 141 76 Biomass assembly 4 0 Fatty acids biosynthesis 64 20 KDO-lipid A biosynthesis 16 13
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
119
Lipoate biosynthesis 1 2 Peptidoglycan biosynthesis 14 14 Phospholipids biosynthesis 9 9 Polysaccharides biosynthesis 11 11 TAG metabolism 10 5 Wax ester metabolism 12 4 Nucleotide metabolism 88 64 Biomass assembly 2 0 Other 1 3 Purine biosynthesis - de novo 27 24
Purine biosynthesis - salvage pathways 22 12
Pyrimidine biosynthesis - de novo 22 28
Pyrimidine biosynthesis - salvage pathways 14 8
Transport 133 127 Exchange fluxes 109 0 Unbalance fluxes52 2 0
Tableau 14. Répartition du nombre de gènes et de réactions dans le modèle iAbaylyiv1 selon les catégories fonctionnelles et les voies métaboliques. Chaque réaction est assignée à une unique voie métabolique. Certains gènes sont associés à plusieurs réactions ; ils peuvent de ce fait être comptés dans plusieurs catégories ou voies.
Le modèle compte un total de 970 réactions, comprenant 111 réactions d’échanges
(catégories « Exchange fluxes » et « Unbalance fluxes »), 9 réactions de biomasse
(voies métaboliques « Biomass assembly »), 133 transporteurs et 717 réactions
purement métaboliques. Ces dernières se répartissent dans les six grandes catégories
fonctionnelles du métabolisme que nous avons définies lors de la reconstruction,
illustrant le fait que le modèle prend en compte le métabolisme dans sa globalité. Il
comprend aussi bien les voies dédiées à l’anabolisme des constituants de la cellule
(catégories « Amino acids metabolism », « Cofactors biosynthesis », « Lipid, cell wall
biosynthesis » et « Nucleotide metabolism ») que celles impliquées dans le
catabolisme des nutriments et la génération d’énergie (catégories « Central
metabolism » et « Degradation pathways » principalement).
Les particularités métaboliques d’A. baylyi se retrouvent dans le contenu en voies
métaboliques du modèle (voir Tableau 14). Ses remarquables capacités cataboliques
sont en effet reflétées par le grand nombre de réactions et la large diversité de voies
regroupées dans la catégorie « Degradation pathways ». Ses capacités à synthétiser et
52 Les réactions de la catégorie « Unbalance fluxes » sont des réactions d’échanges de métabolites intracellulaires ayant été introduites pour relaxer la contrainte de conservation de la masse. Elles concernent en l’occurrence le proton (voir 6.2.3) et le cofacteur s-adenosyl-4-methylthio-2-oxobutanoate (voir 6.2.1), tous deux localisés dans le cytoplasme.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
120
dégrader de nombreux lipides se reflètent également dans le modèle : un nombre
significatif de réactions y sont consacrés et une grande variété de lipides peut être
métabolisée (acides gras avec ou sans insaturation, acides dicarboxyliques, wax
esters, triglycérides notamment).
Comme évoqué plus haut à propos du processus de reconstruction (voir 6.2.5), la
création de réactions spécifiques pour les enzymes à larges spectres de substrats
augmente sensiblement le nombre de réactions dans le modèle. En témoigne la forte
représentation des voies métaboliques « Fatty acids biosynthesis », « Fatty acids
degradation » et « Dicarboxylates degradation » dans le modèle (146 réactions à elles
seules). Ces voies métaboliques contiennent des réactions ayant été générées à partir
de réactions génériques selon le processus décrit plus haut (voir 6.2.5). Ces réactions
étant catalysées par les mêmes enzymes, le nombre de gènes impliqués dans ces voies
reste donc limité ; la voie « Fatty acids degradation » déroge cependant à cette règle
(43 gènes inclus) du fait du très grand nombre d’isozymes identifiées pour catalyser
certaines des réactions de cette voie (nombreuses acyl-coa dehydrogenase, enoyl-coa
hydratase et 3-oxoacyl-coa thiolase notamment).
7.2 Prédictions quantitatives de croissance
Durant les travaux de notre thèse, nous nous sommes majoritairement concentrés
sur les prédictions qualitatives de phénotypes de croissance (prédiction de la simple
aptitude à croître, développements et résultats présentés dans les parties suivantes).
Les modèles à base de contraintes permettent cependant d’effectuer des prédictions
quantitatives de taux de croissance, prédictions utilisées avec intérêt pour un nombre
significatif d’autres applications (voir 3.2.1). Afin d’évaluer la capacité de notre
modèle à réaliser correctement ce type de prédictions, nous avons effectué deux
études relativement simples sur les taux de croissance prédits.
7.2.1 Comparaison des prédictions de taux de croissance à des mesures expérimentales
Nous avons tout d’abord comparé les prédictions de taux de croissance du modèle
iAbaylyiv1 à des mesures expérimentales. L’équipe Thesaurus du Genoscope a pour
cela réalisé une culture suivie d’A. baylyi en milieu minimal liquide contenant du
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
121
glutamate comme seule source de carbone53. À chaque point de temps (toutes les
heures) fut effectué un prélèvement à partir duquel la densité optique à 600 nm (DO)
et la concentration en glutamate54 furent déterminées (voir Figure 32).
Figure 32. Évolution de la densité optique (DO) et de la concentration en glutamate dans le milieu ([glu]) au cours de la croissance suivie d’A. baylyi.
En utilisant une relation entre DO et masse sèche de cellules déterminée
auparavant dans les mêmes conditions expérimentales, nous avons calculé les flux
moyens de consommation de glutamate (par unité de masse sèche de cellules) et les
taux de croissance moyens à chaque point de temps. Ces résultats sont présentés dans
la Figure 33. Le faible nombre de points de temps55 ne nous a donné accès qu’à des
moyennes relativement larges pour ces grandeurs, entachées pour les premiers points
de temps de marges d’erreurs importantes56 (voir Figure 33). Cependant, aux points
de temps correspondant à des périodes de croissance stable (notamment en fin de
phase exponentielle, points 3h, 4h et 5h), les valeurs calculées de flux de glutamate et
de taux de croissance peuvent être considérées comme suffisamment fiables pour être
comparées au moins grossièrement aux prédictions du modèle.
53 Milieu minimal contenant de l’ammoniac (NH3) comme source d’azote. 54 La concentration de glutamate fut déterminée par test enzymatique en le faisant réagir avec le NAD à l’aide de la glutamate dehydrogenase. La quantité de NADH produite fut déterminée par mesure d’absorption à 340 nm. 55 Exigé par les conditions de l’expérience. 56 Dues à la normalisation par la masse mesurée de cellules, faible au début de l’expérience.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
122
Nous avons ensuite pour chaque point de temps contraint le modèle iAbaylyiv1 à
importer le glutamate avec le flux mesuré puis calculé le taux de croissance optimal
en maximisant le flux de la réaction de biomasse (méthode de « Flux Balance
Analysis » (FBA)). La Figure 33 présente ces prédictions en regard des taux de
croissance mesurés.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
123
Figure 33. Flux de consommation de glutamate mesuré (en haut) et comparaison des taux de croissance mesuré et prédit (en bas). Le flux de glutamate et le taux de croissance mesuré furent déterminés à partir des mesures de concentration et de DO (la relation entre DO et masse sèche fut déterminée en parallèle, dans des conditions expérimentales similaires). Les taux de croissance furent prédits à l’aide du modèle iAbaylyiv1 par « Flux Balance Analysis » (Varma & Palsson 1994) en contraignant le flux de glutamate entrant aux valeurs mesurées. Les marges d’erreurs des taux de croissances prédits ont été obtenues à partir des marges d’erreurs des flux de glutamate mesurés.
Sur la période 3-5 h, le flux de glutamate consommé par cellule semble se
maintenir à une valeur constante (autour de 15 mmol.h-1.(g DW)-1). Le taux de
croissance prédit pour ces points de temps est par conséquent également constant
(autour de 0,9 h-1). Cette valeur est en bon accord avec les taux de croissance
mesurés, particulièrement pour les points de temps 3 h et 4 h ; la population semble
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
124
croître de manière exponentielle à cette période. On observe ensuite une décroissance
du taux de croissance mesuré, en avance par rapport à celle du taux de croissance
prédit. On peut interpréter cette diminution du taux de croissance mesuré par rapport à
celui prédit par le fait que la population sort probablement de son régime de
croissance purement exponentiel. Il est alors probable que l’hypothèse d’exploitation
optimale du métabolisme pour la croissance ne soit plus valable dans ces conditions.
Cette comparaison aux mesures expérimentales montre que les prédictions du
modèle sont globalement en accord avec les taux de croissance mesurés. Cependant,
une étude plus précise – impliquant un plus grand nombre de points de temps – et plus
complète – utilisant différents milieux – serait nécessaire pour caractériser plus en
détail les limites de validité des prédictions quantitatives du modèle (Edwards et al.
2001). Une telle étude sort en revanche du cadre des travaux de cette thèse.
7.2.2 Sensibilité des prédictions de taux de croissance aux paramètres énergétiques
Il est important de noter que les prédictions ci-dessus ont été réalisées en
conservant les paramètres énergétiques (et la composition de la réaction de biomasse)
déterminés initialement. Ces paramètres – le flux de maintenance associé à la
croissance (« growth associated maintenance », GAM) et le flux de maintenance
indépendant de la croissance (« non growth associated maintenance », NGAM) – sont
typiquement déterminés à partir d’expériences de culture suivie, pour lesquelles
plusieurs mesures de taux de croissance pour différents flux de consommation de
nutriments distincts sont réalisées (voir 3.2.1). Ne disposant pas de suffisant de
données expérimentales pour déterminer plus précisément ces paramètres, nous avons
adopté ceux déterminés pour le modèle d’E. coli (Reed et al. 2003),
Toutefois, afin d’évaluer la sensibilité des prédictions de taux de croissance à ces
paramètres, nous avons prédit par FBA les taux de croissance pour des valeurs de
GAM et de NGAM variant de +/- 100% autour de leurs valeurs initiales
(respectivement 40 mmol ATP/gDW and 10 mmol ATP/h/gDW). Nous avons choisi
un milieu minimal supplémenté de succinate comme environnement de croissance, en
variant son flux maximal d’import entre 0 et 20 mmol/h/gDW. Les deux figures
suivantes présentent les résultats obtenus.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
125
Figure 34. Effet de la variation du paramètre GAM sur les prédictions de taux de croissance. Le paramètre NGAM est fixé à 10 mmol ATP/h/gDW.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
126
Figure 35. Effet de la variation du paramètre NGAM sur les prédictions de taux de croissance. Le paramètre GAM est fixé à 40 mmol ATP/gDW.
La variation de +/- 100% du flux de maintenance associé à la croissance (GAM)
modifie le taux de croissance prédit de +/- 10%, quel que soit le flux d’entrée de
succinate. Étant donné l’importance de la variation imposée au paramètre, la
sensibilité des prédictions à ce paramètre est relativement réduite.
La variation du flux de maintenance non associé à la croissance (NGAM)
provoque un décalage constant de +/- 0.05 h-1 du taux de croissance prédit, quel que
soit le flux d’entrée de succinate. Bien que peu significatif pour les valeurs élevées de
taux de croissance, ce décalage peut provoquer d’importantes variations pour les
prédictions de taux de croissance faibles. Les prédictions réalisées avec le modèle
actuel dans ces derniers cas sont donc sujettes à des incertitudes plus élevées, à la fois
du fait de la forte sensibilité au paramètre NGAM mais également du fait que la
validité de l’hypothèse d’optimalité du fonctionnement du métabolisme pour des taux
de croissance aussi faible soit largement discutable.
7.3 Disponibilité du modèle
Pour faciliter l’utilisation du modèle, nous l’avons rendu disponible sous plusieurs
formats.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
127
Le format le plus complet est un tableur Excel contenant toutes les informations
utilisées dans le modèle57. L’ensemble des réactions y est classé par catégories
fonctionnelles et voies métaboliques, et, pour chacune d’entre elles, équation bilan,
association gène-réaction (GPR), numéro EC, références bibliographiques et
commentaires sont donnés. De manière à favoriser l’intégration du modèle avec
d’autres ressources sur le métabolisme, le tableur fournit également les identifiants
des réactions et métabolites du modèle dans les bases de données KEGG, MetaCyc et
BiGG58. La simplicité de ce format permet de rendre compte aisément de
l’information contenue dans le modèle, il nécessite cependant un travail de
reformatage pour exploiter le modèle à l’aide des outils classiques de modélisation.
Pour cela, nous avons également mis à disposition le modèle au format SBML59
(Systems Biology Markup Language) (Hucka et al. 2004). Ce format XML est
exploité par un grand nombre d’outils de modélisation du métabolisme, incluant
notamment YANA (Schwarz et al. 2007), CellNetAnalyzer (Klamt et al. 2007) et la
COBRA Toolbox (Becker et al. 2007), qui sont spécifiquement dédiés aux modèles à
base de contraintes. Le format SBML original ne spécifiant pas comment représenter
les liens gène-réaction, nous avons adopté les conventions utilisées par la COBRA
Toolbox et la base de données BiGG pour les inclure dans le fichier SBML60. Nous
avons également soumis le modèle au format SBML à la base de données BioModels
(Le Novère et al. 2006) ; il y est stocké sous l’identifiant MODEL1949107276.
Enfin, dans le cadre de développements informatiques menés par d’autres
membres de mon groupe, nous avons inclus le modèle d’A. baylyi dans une interface
web permettant de réaliser en ligne des prédictions de phénotypes de croissances de
mutants61. Cette interface est étroitement associée à la base de données métabolique
57 Téléchargeable à l’adresse : http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-s2.xls 58 Base de données de modèles métaboliques à grande échelle : http://bigg.ucsd.edu . 59 Téléchargeable à l’adresse : http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-s5.xml 60 Dans chaque objet reaction, le lien gène-réaction est ajouté dans une notes de la forme : <notes> <html:p>GENE_ASSOCIATION: aciad2449 and aciad2450 and aciad2451</html:p> </notes> 61 Disponible à l’adresse http://www.genoscope.cns.fr/nemostudio-platform/
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
128
AcinetoCyc pour visualiser les prédictions directement sur les cartes de voies
métaboliques. Nous évoquerons plus en détail cet outil dans la partie suivante.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
129
EXPLOITATION DES PHENOTYPES DE
CROISSANCE DE MUTANTS PAR LE MODELE
Nous aborderons dans cette deuxième partie sur nos travaux les résultats de la
confrontation du modèle d’A. baylyi aux phénotypes de croissance de mutants. Nous
nous sommes pour cela reposés sur les ressources expérimentales de l’équipe
Thesaurus présentée en introduction et avons utilisé leurs résultats de phénotypes de
croissance de mutants d’A. baylyi pour 9 environnements minimaux distincts. De
nombreux facteurs influencent les prédictions de phénotypes de croissance de mutants
et peuvent être la cause d’incohérence avec les phénotypes observés. Pour faciliter
l’analyse de ces incohérences, nous introduirons dans cette partie un cadre
d’interprétation et montrerons que celui-ci permet de distinguer les sources d’erreurs
et de guider des corrections au modèle.
Nous avons organisé cette partie en trois chapitres. Le premier reprend un article
que nous avons publié dans BMC Systems Biology et expose l’ensemble des
corrections et interprétations réalisées sur le modèle d’A. baylyi à partir des
phénotypes expérimentaux. Il présente notamment les différentes versions du modèle
progressivement obtenues au cours des étapes de correction. Cet article complète
également la présentation du modèle initiée dans la partie précédente et présente une
interface Web de prédictions de phénotypes pour A. baylyi. Dans le deuxième
chapitre, nous effectuerons une synthèse des types d’interprétations réalisées à partir
des incohérences de phénotypes. Enfin, nous présenterons brièvement dans le
troisième chapitre une évolution récente de l’interface Web de prédiction de
phénotypes prenant en compte un plus grand nombre d’organismes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
130
8 Article : « Iterative reconstruction of a global metabolic model of Acinetobacter baylyi ADP1 using high-throughput growth phenotype and gene essentiality data »
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
BioMed Central
!"#$%&%'(%)*
!"#$%&'()*%+&',-&.,+&/0-#-0,'&"(+",1%12
BMC Systems Biology
Open AccessResearch articleIterative reconstruction of a global metabolic model of Acinetobacter baylyi ADP1 using high-throughput growth phenotype and gene essentiality dataMaxime Durot, François Le Fèvre, Véronique de Berardinis, Annett Kreimeyer, David Vallenet, Cyril Combe, Serge Smidtas, Marcel Salanoubat, Jean Weissenbach and Vincent Schachter*
Address: Genoscope (Commissariat à l'Energie Atomique) and UMR 8030 CNRS-Genoscope-Université d'Evry, 2 rue Gaston Crémieux, CP5706, 91057 Evry, Cedex, France
Email: Maxime Durot - mdurot@genoscope.cns.fr; François Le Fèvre - flefevre@genoscope.cns.fr; Véronique de Berardinis - vberard@genoscope.cns.fr; Annett Kreimeyer - akreimey@genoscope.cns.fr; David Vallenet - vallenet@genoscope.cns.fr; Cyril Combe - ccombe@genoscope.cns.fr; Serge Smidtas - smidtas@genoscope.cns.fr; Marcel Salanoubat - salanou@genoscope.cns.fr; Jean Weissenbach - jsbach@genoscope.cns.fr; Vincent Schachter* - vs@genoscope.cns.fr* Corresponding author
AbstractBackground: Genome-scale metabolic models are powerful tools to study global properties ofmetabolic networks. They provide a way to integrate various types of biological information in asingle framework, providing a structured representation of available knowledge on the metabolismof the respective species.
Results: We reconstructed a constraint-based metabolic model of Acinetobacter baylyi ADP1, a soilbacterium of interest for environmental and biotechnological applications with large-spectrumbiodegradation capabilities. Following initial reconstruction from genome annotation and theliterature, we iteratively refined the model by comparing its predictions with the results of large-scale experiments: (1) high-throughput growth phenotypes of the wild-type strain on 190 distinctenvironments, (2) genome-wide gene essentialities from a knockout mutant library, and (3) large-scale growth phenotypes of all mutant strains on 8 minimal media. Out of 1412 predictions, 1262were initially consistent with our experimental observations. Inconsistencies were systematicallyexamined, leading in 65 cases to model corrections. The predictions of the final version of themodel, which included three rounds of refinements, are consistent with the experimental resultsfor (1) 91% of the wild-type growth phenotypes, (2) 94% of the gene essentiality results, and (3)94% of the mutant growth phenotypes. To facilitate the exploitation of the metabolic model, weprovide a web interface allowing online predictions and visualization of results on metabolic maps.
Conclusion: The iterative reconstruction procedure led to significant model improvements,showing that genome-wide mutant phenotypes on several media can significantly facilitate thetransition from genome annotation to a high-quality model.
Published: 7 October 2008
BMC Systems Biology 2008, 2:85 doi:10.1186/1752-0509-2-85
Received: 23 April 2008Accepted: 7 October 2008
This article is available from: http://www.biomedcentral.com/1752-0509/2/85
© 2008 Durot et al; licensee BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!"!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
BackgroundThe diversity of bacterial metabolism and the perspectiveof engineering applications has spurred a steep increase inboth the number of sequencing projects and the volumeof high throughput experiments on bacteria. The need tointerpret and integrate these datasets at the systems levelhas triggered the development of model-based computa-tional methods [1]. Among them, the constraint-basedmodeling approach (CBM) has proved to be particularlyefficient at integrating large-scale omics datasets related tometabolism, such as growth phenotypes, metabolite con-centrations, or reaction fluxes [2]. In addition to provid-ing a structured summary of metabolism-relatedknowledge for a given species, a constraint-based modelallows the prediction and analysis of a variety of proper-ties resulting from topological, stoichiometric, and physi-ological constraints known to apply at steady-state to itsglobal metabolic network. Applications range from stud-ies on evolutionary or physiological properties to thedesign of metabolic engineering strategies for biotechno-logical or therapeutical purposes [3]. Nearly twenty suchmodels have been built so far [2], typically through exten-sive curation work, and, for some of them, through itera-tive refinement processes where models wereprogressively improved by comparison with experimentaldatasets [4].
Systematic evaluation of gene essentiality has proved to bea valuable resource for investigating gene functions;knockout mutant collections have been recently built inthis aim for a number of bacteria [5-8]. Rigorous analysisof their results remains a challenging task, however, asgene essentiality depends on the environmental conditionand the link between genes and essential functions maybe blurred by genetic or metabolic redundancy [9,10].Genome-scale metabolic models provide a valuableframework to help interpret essentiality screens, since theyboth recapitulate knowledge on metabolic networks andallow prediction of gene essentiality under well-definedconditions. They have also allowed meaningful cross-val-idation of reconstructed metabolic networks with sets ofgene essentiality results, providing insights on potentialerroneous or incomplete metabolic knowledge, and onpossible improvements [4,11,12]. In this article, we sys-tematically exploit inconsistencies between model predic-tions and experimental results to improve a metabolicmodel reconstruction.
Our focus is on Acinetobacter baylyi ADP1, a strictly aerobic!-proteobacterium. Although phylogenetically close tothe Acinetobacter baumanii pathogenic strains, responsiblefor a growing number of nosocomial infections [13], A.baylyi ADP1 is an innocuous soil bacterium. Because of itsmetabolic versatility and high competency for naturalgenetic transformation, it is a model organism of choice
for genetic and metabolic investigations [14-16]. As a soilbacterium, A. baylyi is able to degrade a wide range of mol-ecules, including components of suberin, a protective pol-ymer produced by plants in response to stress. Itsharmlessness, nutritional versatility, and high capacity foradaptation have led bacteria of the Acinetobacter genus tobe used for a variety of biotechnological applications–including the degradation of pollutants (e.g. biphenyl,phenol, benzoate, crude oil, nitriles) and the productionof valuable biochemical products such as lipases, pro-teases, bioemulsifiers, cyanophycine and different kindsof biopolymers [17,18]. Following its sequencing andexpert annotation [19], a genome-wide single-knockoutmutant library was generated (ADP1 mutant collection[8]), enabling the high-throughput assessment of mutantphenotypes in defined growth conditions.
We report below on the reconstruction and refinement ofa genome-scale metabolic model for A. baylyi with thehelp of high-throughput experimental data. Following aninitial reconstruction using metabolic informationextracted from the genome annotation and the literature,the model was iteratively assessed and improved by com-paring its predictions with (1) large-scale growth pheno-typing results of the wild-type strain on 190 distinctenvironments, (2) genome-wide gene essentiality datafrom the mutant collection, and (3) conditional geneessentiality data derived from growth phenotyping of A.baylyi mutants on eight defined media. We examined eachinconsistency between experimental results and modelpredictions, and corrected the model when sufficient jus-tifying evidence could be collected. Combining the threerefinement steps, 1262 out of 1412 predictions were ini-tially consistent with experimental results. Among theinconsistent cases, 65 led to improvements, increasing thecompleteness and accuracy of the model. The final versionof the model, called iAbaylyiv4, predicted accurately (1)91% of the wild-type growth phenotypes, (2) 94% of thegenome-wide gene essentialities, and (3) 94% of the phe-notypic profiles of A. baylyi mutants on the tested media.
We developed a web interface which provides easy accessto both model and experimental data. The interfaceallows browsing of the metabolic network, online compu-tation of phenotype predictions, and comparison of pre-dictions with experimental results [20].
Results and discussionInitial model reconstructionThe genome scale model of A. baylyi was iteratively recon-structed following a process depicted in Figure 1. We firstbuilt an initial draft model iAbaylyiv1 using informationfrom the genome annotation, metabolic pathways data-bases, and the literature. Although facilitated by the auto-mated network reconstruction software PathoLogic [21],
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!?!0@!"?
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
this initial reconstruction still required extensive manualcuration (see Methods). The draft metabolic network gen-erated by PathoLogic was first inspected to filter out andcorrect wrongly predicted pathways and reactions, andthen completed by reviewing the expert genome annota-tions and the metabolic information contained in the lit-erature. For instance, specific efforts were dedicated toproperly include pathways accounting for the particulardegradation capabilities of A. baylyi. Physiological infor-mation on A. baylyi was especially helpful to build the setof transport processes, as substrate specificities of trans-porters are difficult to deduce from genome annotationonly. For each metabolite shown to be consumed by A.baylyi we added a corresponding transport reaction to the
model. Out of 133 transporters, 23 were initially includedin the model using this type of evidence only. Thedependency between genes and reactions was modeledusing Boolean rules, known as GPR (Gene-Protein-Reac-tion associations) [22]. These rules encode the presence ofisozymes or enzymatic complexes for the catalysis of reac-tions, and predict the effect of genetic perturbations onthe activity of reactions. GPR rules were first derived usinghomology with E. coli enzyme complexes [23] and thencompleted by manual curation. In order to model themetabolic and energetic demands associated with growth,we introduced a set of intermediary biomass reactionsthat synthesize generic cell constituents (e.g. protein,DNA, RNA, or lipid) from precursor metabolites, and a
A. baylyi metabolic model refinement processFigure 1A. baylyi metabolic model refinement process. A. baylyi metabolic model was iteratively refined in three steps using data-sets of experimental results. The initial reconstruction iAbaylyiv1 was assessed and improved using dataset 1; the resulting model iAbaylyiv2 was then assessed and refined using dataset 2, yielding iAbaylyiv3 which was again evaluated and refined using dataset 3, leading to the final model iAbaylyiv4. Since only mutants corresponding to dispensable genes in dataset 2 could be phenotyped in dataset 3, gene essentialities revealed in dataset 3 are medium-specific, i.e. conditionally essential. Genes classi-fied as conditionally essential in dataset 3 are conditionally essential on at least one environment. Genes classified as dispensa-ble are dispensable on all tested environments. Model accuracy figures indicates for each dataset and its corresponding models the counts of consistent and inconsistent predictions. Accuracy is computed as the fraction of consistent predictions among all predictions. For dataset 1, Biolog results for metabolites that were not in the model were counted as consistent with predic-tions if the metabolite was not a carbon source and inconsistent if the metabolite was a carbon source. Model corrections fig-ures summarize the corrections performed on each model component.
190 190 767 Total genes tested 756 455 Total genes tested 452164 total consistent 173 676 total consistent 712 422 total consistent 42626 total inconsistent 17 91 total inconsistent 44 33 total inconsistent 26
86% global accuracy 91% 88% global accuracy 94% 93% global accuracy 94%
45 Carbon sources 45 251 Essential genes 251 36 3624 consistent 33 187 consistent 217 16 consistent 1821 inconsistent 12 64 inconsistent 34 20 inconsistent 18
8 in model 1 75% accuracy 86% 44% accuracy 50%13 not in model 11
53% accuracy 73%
145 Non carbon sources 145 516 Dispensable genes 505 419 Dispensable genes 416140 consistent 140 489 consistent 495 406 consistent 408
31 in model 31 27 inconsistent 10 13 inconsistent 8109 not in model 109 95% accuracy 98% 97% accuracy 98%5 inconsistent 5
97% accuracy 97%
GPRNETWORKBIOMASS
Experimentaldatasets
-14 reactions added2 genes addedModel
corrections
1 strain x 190 environments
4 genes removed ; 9 GPR modified1 reaction added ; 1 modified-
Model versions
Model accuracy
774 genes859 reactions 873 reactions 874 reactions 875 reactions697 metabolites 702 metabolites 701 metabolites
Dataset 3Dataset 2
Growth phenotypes of ADP1 mutant collection on 8minimal media
701 metabolites
iAbaylyi v1 iAbaylyi v2 iAbaylyi v3 iAbaylyi v4787 genes 789 genes 778 genes
Dataset 1
2 biomass precursorsadded ; 4 removed
Conditionallyessential genes
Growth phenotypes of wild-type strain on 190carbon sources
1 gene added ; 12 removed ; 36 GPR modified4 reactions added ; 3removed ; 4modified
Genome-wide gene essentialities onsuccinate-supplemented minimal mediumderived from ADP1 mutant collection buildup
3093 strains x 1 environment 2350 strains x 8 environments
Total environmentstested
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
global growth reaction consuming them in proportiondefined by studies of biomass composition [24,25]. Ener-getic parameters required to predict quantitative growthrate using Flux Balance Analysis (FBA) were assumed to besimilar to those of E. coli model (see Methods)[22]. Noaccurate measurement of A. baylyi growth yields could beused to validate these parameters, however. While suchvalidation would be required to get more accurate predic-tions of growth yields, the current parameters already pro-vide good approximate values (see Additional file 1 for asensitivity analysis on these parameters). For the purposeof qualitatively predicting growth ability using MetaboliteProducibility analysis (see Figure 2) [26], we designed areduced list of biomass precursors which are all essentialfor growth in in vitro conditions. We used this list to pre-dict qualitative growth phenotypes and compare themwith those of phenotyping experiments on in vitro envi-ronments. In vivo environments may impose harsher con-ditions requiring additional metabolic responses; this listtherefore represents a minimal set of essential precursorsthat may need to be expanded to properly predict growthphenotypes on more realistic environments [27]. TheMethods section provides more details on the reconstruc-tion process.
This initial reconstruction process led to the modeliAbaylyiv1 gathering 859 reactions grouped in 7 metaboliccategories and 697 distinct metabolites, 109 of whichcould be transported from the environment. As depictedin Figure 3, the model accounts for all main processes ofA. baylyi metabolism, including biosynthetic routes,energy metabolism, and catabolic pathways. Genomicislands of catabolic diversity endow A. baylyi with the abil-ity to degrade a wide variety of soil compounds [19]. Themetabolic model reflects this nutritional versatility, as20% of its reactions are dedicated to the catabolism ofexternal compounds. A list of specific compounds thatcan be degraded by A. baylyi is provided in Table 1.
iAbaylyiv1 involves 787 genes out of the 1518 confirmedor putative enzymatic and transport genes of A. baylyi. Alarge majority (94%, 681/726) of the enzymatic reactions(excluding transporters) were associated with at least onegene, while the lower proportion (83%, 110/133) oftransport reactions linked to genes is explained by theextensive use of physiological data to include them. Theassociation of nearly all reactions with a gene confers ahigh reliability to the model. The few reactions that wereintroduced with no associated gene are most often sup-ported by indirect evidence and introduced in order to fillgaps (See Additional file 2).
Most A. baylyi genes were annotated by expert curation; athird of the model genes relied on evidence conferringthem a medium confidence level, e.g. limited homology
with genes of known function, or conservation of aminoacid motifs (Figure 4). While the evidence for these genesdoes not fully prove the existence of associated enzymaticactivities, it suggests them with sufficient strength to jus-tify adding the corresponding reactions in the model. Thelevel of evidence of each gene was tracked for later use ininterpreting inconsistent behaviors. Out of 262 reactionsto which these genes contribute, 85 are solely catalyzed bymedium-confidence genes, some of these being essentialto the model viability. In addition, 35% of all codingsequences are still of unknown function in A. baylyi, andmay leave gaps in the actual metabolic network. Integra-tion of additional experimental data was thus crucial inorder to validate the metabolic network and correct itwhen necessary.
Model validation and expansion using growth phenotype resultsWe used results of large-scale growth phenotyping experi-ments to perform a first round of model assessment andrefinement. Using Biolog assays, we experimentally testedthe wild-type strain ability to use 190 distinct metabolitesas sole carbon and energy sources (see Methods). Usingthe model, we predicted the growth phenotypes of thewild-type strain on the corresponding in silico media andcompared them to the experimental results.
Out of the 190 screened metabolites, 45 were found to becarbon and energy sources for A. baylyi. This relativelysmall fraction of carbon sources can be explained by thefact that Biolog microplates are only partially adapted toA. baylyi's biotope: they feature sugars, nucleosides oramino acids but relatively few chemicals originating fromplant compounds. iAbaylyiv1 model predicted 24 of themand missed 21 (see Figure 1). Eight of the missed carbonsource metabolites were already present in the model, butwith no associated transporter. Amongst them, sevenwould also be predicted as carbon and energy sources hadthe corresponding transporters been included. In order toresolve these inconsistencies, we added for each of them ageneric transport reaction accounting for A. baylyi's abilityto utilize these compounds (see Table 2). Growth on theremaining metabolite (2-ketobutyrate) was contradictedby an additional individual growth experiment.
Thirteen carbon source metabolites were unknown to themetabolic model. For two of them, sorbate and tricarbal-lylate, we were able to identify degradation pathways andadd them to the model (see Table 2). Sorbate, an unsatu-rated fatty acid, can be degraded by fatty acids oxidationenzymes, which were already included in the model forthe degradation of other fatty acids. Sorbate transport anddegradation reactions were therefore added to the modelusing the same set of genes. Recently, genes coding for tri-carballylate transport (tcuC), oxidation to cis-aconitate
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!'!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
(tcuA and tcuB), and for a regulatory protein required fortcuABC expression (tcuR) were identified in Salmonellaenterica [28,29]. Highly homologous genes could befound in synteny in A. baylyi: ACIAD1536 (tcuB, 59%identity), ACIAD1537 (tcuA, 76% identity), ACIAD1541(tcuC, 64% identity), ACIAD1539 (tcuR, 46% identity),
and ACIAD1543 (tcuR, 44% identity). Following theseclues, we expanded the model by implementing the corre-sponding transporter and degradation reaction, andannotated the corresponding genes. In four cases, dedi-cated growth experiments contradicted the Biolog result,weakening the case for further study (see Table 2). Finally,
Modeling frameworkFigure 2Modeling framework. (A) A metabolic model is represented as a combination of three model components: GPR Boolean rules associate genes (G1 to G5) with reactions (R1 to R3), the network of reactions defines the set of feasible biochemical transformations (illustrated by the arrows), and the set of essential biomass precursors defines the requirements for growth. Growth phenotypes are predicted by assessing whether all biomass precursors can be produced by the metabolic network from the set of metabolites from the medium [26] (see Methods) (B) Gene deletions potentially inactivate reactions, which in turn may reduce the space of producible metabolites. In case where a biomass precursor is no more producible, gene deletion is predicted lethal on the given medium.
Metabolites of the medium
Producible metabolites
R1!R2!
G1!G2!G3!G4!G5!
R3!
OR! OR!
NETWORK!
GPR! BIOMASS!Essential biomass
precursors
R1!R2!
G1!G2!G3!G4!G5!
R3!
OR! OR!
Gene deletion!
Reduction of producible metabolites space!
Inactivated reaction!
A!
B!
Essential biomass precursor is no
more producible!
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
no relevant pathway could be found for the remainingseven unmodeled carbon sources. Further investigationsare needed to identify the metabolic processes allowing A.baylyi to exploit these metabolites.
Conversely, only five of the 145 non-carbon sourcemetabolites were wrongly predicted to be carbon sourcesby the model: 4-hydroxybenzoate, D-fructose, L-arginine,
L-ornithine, and D-serine (see Figure 1 and Table 2).Experiments from [15] contradicted the Biolog result on4-hydroxybenzoate, while additional individual experi-ments confirmed the Biolog results of the other four.
Interestingly, A. baylyi annotation describes a completephosphotransferase (PTS) transport system for fructose(ACIAD1990 and ACIAD1993, fruA &fruB) coupled witha 1-phosphofructokinase (ACIAD1992, fruK) leading tofructose-1,6-bisphosphate (see Figure 5). In accordancewith the annotation, the model predicts that fructoseshould be a carbon and energy source, yet this is notobserved experimentally. To confirm the ability of the PTSsystem to transport fructose, we assessed experimentallythe growth phenotype of the fructose bisphosphate aldo-lase (ACIAD1925, fda) knockout mutant (see Figure 5).The !ACIAD1925 mutant could not be obtained on suc-cinate-supplemented minimal media, reflecting the factthat Fda is required in the gluconeogenesis pathway toprovide fructose-1,6-bisphosphate, an essential interme-diate for building pentose-phosphates and polysaccha-rides. The mutant could however be obtained by addingfructose in the medium, showing that fructose could be
Table 1: Some substrates involved in A. baylyi degradation pathways
Anthranillate OctaneBenzoate Straight chain dicarboxylic acidsSalicylate Straight chain fatty acidsCatechol SarcosineChlorogenate PropanaldoximeQuinate PropanenitrileShikimate PropanamideCoumarate MalonateFerulate GlucarateVanillate GalactarateCaffeate EthanesulfonateProtocatechuate
Number of reactions and genes in iAbaylyiv1 distributed by model metabolic categoriesFigure 3Number of reactions and genes in iAbaylyiv1 distributed by model metabolic categories. Reactions were associ-ated with a unique metabolic category. Genes linked to several reactions may be associated with multiple categories.
0
20
40
60
80
100
120
140
160
180
200
Amino acidsmetabolism
Centralmetabolism
Cofactorsbiosynthesis
Degradationpathways
Lipid, cell wallbiosynthesis
Nucleotidemetabolism
Transport
Num
ber o
f gen
es /
reac
tions
reactionsgenes
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!:!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
imported into the cell and converted to fructose-1,6-bisphosphate. The reason why A. baylyi is unable to usefructose as a sole carbon source remains yet to be investi-gated. Hypothetically, A. baylyi may be unable to use theEmbden-Meyerhof-Parnas (EMP) pathway in the glyco-lytic direction, as it has been observed for the dissimila-tion of glucose [19,30].
As is the case in E. coli, L-ornithine and L-arginine aredegraded by A. baylyi using the arginine succinyltrans-ferase (AST) pathway. This pathway allows E. coli to usethem as nitrogen sources, but not as carbon sources. Puta-tive explanations include unsuitable regulation and inad-equate transport [31]. Similar reasons may explain A.baylyi's inability to use L-ornithine and L-arginine as car-bon sources.
A. baylyi's genome annotation includes genes for D-serinetransport (ACIAD0118 and ACIAD2662, cycA) and D-ser-ine deaminase activity (ACIAD1048 dsdA), which shouldallow it to use D-serine as a carbon and nitrogen source.The interpretation of this inconsistency is also unclear; asimilar unexplained inconsistency was pointed out in astudy involving a metabolic model of B. subtilis [4].
Improvements to the model resulted in iAbaylyiv2, raisingpredictive accuracy on Biolog-measured phenotypes from86% to 91% of the growth phenotypes (see Figure 1).Detailed results of the comparison with Biolog results canbe found in Additional file 3.
Systematic model improvement using gene essentiality dataIn steps 2 and 3 of the model refinement process, weassessed and improved the model by comparing its pre-dictions to experimentally determined gene essentialities,derived from the ADP1 mutant collection [8] (see Figure1). Growth phenotypes of all single gene deletion mutantson the corresponding environments were predicted usingmetabolite producibility analysis (see Figure 2 and Meth-ods). Predicted phenotypes were then compared to thegenome-wide gene essentiality results in order to assessthe accuracy of the model and to identify inconsistent pre-dictions. Inconsistencies could be either false essential(genes falsely predicted essential by the model) or falsedispensable (genes falsely predicted dispensable by themodel) predictions. Since these inconsistencies are asmany clues that the understanding of A. baylyi's metabo-lism represented in the model is erroneous or incomplete,we examined them carefully in order to find interpreta-tions and, when needed, refine the model.
We classified refinements into three categories accordingto the model component that was modified: GPR, NET-WORK or BIOMASS (see Figure 2). These three compo-nents model different kinds of biological processes whichcontribute to determining the growth phenotype ofmutant strains (see Methods). The GPR component, con-sisting of the GPR Boolean rules, computes the effect ofthe genetic perturbation on the activity of reactions in themodel. The NETWORK component, the actual network of
Distribution of annotation confidence levels for genes included in iAbaylyiv1 modelFigure 4Distribution of annotation confidence levels for genes included in iAbaylyiv1 model. Confidence levels were assigned according to the type of evidence supporting gene annotation.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!$!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
reactions, models the metabolic conversion capabilities ofthe organism. Finally, the BIOMASS component, consist-ing of the list of metabolites required for growth, modelsthe biomass precursor requirements of the organism.
Model refinementsWe performed two iterations of refinement using geneessentiality data (see Figure 1). In a first step, we used geneessentialities established during the construction of theADP1 mutant library to derive an intermediary version ofthe model iAbaylyiv3. This experimental dataset is nearlyexhaustive as it covers 97% of all A. baylyi genes [8]. Themutant collection, built on succinate-supplemented min-imal medium, revealed 499 essential genes for thismedium. Half of these genes were present in the model(251/499), which is a significantly higher fraction thanfor all A. baylyi genes (24%, 789/3288). Although purely
metabolic, the model thus already captured a large part ofthe bacterium's essential processes. The thoroughlycurated but also purely metabolic E. coli model iAF1260includes a similar proportion of E. coli essential genes onglucose-supplemented minimal medium (57%, 238/419)[12]. As shown in Figure 6, essential genes absent from themodel were mainly related to functional categories lyingoutside of model scope, such as protein fate, DNA metab-olism, transcription, or regulatory functions. On the otherhand, essential genes involved in metabolic processeswere largely covered by the model. iAbaylyiv2 alreadyshowed good agreement with the observed gene essential-ities as 88% of the predictions were identical to the exper-imental results (respectively 95% of dispensable genesand 75% of essential genes present in the model, see Fig-ure 1). As depicted in Figure 7, inconsistencies werehomogeneously distributed across the metabolic catego-ries of the model, with an exception for Transport andDegradation pathways, which gathered few inconsisten-cies. Genes in these categories are typically dedicated tothe use of external substrates and most of them are notrequired for growth on succinate medium only. Their met-abolic role could thus not be evaluated in this first exper-iment: most were accordingly both observed andpredicted as dispensable. Gene essentiality experimentson a variety of media were needed to assess the functionsof these genes in the appropriate environmental context.
It is worth noticing that inconsistency results support ourchoice to include medium-confidence genes into themodel. Genes associated with medium-confidence meta-bolic annotations did not trigger more inconsistenciesthen high-confidence level genes. 18% (47/268) of reac-tions including at least one medium-confidence gene intheir GPR are associated with an inconsistent gene, a sim-ilar proportion to that of reactions containing only highconfidence genes (14%, 75/527). We examined the 91inconsistent predictions of this step and refined the modelfor 47 of them (see Table 3 and below for details on thecorrections). The refinements were implemented iniAbaylyiv3, increasing global accuracy from 88% to 94%.Improvement was most noticeable for essential genes, as86% were correctly predicted by iAbaylyiv3. As discussedbelow, a high number of false isozymes, triggering falsedispensable predictions, were detected in this refinementstep.
In a second step, the model was evaluated against growthphenotyping assays of mutants from the ADP1 collectionon 8 minimal media supplemented with varying carbonand nitrogen sources (see Table 4 and Methods). Since allA. baylyi mutants were first obtained on a succinate-sup-plemented minimal medium, essentialities revealed bythese assays were strictly conditional. Furthermore, as thesuccinate-supplemented medium was already minimal,
Table 2: Biolog carbon sources inconsistently predicted by iAbaylyiv1 and corresponding corrections
Unpredicted Biolog carbon sources 21
Prediction corrected by addition of transporter 73-ketobutyratebutyrateD-aspartateL-asparagineL-glutaminepropionatepyruvate
Prediction corrected by addition of degradation pathway 2sorbatetricarballylate
Biolog result contradicted by additional experiment 52-ketobutyratealpha-D-glucoseD-malateD-xyloseL-arabinose
Uncorrected inconsistencies – no relevant pathway found 72-hydroxybutyratebromo-succinateD-lactate methyl estermethylpyruvatetween 20tween 40tween 80
Unpredicted Biolog non carbon sources 5
Biolog result contradicted by additional experiment 14-hydroxybenzoate *
Uncorrected inconsistencies 4D-fructoseD-serineL-arginineL-ornithine
* result from [15]. Numbers provide the count of inconsistencies pertaining to each category.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!<!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
the set of conditionally essential genes was restricted tothe genes directly related to the use of the tested carbonand nitrogen sources. These were chosen to involve differ-ent parts of A. baylyi secondary metabolism (see Table 4).Overall, 455 knockout mutants corresponding to genes inthe model could be phenotyped (see Figure 1).
Phenotyping experiments pointed out 2 to 10 condition-ally essential genes (from the set of model genes) on eachmedium (Table 4). While a majority of these genes wereessential on a single medium, some were found condi-tionally essential on several media. This revealed interde-pendencies between environments and might be relatedto processes specific to groups of environments. Forinstance, growth phenotypes on 2,3-butanediol and ace-
tate exhibit similar characteristics since 2,3-butanediol isconverted to acetate for its utilization [8]. The use of ace-tate as a carbon source requires the activation of the glyox-ylate shunt, catalyzed by ACIAD1084 (isocitrate lyase)and ACIAD2335 (malate synthase G). These genes weretherefore found to be essential on 2,3-butanediol and ace-tate only. Accordingly, the metabolic model correctly pre-dicted the required use of this pathway and thesubsequent essentiality of these genes on these media. Asshown in Figure 1, iAbaylyiv3 accurately predicted the phe-notypic profiles of 93% of all genes, leaving 33 genes withinconsistent predictions on at least one medium. Nine ofthem led to model corrections, again mainly in the GPRcomponent of the model (see Table 3). These corrections,implemented in iAbaylyiv4, slightly improved the predic-
Map of fructose utilization pathway in A. baylyiFigure 5Map of fructose utilization pathway in A. baylyi. Fructose utilization pathway produces fructose-1,6-biphosphate which should be a precursor for the biosynthesis of pentose phosphates and polysaccharides and for the tricarboxylic acid cycle. Model accordingly predicts growth with fructose as sole carbon source. Phenotyping experiments show no growth of A. baylyi with fructose as sole carbon source. Supposedly, the Embden-Meyerhof-Parnas (EMP) pathway may not operate in the glyco-lytic direction in A. baylyi, as already observed for glucose utilization [19,30]. See main text for details.
fructose [periplasm]
fructose-1-phosphatefructose-1,6-bisphosphate
PEP
pyruvate
ATPADP
Pentose phosphates andpolysaccharides synthesis
Tricarboxylic acid cycle
glyceraldehyde-3-phosphate
dihydroxy-acetone-phosphate
ACIAD1925 (fda)
ACIAD1992 (fruK)
ACIAD1990& ACIAD1993
(fruAB)
ACIAD0363(tpiA)
EMP pathway
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9#!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
tive accuracy for mutant phenotypes (94%) while keepingthe predictive accuracy for the previous datasetsunchanged.
Combining both refinement steps, 56 out of 124 incon-sistencies led to model corrections. In the following sec-tions, we will discuss these gene essentialityinconsistencies in more details irrespective to the datasetthat triggered them (see also Table 3). Model correctionswill be presented according to the model component thatwas modified.
GPR correctionsA majority of the model improvements (34/56) wereapplied to the GPR component, with a clear bias towardsfalse dispensable inconsistencies: 26 GPR corrections per-tained to experimentally essential genes against only 8 toexperimentally dispensable genes (see Table 3). This largeset of false dispensable predictions includes two maininconsistency types. In 22 cases, isofunctional genes withannotations of medium confidence were in fact unable toreplace the activity of their deleted isozymes. For instance,
ACIAD0964 and ACIAD2907 (prs) were identified in theinitial reconstruction as isozymes for the catalysis of theribose-phosphate diphosphokinase activity, which isrequired for the biosynthesis of 5-phosphoribosylpyro-phosphate (PRPP) (see Figure 8A). The association ofboth genes to the activity relied on homologies with pre-viously annotated genes in other organisms. The expectedand predicted dispensability of ACIAD2907 was yet con-tradicted by its experimental essentiality. Looking furtherinto the annotation evidence, ACIAD0964 function wassupported by only limited homologies to previouslyknown genes (second best hit after ACIAD2907 with E.coli gene prsA, with 25% identity). Conversely,ACIAD2907 function was supported by a stronger homol-ogy with E. coli gene prsA (68% identity) whose ribose-phosphate diphosphokinase has been experimentallyconfirmed [32]. The combination of the observed geneessentialities with the limited homology supporting theannotation of ACIAD0964 led us to correct the model byremoving ACIAD0964 from ribose-phosphate diphos-phokinase GPR. On the other hand, the functions of someisozymes with medium confidence level were corrobo-
Proportion of A. baylyi essential genes covered by iAbaylyiv2 model distributed by TIGR role categoriesFigure 6Proportion of A. baylyi essential genes covered by iAbaylyiv2 model distributed by TIGR role categories. TIGR role categories were obtained from TIGR automated annotation of A. baylyi [67]. Some genes were associated with multiple functional classes. NA: no TIGR role has been assigned. For each role category, absolute numbers of genes in the model (left) and not in the model (right) are provided.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!99!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
rated by the gene essentialities. For instance, two isozymeswere indirectly confirmed to have a dihydroxy-acid dehy-dratase activity, which is essential for the synthesis ofvaline, leucine and isoleucine. Two duplicate genes wereassociated with this activity: ACIAD1266 (ilvD) andACIAD3636. While the annotation of ACIAD1266 is sup-ported by a strong homology with E. coli gene ilvD (74%identity) whose activity has been experimentally shown[33], ACIAD3636's function was supported only byweaker homologies with the reference genes (37% iden-tity with E. coli gene ilvD). Gene knock-outs revealed thatboth genes were dispensable while the essentiality ofother genes in the pathway strongly suggested that thedihydroxy-acid dehydratase activity was required. Thisresult strongly suggests that both genes could back upeach other and therefore indirectly corroborates the func-tional assignment to ACIAD3636.
Further examination revealed that the duplicate genes arealso found together in other organisms, includingBradyrhizobium japonicum and Bordetella bronchiseptica, and
that S. cerevisiae possesses the gene ILV3, with a confirmedactivity [34], which is homologous to ACIAD3636 (51%identity). Overall, amongst the reactions which wereessential to iAbaylyiv2 viability and associated with an iso-zyme of medium confidence-level, 8 showed agreementbetween predictions and phenotypes while 11 triggeredinconsistencies. In other words, while some medium-levelgenes were discarded thanks to essentiality data, a compa-rable fraction of genes was indirectly confirmed. Thisobservation provides additional confirmation that essen-tiality data represents a valuable resource, as it helps vali-date or discard gene functions supported by reasonablygood but non-conclusive evidence. It also provides an aposteriori validation of the usefulness of includingmedium-level annotations in the initial model, as failingto do so would have resulted in a significant loss of infor-mation in the A. baylyi metabolic model.
For three false dispensable predictions, we uncoveredenzymatic complexes or functional dependenciesbetween genes that were absent from the initial recon-
Consistency of gene essentiality predictions for dataset 2 and iAbaylyiv2 distributed by model metabolic categoriesFigure 7Consistency of gene essentiality predictions for dataset 2 and iAbaylyiv2 distributed by model metabolic cate-gories. Proportions of genes having inconsistent predictions for essentiality on succinate-supplemented minimal medium in iAbaylyiv2 are shown for each model metabolic category. Genes linked to several reactions may be associated with multiple cat-egories. For each metabolic category, absolute numbers of inconsistent (left) and consistent (right) gene essentiality predictions are provided.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$'
())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9"!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
Table 3: Inconsistent gene essentiality predictions identified in refinement steps 2 and 3 and corresponding corrections and interpretations
CORRECTION 56 NO CORRECTION 68BIOMASS 10 Validated explanation 6
biomass precursor not essential 9 experimental error 1ACIAD0076 (rmlB) D step 2 ACIAD0108 (lldD) D step 3ACIAD0078 (rmlD) D step 2 known gap in the understanding of pathway 4ACIAD0079 (rmlA) D step 2 ACIAD0856 (bioA) E step 2ACIAD0080 (rmlC) D step 2 ACIAD0857 (bioF) E step 2ACIAD0086 (epsM) D step 2 ACIAD0859 (bioD) E step 2ACIAD0099 (galU) D step 2 ACIAD2045 (bioB) E step 2ACIAD0101 (pgi) D step 2 unmodeled auxotrophy 1ACIAD0104 (manB) D step 2 ACIAD3523 (metE) E step 2ACIAD2429 (cyoE) D step 2 Hypothetical explanation 32
missing essential biomass precursor 1 ACIAD0178 (atpI) E step 2ACIAD1374 (ispU) E step 2 ACIAD0180 (atpB) E step 2
GPR 34 ACIAD0182 (atpE) E step 2
activity simultaneously requiring all genes 3 ACIAD0183 (atpF) E step 2ACIAD0661 (hisG) E step 2 ACIAD0184 (atpH) E step 2ACIAD1257 (hisZ) E step 2 ACIAD0185 (atpA) E step 2ACIAD3103 (ilvH) E step 2 ACIAD0186 (atpG) E step 2
gene associated to another essential reaction 1 ACIAD0187 (atpD) E step 2ACIAD2606 E step 2 ACIAD0188 (atpC) E step 2
isozyme not functional 22 ACIAD0556 (ndk) D step 2ACIAD0151 (guaA) E step 2 ACIAD0650 (argJ) E step 2ACIAD0249 (ribC) E step 2 ACIAD1150 (pyrC) E step 2ACIAD0871 (fabG) E step 2 ACIAD1346 (sodB) E step 2ACIAD1069 (lysS) E step 2 ACIAD1358 (rpiA) E step 2ACIAD1255 (epd) E step 2 ACIAD2282 (sahH) D step 2ACIAD1323 (purF) E step 2 ACIAD2314 (metZ) E step 2ACIAD1375 (cdsA) E step 2 ACIAD2458 (glnA) E step 2ACIAD1736 (accC) E step 2 ACIAD2842 (pckG) E step 2ACIAD1737 (accB) E step 2 ACIAD2847 (folD) E step 2ACIAD1925 (fda) E step 2 ACIAD3155 (mdh) E step 2ACIAD2227 (dctA) E step 2 ACIAD3349 (gltD) E step 2ACIAD2565 (gap) E step 2 ACIAD3350 (gltB) E step 2ACIAD2666 E step 2 ACIAD3470 (msuE) E step 2ACIAD2907 (prs) E step 2 ACIAD3506 (aceF) E step 2ACIAD3062 (folK) E step 2 ACIAD0101 (pgi) E step 3ACIAD3249 (ribA) E step 2 ACIAD0546 E step 3ACIAD3365 (murE) E step 2 ACIAD0556 (ndk) D step 3ACIAD3371 (gltX) E step 2 ACIAD1021 D step 3ACIAD1710 (pcaC) E step 3 ACIAD1707 (pcaB) E step 3ACIAD2018 (ald1) E step 3 ACIAD1711 (pcaH) E step 3
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$'
())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9?!0@!"?
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
ACIAD2088 (aspQ) E step 3 ACIAD1712 (pcaG) E step 3ACIAD2983 (gcd) E step 3 ACIAD1744 (aspA) E step 3
presence of an alternate enzyme 6 No precise interpretation 30
ACIAD1231 (argD) D step 2 ACIAD0072 (ugd) E step 2ACIAD1642 (uppP) D step 2 ACIAD0173 (rhtB) E step 2ACIAD2968 (ispA) D step 2 ACIAD0382 (ubiB) D step 2ACIAD1020 (acoL) D step 3 ACIAD0505 (purU1) E step 2ACIAD1715 (quiX) D step 3 ACIAD1482 (kdsD) D step 2ACIAD2984 D step 3 ACIAD1483 (kdsC) D step 2
spontaneously occurring reaction 1 ACIAD2283 (metF) D step 2ACIAD2819 D step 3 ACIAD2290 (cydA) E step 2
wrong complex subunit 1 ACIAD2525 E step 2ACIAD0799 D step 2 ACIAD2667 (pdxB) D step 2
NETWORK 12 ACIAD2788 E step 2
false alternate pathway in the model 7 ACIAD2880 (sdhA) D step 2ACIAD0239 (ppa) E step 2 ACIAD2911 (panD) D step 2ACIAD0547 (proA) E step 2 ACIAD3503 (guaB) E step 2ACIAD1105 (adk) E step 2 ACIAD3510 (lpxC) D step 2ACIAD1920 (glnS) E step 2 ACIAD0086 (epsM) E step 3ACIAD2560 (proB) E step 2 ACIAD0335 (fadB) E step 3ACIAD3032 (proC) E step 2 ACIAD0382 (ubiB) D step 3ACIAD0901 (dut) E step 2 ACIAD0922 E step 3
missing alternate pathway in the model 5 ACIAD2070 (metI) E step 3ACIAD0106 (lldP) D step 2 ACIAD2282 (sahH) D step 3ACIAD0451 (katA) D step 2 ACIAD2283 (metF) D step 3ACIAD0930 (glpK) D step 2 ACIAD2667 (pdxB) D step 3ACIAD1045 (metH) D step 2 ACIAD2755 E step 3ACIAD0106 (lldP) D step 3 ACIAD2875 (sucB) E step 3
ACIAD2876 (sucA) E step 3ACIAD2880 (sdhA) D step 3ACIAD2911 (panD) E step 3ACIAD3071 (cysM) E step 3ACIAD3549 (gshA) E step 3
Inconsistencies identified during the refinement steps using mutant library essentialities (step 2) and mutant growth phenotypes on 8 media (step 3). Inconsistencies leading to corrections (left column) are listed according to the model component that was corrected: GPR, NETWORK, and BIOMASS. Inconsistencies with no correction (right column) are listed according to the level of interpretation that could be drawn. Numbers provide the count of inconsistencies pertaining to each correction or interpretation category. For each inconsistency, E or D indicates the experimental phenotype of the mutant: E: gene is essential (on at least one medium for step 3), D gene is dispensable (on all media for step 3).
Table 3: Inconsistent gene essentiality predictions identified in refinement steps 2 and 3 and corresponding corrections and interpretations (Continued)
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
struction: genes thought to be isozymes were in factjointly required to catalyze the reactions. As an illustra-tion, ACIAD0661(hisG) and ACIAD1257 (hisZ) were ini-tially assigned as isozymes of ATPphosphoribosyltransferase reaction in the pathway of his-tidine biosynthesis (see Figure 8A). The observed essenti-ality of both genes suggested that they were both necessaryto the activity. Further examination of the literature con-firmed that, unlike in E. coli, ACIAD0661 forms a complexwith ACIAD1257 [35]. In E. coli, hisG codes for an enzymethat is active on its own and is not part of a complex.
Amongst the false essential predictions which led to mod-ifications of the GPR component, six cases involved asso-ciating additional enzymes to reactions. For instance,ACIAD2968 (ispA, farnesyl diphosphate synthase) wasobserved to be dispensable, even though it is the only cat-alyst of two reactions essential for the biosynthesis of iso-prenoids, which are the precursors of vital cofactors (seeFigure 8B). Previous work showed for E. coli that ispA wasdispensable and that ispB (octaprenyl diphosphate syn-thase) and ispU (undecaprenyl diphosphate synthase)could perform these activities [36]. A. baylyi's homologuesto these genes – ACIAD2940 (ispB) and ACIAD1374(ispU) – were therefore added as isozymes of ACIAD2968for both reactions (see Figure 8B).
The remaining types of GPR refinement involved associat-ing genes with already existing essential reactions(ACIAD2606: associated with nicotinate-nucleotide ade-nylyltransferase activity, which is essential for NAD bio-synthesis), adding new complex subunits (ACIAD0799:falsely considered as a sulfite reductase subunit andreplaced by ACIAD2981 after further investigations) orassigning spontaneous activity (ACIAD2819: encodes forgluconolactonase activity which has been shown to occur
spontaneously [37]). See Additional file 3 for furtherdetails on these corrections.
NETWORK correctionsTwelve gene essentiality inconsistencies from datasets 2and 3 led us to improve the NETWORK component of themodel (see Table 3). Two types of inconsistencies fallwithin this category. On the one hand, false dispensablepredictions may indicate that alternate pathways presentin the model are either inactive for the experimental con-ditions under observation or not present at all. Seven dis-crepant predictions led us to reconsider alternatepathways in the model. For instance, ACIAD0822,ACIAD0823, and ACIAD0824 (gatABC), annotated asaspartyl/glutamyl-tRNA amidotransferase, catalyzed iniAbaylyiv2 the synthesis of charged glutamine-tRNA andcharged asparagine-tRNA through the transamidation ofmisacylated glutamate-tRNA(Gln) and aspartate-tRNA(Asn) (see Figure 8C). Charged glutamine-tRNA canalso be produced by the direct charging of glutamine onits tRNA using the glutaminyl-tRNA synthetase enzyme(ACIAD1920, glnS), however. The observed essentiality ofACIAD1920 is inconsistent with the redundancy of thesetwo pathways, suggesting that the transamidation ofglutamate-tRNA(Gln) does not occur in vivo. Furthermore,aspartate-tRNA(asn) transamidation is actually the onlyway of producing asparagine, as A. baylyi is lacking bothasparagine synthetase and asparaginyl-tRNA synthetaseenzymes. This result strongly suggests that, in A. baylyi,ACIAD0822-0824 genes are predominantly employed forasparagine-tRNA synthesis. To account for ACIAD1920essentiality, we thus removed the glutamate-tRNA(Gln)transamidation pathway from the metabolic network.
On the other hand, false essential predictions may suggestthat alternate pathways are missing from the model. Cor-rections of this type involve searching for new metabolic
Table 4: Mutant phenotyping experiments: growth media and experimental results for genes included in iAbaylyiv3
Source of1 Essentiality Specific metabolic pathways a priori involved
Carbon nitrogen E D
acetate ammonia 5 431 Glyoxylate shuntL-asparagine ammonia 3 445 Asparagine and aspartate degradation
D-2,3-butanediol ammonia 10 433 Butanediol to acetoin to acetyl-coa degradation, glyoxylate shuntD-glucarate ammonia 5 413 Glucarate to 2-oxoglutarate degradation!-D-glucose ammonia 7 432 Entner-Doudoroff pathway
L-lactate ammonia 2 445 Lactate dehydrogenasequinate ammonia 8 436 Quinate to protocatechuate to acetyl-coa and succinyl-coa degradation
succinate urea 3 442 Urease
1 Italic text indicates the changed carbon or nitrogen source with respect to the medium used for mutant construction (succinate and ammonia).E: number of conditionally essential genesD: number of dispensable genes
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9'!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
Figure 8 (see legend on next page)
ACIAD0661 OR ACIAD1257
PRPP
phosphoribosyl-ATP
histidine
ACIAD0964 OR ACIAD2907
ribose-5-phosphate
ACIAD2968
dimethylallyl-PP
ACIAD2940
geranyl-PP
farnesyl-PP
octaprenyl-PPcofactors
undecaprenyl-PP
ACIAD1374
ACIAD0661 AND ACIAD1257
ACIAD2907
PRPP
phosphoribosyl-ATP
histidine
ribose-5-phosphate
dimethylallyl-PP
ACIAD2968 OR ACIAD2940OR ACIAD1374
ACIAD2940
geranyl-PP
farnesyl PP
octaprenyl-PPcofactors
undecaprenyl-PP
ACIAD1374
glutamine
glutamine-tRNA(gln)
protein
glutamate
glutamate-tRNA(gln)
ACIAD1920
ACIAD3371 ORACIAD0272
asparagine-tRNA(asn)
protein
aspartate
aspartate-tRNA(asn)
ACIAD0609
ACIAD0822 ANDACIAD0823 ANDACIAD0824
ACIAD0101
fructose-6-phosphate
ACIAD0104ACIAD0902 ORACIAD0104
ACIAD0086
UDP-glucose dTPD-rhamnose
ACIAD0076
GDP-mannose
ACIAD0086
ACIAD0822 ANDACIAD0823 ANDACIAD0824
glutamine
glutamine-tRNA(gln)
protein
ACIAD1920asparagine-tRNA(asn)
protein
aspartate
aspartate-tRNA(asn)
ACIAD0609
ACIAD0822 ANDACIAD0823 ANDACIAD0824
ACIAD0099
ACIAD0078
ACIAD0079
ACIAD0080
ACIAD0101
fructose-6-phosphate
ACIAD0104ACIAD0902 ORACIAD0104
ACIAD0086
UDP-glucose dTPD-rhamnose
ACIAD0076
GDP-mannose
ACIAD0086ACIAD0099
ACIAD0078ACIAD0079
ACIAD0080
protein protein
A
ACIAD2968 ACIAD2968 OR ACIAD2940OR ACIAD1374
iAbaylyi v2 iAbaylyi v3
B
C
D
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9?!0@!"A
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
activities, a task that is open-ended and exploratory innature and is likely to require additional experimentalwork. Five inconsistencies led to the addition of new reac-tions to the model, mainly for the transport of metabo-lites.
BIOMASS correctionsTen inconsistent gene essentiality predictions led to mod-ifications of the BIOMASS component (see Table 3). Falseessential inconsistencies can reveal biomass precursorsthat are not necessary to the viability of the cell on thetested environments, yet commonly produced by thewild-type strain. For instance, a large fraction of the BIO-MASS modifications (8/10) were found in the biosynthe-sis of polysaccharides. Based on studies of thelipopolysaccharides composition of Acinetobacter species[38,39], three nucleotide sugars were initially included inthe list of essential biomass precursors. All genes specifi-cally involved in the synthesis of these sugars were foundto be dispensable for growth on these in vitro environ-ments (see Figure 8D). Further investigations are neededto analyze the composition of polysaccharides in the cor-responding mutants and interpret the robustness to thesedeletions. Although dispensable in our experimentalgrowth conditions, complete polysaccharides are likely tobe essential on more realistic environments. Cell surfacepolysaccharides play an important role to help coloniza-tion and prevent desiccation while secreted polysaccha-rides are assumed to provide A. baylyi with better uptakecapabilities of hydrophobic compounds in natural envi-ronments [19,40]. In order to account for these viablephenotypes on our experimental conditions, all three sug-ars were removed from the list of biomass precursors.
Conversely, false dispensable inconsistencies mayuncover essential metabolites that were initially over-looked. For instance, undecaprenyl diphosphate, a cofac-tor required for the synthesis of peptidoglycan, was notpart of the biomass precursors list in iAbaylyiv2.ACIAD1374 (ispU, undecaprenyl pyrophosphate syn-thetase), involved in its synthesis, was observed essential,although predicted dispensable (see Figure 8B). As thiscofactor is regenerated during the peptidoglycan buildingprocess, its synthesis was actually not required at steadystate. We therefore added undecaprenyl diphosphate tothe list of essential metabolites in order to account for itsrequired synthesis and resolve the unpredicted essentialityof ACIAD1374. An alternate method was recently intro-duced to account for the non-constitutive requirement forcofactors [27]. Small consumption terms are added foreach cofactor in the equation of reactions involving them,thereby creating a replenishing flux of cofactor when reac-tions are active. This replenishing flux enforces the synthe-sis of the cofactor when required. While this methodallows discarding cofactors from the general biomassrequirements, it involves remodeling the reaction equa-tions in an artificial manner.
Interpretation of remaining inconsistenciesThe analysis of inconsistent predictions did not alwayslead to model refinement. Either the explanation of thediscrepancy did not lead to model refinement, or noexplanation interpreting the discrepancy could be vali-dated.
Six discrepancies were confidently interpreted yet did notlead to model modifications (see Table 3). In one case, weidentified a wrong experimental result. Four inconsisten-cies pertained to the pathway of biotin synthesis, whose
Model correction examplesFigure 8 (see previous page)Model correction examples. Examples of model corrections performed between iAbaylyiv2 (left) and iAbaylyiv3 (right) mod-els. Metabolites are depicted by blue circles and triangles, triangles indicating essential biomass precursors. Reactions are rep-resented by arrows colored in red if they are predicted essential and in green if they are predicted dispensable. Gene names are indicated next to reaction arrows; they are written in red if they are experimentally essential and in green if they are dis-pensable. Genes with inconsistent predictions are written in bold italic. Dashed boxes indicate components that have been modified. Further evidence for model corrections are shown in main text and Additional file 3. (A) First steps of histidine bio-synthesis. Unpredicted essentiality of ACIAD2907 encoding for ribose-phosphate diphosphokinase activity was corrected by removing the alternate gene ACIAD0964 from the reaction GPR. Unpredicted essentialities of ACIAD0661 and ACIAD1257, catalyzing the ATP phosphoribosyltransferase reaction, were corrected by assigning them as complex subunits instead of iso-zymes in the reaction GPR. (B) Isoprenoids biosynthesis. Unpredicted dispensability of ACIAD2968, catalyzing farnesyl-diphos-phate and geranyl-diphosphate synthases activities, was corrected by adding ACIAD1374 (undecaprenyl-diphosphate synthase) and ACIAD2940 (octaprenyl-diphosphate synthase) as isozymes. Unpredicted essentiality of ACIAD1374 was resolved by add-ing undecaprenyl-PP to the set of essential biomass precursors. (C) Synthesis of charged glutamine-tRNA(gln) and asparagine-tRNA(asn). Unpredicted essentiality of ACIAD1920, encoding for glutaminyl-tRNA synthetase activity, was corrected by removing from the model the alternate pathway using aspartyl/glutamyl-tRNA amidotransferase enzyme (ACIAD0822-0824). (D) Biosynthesis of polysaccharides. Unpredicted dispensabilities of all genes involved in GDP-mannose, UDP-glucose, and dTDP-rhamnose synthesis were corrected by removing these three metabolites from the list of essential biomass precursors.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9:!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
essentiality could not be accounted for by the model.Since the initial step of this pathway is unknown, it couldnot be linked to the metabolic network, preventing themodel from simulating biotin synthesis. One inconsist-ency was caused by a requirement for a cofactor that couldnot be modeled. Two different methionine synthaseenzymes catalyze the conversion of homocysteine tomethionine: one B12-independent encoded byACIAD3523 (metE) and one B12-dependent encoded byACIAD1045 (metH). Since coenzyme-B12 is neither syn-thesized by A. baylyi nor provided in the experimentalmedia, the !ACIAD3523 mutant was unable to use theMetH enzyme to synthesize methionine. The model couldnot account for this B12 auxotrophy of the !ACIAD3523mutant. In order to properly account for the dependencybetween MetH activity and the presence of a cofactor, thereplenishing flux method can be employed [27] or themodeling framework could be extended by introducingrules that state which conditions are required for theenzymes to be active. The introduction of this additionallayer of rules has already been proposed to account forregulatory constraints [41] and may be helpful to explaina number of inconsistent phenotypes.
For 62 inconsistencies, we could not reach a validatedexplanation within the scope of this global analysis (seeTable 3). For 32 of them, we could formulate hypotheticalinterpretations, all of which need experimental confirma-tion. A high proportion of these possible interpretationsinvolve regulatory processes. For instance, A. baylyi pos-sesses like E. coli two distinct enzymes for glutamate syn-thesis: glutamate synthase, encoded by ACIAD3350 (gltB)and ACIAD3349(gltD), and glutamate dehydrogenase,encoded by ACIAD1110 (gdhA). In E. coli, these pathwayswere shown to be regulated in response to nitrogen limi-tations [42]: glutamate synthase is used at low ammo-nium concentrations while glutamate dehydrogenase isused at high ammonium concentrations. E. coli strainslacking glutamate synthase show severe growth deficiencyat low ammonium concentrations [42]. Similarly,ACIAD3350 and ACIAD3349 were found essential in A.baylyi on the succinate-supplemented minimal medium.These phenotypes contradicted model predictions, whichconsidered the alternate pathway for glutamate synthesis.Further investigation would be required to fully under-stand the regulatory processes at work in this pathway forA. baylyi and extension of the modeling framework shouldbe conducted to account for regulatory processes withinthe model.
The remaining 30 inconsistencies could not be given aclear interpretation and also require further investiga-tions.
The final model: iAbaylyiv4
The overall refinement process led to the final modeliAbaylyiv4 gathering 774 genes, 875 reactions and 701metabolites (see Figure 1). iAbaylyiv4 integrates all refine-ments resulting from the three experimental datasetsintroduced in this work. Accordingly, its predictions areconsistent with the experimental results in 91% of thecases for dataset 1, 94% of the cases for dataset 2, and 94%of the cases for dataset 3. Compared with iAbaylyiv1, it wasexpanded by 19 reactions and 2 genes, while 3 reactionsand 16 genes were removed in the refinement process (seeFigure 1, Model corrections).
An online software tool for the exploration of Acinetobacter baylyi metabolismIn order to facilitate the exploration of A. baylyi metabo-lism using the genome scale model, we created NemoStu-dio [20] (Combe et al, in preparation), a web interfacecombining a simulation layer for the model with Acineto-Cyc, A. baylyi Pathway-Genome Database [21]. NemoStu-dio gathers data on functional genomics annotations,metabolic reactions and pathways, and experimentalmutant phenotyping results within a single interface.Additionally, it allows performing phenotype predictionsusing the constraint-based model.
AcinetoCyc gathers information on the metabolic net-work of A. baylyi and is used to display interactive meta-bolic maps. After its initial automated construction usingPathoLogic [21], AcinetoCyc has been undergoing con-stant curation. It includes all metabolic reactions presentin the model.
NemoStudio integrates the latest version of A. baylyi met-abolic model, iAbaylyiv4. Growth phenotype predictionscan be performed for any set of environmental conditionsand genetic perturbations of this study. We implementedboth Flux Balance Analysis (FBA) and Metabolite Produc-ibility methods to predict growth phenotypes (see Meth-ods). When performed on sets of environmentalconditions and sets of gene deletions, prediction resultsare displayed in a table format in parallel to the actualexperimental results. Predictions can thus be readily com-pared with the experimental observations. Furthermore,predicted and experimental phenotypes are both dis-played on AcinetoCyc metabolic maps, and converselygene deletions can be directly set from these metabolicmaps (see Figure 9). When performed for a single environ-ment and a single genetic perturbation, FBA predicts anoptimal flux distribution towards biomass production;these fluxes are both displayed in a table and on Acineto-Cyc metabolic pathways.
The availability of this resource as a web interface makesit easily usable by scientists interested in A. baylyi metabo-
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9$!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
lism. Compared with previous web-based software forgenome-scale metabolic modeling [27], the A. baylyiNemoStudio interface provides better interactivity, directvisualization of results on metabolic maps and integratedcomparison with experimental data. By interfacing asmuch as possible results deriving from systems level anal-yses with experimental data of various forms, it allows thesimultaneous exploitation of both information types.
ConclusionIn this work, we reconstructed a genome-scale model ofAcinetobacter baylyi metabolism from the annotation of itsgenome, metabolic knowledge reported in the literature,and results of high-throughput experiments. The modelprovides a curated and structured representation of thisspecies's metabolism for use both as a reference and as afoundation for further study. The reconstruction accountsfor 875 reactions, 701 distinct metabolites, and 774genes, and includes nearly all metabolic routes and bio-chemical conversions identified for A. baylyi. A significantproportion of reactions belong to pathways of secondarymetabolism that are characteristic of A. baylyi's physiologyand lifestyle. The model thus reflects the specific ability ofA. baylyi to utilize various chemicals originating fromplant metabolism, e.g. aromatic acids, hydroxylated aro-matic acids, or straight chain dicarboxylic acids. It may
assist or even drive future investigations on this bacte-rium, helping for instance interpret other types of experi-mental data beyond growth phenotypes, or engineer itsmetabolism. An increasing number of metabolic engi-neering strategies are being designed with the help ofgenome-scale metabolic model predictions [43,44]: theavailability of the A. baylyi model should facilitate effortstowards biotechnology goals. The A. baylyi model mayalso serve as a basis for the reconstruction of metabolicmodels of the pathogen strains Acinetobacter baumanii.These strains, which are involved in serious nosocomialinfections worldwide and have acquired multidrug-resist-ance capabilities[13], share a significant number of meta-bolic genes with A. baylyi [45]. This model is also thefourth genome-scale bacterial metabolic model to beaccompanied by an exhaustive mutant library (with E. coli[5,12], Bacillus subtilis [4,6], and Pseudomonas aeruginosaPAO1 [46,47]). The proximity between A. baylyi and P.aeruginosa, and to a lesser extent E. coli, and the availabilityof model/mutant library pairs provides an invaluablesetup for comparing the metabolism of different species[8].
Several rounds of comparisons of model predictions tolarge-scale experimental results led to significant modelimprovements. First, growth phenotypes of the wild-type
Screenshot of NemoStudio web interfaceFigure 9Screenshot of NemoStudio web interface. The web interface is divided in two parts. The left panel is dedicated to setting the analyses performed on the metabolic model. Simulated media, gene knockouts and type of analysis (metabolite producibil-ity or flux balance analysis, see Methods) can be set in this panel. The right panel displays results in various formats for the selected type of analysis. The "omics view" part maps the predicted and experimental results on AcinetoCyc metabolic maps.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!9<!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
strain on 190 distinct environments resulted in the addi-tion of 9 transporters and 2 pathways to the model. Afterimprovement, the model accounted correctly for thegrowth phenotypes on 173 of the 190 environments. Sec-ondly, we assessed the model against gene essentialityresults on 9 defined environments. In contrast with wild-type growth phenotypes, these data can bring indirectinformation on the gene functions or on the existence ofalternate pathways. Investigation on the causes of incon-sistencies led us to modify the model in 56 cases out of124 inconsistent predictions. All model components weremodified, the GPR component gathering most of theimprovements. The model accuracy in predicting mutantgrowth phenotypes increased from 88% to 94% on succi-nate-supplemented minimal medium and from 93% to94% for the combined conditional gene essentialityresults on 8 media. High-throughput phenotype clearlyimproved the quality of the model and expanded ourunderstanding of A. baylyi metabolism, providing a valua-ble complement to the annotation and the literature. Therefinement process was particularly useful in validating orcontradicting functional annotations that stood in the"grey zone", i.e. for which the annotation process pro-vided only medium-level evidence.
Conversely, the model allowed systematic evaluation ofthe results of these high-throughput experiments by com-paring them to its predictions. Inconsistencies directly tar-geted informative experimental results for which furtherinvestigation are required. As shown in this work, not allinconsistencies led to model improvements. Some ofthem could be interpreted in terms of biological processeslying outside the scope of the modeling framework, prob-ably regulation in most cases. In addition, a significantnumber of discrepancies reported in this work remainedunexplained or led to hypotheses in need of confirmationthrough further study.
The process described here was driven by expert curation:each inconsistency was manually examined in order tosearch for an interpretation and a possible model correc-tion, a labor-intensive proposition. The systematic use ofsuch experimental data for model refinements would begreatly facilitated by the development of computationalmethods assisting the curator with his task, however. Anumber of methods have been developed to search forvariants of model which match better with additionalexperimental data, mainly by seeking additions or remov-als of reactions in the metabolic network [48,49]. Thesemethods have already proven efficient at suggesting met-abolic pathways that account for previously unexplainedgrowth on specific environments [48]. While they can beadapted to handle growth phenotypes of knockoutmutant strains, they do not involve the gene-reactionassociation component of the model, which is shown
here to be the main area of model improvement. The asso-ciation between genes and reactions can be complex asregulatory constraints may interfere with the actual genefunction assignments. Computational strategies are there-fore needed to help interpret the consequences of geneessentiality data on gene activities.
Deriving the full benefits from a metabolic model entailboth accessing its components and using its predictivecapabilities. We realized the former by providing access toa detailed metabolic pathways database, the latterthrough a software tool that performs online predictions,both being coupled at the level of genes and reactions andaccessible through a single, highly-interactive interface.This interface allows end-users to carry systems level pre-dictions, and compare them with corresponding experi-mental observations, putting the consequences ofmodeling in the context of the detailed biological infor-mation that went into the model. This tool should there-fore provide researchers interested in A. baylyi metabolismwith a valuable resource for investigating its phenotypicand physiological properties.
MethodsInitial reconstruction processThe initial reconstruction of the metabolic network wascarried out using data provided by (i) the genome expertannotation [19], (ii) the BioCyc metabolic pathway data-base automatically generated from these annotations [21]and (iii) various literature resources on biochemistry,including textbooks, reviews and journal publications(see Additional file 2). The genome annotation wasdownloaded from the MaGe interface [50,51] and used asinput of the Pathway Tools software [21] in order to gen-erate a BioCyc automatic reconstruction of the metabolicnetwork. The predicted pathways were classified into 7metabolic categories (central metabolism, nucleotidemetabolism, amino acids metabolism, lipid & cell wallmetabolism, degradation pathways, cofactor biosynthe-sis, transport) and examined manually before beingincluded in the model. In order to meet the requirementsof the modeling framework the mass balance and reversi-bility of the reactions were checked.
Reversibility of the reactions was determined from litera-ture evidence when available or based on simple thermo-dynamic considerations [52]. Proton translocationefficiencies of reactions of the respiratory chain wereassumed to be similar to those of E. coli [53]. Resulting P/O ratio can range between 0.5 to 2, depending on thetypes of cytochrome oxidase and NADH dehydrogenasethat are used. Reactions using generic compounds (forexample a nitrile or a polymer of undetermined length)were instantiated with defined representative metabolites.In this respect, polymeric pathways were expanded into
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!"#!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
chains of specific reactions. Large polymeric moleculessuch as the acyl carrier protein (ACP) or tRNAs wereincluded in the model when they were involved as sub-strate cofactors of biochemical reactions. Their specificsynthesis was not considered in the model. Dependencybetween reactions and genes were coded by Gene-Protein-Reaction (GPR) Boolean relationships (see below). Usingthe Cyclone interface to BioCyc [54], we implemented asimple method based on gene homologies betweenEscherichia coli and Acinetobacter baylyi to infer enzymecomplexes and find AND Boolean associations betweengenes. Information from the literature was used to closegaps in the metabolic pathways, include pathways specificto A. baylyi that were unknown to the metabolic data-bases, and check the predicted pathways, for instance forthe specificity of the cofactors. Physiological informationderived from the literature [15,55-59] was used togetherwith genome annotation tools, e.g. TransportDB [60], toadd transport reactions in the model. A generic transportreaction was added to the model for each metaboliteshown to be utilized by A. baylyi. A fixed biomass compo-sition was chosen according to data found in the literaturefor strains growing on standard media (see Additional file4). This biomass composition was used to build thereduced list of essential biomass precursors and derive abiomass reaction for Flux Balance Analyses (see below).To help properly account for all metabolic requirementsassociated with growth, we decomposed the biomass reac-tion into a set of intermediary biomass reactions synthe-sizing generic cell constituents (e.g. protein, DNA, RNA,or lipid) from precursor metabolites and a global growthreaction consuming them according to the chosen bio-mass composition. See Additional file 4 for details onthese reactions.
Modeling frameworkThe metabolic model is composed of three components,namely GPR, NETWORK and BIOMASS. The GPR compo-nent models the dependency between genes and reactionsusing Boolean functions usually called gene-protein-reac-tion (GPR) associations [22]). For each reaction, aBoolean rule encodes how genes are related to the activity.Genes that are required together are linked with an ANDrelation while isofunctional genes are linked with an ORrelation. The set of GPR associations yields the set ofpotentially active reactions given the set of availablegenes.
The NETWORK component models the metabolic net-work using the constraint-based modeling framework [3].This framework describes the distributions of reactionfluxes that are compatible with constraints that derivefrom basic physical assumptions or specific biologicalinformation. They are usually formulated as linear con-straints, which allow to explore the fluxes solution space
using linear programming tools. The main constraint isimposed by the steady-state assumption, represented bythe matrix equation:
S·v = 0
where S is the stoichiometric matrix of the metabolic net-work and ! the vector of reaction fluxes. The stoichiomet-ric matrix is a matrix of size (m ! n) where m is the numberof metabolites and n the number of reactions. Each ele-ment Si,j of the matrix represents the relative stoichiomet-ric coefficient of metabolite i in reaction j. Additionalconstraints on the fluxes, such as irreversibility and capac-ity constraints, are imposed by inequalities in the form:
!lb, i " !i " !ub, i
where !lb,i and !ub,i are respectively the lower and upperbounds of the flux of reaction i.
Environmental conditions are applied to the model byconstraining the exchange fluxes of extracellular metabo-lites. Exchange fluxes are sink reactions allowing to con-trol the input or output of metabolites in the model. Theyare constrained to 0 " !i " # for metabolites absent fromthe medium and -# " !i " # for metabolites present in themedium, except for limiting nutrients for which a maxi-mum uptake rate is chosen (-!uptake " !i " #). When simu-lating the metabolic network of a knockout mutant, theactivity of each reaction is determined by evaluating itsGPR association according to the set of removed genes.Fluxes of the inactivated reactions are constrained to beequal to zero.
The BIOMASS component models the essential metabolicrequirements for growth. It consists of a list of metabolitesthat are considered to be essential biomass precursors.Growth phenotype is therefore determined by checkingtheir producibility [26]. To do so, the steady-state con-straints for the essential biomass precursors are changedto strict producibility constraints:
where Sinternal is the stoichiometric matrix without the bio-mass precursors, Sbiomass precursors the stoichiometric matrixrestricted to the biomass precursors and $ a vector of smallreals, taken as 10-3. Linear programming tools are used toquery for a flux distribution fulfilling this set of con-straints. If a flux distribution could be found, the modelpredicted growth, otherwise it predicted no growth.
S
Sinternal
biomassprecursors
lb i i ub i
! =! "
# #
$%&
'&
!
! $
! ! !
0
, ,
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!"9!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
In order to assess quantitative growth defects, Flux Bal-ance Analyses (FBA) were performed [3]. A biomass reac-tion was introduced in the model to quantitativelyaccount for the respective contributions of constituentmetabolites in the biomass composition (see Additionalfile 4). Using linear programming, the flux through thisreaction was maximized under all constraints, represent-ing the maximal growth rate achievable by the model.Energetic parameters, including growth associated (GAM)and non growth associated (NGAM) maintenance fluxes,were assumed to be similar to those of E. coli model [22].We chose to set NGAM to a constant ATP hydrolysis fluxof 10 mmol/h/gDW and GAM to a value of 40 mmol/gDW of ATP in the growth reaction. In all simulations,upper bounds of nutrient exchange fluxes were set to 10mmol/h/gDW for carbon sources and 100 mmol/h/gDWfor other nutrients (see Additional file 2).
Model simulations were performed within FluxAnalyzer[61] and MATLAB® (The MathWorks Inc., Natick, MA)using the YALMIP optimization toolbox [62] and MOSEKoptimization solver (Mosek ApS, Copenhagen, Den-mark).
Availability of metabolic modelThe metabolic model is available both as Excel and SBMLfiles (see Additional files 2 and 5) and will be submittedto the Biomodels.net repository [63]. Whenever possible,cross-references for the model reactions and species toAcinetoCyc [20], KEGG [64] and BiGG [65] databases areprovided.
The model is accessible through the NemoStudio webinterface [20]. NemoStudio supports growth phenotypepredictions, and comparison to experimental results, aswell as browsing of model pathways through an interfacewith AcinetoCyc [20].
Growth phenotyping of the wild-type strainGrowth phenotyping experiments of A. baylyi were per-formed by Biolog, Inc. (Hayward, CA) following experi-mental procedures described in [66]. Basically, growth ofwild-type strains of A. baylyi was monitored in PM1 andPM2 microplates containing a defined minimal mediumsupplemented with 190 distinct carbon sources. TheBiolog quantitative growth measures were discretized toyield growth/no-growth qualitative phenotypes by choos-ing thresholds based on the negative growth controlmeasures and previously known growth phenotypes for A.baylyi. Growth phenotypes that were inconsistent withmodel predictions were checked by examining resultsfrom previous work [15], or retesting them individually.Detailed results of Biolog experiments are provided inAdditional file 3.
Growth phenotyping of the mutant strainsDetailed experimental protocol for the growth phenotyp-ing of the mutant strains is described in [8]. Basically,using 96-wells plates, the mutant strains were grown inliquid MA minimal media (31 mM Na2HPO4, 25 mMKH2PO4, 18 mM NH4Cl, 41 !M nitrilotriacetic acid, 2mM MgSO4, 0.45 mM CaCl2, 3 !M FeCl3, 1 !M MnCl2,1 !M ZnCl2, 0.3 !M (CrCl3, H3BO3, CoCl2, CuCl2,NiCl2, Na2NoO4, Na2SeO3)) supplemented with 25mM of carbon sources. Succinate/urea medium was com-posed of MA minimal medium without NH4Cl supple-mented with 25 mM of succinate and 20 mM of urea.Absorbance at 600 nm of 24 h cultures was measured tomonitor growth. Experiments were performed in dupli-cates. Measures with discrepant repeats or with weak pre-cultures were discarded from the analyses. Repeats werefiltered according to the following rule: a measure waskept if either (1) both repeats were under the growththreshold or (2) the relative difference between therepeats was lower than 50% of the highest value. A thresh-old of a tenth of the mean absorbance was chosen to clas-sify the mutants in growth or no growth categories. Thisthreshold was chosen particularly low in order to consideras essential only mutants with marked fitness defect.
Authors' contributionsMD reconstructed the initial model, performed modelpredictions, interpreted inconsistent phenotypes, appliedmodel corrections, and wrote the manuscript. FLF recon-structed the initial model and developed the NemoStudiosoftware tool. VDB participated in the experimental phe-notyping and the interpretation of inconsistent pheno-types. AK and DV participated in the initial reconstructionand the interpretation of inconsistent phenotypes. CCand SS developed the NemoStudio software tool. MS par-ticipated in the experimental phenotyping and the inter-pretation of inconsistent phenotypes. JW participated inthe design and the coordination of the study. VS con-ceived of the study, participated in its design and coordi-nation, and contributed to writing the manuscript. Allauthors read and approved the final manuscript.
Additional material
Additional file 1Sensitivity on GAM and NGAM parameters of growth rate predic-tions. This file contains two plots showing the effect of changing growth associated (GAM) and non growth associated (NGAM) maintenance parameters on quantitative growth rate predictions with iAbaylyiv4.Click here for file[http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-S1.pdf]
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!""!0?!"@
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
AcknowledgementsWe would like to thank Pierre-Yves Bourguignon for comments and insightful discussions on this work. We are also grateful to Georges Cohen, Cécile Fischer, Alain Perret, and Agnès Pinet for their help on the fine points of A. baylyi biochemistry. We wish to thank the reviewers for their help in improving the manuscript.
We are grateful for the support of the European Networks of Excellence BIOSAPIENS (contract LSHG-CT-2003-503265) and ENFIN (contract LSHG-CT-2005-518254).
References1. Joyce AR, Palsson BØ: The model organism as a system: inte-
grating 'omics' data sets. Nat Rev Mol Cell Biol 2006, 7:198-210.2. Reed JL, Famili I, Thiele I, Palsson BO: Towards multidimensional
genome annotation. Nat Rev Genet 2006, 7:130-141.3. Price ND, Reed JL, Palsson BO: Genome-scale models of micro-
bial cells: evaluating the consequences of constraints. Nat RevMicrobiol 2004, 2:886-897.
4. Oh Y-K, Palsson BO, Park SM, Schilling CH, Mahadevan R: Genome-scale reconstruction of metabolic network in bacillus subtilisbased on high-throughput phenotyping and gene essentialitydata. J Biol Chem 2007.
5. Baba T, Ara T, Hasegawa M, Takai Y, Okumura Y, Baba M, DatsenkoKA, Tomita M, Wanner BL, Mori H: Construction of Escherichiacoli K-12 in-frame, single-gene knockout mutants: the Keiocollection. Mol Syst Biol 2006, 2:2006.0008..
6. Kobayashi K, Ehrlich SD, Albertini A, Amati G, Andersen KK, ArnaudM, Asai K, Ashikaga S, Aymerich S, Bessieres P, et al.: Essential Bacil-lus subtilis genes. Proc Natl Acad Sci USA 2003, 100:4678-4683.
7. Liberati NT, Urbach JM, Miyata S, Lee DG, Drenkard E, Wu G, Vil-lanueva J, Wei T, Ausubel FM: An ordered, nonredundant libraryof Pseudomonas aeruginosa strain PA14 transposon inser-tion mutants. Proc Natl Acad Sci USA 2006, 103:2833-2838.
8. de Berardinis V, Vallenet D, Castelli V, Besnard M, Pinet A, Cruaud C,Samair S, Lechaplais C, Gyapay G, Richez C, et al.: A complete col-lection of single-gene deletion mutants of Acinetobacterbaylyi ADP1. Mol Syst Biol 2008, 4:174.
9. Gerdes S, Edwards R, Kubal M, Fonstein M, Stevens R, Osterman A:Essential genes on metabolic maps. Curr Opin Biotechnol 2006,17:448-456.
10. Papp B, Pál C, Hurst LD: Metabolic network analysis of thecauses and evolution of enzyme dispensability in yeast.Nature 2004, 429:661-664.
11. Duarte NC, Herrgard MJ, Palsson BO: Reconstruction and valida-tion of Saccharomyces cerevisiae iND750, a fully compart-mentalized genome-scale metabolic model. Genome Res 2004,14:1298-1309.
12. Feist AM, Henry CS, Reed JL, Krummenacker M, Joyce AR, Karp PD,Broadbelt LJ, Hatzimanikatis V, Palsson BØ: A genome-scale met-abolic reconstruction for Escherichia coli K-12 MG1655 thataccounts for 1260 ORFs and thermodynamic information.Mol Syst Biol 2007, 3:121.
13. Bergogne-Bérézin E, Towner KJ: Acinetobacter spp. as nosoco-mial pathogens: microbiological, clinical, and epidemiologi-cal features. Clin Microbiol Rev 1996, 9:148-165.
14. Metzgar D, Bacher JM, Pezo V, Reader J, Döring V, Schimmel P, Mar-lière P, de Crécy-Lagard V: Acinetobacter sp. ADP1: an idealmodel organism for genetic analysis and genome engineer-ing. Nucleic Acids Res 2004, 32:5780-5790.
15. Vaneechoutte M, Young DM, Ornston LN, Baere TD, Nemec A, Rei-jden TVD, Carr E, Tjernberg I, Dijkshoorn L: Naturally transform-able Acinetobacter sp. strain ADP1 belongs to the newlydescribed species Acinetobacter baylyi. Appl Environ Microbiol2006, 72:932-936.
16. Young DM, Parke D, Ornston LN: Opportunities for geneticinvestigation afforded by Acinetobacter baylyi, a nutrition-ally versatile bacterial species that is highly competent fornatural transformation. Annu Rev Microbiol 2005, 59:519-551.
17. Gutnick DL, Bach H: Potential Application of Acinetobacter inBiotechnology. In Acinetobacter Molecular Biology 1st edition. Ger-ischer U: Caister Academic Press; 2008:231-264.
18. Abdel-El-Haleem D: Acinetobacter: environmental and bio-technological applications. Afr J Biotechnol 2003, 2:71-74.
19. Barbe V, Vallenet D, Fonknechten N, Kreimeyer A, Oztas S, LabarreL, Cruveiller S, Robert C, Duprat S, Wincker P, et al.: Unique fea-tures revealed by the genome sequence of Acinetobacter sp.ADP1, a versatile and naturally transformation competentbacterium. Nucleic Acids Res 2004, 32:5766-5779.
20. A. baylyi NemoStudio: Acinetobacter baylyi ADP1 modelwebsite [http://www.genoscope.cns.fr/nemostudio-platform/]
21. Karp PD, Paley S, Romero P: The Pathway Tools software. Bioin-formatics 2002, 18(Suppl 1):S225-232.
22. Reed JL, Vo TD, Schilling CH, Palsson BO: An expanded genome-scale model of Escherichia coli K-12 (iJR904 GSM/GPR).Genome Biol 2003, 4:R54.
23. Keseler IM, Collado-Vides J, Gama-Castro S, Ingraham J, Paley S,Paulsen IT, Peralta-Gil M, Karp PD: EcoCyc: a comprehensivedatabase resource for Escherichia coli. Nucleic Acids Res 2005,33:D334-337.
24. Abbott BJ, Laskin AI, McCoy CJ: Effect of growth rate and nutri-ent limitation on the composition and biomass yield of Aci-netobacter calcoaceticus. Appl Microbiol 1974, 28:58-63.
25. du Preez JC, Lategan PM, Toerien DF: Influence of the growthrate on the macromolecular composition of A cinetobactercalcoaceticus in carbon-limited chemostat culture. FEMSMicrobiology Letters 1984, 23:71-75.
26. Imielinski M, Belta C, Halasz A, Rubin H: Investigating metaboliteessentiality through genome-scale analysis of Escherichiacoli production capabilities. Bioinformatics 2005, 21:2008-2016.
27. Beste D, Hooper T, Stewart G, Bonde B, Avignone-Rossa C, BushellM, Wheeler P, Klamt S, Kierzek A, McFadden J: GSMN-TB: a web-based genome scale network model of Mycobacteriumtuberculosis metabolism. Genome Biol 2007, 8:R89.
28. Lewis JA, Escalante-Semerena JC: The FAD-dependent tricarbal-lylate dehydrogenase (TcuA) enzyme of Salmonella enterica
Additional file 2Genome-scale metabolic models. This file contains the description of all model versions as well as information on reactions, species, biomass pre-cursors, modeled environments and literature references used for the model reconstruction.Click here for file[http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-S2.xls]
Additional file 3Experimental data and model refinements. This file gathers the experi-mental results used for model refinements, the model predictions, and the corrections/interpretations associated to the inconsistent predictions.Click here for file[http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-S3.xls]
Additional file 4Determination of biomass composition of A. baylyi. This file gathers all information used to reconstruct the biomass assembly reactions in the met-abolic model.Click here for file[http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-S4.xls]
Additional file 5Genome-scale metabolic model in SBML format. This file contains the latest model iAbaylyiv4 in SBML format http://www.sbml.org.Click here for file[http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-S5.xml]
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Publish with BioMed Central and every scientist can read your work free of charge
"BioMed Central will be the most significant development for disseminating the results of biomedical research in our lifetime."
Sir Paul Nurse, Cancer Research UK
Your research papers will be:available free of charge to the entire biomedical community
peer reviewed and published immediately upon acceptance
cited in PubMed and archived on PubMed Central
yours — you keep the copyright
Submit your manuscript here:http://www.biomedcentral.com/info/publishing_adv.asp
BioMedcentral
!"#$%&'()*'$!+,-,.&!"##$%!!&$' ())*&++,,,-./0123425)678-401+9:'";#'#<+"+$'
=7>2!"?!0@!"?
/01.)$23*4)5$2,($6,5$7+(1(+,2$0350,')'8
converts tricarballylate into cis-aconitate. J Bacteriol 2006,188:5479-5486.
29. Lewis JA, Horswill AR, Schwem BE, Escalante-Semerena JC: The Tri-carballylate utilization (tcuRABC) genes of Salmonellaenterica serovar Typhimurium LT2. J Bacteriol 2004,186:1629-1637.
30. Taylor WH, Juni E: Pathways for biosynthesis of a bacterial cap-sular polysaccharide. I. Carbohydrate metabolism and ter-minal oxidation mechanisms of a capsuleproducing coccus. JBacteriol 1961, 81:694-703.
31. Schneider BL, Kiupakis AK, Reitzer LJ: Arginine catabolism andthe arginine succinyltransferase pathway in Escherichia coli.J Bacteriol 1998, 180:4278-4286.
32. Hove-Jensen B, Harlow KW, King CJ, Switzer RL: Phosphoribo-sylpyrophosphate synthetase of Escherichia coli. Propertiesof the purified enzyme and primary structure of the prsgene. J Biol Chem 1986, 261:6765-6771.
33. Lawther RP, Wek RC, Lopes JM, Pereira R, Taillon BE, Hatfield GW:The complete nucleotide sequence of the ilvGMEDA operonof Escherichia coli K-12. Nucleic Acids Res 1987, 15:2137-2155.
34. Velasco JA, Cansado J, Peña MC, Kawakami T, Laborda J, Notario V:Cloning of the dihydroxyacid dehydratase-encoding gene(ILV3) from Saccharomyces cerevisiae. Gene 1993,137:179-185.
35. Sissler M, Delorme C, Bond J, Ehrlich SD, Renault P, Francklyn C: Anaminoacyl-tRNA synthetase paralog with a catalytic role inhistidine biosynthesis. Proc Natl Acad Sci USA 1999, 96:8985-8990.
36. Fujisaki S, Takahashi I, Hara H, Horiuchi K, Nishino T, Nishimura Y:Disruption of the structural gene for farnesyl diphosphatesynthase in Escherichia coli. J Biochem (Tokyo) 2005,137:395-400.
37. Parke SA, Birch GG, MacDougall DB, Stevens DA: Tastes, struc-ture and solution properties of D-glucono-1,5-lactone. ChemSenses 1997, 22:53-65.
38. Bryan BA, Linhardt RJ, Daniels L: Variation in composition andyield of exopolysaccharides produced by Klebsiella sp. strainK32 and Acinetobacter calcoaceticus BD4. Appl Environ Micro-biol 1986, 51:1304-1308.
39. Thorne KJ, Thornley MJ, Glauert AM: Chemical analysis of theouter membrane and other layers of the cell envelope of Aci-netobacter sp. J Bacteriol 1973, 116:410-417.
40. Kaplan N, Zosim Z, Rosenberg E: Reconstitution of emulsifyingactivity of Acinetobacter calcoaceticus BD4 emulsan byusing pure polysaccharide and protein. Appl Environ Microbiol1987, 53:440-446.
41. Covert MW, Palsson BO: Constraints-based models: regulationof gene expression reduces the steady-state solution space.J Theor Biol 2003, 221:309-325.
42. Reitzer LJ: Ammonia assimilation and the biosynthesis ofglutamine, glutamate, aspartate, asparagine, L-alanine, andD-alanine. In Escherichia coli and Salmonella: cellular and molecular biol-ogy Volume 1. Edited by: Neidhart FC. Washington, D.C.: ASM Press;1996:391-407.
43. Burgard AP, Pharkya P, Maranas CD: Optknock: a bilevel pro-gramming framework for identifying gene knockout strate-gies for microbial strain optimization. Biotechnol Bioeng 2003,84:647-657.
44. Pharkya P, Burgard AP, Maranas CD: OptStrain: a computationalframework for redesign of microbial production systems.Genome Res 2004, 14:2367-2376.
45. Vallenet D, Nordmann P, Barbe V, Poirel L, Mangenot S, Bataille E,Dossat C, Gas S, Kreimeyer A, Lenoble P, et al.: Comparative anal-ysis of Acinetobacters: three genomes for three lifestyles.PLoS ONE 2008, 3:e1805.
46. Jacobs MA, Alwood A, Thaipisuttikul I, Spencer D, Haugen E, Ernst S,Will O, Kaul R, Raymond C, Levy R, et al.: Comprehensive trans-poson mutant library of Pseudomonas aeruginosa. Proc NatlAcad Sci USA 2003, 100:14339-14344.
47. Oberhardt MA, Puchalka J, Fryer KE, Santos VAPMD, Papin JA:Genome-scale metabolic network analysis of the opportun-istic pathogen Pseudomonas aeruginosa PAO1. J Bacteriol2008, 190:2790-2803.
48. Reed JL, Patel TR, Chen KH, Joyce AR, Applebee MK, Herring CD,Bui OT, Knight EM, Fong SS, Palsson BO: Systems approach torefining genome annotation. Proc Natl Acad Sci USA 2006,103:17480-17484.
49. Herrgård MJ, Fong SS, Palsson BØ: Identification of genome-scalemetabolic network models using experimentally measuredflux profiles. PLoS Comput Biol 2006, 2:e72.
50. MaGe (Magnifying Genomes) – Microbial Genome Annota-tion System [http://www.genoscope.cns.fr/agc/mage/]
51. Vallenet D, Labarre L, Rouy Z, Barbe V, Bocs S, Cruveiller S, Lajus A,Pascal G, Scarpelli C, Médigue C: MaGe: a microbial genomeannotation system supported by synteny results. Nucleic AcidsRes 2006, 34:53-65.
52. Ma H, Zeng A-P: Reconstruction of metabolic networks fromgenome data and analysis of their global structure for vari-ous organisms. Bioinformatics 2003, 19:270-277.
53. Gennis RB, Stewart V: Respiration. In Escherichia coli and Salmonella:cellular and molecular biology Volume 1. Edited by: Neidhardt FC. Wash-ington, D.C.: ASM Press; 1996:217-261.
54. Le Fevre F, Smidtas S, Schachter V: Cyclone: Java-based queryingand computing with Pathway Genome Databases. Bioinfor-matics 2007.
55. Williams PA, Ray CM: Catabolism of Aromatic Compounds byAcinetobacter. In Acinetobacter Molecular Biology 1st edition. Ger-ischer U: Caister Academic Press; 2008:99-117.
56. Eby DM, Beharry ZM, Coulter ED, Kurtz DM, Neidle EL: Character-ization and evolution of anthranilate 1,2-dioxygenase fromAcinetobacter sp. strain ADP1. J Bacteriol 2001, 183:109-118.
57. Jones RM, Collier LS, Neidle EL, Williams PA: areABC genesdetermine the catabolism of aryl esters in Acinetobacter sp.Strain ADP1. J Bacteriol 1999, 181:4568-4575.
58. Jones RM, Pagmantidis V, Williams PA: sal genes determining thecatabolism of salicylate esters are part of a supraoperoniccluster of catabolic genes in Acinetobacter sp. strain ADP1.J Bacteriol 2000, 182:2018-2025.
59. Ratajczak A, Geissdörfer W, Hillen W: Alkane hydroxylase fromAcinetobacter sp. strain ADP1 is encoded by alkM andbelongs to a new family of bacterial integral-membranehydrocarbon hydroxylases. Appl Environ Microbiol 1998,64:1175-1179.
60. Ren Q, Kang KH, Paulsen IT: TransportDB: a relational databaseof cellular membrane transport systems. Nucleic Acids Res2004, 32:D284-D288.
61. Klamt S, Stelling J, Ginkel M, Gilles ED: FluxAnalyzer: exploringstructure, pathways, and flux distributions in metabolic net-works on interactive flux maps. Bioinformatics 2003, 19:261-269.
62. Löfberg J: YALMIP: A Toolbox for Modeling and Optimizationin MATLAB. Proceedings of the CACSD Conference; Taipei, Taiwan2004.
63. BioModels Database [http://www.ebi.ac.uk/biomodels/]64. KEGG: Kyoto Encyclopedia of Genes and Genomes [http://
www.genome.jp/kegg/]65. BiGG Database [http://bigg.ucsd.edu/]66. Bochner BR, Gadzinski P, Panomitros E: Phenotype microarrays
for high-throughput phenotypic testing and assay of genefunction. Genome Res 2001, 11:1246-1255.
67. Peterson JD, Umayam LA, Dickinson T, Hickey EK, White O: TheComprehensive Microbial Resource. Nucleic Acids Res 2001,29:123-125.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
131
9 Synthèse
9.1 Le modèle confronte efficacement données phénotypiques et connaissance du métabolisme
Comme soulevé dans l’introduction de cette thèse, l’interprétation à l’échelle
moléculaire des phénotypes de croissance d’un organisme nécessite de prendre en
compte une large variété de processus biologiques. L’utilisation d’un modèle
métabolique global permet d’orienter cette interprétation du point de vue du
métabolisme. En effet, le fonctionnement de l’ensemble des processus métaboliques y
est explicitement modélisé et leur lien à la croissance est pris en compte à l’aide d’une
réaction de biomasse ou d’une liste de métabolites précurseurs essentiels à la
croissance. La définition de ces dernières regroupe en quelque sorte l’action de tous
les autres processus biologiques non modélisés contribuant à la croissance et permet
effectivement de relier l’action du métabolisme aux phénotypes. En d’autres termes,
l’utilisation conjointe d’un modèle (mécaniste) du métabolisme et d’une réaction de
biomasse permet d’étudier isolément le rôle du métabolisme dans l’établissement des
phénotypes de croissance.
Le modèle tient compte explicitement de plusieurs composantes du métabolisme :
principalement (1) des voies de conversions métaboliques, menant des nutriments aux
précurseurs essentiels, (2) des voies de régénération des cofacteurs énergétiques, et
(3) des associations entre gènes et réactions, représentant la fonction biochimique des
enzymes. Leurs contributions aux phénotypes sont ainsi directement prises en compte
dans le modèle. En particulier, l’effet sur les phénotypes d’un changement
d’environnement de croissance62 ou de la délétion d’un gène de fonction métabolique
– l’objet des travaux expérimentaux utilisés ici – peuvent être prédit et expliqué par le
modèle.
62 Dans l’hypothèse où la liste des précurseurs essentiels de biomasse ne change pas avec l’environnement. Cette hypothèse, relativement correcte pour des environnements proches (p. ex. les différents milieux minimaux utilisés ici), peut devenir complètement fausse lorsque les environnements exigent des adaptations physiologiques différentes de la cellule. Nous en discuterons plus en détail dans la section sur les limites de l’approche (section 9.4).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
132
Le modèle étant construit à partir de la connaissance actuelle du métabolisme, il
prédit les phénotypes attendus d’après cette connaissance. Leur comparaison aux
phénotypes observés expérimentalement permet alors de confronter indirectement
cette connaissance locale aux observations phénotypiques et d’identifier ainsi des
incohérences potentielles entre les deux échelles. Alors que les phénotypes cohérents
corroborent d’une certaine manière la connaissance du métabolisme, les phénotypes
incohérents y pointent potentiellement des erreurs ou des lacunes. Ils constituent de ce
fait un point de départ pour des investigations ultérieures qui permettront de
compléter la connaissance du métabolisme. Ce raisonnement peut être effectué
« manuellement » pour interpréter les phénotypes ; l’article présentant la banque de
mutants d’A. baylyi illustre d’ailleurs ce raisonnement pour quelques voies
métaboliques précises : biosynthèse de la méthionine, du pantothénate et de
l’ubiquinone (de Berardinis et al. 2008). Cependant, l’utilisation du modèle permet de
l’automatiser et de confronter ainsi systématiquement tous les phénotypes observés
aux phénotypes attendus. De cette manière, tous les phénotypes observés sont évalués
en regard du fonctionnement attendu du métabolisme et les phénotypes incohérents
sont directement détectés. Avec plus de 4500 phénotypes de croissance63 à examiner
dans le cas d’A. baylyi, le gain apporté par la prédiction automatique des phénotypes
attendus est notable.
Le travail réalisé sur A. baylyi nous a montré que les données phénotypiques
complètent utilement celles utilisées pour reconstruire le modèle métabolique initial
(annotation du génome et connaissance initiale de quelques voies métaboliques). Ce
constat s’applique aussi bien aux phénotypes de croissance de la souche sauvage sur
les nombreux environnements Biolog – qui ont contribué à compléter la connaissance
des capacités de transport et de catabolisme – qu’aux phénotypes de mutants – qui ont
participé à évaluer le fonctionnement des voies métaboliques. Une partie significative
des annotations et des voies métaboliques ont en effet été élucidées par analogie avec
celles des organismes modèles, principalement E. coli. Il est donc probable qu’une
partie des activités biochimiques spécifiques à A. baylyi n’aient pas été détectées et
demeure inconnue. Les phénotypes de croissance apportent justement des données 63 190 phénotypes Biolog de la souche sauvage (étape 1 de l’article) + 767 phénotypes de croissance de mutants sur succinate (étape 2) + 8 milieux $ 455 mutants = 3640 phénotypes de croissance de mutants sur les 8 milieux minimaux (étape 3).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
133
expérimentales propres à A. baylyi, dont l’exploitation est à même d’identifier des
incohérences dans cette reconstruction et de guider les corrections et la recherche
d’activités propres à A. baylyi. De plus, comme évoqué dans l’article, les phénotypes
ont également permis de corroborer la fonction métabolique de certains gènes ayant
un indice de confiance moyen pour l’annotation.
9.2 Cadre formel d’interprétation des incohérences
Lors de l’étude des phénotypes d’A. baylyi, nous avons également montré que le
modèle pouvait, en plus d’identifier les phénotypes incohérents, contribuer à
rechercher la cause du désaccord. Nous avons pour cela décomposé le modèle en trois
composantes représentant chacune des processus biologiques distincts (voir Figure 2A
de l’article) :
- GPR, comprenant les règles booléennes d’associations entre gènes et
réactions ;
- RESEAU (NETWORK dans l’article), comprenant le réseau de réactions
représenté dans le formalisme de la modélisation à base de contrainte ;
- BIOMASSE (BIOMASS dans l’article), comprenant les besoins essentiels
de la cellule en précurseurs de biomasse.
Les processus biologiques modélisés dans ces composantes participent tous à la
prédiction des phénotypes et peuvent être sources d’incohérence. Leur distinction
formelle en trois composantes permet alors de les considérer indépendamment les uns
des autres afin d’analyser leur rôle dans la prédiction du phénotype de croissance
incohérent.
Au sein de chaque composante, le nombre de types de corrections envisageables à
partir d’un phénotype incohérent est limité. Nous en avons regroupé les principaux
dans le Tableau 15.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
134
Prédiction : croissance
Observation : non croissance
Prédiction : non croissance
Observation : croissance
GPR - une isoenzyme du gène délété n’est pas fonctionnelle - l’isoenzyme supposée du gène délété est en réalité requise simultanément (les protéines forment un complexes au lieu de se remplacer) - le gène délété possède un rôle essentiel supplémentaire
- il existe une isoenzyme au gène délété - le gène délété code pour une sous-unité non-essentielle d’un complexe enzymatique - la réaction associée au gène délété peut s’effectuer spontanément
RESEAU - une voie métabolique n’est pas fonctionnelle ou n’existe pas
- il existe une voie métabolique supplémentaire (ou alternative à la voie inactivée par la délétion dans le cas d’un mutant)
BIOMASSE - un précurseur essentiel n’a pas été pris en compte
- un précurseur pris en compte n’est en réalité pas essentiel
Tableau 15. Types de corrections envisageables selon la composante du modèle et la nature de l’incohérence. Ces corrections ne sont bien entendu pas mutuellement exclusives, certaines incohérences pouvant être le fait d’erreurs dans des composantes différentes.
Comme présenté dans l’article, nous avons appliqué ce cadre d’interprétation au
modèle d’A. baylyi pour rechercher des corrections à ses phénotypes de croissance
incohérents. Nous avons systématiquement examiné chacune des incohérences selon
ce schéma et recherché pour chaque correction envisagée des indices ou des preuves
pouvant la confirmer ou la rejeter. Au total, sur les 124 phénotypes de mutants
incohérents, 56 furent corrigés selon ce cadre d’interprétation, concernant pour 34
d’entre elles la composante GPR, pour 12 la composante RESEAU et pour 10 la
composante BIOMASSE (voir le Tableau 3 et la Figure 8 de l’article). Des
informations supplémentaires sur toutes les incohérences examinées et les corrections
retenues sont disponibles dans un fichier Excel à l’adresse :
http://www.biomedcentral.com/content/supplementary/1752-0509-2-85-s3.xls .
Ce cadre d’interprétation ne prétend naturellement pas tenir compte de toutes les
causes possibles d’incohérence de phénotypes, un grand nombre d’entre elles n’étant
pas modélisables. Nous discuterons d’ailleurs plus en détail de ce sujet dans les deux
sections suivantes (9.3 et 9.4). Cependant, bien que très simple, il a le mérite
d’organiser l’investigation des incohérences de phénotype d’origine métabolique.
Comparé aux catégories d’interprétations précédemment proposées par Duarte et al
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
135
(2004), ce cadre se limite aux seules causes d’incohérences pouvant être prises en
compte dans le modèle mais explicite plus avant les corrections réalisables. De plus,
et surtout, il ouvre la voie à une automatisation de la proposition de corrections. En
effet, au sein de chaque composante, les types de corrections sont bien définis et
déterminés par le sens de l’incohérence. Il est de ce fait envisageable de développer
des méthodes proposant de manière systématique des corrections aux composantes du
modèle pour les incohérences identifiées. S’agissant de la composante BIOMASSE,
Imielinski et al (2005) ont par exemple élaboré des analyses déterminant les
métabolites les plus à même d’être essentiels pour expliquer les essentialités de gènes
observées. Pour notre part, nous introduirons dans la dernière partie de cette thèse une
méthode proposant les corrections d’associations GPR compatibles avec les
phénotypes observés. La recherche automatique de corrections dans la composante
RESEAU demeure quant à elle, encore plus que pour les autres composantes, un sujet
ouvert. Nous donnerons au lecteur des références à des travaux récents dans ce
domaine dans la conclusion du manuscrit.
9.3 Exploitation des incohérences non corrigées
Un peu plus de la moitié (68/124) des incohérences détectées sur les phénotypes
de mutants d’A. baylyi n’ont pas donné lieu à des corrections du modèle. Ces
incohérences se répartissent en deux grandes catégories.
Une première partie d’entre elles est constituée d’incohérences dont la cause est
déterminée mais qui ne peuvent être corrigées dans le modèle. Les cas causés par des
erreurs expérimentales mis à part64, ces incohérences impliquent généralement des
processus biologiques qui ne sont pas modélisés, au premier rang desquels se trouve
la régulation. Nous évoquerons ces cas de figures, qui sont associés aux limites du
modèle, dans la section suivante, certains d’entre eux pouvant être potentiellement
pris en compte en étendant le cadre de modélisation.
La seconde partie de ces incohérences regroupe celles pour lesquelles la cause
n’est pas interprétable simplement. Nous avons rencontré 62 incohérences de ce type
64 Le caractère haut débit et massivement parallèle des expériences de phénotypage rend probable l’occurrence d’erreur de mesure, malgré le soin apporté à leur réalisation.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
136
pour A. baylyi ; pour 32 d’entre elles, nous avons pu avancer des hypothèses
d’explication, laissant 30 incohérences sans aucune interprétation. Ces cas
d’incohérence appellent tous des investigations ultérieures afin de les élucider,
pouvant potentiellement mener à des résultats intéressants. Parmi les incohérences de
ce type que nous avons détectées se retrouvent notamment toutes celles relevées dans
l’analyse « manuelle » de la banque de mutant (de Berardinis et al. 2008). Pour ces
dernières, de Berardinis et al (2008) ont proposé des hypothèses d’interprétation
nécessitant des recherches supplémentaires pour les valider : principalement la
recherche de voies ou d’enzymes alternatives (cas des gènes panD, pdxB, ubiC
mentionnés dans cet article) et la démonstration de la non occurrence d’une voie
alternative (cas des gènes pyrC, pyrC2, metZ mentionnés dans cet article). Nous avons
répertorié dans le fichier Excel mentionné ci-dessus l’ensemble des hypothèses que
nous avons formulées pour les incohérences non corrigées. Une partie d’entre elles
font d’ailleurs l’objet de recherches dédiées au sein du laboratoire Thesaurus.
La recherche d’une interprétation à une incohérence est souvent plus évidente
dans le cas d’un phénotype létal non prédit. En effet, puisque le modèle prédit la
croissance de l’organisme, il propose une distribution de flux métaboliques assurant la
synthèse tous les précurseurs de biomasse. L’examen de cette distribution révèle ainsi
les voies alternatives employées par le modèle pour assurer la croissance ;
l’interprétation de l’incohérence consiste alors souvent à rechercher des raisons pour
lesquelles ces voies ne seraient en réalité pas actives : existence d’une régulation
inhibitrice, enzyme alternative non fonctionnelle par exemple. À l’inverse,
l’interprétation d’un phénotype viable non prédit ne bénéficie pas d’une telle
assistance du modèle. Quand bien même celui-ci contribue à identifier les métabolites
dont la synthèse n’est plus possible, la recherche de nouvelles voies ou d’enzymes
alternatives à même de remplacer la fonction inactivée reste un problème ouvert.
En résumé, cette liste des incohérences non corrigées représente l’ensemble des
discordances détectées par le modèle entre les phénotypes observés et le réseau
métabolique connu. Elle invite donc à des investigations ultérieures afin d’élucider le
comportement métabolique réel d’A. baylyi expliquant les phénotypes observés et de
compléter la connaissance de son métabolisme.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
137
9.4 Limites
9.4.1 Interprétation des phénotypes de croissance faible
L’interprétation de phénotypes de croissance à l’aide d’un modèle métabolique est
bien adaptée lorsque les phénotypes observés sont nets, c’est-à-dire distinguables sans
ambiguïté entre le cas létal et le cas viable. Dans la majorité des cas, la létalité nette
provoquée par la délétion d’un gène métabolique correspond à l’inactivation complète
d’une fonction métabolique, un effet qui est directement pris en compte par le modèle.
Des difficultés apparaissent pour les cas limites, lorsqu’on observe la croissance
de la souche mutée, mais à un rythme significativement plus faible que celui de la
souche sauvage. Dans notre étude, nous avons appliqué un seuil de croissance
relativement bas pour effectuer la distinction qualitative entre mutant viable et non
viable (nous l’avons fixé à 1/10 de la croissance de la souche sauvage, voir Matériels
et méthodes de l’article). De ce fait, nous avons ainsi considéré comme létales
uniquement les délétions provoquant une chute très marquée de la capacité
reproductive, d’autant plus que la croissance des mutants fut évaluée de manière
clonale et non pas en compétition au sein d’une population hétérogène (voir chapitre
introductif, section 2.2.1). Nous avons estimé que cette définition du statut létal
correspondait au plus proche à la prédiction qualitative de létalité obtenue par le test
de productibilité des précurseurs de biomasse (« metabolite producibility », voir
Matériels et méthodes de l’article). Cependant, le choix de ce seuil place
indistinctement dans la catégorie viable tous les mutants présentant une croissance,
même très réduite.
Afin d’aider l’interprétation des cas incohérents pour lesquels la croissance
observée est faible, nous avons également déterminé pour chacun des mutants le taux
de croissance prédit par la méthode FBA. Cette méthode, qui tient compte des besoins
énergétiques de la cellule (voir sections 6.2.8 et 7.2), fournit un résultat quantitatif
permettant dans certains cas d’interpréter des diminutions du taux de croissance.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
138
La prédiction de croissance par FBA étant strictement plus contraignante que celle
par productibilité des précurseurs65, tous les phénotypes létaux prédits par test de
productibilité le sont également par FBA (taux de croissance nul). La réciproque n’est
en revanche pas nécessairement vraie : même si la très grande majorité des
phénotypes prédits viables par productibilité des précurseurs le sont aussi par FBA,
certains cas présentent des taux de croissance très faibles voire nuls par FBA,
contredisant la prédiction initiale (voir Figure 36).
Figure 36. Taux de croissance relatifs à la souche sauvage prédits par Flux Balance Analysis (FBA) pour les mutants prédits viables par analyse de la productibilité des précurseurs de biomasse. Les prédictions ont été effectuées sur milieu minimum avec le succinate comme source de carbone.
Douze mutants de l’étape 2 de raffinement (essentialités sur succinate) sont ainsi
prédit viable par test de productibilité mais présentent des taux de croissance prédits
par FBA nuls (voir Figure 36). Dix d’entre eux correspondent à des incohérences.
Parmi eux, nous retrouvons neuf gènes essentiels à l’activité de l’ATP synthase
(atpA, atpB, atpC, atpD, atpE, atpF, atpG, atpH, atpI). L’inactivation de l’ATP
synthase n’est en effet pas prédite comme étant létale par le test de productibilité des
65 La réaction de biomasse utilisée par la méthode FBA contient tous les précurseurs de biomasse utilisés par le méthode de test de productibilité.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
139
précurseurs, ce qui est contredit par leur létalité observée expérimentalement. Pour
ces mutants, le modèle réussit à produire tous les précurseurs de biomasse en utilisant
l’énergie produite uniquement par phosphorylation au niveau du substrat. Cependant,
ce processus ne peut en réalité pas subvenir à tous les besoins énergétiques de la
cellule : la méthode FBA, qui tient compte de ces besoins de manière plus complète
grâce à la réaction de biomasse, prédit effectivement un taux de croissance nul pour
ces mutants.
Le mutant du gène rpiA (ribose-5-phosphate épimerase) correspond au dernier
phénotype incohérent prédit viable par productibilité des précurseurs et létal par FBA.
La différence de prédiction n’est pas due ici à la prise en compte des besoins
énergétiques mais à la contrainte de consommation des précurseurs en quantité
stœchiométriques imposée par la réaction de biomasse utilisée par le FBA (voir
Figure 37).
Figure 37. Interprétation de la prédiction du phénotype de croissance du mutant rpiA. L’inactivation du gène rpiA contraint le ribose-5-phosphate et le ribulose-5-phosphate à être produits en quantité stœchiométriques. Il en est par conséquent de même pour les composés situés à leur aval, notamment des précurseurs de biomasse nucléotides et lipopolysaccharides. La présence d’une contrainte stœchiométrique dans la réaction de biomasse entre ces précurseurs (non compatible avec celle provoqué par la délétion) rend impossible toute croissance du mutant analysée par la méthode FBA. Le test de productibilité des précurseurs ne tient en revanche pas compte de cette contrainte et prédit la croissance du mutant.
La prise en compte des besoins énergétiques de la cellule et la contrainte de
consommation stœchiométrique des précurseurs sont les deux seules différences entre
ces deux méthodes. L’effet de ces différences sur les prédictions de phénotypes peut
tout aussi bien être favorable que défavorable. Comme illustré ci-dessus, prendre en
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
140
compte les besoins énergétiques de la cellule peut permettre de prédire la létalité de
perturbations des processus énergétiques. Cependant, l’effet d’une telle perturbation
dépend également de la capacité de la cellule à s’adapter au manque d’énergie, un
paramètre qui n’est pas considéré dans la méthode de prédiction pour laquelle les
besoins en énergie restent identique à la souche sauvage. De même, appliquer la
contrainte stœchiométrique sur les précurseurs de biomasse peut être aussi bien
bénéfique – létalité probable lorsque les déséquilibres de productions de précurseurs
sont très marqués – que néfaste – viabilité probable pour de petits déséquilibres. Les
deux dernières prédictions divergentes entre FBA et test de productibilité
correspondent d’ailleurs à ce dernier cas.
Nous avons choisi de conserver le test de productibilité comme méthode
principale de prédiction des phénotypes à la fois pour ces raisons et pour conserver
une indépendance entre les précurseurs de biomasse. Cette indépendance facilite en
effet les raisonnements de correction de la composante biomasse, dans laquelle seules
les présences ou absences des métabolites sont alors à déterminer.
9.4.2 Incohérences d’origine métabolique non prises en compte
Comme évoqué précédemment, une partie des incohérences ayant une cause de
nature métabolique ne peuvent être corrigées facilement dans le modèle car ce dernier
ne prend pas en compte le processus biologique impliqué. Nous en énumérerons les
cas significatifs ci-dessous.
La modélisation à base de contraintes ignore les concentrations de métabolites.
Cependant, la perturbation du réseau métabolique peut conduire ces dernières à varier
significativement, provoquant potentiellement une accumulation toxique de certains
métabolites (Duarte, Herrgard et al. 2004). La prise en compte de cet effet nécessite
d’inclure les concentrations métaboliques dans le modèle, ce qui exige alors d’utiliser
un cadre de modélisation plus détaillé qui ne peut généralement être mis en œuvre que
pour une partie du réseau métabolique global.
Une forte proportion des incohérences qui ne peuvent être corrigées dans les
modèles à base de contraintes sont liées à des effets de régulation. Dans un soucis de
simplification, ces modèles ignorent en effet complètement les processus contrôlant
l’activité des enzymes et supposent que ces dernières sont toutes présentes et actives
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
141
en permanence. En réalité, les phénomènes régulateurs contrôlent leurs transcriptions
et leurs activités (voir Introduction section 1.2.5) et il est probable que certaines voies
alternatives ne puissent suppléer une voie délétée car leurs enzymes ne sont pas
suffisamment produites ou sont inhibées. Nous avons par exemple rencontré pour A.
baylyi le cas de deux enzymes capables de synthétiser indépendamment le glutamate
mais ne pouvant se remplacer, chacune d’entre elles étant utilisée sur des plages
distinctes de concentrations externes en ions ammonium. Comme mentionné
précédemment (voir article de revue, section 3.2.1), les modèles à bases de contraintes
peuvent être étendu à l’aide de règles booléennes pour tenir compte des interactions
régulatrices agissant sur le métabolisme. Ce formalisme a d’ailleurs été employé avec
un certain succès pour interpréter et corriger des phénotypes de croissance incohérents
d’E. coli (Covert et al. 2004). Cependant, son utilisation nécessite de déterminer les
interactions régulatrices à l’œuvre dans l’organisme étudié, une tâche bien plus ardue
que la reconstruction du réseau métabolique car ces interactions sont le plus souvent
inconnues pour les organismes peu étudiés. L’investigation des phénotypes
incohérents peut néanmoins aider à détecter des inhibitions de voies métaboliques et
guider ainsi la recherche de ces régulations.
Enfin, l’utilisation d’une composition de biomasse fixe pour prédire la viabilité de
l’organisme constitue également une hypothèse restrictive. L’essentialité de certains
précurseurs de biomasse dépend en effet des conditions de croissance de l’organisme :
un composé non-essentiel dans un environnement peut devenir vital dans un autre.
Nous avons par exemple constaté pour A. baylyi que certains polysaccharides ne sont
pas nécessaires à sa croissance dans les milieux de laboratoire utilisés. Il est
néanmoins tout à fait possible que leur production devienne nécessaire dans un
environnement plus exigeant, notamment dans des conditions naturelles. Cette
hypothèse restrictive est difficile à dépasser car les processus qui rentrent en jeu pour
déterminer l’essentialité des précurseurs sont en majorité extérieurs au métabolisme et
donc non modélisables dans ce formalisme. Toute méthode capable d’analyser ces
processus et de prédire l’essentialité des précurseurs en fonction des conditions
extérieures permettrait de dépasser cette limite. À l’inverse, comme illustré dans les
travaux d’Imielinski et al (2005), l’étude des phénotypes de mutants peut également
aider à déterminer l’essentialité de ces précurseurs à partir de celle des gènes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
142
10 Extension de l’interface Web de prédiction à d’autres organismes : CycSim
La disponibilité de modèles métaboliques et de phénotypes de croissance de
mutants pour un nombre croissant d’organismes nous a conduit à élargir la couverture
de l’interface NemoStudio. Nous avons ainsi dérivé de NemoStudio un nouvel outil,
CycSim, permettant de contenir les modèles, les bases de données BioCyc et les
phénotypes expérimentaux de plusieurs organismes. CycSim a fait l’objet d’une
« Application Note » récente dans Bioinformatics (Le Fèvre et al. 2009) et est
accessible à l’adresse : http://www.genoscope.cns.fr/cycsim . Les fonctionnalités de
cette nouvelle interface demeurent quasiment identiques à celles de NemoStudio. Ont
été introduites comme nouvelles fonctionnalités :
- des liens directs vers les cartes métaboliques de KEGG,
- l’export des modèles sous la forme de graphes à des fins de visualisation,
- la possibilité d’accéder informatiquement aux modèles à l’aide de services
Web,
- la sauvegarde des paramètres d’analyses pour une réutilisation ultérieure.
La version initiale de CycSim contient trois organismes, Acinetobacter baylyi,
Escherichia coli et Saccharomyces cerevisiae, basés respectivement sur les modèles
iAbaylyiv4, iAF1260 (Feist et al. 2007) et iND750 (Duarte, Herrgard et al. 2004) et
sur les bases de données métaboliques AcinetoCyc, EcoCyc (Keseler et al. 2009) et
YeastCyc (Christie et al. 2004). Les phénotypes expérimentaux de mutants sont
identiques à ceux de NemoStudio pour A. baylyi et proviennent (1) dans le cas d’E.
coli de résultats de phénotypages de la banque de mutant Keio (Baba et al. 2006;
Joyce et al. 2006) et de ceux contenus dans la base de données ASAP (Glasner et al.
2003) et (2) dans le cas de S. cerevisiae de deux études à grande échelle de
phénotypage sur 7 milieux distincts (Giaever et al. 2002; Steinmetz et al. 2002). Cet
ensemble de résultats expérimentaux totalise environs 20 000 phénotypes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
143
Figure 38. Interface de l’outil de prédiction de phénotypes de croissance CycSim. Code couleur du tableau de résultats : vert, croissance ; rouge, non croissance ; gris, résultat non disponible.
Mes contributions dans ce projet auront été de mettre au point les méthodes de
prédiction, d’adapter les modèles extérieurs à nos outils de manière à reproduire
correctement les résultats publiés avec ces modèles, de modéliser les environnements
de croissance utilisés dans les expériences, et d’effectuer l’interprétation qualitative
des phénotypes de croissances quantitatifs.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
144
AUTOMATISATION DE L’INTERPRETATION DES
INCOHERENCES D’ORIGINE GENETIQUE
Bénéficiant de l’expérience des corrections appliquées au modèle d’A. baylyi,
nous avons entrepris de développer une méthode suggérant automatiquement des
corrections de la composante GPR des modèles : AutoGPR. Nous consacrerons cette
dernière partie sur nos résultats à cette méthode. Dans un premier temps, nous en
exposerons le principe et l’implémentation. Nous présenterons ensuite les
performances de cette méthode pour retrouver les corrections effectuées au modèle
d’A. baylyi et l’appliquerons à la résolution des incohérences de trois autres
organismes. Enfin, nous discuterons des perspectives d’améliorations et
d’applications d’AutoGPR ainsi que de son intégration au sein de stratégies globales
de correction des modèles.
11 La méthode AutoGPR
11.1 Principe
L’objectif d’AutoGPR consiste à déterminer automatiquement des modifications
aux relations GPR permettant de lever les incohérences de prédictions de phénotypes
de croissance. Pour ce faire, la méthode se base fondamentalement sur l’organisation
des modèles métaboliques en composantes – GPR, RESEAU et BIOMASSE (voir
section 9.2) – afin d’isoler et de manipuler les relations GPR indépendamment des
autres composantes du modèle. AutoGPR suppose ainsi les composantes RESEAU et
BIOMASSE fixes et correctes et recherche les corrections applicables à la
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
145
composante GPR résolvant les prédictions incohérentes de phénotypes sans altérer les
prédictions correctes. Cette hypothèse ne préjuge pas de l’existence de corrections
dans les composantes RESEAU et BIOMASSE : AutoGPR recherche les corrections
GPR compatibles avec une configuration donnée des composantes RESEAU et
BIOMASSE. Cette recherche peut être à nouveau effectuée pour toute modification
effectuée à ces dernières composantes. Nous discuterons d’ailleurs plus loin dans ce
chapitre (section 13.3.2) de la place de la méthode AutoGPR dans une stratégie plus
globale de correction des modèles.
Les trois composantes contribuent toutes à prédire les phénotypes de croissance de
mutants : la composante GPR prédit les réactions inactivées par la délétion du ou des
gènes ciblés tandis que les composantes RESEAU et BIOMASSE prédisent le
phénotype de croissance correspondant au réseau métabolique dont ces réactions ont
été inactivées (voir Figure 39A page 146). Ainsi, du point de vue de la composante
GPR, un ensemble de gènes est prédit essentiel si sa délétion inactive un ensemble de
réactions dont l’inactivation est prédite létale (par les composantes RESEAU et
BIOMASSE) et, inversement, un ensemble de gènes est prédit non-essentiel si sa
délétion inactive un ensemble de réactions dont l’inactivation est prédite viable.
Dans le cadre de la prédiction de phénotypes de croissance, les
phénotypes d’inactivations de réactions66 prédits par les composantes RESEAU et
BIOMASSE forment l’« interface » entre les GPR et ces deux composantes ; nous les
appellerons essentialité de réaction par homologie à essentialité de gène. AutoGPR
supposant les composantes RESEAU et BIOMASSE comme fixes, cette interface
l’est également. Ainsi, les essentialités prédites de réactions constituent, tout comme
les essentialités observées de gènes, des données extérieures au problème de
correction de la composante GPR (voir Figure 39). Toutefois, à la différence des
observations expérimentales, ces essentialités de réactions peuvent être connues
exhaustivement pour tout ensemble de réactions inactivées en effectuant les
prédictions à l’aide du modèle.
66 En termes plus rigoureux : les phénotypes de croissance prédits pour des modèles dont des ensembles de réactions ont été inactivés.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
146
Nous avons vu précédemment que l’essentialité des gènes dépend de
l’environnement dans lequel les phénotypes de croissance ont été observés. Du point
de vue du modèle, l’effet de l’environnement est uniquement considéré par la
composante RESEAU qui prend en compte l’exploitation des substrats de
l’environnement. Les composantes GPR et BIOMASSE, quant à elle, demeurent
indépendantes de l’environnement extérieur67. Du point de vue de la composante
GPR, l’effet d’un changement d’environnement sur les prédictions de phénotypes est
ainsi directement pris en compte dans les essentialités de réactions prédites ; à chaque
environnement correspondent des essentialités de réactions spécifiques.
Figure 39. La composante GPR relie l’essentialité des gènes à l’essentialité des réactions. A Les relations booléennes des GPRs combinées aux prédictions d’essentialités des réactions prédisent les essentialités de gènes. Dans l’exemple présenté ici, la prédiction pour le gène G3 est incohérente avec l’observation expérimentale de son essentialité. Les essentialités de gènes observées et les essentialités de réactions prédites constituent des données extérieures à la composante GPR. B Principe d’AutoGPR : générer l’ensemble des relations booléennes respectant les associations prédéfinies entre gènes et réactions et rendant compatibles les essentialités observées de gènes avec les essentialités prédites de réactions.
Plutôt que de chercher à construire un ensemble de corrections-types à appliquer
aux GPR existantes (retirer une isozyme, transformer deux isozymes en un complexe,
etc.), un processus qui deviendrait rapidement complexe du fait de la composition
67 pour le cadre de modélisation retenu ici, ce qui n’est pas nécessairement toujours le cas. S’agissant de la composante BIOMASSE, nous avons déjà discuté au chapitre précédent de la pertinence d’utiliser une composition de biomasse dépendant de l’environnement extérieur. D’autre part, des extensions des modèles à base de contraintes pour tenir compte des interactions régulatrices introduisent des relations gènes-réactions dépendant de l’environnement.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
147
possible entre les règles ET et OU, nous avons choisi une approche de type « reverse
engineering » visant à construire les GPR à partir des essentialités. La méthode
AutoGPR consiste à générer toutes les relations GPR conservant les associations
gènes-réactions prédéfinies et rendant compatibles les essentialités prédites de
réactions avec les essentialités observées de gènes. Ainsi, sur l’exemple de la Figure
39B, AutoGPR génèrera l’ensemble des relations booléennes reliant G1, G2 et G3 à
R1, et G3 et G4 à R2, qui prédisent les essentialités observées de gènes à partir des
essentialités prédites de réactions.
Pour chaque réaction, la recherche de relation GPR s’effectue à partir d’un
ensemble défini de gènes, délimité par les associations prédéfinies gènes-réactions.
Cet ensemble est défini de manière à regrouper tous les gènes susceptibles de
participer à la catalyse de la réaction, et donc d’intervenir dans sa GPR. Leur sélection
nécessite d’exploiter toute information permettant de les associer à la réaction ; dans
la pratique, cette information est contenue dans leurs annotations et la sélection de ces
gènes peut être simplement effectué à partir de la GPR initiale de la réaction, qui a
elle-même été établie à partir des annotations. La recherche de relations GPR se limite
ainsi à cet ensemble prédéterminé de gènes ; les corrections effectuées par AutoGPR
n’impliquent de ce fait pas la recherche de nouveaux gènes à associer à la réaction
mais plutôt la recherche d’associations booléennes différentes entre gènes déjà
identifiés.
La contrainte de rendre compatibles les essentialités de gènes et de réactions à
l’aide des GPR peut s’exprimer à l’aide d’une notion d’impact de la manière
suivante :
- Une délétion de gène(s) est essentielle si et seulement si elle impacte (via
les GPR) un ensemble essentiel de réaction(s).
- Une délétion de gène(s) est non-essentielle si et seulement si elle impacte
un ensemble non-essentiel de réaction(s).
Ainsi, chaque essentialité observée de gène contraint les GPR à respecter un
comportement défini. En d’autres termes, chaque essentialité observée spécifie une
partie du comportement des GPR. AutoGPR prend en compte simultanément toutes
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
148
ces spécifications pour toutes les délétions sur tous les environnements et en déduit
l’ensemble des relations GPR compatibles.
Pour résumer, AutoGPR détermine l’ensemble des relations booléennes répondant
à ces spécifications et satisfaisant les hypothèses :
- l’ensemble des gènes pouvant être relié à chaque réaction est connu et
prédéterminé,
- les relations GPR sont identiques sur tous les environnements,
- les composantes RESEAU et BIOMASSE sont fixes et correctes.
Ces hypothèses permettent à AutoGPR de prendre en compte un grand nombre de
types de corrections, dont la recherche d’isoenzymes non fonctionnelles, de sous-
unités non-essentielles dans un complexe ou d’associations non identifiées de
protéines en complexes. Plus globalement, toute correction impliquant une
modification des règles booléennes entre gènes préalablement connus sera identifiée
par AutoGPR.
Afin d’expliciter le fonctionnement de la méthode, introduisons des notations
mathématiques. Soient :
- Env l’ensemble des environnements considérés,
- R l’ensemble des réactions du modèle, P(R) l’ensemble des sous-
ensembles de R,
- G l’ensemble des gènes du modèle, P(G) l’ensemble des sous-ensembles
de G.
Les essentialités observées de gènes et les essentialités prédites de réactions
peuvent être entièrement décrites par deux fonctions PhenoGene et PhenoReac :
!
PhenoGene : P(G) "Env # 0,1{ }
g1,...,gn{ },M( ) ! 1 si la délétion de g
1,...,gn{ } est non essentielle sur M
0 si la délétion de g1,...,gn{ } est essentielle sur M
!
PhenoReac : P(R) "Env # 0,1{ }
r1,...,r
n{ },M( ) ! 1 si la délétion de r
1,...,r
n{ } est non essentielle sur M
0 si la délétion de r1,...,r
n{ } est essentielle sur M
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
149
Nous définirons la fonction Support pour décrire les associations prédéfinies
entre gènes et réactions :
!
Support : R " P(G)
r ! g1,...,gn{ }, l'ensemble des gènes pouvant être associés à r
Les relations entre gènes et réactions sont décrites par l’ensemble de leurs GPR,
que nous noterons GPR, mais également, de manière équivalente, par une fonction
d’impact Impact qui détermine les réactions inactivées pour toute délétion de gènes
du modèle :
!
GPR = GPRr| r " R{ } avec
!
GPRr
: 0,1{ }Ngr
" 0,1{ } la relation booléenne liant une
réaction r à ses Ngr gènes,
!
Impact : P(G) " P(R)
g1,...,gn{ } ! r # R | r est inactivé par la délétion de g1,...,gn{ }{ }
La connaissance de la fonction Impact est strictement équivalente à celle de
GPR. En effet, GPR peut être défini à partir d’Impact :
!
"r # R, "b# 0,1{ }Ngr GPRr b( ) = 0 si r # Impact $( )
1 sinon
!
où " = g# Support(r) tel que la valeur de g dans b est 0{ }
et inversement, Impact peut être définie à partir de GPR :
!
"# $ P(G) Impact #( ) = r $ R |GPRr br( ) = 0{ }
!
où br " 0,1{ }Ngr est défini par bri = 0 si le gène i de r est dans #
1 sinon
Les contraintes de compatibilité entre les essentialités de gènes et les essentialités
de réactions s’expriment désormais simplement par une relation entre les fonctions
PhenoReac, PhenoGene et Impact : les relations GPR représentées dans la fonction
Impact sont compatibles avec les essentialités si et seulement si
!
PhenoGene ",M( ) = PhenoReac Impact "( ),M( )
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
150
pour tout couple d’environnement M et de délétion de gènes $ pour lequel on dispose
d’une observation d’essentialité. Il est à noter que ces observations d’essentialités sont
limitées par les résultats expérimentaux d’essentialité de gènes, étant donné que les
essentialités de réactions peuvent être connues exhaustivement à l’aide des
prédictions des composantes RESEAU et BIOMASSE.
AutoGPR se base sur cette relation et sur la connaissance des valeurs des
fonctions PhenoGene et PhenoReac pour déduire des informations sur la fonction
Impact avant de déterminer les relations GPR admissibles.
La méthode procède pour cela en deux étapes, une étape de spécification suivie
d’une étape d’implémentation (voir Figure 40).
Figure 40. La méthode AutoGPR. AutoGPR déduit l’ensemble des relations GPR compatibles avec les essentialités observées de gènes, les essentialités prédites de réactions et les associations prédéfinies entre gènes et réactions (lignes pointillées). La première étape d’AutoGPR consiste à générer les scénarios d’impacts admissibles compte tenu de ces contraintes : chaque ensemble essentiel de gènes doit impacter un ensemble essentiel de réactions ; chaque ensemble non-essentiel de gènes doit impacter un ensemble non-essentiel (potentiellement l’ensemble vide). De plus, les scénarios d’impacts doivent respecter les associations prédéfinies gènes-réactions. Dans une seconde étape, AutoGPR génère pour chaque scénario d’impacts toutes les relations GPR admissibles. Pour cela, il déduit du scénario d’impacts des spécifications sur les relations booléennes avant de déterminer les implémentations répondant à ces spécifications.
L’étape de spécification consiste à envisager l’ensemble des scénarios d’impacts
compatibles avec les essentialités et les associations prédéfinies gènes-réactions. Pour
cela, AutoGPR cherche à attribuer à chaque délétion de gène $ dont l’essentialité est
observée une valeur d’impact pR – un ensemble de réactions inactivées par la délétion
– qui :
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
151
- respecte les associations prédéfinies gènes-réactions
!
"r # R,$g# % tq g# Support(r)
- rende compatibles sur le milieu M considéré les essentialités des gènes
délétés et des réactions inactivées
!
PhenoReac pR ,M( ) = PhenoGene ",M( )
Un scénario d’impacts est constitué par de telles attributions réalisées pour
chacune des essentialités observées de gènes (voir Figure 40 1/) :
!
scénario = "1, pR1( ),..., " n, pRn( )( ) pour les n essentialités observées.
Ces scénarios d’impacts étant guidés par les associations prédéfinies gènes-
réactions, les valeurs d’impact se limiteront aux ensembles de réactions reliées par ces
associations aux gènes délétés. Il est donc suffisant de générer les scénarios d’impacts
à l’échelle d’une composante connexe du graphe constitué par les associations
prédéfinies et les essentialités de gènes observées pour prendre en compte l’ensemble
des cas possibles (voir Figure 41).
Figure 41. Composantes connexes formées par le graphe des associations prédéfinies gènes-réactions et les groupes de gènes des essentialités observées.
Pour chaque composante connexe incluant une incohérence, AutoGPR génère
l’ensemble des scénarios d’impacts envisageables en raisonnant de la manière
suivante : si la délétion d’un ensemble de gènes est observée essentielle, celle-ci doit
impacter un ensemble essentiel de réactions ; si la délétion est observée non-
essentielle, elle doit impacter un ensemble non-essentiel de réactions, possiblement
l’ensemble vide. Sur l’exemple de la Figure 40 1/, le dernier scénario d’impact
envisagé par AutoGPR est le suivant :
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
152
- Impact({G1}) = %
- Impact({G2}) = %
- Impact({G3}) = {R1, R2}
- Impact({G4}) = {R2}
Si les expériences ont permis de déterminer les essentialités pour plusieurs
environnements, seuls les scénarios d’impacts compatibles simultanément avec les
essentialités des différents milieux sont alors conservés.
Pour chaque scénario d’impact envisageable, AutoGPR procède ensuite à l’étape
d’implémentation afin de construire les relations GPR compatibles avec les impacts
proposés. Chaque valeur d’impact du scénario d’impact est tout d’abord transformée
en spécification sur la relation GPR de chacune des réactions. La Figure 40 2/ détaille
par exemple les spécifications déduites sur la relation GPR de la réaction R1 à partir
du dernier scénario d’impact envisagé. Dans un second temps, AutoGPR détermine
l’ensemble des relations booléennes entre les gènes et la réaction satisfaisant ces
spécifications. Il est important de noter ici que les relations GPR sont des règles
booléennes impliquant uniquement les opérateurs ET et OU, la négation n’ayant pas
de sens dans une GPR. Cette contrainte, dont AutoGPR tient compte, restreint
l’ensemble des relations booléennes implémentables.
Dans certains cas, les contraintes d’essentialités peuvent se révéler incompatibles :
aucun scénario d’impact et aucune GPR ne peuvent être générés. AutoGPR en déduit
alors qu’une correction purement GPR utilisant les associations prédéfinies gènes-
réactions est impossible. Toute correction de l’incohérence dans le modèle implique
alors soit de modifier les association prédéfinies gènes-réactions soit de corriger les
composantes RESEAU et BIOMASSE pour modifier les essentialités prédites de
réactions. Deux cas de figures caractéristiques, dépendant de l’essentialité observée
des gènes, sont à l’origine de ces incompatibilités. La Figure 42 les présente sur deux
exemples.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
153
Figure 42. Cas d’incohérences sans correction GPR déductible par AutoGPR. À gauche, les ensembles essentiels de gènes ne peuvent impacter aucun ensemble essentiel de réaction. La correction de l’incohérence nécessite de corriger les composantes RESEAU ou BIOMASSE pour rendre R1 essentielle ou d’associer G1 et G2 à une nouvelle réaction essentielle. À droite, la délétion non-essentielle de G1 ne peut impacter que l’ensemble vide, impliquant de retirer tous les gènes de la GPR de R1, ce qui n’est pas admis par AutoGPR. La correction de l’incohérence implique de corriger les composantes RESEAU et BIOMASSE pour rendre R1 non-essentielle ou d’associer un autre gène à R1.
Pour résumer globalement le processus, pour chaque composante connexe
comportant au moins une incohérence, AutoGPR déduit l’ensemble des scénarios
d’impact envisageables à partir des essentialités de gènes observées puis, pour chaque
scénario, génère les différentes relations GPR compatibles. Cette méthode propose
ainsi de manière exhaustive toutes les configurations possibles de relations GPR
permettant de résoudre les incohérences dans la composante connexe considérée.
En pratique AutoGPR peut être utilisé à deux niveaux. Tout d’abord, il permet de
déterminer simplement si une correction GPR est envisageable ou non. Si tel n’est pas
le cas, le type d’incohérence permet alors de guider la recherche de correction en
dehors du périmètre d’AutoGPR (voir Figure 42). Si, en revanche, une correction
purement GPR existe, AutoGPR permet ensuite d’énumérer toutes les corrections
possibles. Le nombre de relations GPR pouvant devenir extrêmement élevé, des
méthodes de sélections des corrections les plus probables peuvent s’avérer
nécessaires.
Deux méthodes de sélection sont particulièrement utiles. La première consiste à
calculer une distance entre les GPR générées et les GPR initiales du modèle. Cette
distance, définie comme le nombre de valeurs distinctes dans les tables de vérité des
deux relations booléennes (voir section suivante), cherche à quantifier la différence de
« comportement » entre les deux GPR. Nous verrons plus loin dans la partie résultat
que les corrections de GPR retenues sont souvent les plus proches des GPR initiales.
La seconde méthode de sélection consiste à contraindre des réactions associées aux
mêmes gènes à avoir des GPR identiques. Cette simplification est justifiée pour les
réactions ayant des activités similaires et opérant sur des substrats très proches (c’est
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
154
par exemple le cas des différentes réactions spécifiques dérivées de réactions
génériques, voir section 6.2.5). Il est en effet probable dans ces cas que les mêmes
enzymes catalysent de manière similaire les différentes réactions. Cette simplification
s’applique aisément dans la méthode AutoGPR en remplaçant les réactions similaires
par une seule réaction d’essentialité identique à celle de l’ensemble des réactions
remplacées, réduisant ainsi le nombre de scénarios d’impacts à considérer (voir
Figure 43).
Figure 43. Réduction du nombre de corrections proposées par AutoGPR en imposant des GPR identiques à des réactions. Les réactions R1 et R2 sont ici supposées être catalysées de manière identiques par G1 et G2. Cette simplification consiste dans AutoGPR à les remplacer par une seule réaction R1,2 lors de la génération des scénarios d’impacts.
11.2 Algorithmes
Cette section présente plus en détail les algorithmes utilisés par AutoGPR. Nous
l’avons divisé en deux parties. La première détaille les algorithmes développés pour
générer toutes les corrections GPR, selon le principe présenté ci-dessus. La seconde
introduit une simplification de la méthode permettant de tester plus rapidement la
simple existence de correction GPR.
11.2.1 Génération exhaustive des corrections GPR
La génération exhaustive des relations GPR procède comme nous l’avons vu en
deux étapes : une étape de spécification et une étape d’implémentation des GPR.
Nous présenterons ici les algorithmes utilisés pour réaliser ces étapes.
Calcul des ensembles minimaux de réactions essentielles
La méthode AutoGPR requiert la connaissance de l’essentialité de tous les sous-
ensembles de réactions du modèle. Bien que la prédiction d’essentialité d’un
ensemble de réactions soit calculable très rapidement (moins de 1/10 de seconde), un
calcul exhaustif pour tous les sous-ensembles de réactions se révèlerait beaucoup trop
coûteux, le nombre de sous-ensembles augmentant exponentiellement avec le nombre
de réactions.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
155
Deux propriétés du modèle et de la méthode AutoGPR permettent heureusement
d’en simplifier la tâche.
Tout d’abord, la recherche des scénarios d’impacts est limitée par les associations
prédéfinies gènes-réactions. Les ensembles de réactions pouvant être impactés par une
délétion de gènes sont donc contenus dans l’ensemble des réactions reliés à ces gènes
par les associations prédéfinies. Il est ainsi suffisant de prédire uniquement
l’essentialité des sous-ensembles de réactions contenus dans ces ensembles (voir
Figure 44). Cette propriété simplifie significativement le calcul des essentialités de
réactions, les gènes étant associés majoritairement à un nombre réduit de réactions
(voir partie résultat, section 12.1).
Figure 44. Calcul de l’essentialité des sous-ensembles de réactions. Il est suffisant de limiter le calcul aux sous-ensembles des ensembles de réactions associés aux délétions de gènes. Ces ensembles sont désignés par les accolades.
Ensuite, lorsque les phénotypes de croissance sont prédits par les méthodes FBA
ou de productibilité des métabolites, l’essentialité des ensembles de réactions possède
la caractéristique d’être monotone par l’inclusion. En effet, dans ces cas, tout
ensemble de réactions incluant un sous-ensemble essentiel sera prédit également
essentiel. Inversement, tout sous-ensemble d’un ensemble non-essentiel sera prédit
non-essentiel.
!
"pR1, pR 2
# P(R) pR1$ pR 2
% PhenoReac pR1( ) & PhenoReac pR 2( )
Cette propriété découle de la nature de ces deux méthodes de prédictions : elles
explorent les distributions de flux admissibles dans le modèle pour déterminer le flux
optimal de la réaction de biomasse (FBA) ou vérifier la productibilité de l’ensemble
des précurseurs. Un premier modèle ayant un ensemble de réactions inactivées plus
grand (par l’inclusion) qu’un deuxième disposera d’un ensemble de distributions de
flux contenu dans celui du deuxième. Si aucune distribution de flux du deuxième ne
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
156
peut permettre la croissance (flux dans la réaction de biomasse ou productibilité des
précurseurs), aucune distribution de flux ne le pourra non plus pour le premier.
Inversement, s’il existe une distribution de flux permettant la croissance dans le
premier, celle-ci existera également dans le second. Il est à noter que cette propriété
de monotonie n’est pas vraie pour toutes les méthodes de prédictions de phénotypes,
notamment ROOM ou MoMA (Motter et al. 2008).
Grâce à cette propriété de monotonie, il est suffisant de déterminer les sous-
ensembles essentiels minimaux par l’inclusion pour caractériser l’essentialité de tous
les sous-ensembles d’un ensemble de réactions. En nous appuyant sur ces propriétés,
nous avons utilisé l’algorithme suivant pour déterminer les ensembles essentiels
minimaux de réactions :
• Déterminer les ensembles de réactions associés aux délétions de gènes
(première propriété, voir Figure 44)
• Pour chacun de ces ensembles
o Pour chaque environnement
" Prédire l’essentialité de l’ensemble complet (inactivation
conjointe de toutes les réactions)
• Si non-essentiel : aucun de ses sous-ensembles ne sera
essentiel, passer à l’environnement suivant
• Si essentiel : il contient alors au moins un sous-
ensemble essentiel, poursuivre la recherche
" Pour chaque réaction de l’ensemble
• Prédire son essentialité
o Si essentielle : l’ajouter aux ensembles minimaux
essentiels pour l’environnement
" Prédire l’essentialité de l’ensemble des réactions
individuellement non-essentielles (inactivation conjointe des
réactions prédites non-essentielles)
• Si non-essentiel : il n’existe pas d’autres sous-ensembles
essentiels, passer à l’environnement suivant
• Si essentiel : il existe des sous-ensembles essentiels
impliquant ces réactions, poursuivre la recherche
" Générer tous les sous-ensembles de l’ensemble des réactions
individuellement non-essentielles, ordonnés par la taille
" Pour chacun de ces sous-ensembles
• S’il contient un ensemble minimal essentiel déjà identifié :
passer au sous-ensemble suivant
• Sinon : prédire son essentialité
o Si essentiel : l’ajouter aux ensembles minimaux
essentiels pour l’environnement
Le principe de cet algorithme est simple ; il consiste à parcourir tous les sous-
ensembles de réactions par ordre croissant de taille et à prédire leur essentialité s’ils
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
157
n’incluent pas de sous-ensemble déjà identifié comme essentiel. Il introduit cependant
deux tests qui permettent d’épargner de nombreuses recherches inutiles. Il détermine
d’une part si l’ensemble de réactions examiné inclut au moins un sous-ensemble
minimal essentiel (évitant une recherche inutile dans le cas contraire), et d’autre part
s’il existe des sous-ensembles essentiels dans les ensembles de réactions
individuellement non-essentielles (teste l’existence de « synthétiques létaux » parmi
les réactions, c’est à dire des inactivations multiples létales de réactions
individuellement non-essentielles). À l’échelle des ensembles de réactions considérés
ici, les réactions « synthétiques létales » se révèlent être relativement rares. Ce second
test accélère ainsi significativement la recherche des ensembles minimaux.
Pour des grands ensembles contenant des réactions synthétiques létales, cet
algorithme d’exploration systématique peut se révéler trop coûteux. Dans ces cas –
que nous avons en pratique très rarement rencontrés pour AutoGPR – des méthodes
plus complexes, développées pour déterminer les ensembles essentiels minimaux de
gènes, peuvent être employées (Klamt & Gilles 2004; Deutscher et al. 2006; Behre et
al. 2007; Imielinski & Belta 2008; Deutscher et al. 2008) (voir également une revue
rapide sur ces méthodes en conclusion, section 15).
Génération des scénarios d’impact
Comme évoqué ci-dessus, l’étape de spécification consiste à déterminer
exhaustivement tous les scénarios d’impacts qui soient compatibles avec les
essentialités et les associations prédéfinies gènes-réactions. Étant donné la nature de
ce problème, nous avons choisi d’employer une méthode de programmation logique,
implémentée en langage Prolog68. La programmation logique se révèle en effet être
particulièrement adaptée d’une part à la manipulation d’ensembles et de sous-
ensembles d’objets et surtout d’autre part à la recherche par déductions logiques de
solutions répondant à des contraintes imposées.
68 La méthode a été implémentée sous la forme d’un programme Sicstus Prolog http://www.sics.se/sicstus/ .
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
158
Le programme Prolog s’appuie sur un ensemble de faits d’entrée définissant :
- Les essentialités observées de gènes
- Les ensembles essentiels minimaux de réactions calculés selon
l’algorithme précédent
- Les associations prédéfinies gènes-réactions.
Il définit également des règles permettant d’exprimer la compatibilité d’un impact.
Un impact ($, pR) est considéré compatible si les conditions suivantes sont remplies :
- PR doit être relié à $ par les associations prédéfinies gènes-réactions
- Si $ est essentiel, alors pR doit inclure un ensemble essentiel minimal de
réactions.
Si $ est non-essentiel, alors pR ne doit pas inclure d’ensemble essentiel
minimal de réactions.
En exploitant conjointement les faits d’entrée et ces règles, le programme Prolog
est capable de déduire l’ensemble des impacts compatibles et, à l’échelle d’une
composante connexe, de générer les scénarios d’impacts envisageables.
Ces règles définissent la compatibilité des impacts pour un environnement donné.
Afin de considérer les contraintes de compatibilité posées par tous les
environnements, le programme sélectionne uniquement les scénarios d’impacts
valables sur tous les environnements selon le pseudocode suivant :
• Pour chaque composante connexe incluant au moins une incohérence
o Pour chaque environnement
" Générer tous les scénarios d’impacts possibles dont les impacts
respectent les règles de compatibilité
o Ne conserver que les scénarios d’impacts existant sur tous les
environnements
o Ecrire les scénarios d’impacts dans le fichier de sortie
Le programme sauvegarde les scénarios d’impacts générés dans un fichier de
format XML qui sera utilisé par la suite pour implémenter les GPR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
159
… Figure 45. Format de fichier spécifiant les scénarios d’impacts. Les balises COMPONENT délimitent les informations relatives à une composante connexe. Les balises SUPPORT rappellent les associations prédéfinies gènes-réactions. Les balises SCENARIO définissent chacune un scénario d’impact distinct. Dans un scénario d’impacts, chaque impact est déclaré dans une balise SPECIFICATION.
Implémentation des GPR
L’étape d’implémentation a pour objectif de construire pour chaque réaction les
relations GPR compatibles avec les scénarios d’impacts définis à l’étape précédente.
Pour ce faire, nous avons développé un algorithme s’appuyant sur la
représentation des fonctions booléennes sous forme de tables de vérités. Partant d’une
table de vérité initialement vide, l’algorithme remplit les valeurs correspondant aux
spécifications du scénario d’impacts considéré (voir pseudocode ci-dessous et Figure
46). Pour chaque entrée de la fonction booléenne correspondant à une délétion
observée de gènes, la valeur spécifiée sera 0 (réaction inactive) si la réaction
appartient à l’impact de la délétion, et 1 s’il n’appartient pas à l’impact (réaction
active) (voir Figure 40 page 150 pour un exemple de spécification).
Comme mentionné plus haut, les relations GPR sont des fonctions booléennes
utilisant uniquement les opérateurs ET et OU, la négation n’étant pas employée. Cette
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
160
caractéristique réduit l’espace des fonctions booléennes à explorer et se traduit par
une propriété de monotonie :
!
"b1,b
2# {0,1}
N b
1$ b
2% GPR
rb
1( ) $GPRrb
2( )
où la relation d’ordre entre les entrées b1 et b2 est incomplète69.
L’algorithme applique directement la propriété de monotonie aux tables de vérités
en complétant les valeurs qui en découlent (voir Figure 46). Il génère ensuite
l’ensemble des tables de vérités complètes envisageables, calcule leurs distances à la
GPR initiale et les traduits en expressions booléennes sous forme normale disjonctive
simplifiée selon le pseudocode suivant :
• Pour chaque composante connexe ayant au moins une incohérence
o Pour chaque scénario d’impact
" Pour chaque réaction de la composante connexe
• Initialiser une table de vérité vide ayant pour entrées les
gènes associés à la réaction
• Remplir la table avec les valeurs spécifiées par les
impacts du scénario
o Si la GPR initiale de la réaction est compatible
avec ces spécifications : retourner uniquement
cette GPR
o Sinon : poursuivre
• Compléter la table de vérité par la propriété de
monotonie
• Si des valeurs de la table de vérité demeurent
indéterminées, en déduire toutes les tables de vérités
complètes envisageables respectant la propriété de
monotonie
• Pour chaque table de vérité complète
o Calculer la distance avec la table de vérité de la
GPR initiale (nombre de valeurs distinctes)
o Exprimer formellement la table de vérité en forme
normale disjonctive simplifiée70
o Retourner l’expression booléenne obtenue et la
distance calculée
69 b1 " b2 si les éléments de b1 sont tous un à un inférieurs à ceux de b2. 70 À l’aide d’un programme dédié à la manipulation des fonctions booléennes : BDDC v2, disponible à l’adresse http://www-verimag.imag.fr/~raymond/tools/bddc-manual/
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
161
Figure 46. Implémentation de relation GPR à partir des spécifications d’un scénario d’impact.
Nous avons également choisi un format XML pour représenter dans un fichier
l’ensemble des GPR générées pour une composante connexe (voir Figure 47). Le
nombre de propositions de corrections pouvant devenir très grand, nous avons
développé un programme supplémentaire exploitant ces fichiers pour d’une part
effectuer des statistiques sur les corrections proposées et d’autre part aider à la
sélection des corrections notamment en les ordonnant selon leur distance.
Figure 47. Format de fichier contenant l’ensemble des GPR générées. Ce format reprend et complète celui utilisé pour énumérer les scénarios d’impact. Pour chaque scénario d’impact, la balise IMPLGPR encadre les implémentations GPR possible d’une réaction. Les balises GPR contiennent chacune une relation GPR compatible, représentée sous la forme d’une expression booléenne (+ représente OU, . représente ET). La distance entre la GPR proposée et la GPR initiale est donnée dans l’attribut dist de la balise GPR.
11.2.2 Test d’existence de correction GPR
La recherche exhaustive de corrections GPR par AutoGPR peut se révéler
coûteuse dans les cas où les composantes connexes sont de grandes tailles. Afin
d’accélérer le processus de recherche de corrections, nous avons élaboré une méthode
simplifiée permettant de tester la simple existence de correction GPR admissible.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
162
Cette méthode fonctionne uniquement pour les cas de délétion simple de gène dont
l’essentialité est connue sur un seul milieu. Elle réalise le test d’existence de
correction pour chaque essentialité de gène incohérente de la manière suivante.
Si le gène est observé essentiel, une correction GPR existe si et seulement
l’ensemble des réactions qui lui sont associées est essentiel. En effet, si tel est le cas,
il existe alors au moins un ensemble de réaction qui puisse être impacté de manière
compatible par la délétion du gène. Inversement, si tel n’est pas le cas, il n’existe pas
d’ensemble de réaction qui puisse être impacté ; aucune correction GPR ne peut être
obtenue pour l’incohérence.
Si le gène est observé non-essentiel, une correction GPR existe dès lors que la
délétion du gène peut impacter un ensemble non-essentiel de réaction. L’ensemble
vide étant non-essentiel, il existerait a priori une solution GPR dans tous les cas, la
délétion pouvant être contrainte à n’impacter aucune réaction. Cependant, AutoGPR
interdit les corrections aboutissant au retrait de tous les gènes d’une GPR (voir Figure
42 page 153). Le test d’existence d’une correction GPR dans ce cas consiste alors à
examiner s’il existe des réactions essentielles reliées uniquement au gène considéré.
Si tel est le cas, alors le gène sera contraint à impacter la réaction pour ne pas retirer
tous ses gènes, impact incompatible avec l’essentialité de la réaction ; aucune
correction GPR n’est de ce fait envisageable. À l’inverse, si tel n’est pas le cas, alors
une correction GPR est envisageable dans laquelle aucune des réactions essentielle
n’est impactée. Ces dernières étant associées à au moins un autre gène, elles pourront
conserver au moins un gène dans leurs GPR, et ce, quel que soit l’impact des autres
gènes sur ces réactions71.
12 Résultats
Afin d’évaluer les performances d’AutoGPR, nous avons appliqué la méthode à la
correction des incohérences de cinq modèles métaboliques pour lesquels des données
d’essentialités étaient disponibles, parfois sur plusieurs environnements. Toutes les
71 Par exemple, soit une réaction essentielle reliée à un gène G1 non-essentiel et à un gène G2. Si G2 est non-essentiel, une GPR admissible est « G1 or G2 ». Si G2 est essentiel, une GPR admissible est « G2 ». Dans tous les cas, la réaction conserve au moins un gène dans sa GPR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
163
données d’essentialité considérées ici se rapportent à des délétions72 simples de gènes.
Aux deux versions du modèle d’A. baylyi, iAbaylyiv2 et iAbaylyiv3 (considérées
séparément car chacune est associée un ensemble de données d’essentialités distinct),
nous avons ajouté les modèles de trois organismes supplémentaires, reconstruits par
les équipes de deux laboratoires distincts. Le Tableau 16 ci-dessous présente ces
différents modèles et les ensembles de données d’essentialité utilisés. Dans un soucis
de clarté, nous désignerons ces modèles par le nom de l’organisme en précisant pour
A. baylyi le numéro de version.
Organisme Modèle Référence modèle
Milieux des tests d’essentialité
Références données d’essentialités
A. baylyi iAbaylyiv2 (Durot et al. 2008) succinate (de Berardinis et al. 2008)
A. baylyi iAbaylyiv3 (Durot et al. 2008) acetate asparagine butanediol glucarate glucose lactate quinate urea
(Durot et al. 2008; de Berardinis et al. 2008)
E. coli iAF1260 (Feist et al. 2007) glucose 1
glycerol 2
1 (Baba et al. 2006) 2 (Joyce et al. 2006)
B. subtilis 73 iYO844 (Oh et al. 2007) rich (riche) (Kobayashi et al.
2003)
S. cerevisiae iND750 (Duarte, Herrgard et al. 2004)
ypd_ess (riche), 3
mmd 3
ypd (riche), 4 ypdge (riche), 4 ype (riche), 4 ypg (riche), 4 ypgal (riche), 3 ypl (riche), 4
3 (Giaever et al. 2002) 4 (Steinmetz et al. 2002)
Tableau 16. Modèles métaboliques et données d’essentialités utilisés pour évaluer la performance d’AutoGPR. Les milieux des tests d’essentialité sont minimaux sauf autrement indiqué par (riche). Milieux pour S. cerevisiae : mmd, minimal glucose ; ypd_ess, Yeast extract Peptone (YP) + glucose (dataset contenant uniquement les gènes essentiels) ; ypd, YP + glucose ; ypdge, YP + glucose, glycerol et ethanol ; ype, YP + ethanol ; ypg, YP + glycerol ; ypgal, YP + galactose ; ypl, YP + lactate. Les auteurs des modèles reconstruits ayant tous exploité les données d’essentialité pour évaluer leurs modèles, nous avons extrait les données d’essentialités des papiers « modèles ».
72 Les gènes de B. subtilis n’ont en toute rigueur pas été délétés, mais inactivés par insertion d’une cassette de disruption (voir section 2.2.1). 73 Un nouveau modèle de B. subtilis, qui exploite de manière très complète des données d’essentialité, a été publié récemment (Henry et al. 2009). Ce travail est cependant trop récent pour pouvoir être inclus dans nos travaux.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
164
12.1 Complexité des GPR dans les modèles métaboliques
Lors de la correction manuelle du modèle d’A. baylyi à partir des incohérences de
phénotypes, nous avons constaté qu’une partie significative d’entre elles impliquaient
la composante GPR du modèle, d’où notre motivation de développer la méthode
AutoGPR pour assister le curateur dans ces corrections.
Cependant, dans le but d’évaluer la pertinence et l’intérêt pratique réel d’une telle
méthode de raisonnement automatique sur les GPR, nous avons tout d’abord cherché
à obtenir un aperçu de la complexité des GPR dans les modèles considérés ici. Si, en
moyenne, les GPR comportaient très peu de gènes et impliquaient peu de relations
booléennes distinctes, l’intérêt pratique d’une telle méthode s’avèrerait réduit. Au
contraire, si les GPR mettaient en jeu des combinaisons complexes de plusieurs
gènes, son intérêt serait a priori plus significatif.
Dans un premier temps, nous avons évalué le nombre de GPR présentes dans ces
modèles ainsi que leur variabilité. Le Tableau 17 donne un aperçu global de la taille
des modèles et du nombre de GPR distinctes impliquées dans chacun d’entre eux.
Dans cette partie, seul le modèle A. baylyi v2 sera considéré, les résultats pour A.
baylyi v3 étant quasiment identiques.
Modèle Nombre de gènes Nombre de réactions
Nombre de GPR distinctes (% p. r. aux réactions)
A. baylyi 789 993 532 (54%) E. coli 1260 2382 960 (40%) B. subtilis 844 1250 586 (47%) S. cerevisiae 750 1267 546 (43%)
Tableau 17. Nombre de réactions et de GPR distinctes dans les quatre modèles.
Les modèles d’A. baylyi, de B. subtilis et de S. cerevisiae sont de tailles
relativement équivalentes. Le modèle d’A. baylyi compte moins de réactions mais
intègre un nombre équivalent de gènes et de GPR distinctes, suggérant qu’un nombre
comparable de processus biochimiques distincts sont pris en compte dans ces trois
modèles. Le modèle d’E. coli comprend quant à lui significativement plus (quasiment
le double) de gènes, réactions et GPR distinctes. Ce résultat traduit d’une part le fait
que la connaissance du métabolisme d’E. coli est bien plus complète que pour
A. baylyi, B. subtilis et, dans une moindre mesure, S. cerevisiae et d’autre part l’effort
de reconstruction plus conséquent pour cet organisme, qui profite à la fois de versions
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
165
précédentes du modèle (Edwards & Palsson 2000; Reed et al. 2003) et de la base de
données métabolique très complète Ecocyc (Keseler et al. 2009).
Le nombre de GPR distinctes ramené au nombre total de réactions est relativement
similaire pour tous les modèles (entre 40 et 54%). Ce ratio s’explique par la présence
dans les modèles d’un nombre important de réactions non associées à un gène –
notamment des réactions spécifiques à la modélisation, telles que les réactions
d’échanges ou d’assemblage de la biomasse – mais également par le fait que certaines
GPR sont partagées par plusieurs réactions. La Figure 48 illustre cet effet en traçant
les distributions du nombre de réactions associées à chaque GPR distincte pour les
quatre modèles considérés ici.
Figure 48. Distribution du nombre de réactions associées à chaque GPR distincte. Les réactions de GPR vide (non associées à un gène) ont été écartées de cette analyse.
Bien que la grande majorité des GPR soient, dans tous les modèles, associées à
une unique réaction, une part non négligeable d’entre elles sont associées à 2
réactions ou plus. Dans ces derniers cas, les GPR représentent des activités
biochimiques capables de transformer plusieurs substrats différents. Par exemple,
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
166
dans chacun des modèles, les GPR partagées par 5 à 8 réactions sont en majorité liées
aux processus de synthèse et de dégradation des lipides, pour lesquelles plusieurs
réactions agissant similairement sur des lipides de longueurs différentes possèdent la
même GPR. La Figure 48 révèle également que certaines GPR possèdent une
« spécificité » très large, une GPR d’E. coli codant pour une porine est par exemple
associée à 228 réactions qui réalisent le transport d’une grande variété de métabolites
entre le milieu extéruieur et le périplasme. En résumé, ces premiers résultats nous
montrent que le nombre de GPR distinctes dans les modèles est élevé, malgré le fait
que certaines d’entre elles soient partagées par de nombreuses réactions.
La Figure 49 explore plus avant les interdépendances entre gènes et réactions en
traçant les distributions du nombre de gènes par réaction et de réactions par gène.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
167
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
168
Figure 49. Distributions du nombre de gènes associés à chaque réaction et du nombre de réactions associées à chaque gène dans les GPR des quatre modèles.
Les distributions du nombre de réactions par gène illustrent les mêmes tendances
que la Figure 48 : un grand nombre de gènes ont une spécificité très faible (liés à peu
de réactions) tandis qu’un groupe plus réduit possède une spécificité large.
À l’inverse, les distributions du nombre de gènes par réaction donnent un aperçu
du nombre de gènes impliqués dans la catalyse de chaque réaction, et ainsi du nombre
de gènes composant les GPR des modèles. Cette statistique est importante car
AutoGPR ne peut proposer des corrections que pour les réactions liées à deux gènes
ou plus. Les histogrammes de la Figure 49 (colonne de gauche) montrent qu’ une part
importante des réactions sont effectivement associées à deux gènes ou plus et que,
parmi ces réactions, une majorité est même reliée à trois gènes ou plus, rendant les
combinaisons de corrections GPR plus complexes et le recours à AutoGPR plus
intéressant.
Enfin, dans le but d’estimer la variété des règles booléennes utilisées dans les
GPR, nous avons calculé les distributions bivariées du nombre de ET et du nombre de
OU dans chaque GPR. Pour cela, et afin de pouvoir comparer rigoureusement les
résultats entre modèles, chaque GPR a été exprimée en forme normale disjonctive. La
Figure 50 présente ces résultats.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
169
Figure 50. Distribution du nombre de ET et OU dans les GPR des quatre modèles. Pour une comparaison rigoureuse, les relations GPR ont toutes été exprimées en formes normales disjonctives. Par soucis de clarté, le nombre de GPR ne comptant aucun ET et aucun OU n’est pas affiché (ce nombre peut être déduit de la Figure 49, il s’agit du nombre de réactions associées à 0 ou 1 gène).
Pour les quatre modèles, une majorité de GPR possède exclusivement des
opérateurs ET ou des opérateurs OU ; ces GPR expriment la présence soit d’un
complexe soit d’isozymes. Le nombre d’isozymes et, dans une moindre mesure, de
sous-unités de complexe peut être relativement élevé. En effet, les modèles d’A.
baylyi, d’E. coli et de S. cerevisiae comptent par exemple un grand nombre de GPR
ayant 4 isozymes ou plus. De même, les tailles de complexes dépassent fréquemment
4 pour tous les modèles. Dans chaque modèle, une minorité tout de même non
négligeable de GPR inclut simultanément des opérateurs ET et OU, exprimant des
alternatives entre complexes ou entre sous-unités d’un même complexe. Bien que
relativement peu nombreuses, ces dernières GPR sont cependant susceptibles de
comporter des erreurs dont l’interprétation à la lumière des phénotypes de croissance
peut se révéler plus complexe.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
170
En conclusion, cette petite étude sur les GPR des quatre modèles nous a montré
qu’un nombre significatif d’entre elles ne sont pas triviales et peuvent typiquement
bénéficier de la capacité de raisonnement automatique d’AutoGPR.
12.2 Statistiques globales sur les propositions d’AutoGPR
Dans cette partie, nous appliquerons la méthode AutoGPR à chaque modèle pour
résoudre leurs incohérences par rapport aux données expérimentales d’essentialité.
Nous présenterons ici (1) des statistiques sur les incohérences de chaque modèle, (2)
les résultats des tests simples d’existence de correction GPR et (3) les résultats des
propositions de correction GPR par AutoGPR.
12.2.1 Confrontation des modèles aux données d’essentialité
Les auteurs des cinq modèles ont tous confronté les prédictions de leurs modèles
aux données d’essentialités considérées ici. Afin d’exploiter par la suite leurs
interprétations expertes des incohérences, nous avons réalisé les prédictions en
utilisant les mêmes méthodes et paramètres, lorsque cela était possible.
Les prédictions de phénotypes avaient toutes été effectuées par la méthode FBA,
sauf pour les modèles A. baylyi (test de productibilité des précurseurs). Afin
d’uniformiser notre processus de test, nous avons tout de même réalisé les prédictions
de tous les modèles par FBA. Comme déjà discuté à la section 9.4.1, ce changement
de méthode provoque un petit nombre de différences de prédiction pour A. baylyi ; ces
différences n’impactent cependant pas significativement l’analyse effectuée ici.
Pour les modèles A. baylyi v2, A. baylyi v3, E. coli et B. subtilis, les contraintes
sur les flux d’échanges (modélisant les milieux) et les seuils de croissance à appliquer
aux réactions de biomasse (pour déterminer le phénotype qualitatif croissance/non
croissance) étaient explicités par leurs auteurs. Nous avons pu reproduire la totalité de
leurs prédictions. Dans le cas de S. cerevisiae, ces paramètres n’étaient pas précisés.
Nous les avons inférés de manière à reproduire au mieux les résultats des auteurs.
Deux ou trois prédictions par milieu demeurent différentes de celles publiées, elles
sont dans leur très grande majorité identiques.
Le Tableau 18 présente les prédictions obtenues et leur cohérence par rapport aux
données expérimentales.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
171
coh. incoh. % coh. coh. incoh. % coh. coh. incoh. % coh.
A. baylyi v2
succinate 197 54 78% 487 29 94% 684 83 89%
A. baylyi v3
acetate 2 2 50% 423 9 98% 425 11 97%
asparagine 1 2 33% 437 8 98% 438 10 98%
butanediol 6 4 60% 422 11 97% 428 15 97%
glucarate 5 0 100% 406 7 98% 411 7 98%
glucose 3 4 43% 422 10 98% 425 14 97%
lactate 0 2 0% 434 11 98% 434 13 97%
quinate 4 4 50% 426 10 98% 430 14 97%
urea 3 0 100% 435 7 98% 438 7 98%
tous milieux 17 18 49% 403 17 96% 420 35 92%
E. coli
glucose 159 78 67% 982 29 97% 1141 107 91%
glycerol 156 85 65% 978 29 97% 1134 114 91%
tous milieux 151 106 59% 967 24 98% 1118 130 90%
B. subtilis
rich 63 28 69% 657 18 97% 720 46 94%
S. cerevisiae
ypd_ess 31 87 26% 0 0 - 31 87 26%
mmd 35 11 76% 502 16 97% 537 27 95%
ypd 3 73 4% 476 13 97% 479 86 85%
ypgal 7 2 78% 543 12 98% 550 14 98%
ypdge 17 64 21% 465 19 96% 482 83 85%
ypg 23 62 27% 466 14 97% 489 76 87%
ype 23 60 28% 461 21 96% 484 81 86%
ypl 22 61 27% 466 16 97% 488 77 86%
tous milieux 65 210 24% 379 28 93% 444 238 65%
Gène observé essentielGène observé non
essentielTout gène
Tableau 18. Confrontation des essentialités prédites aux essentialités observées expérimentalement pour les 5 modèles et les différents milieux considérés. Toutes les prédictions d’essentialités ont été réalisées par la méthode FBA. « coh. » et « incoh. » désignent les gènes prédits de manière respectivement cohérente et incohérente par rapport à l’observation expérimentale. La ligne tous milieux considère tous les milieux simultanément : un gène est essentiel sur tous milieux s’il l’est sur au moins l’un d’entre eux ; il est non-essentiel s’il l’est sur tous les milieux.
Sur l’ensemble des modèles et des milieux, le taux de bonnes prédictions est en
moyenne largement meilleur pour les gènes non-essentiels (toujours supérieur à 94%)
que pour les gènes essentiels. Nous avions déjà évoqué cette tendance pour A. baylyi.
Elle s’interprète par le fait qu’une large part des réactions des modèles ne participe
pas au fonctionnement métabolique sur des milieux précis ; la fonction des gènes qui
leurs sont associés ne peut être réellement évaluée par leur essentialité.
Les taux de bonnes prédictions des modèles A. baylyi v2, A. baylyi v3, E. coli et
B. subtilis sont du même ordre de grandeur (sans tenir compte des fluctuations pour
A. baylyi v3 pour les gènes essentiels, dues à leur petit nombre). En revanche, les
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
172
prédictions de S. cerevisiae pour les gènes essentiels sont significativement moins
bonnes. La technique expérimentale utilisée pour déterminer l’essentialité des gènes
en est probablement la cause. Alors que pour A. baylyi, E. coli et B. subtilis la
croissance des mutants fut évaluée de manière clonale (chaque mutant
individuellement, voir section 2.2.1), celle des mutants de S. cerevisiae fut évaluée en
compétition au sein d’une population regroupant mutants et souche sauvage (Giaever
et al. 2002; Steinmetz et al. 2002). Cette dernière méthode détecte rapidement tout
effet d’une délétion sur la capacité reproductive (voir discussion dans l’introduction,
section 2.2.2), mais tend à classer essentiels des gènes dont la délétion ralentit
simplement la croissance. Les modèles ayant plus de difficulté à prédire une
diminution quantitative de croissance qu’une létalité totale, le taux de bonnes
prédictions pour les gènes essentiels de S. cerevisiae s’en trouve affecté.
Au total, les nombres d’incohérences à traiter par AutoGPR s’élevent
respectivement à 83, 35, 130, 46 et 238 gènes pour A. baylyi v2, A. baylyi v3, E. coli,
B. subtilis et S. cerevisiae.
12.2.2 Tests simples d’existence de correction GPR
Dans un premier temps, nous avons testé l’existence de correction GPR. Nous
avons utilisé pour cela le test simple d’existence (voir 11.2.2) appliqué séparément
aux incohérences de chaque milieu. Ce test n’est en effet valable que pour des
délétions simples évaluées sur un milieu unique.
Le Tableau 19 présente les résultats de ces tests appliqués aux incohérences de
tous les modèles.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
173
cor. non cor. % cor. cor. non cor. % cor. cor. non cor. % cor.
A. baylyi v2
succinate 25 29 46% 2 27 7% 27 56 33%
A. baylyi v3
acetate 0 2 0% 2 7 22% 2 9 18%
asparagine 1 1 50% 1 7 13% 2 8 20%
butanediol 2 2 50% 3 8 27% 5 10 33%
glucarate 0 0 - 2 5 29% 2 5 29%
glucose 2 2 50% 1 9 10% 3 11 21%
lactate 0 2 0% 1 10 9% 1 12 8%
quinate 0 4 0% 2 8 20% 2 12 14%
urea 0 0 - 2 5 29% 2 5 29%
E. coli
glucose 15 63 19% 7 22 24% 22 85 21%
glycerol 19 66 22% 6 23 21% 25 89 22%
B. subtilis
rich 3 25 11% 11 7 61% 14 32 30%
S. cerevisiae
ypd_ess 2 85 2% 0 0 - 2 85 2%
mmd 1 10 9% 3 13 19% 4 23 15%
ypd 3 70 4% 3 10 23% 6 80 7%
ypgal 2 0 100% 4 8 33% 6 8 43%
ypdge 3 61 5% 10 9 53% 13 70 16%
ypg 2 60 3% 5 9 36% 7 69 9%
ype 2 58 3% 5 16 24% 7 74 9%
ypl 1 60 2% 5 11 31% 6 71 8%
Incohérence observée
essentielle
Incohérence observée
non essentielleTout type d'incohérence
Tableau 19. Nombre d’incohérences pour lesquelles une correction GPR existe, pour chaque milieu pris séparément. Les résultats sont présentés en distinguant les incohérences des gènes observés essentiels, des incohérences des gènes observés non-essentiels. « cor. » une correction GPR existe ; « non cor. » aucune correction GPR n’existe.
Dans l’ensemble, ce tableau montre que seule une minorité d’incohérences (entre
2% et 43%, selon le modèle et le milieu) pourrait être corrigée uniquement par des
corrections GPR. Toutes les autres nécessitent de rechercher des corrections soit en
dehors de la composante GPR soit en ajoutant de nouveaux gènes à associer aux
réactions.
La répartition des corrections réalisables entre incohérence de gène essentiel et
incohérence de gène non-essentiel est hétérogène entre les organismes. Alors que
pour A. baylyi v2, une part élevée des incohérences de gènes essentiels dispose d’une
correction GPR (46%), cette part est bien plus réduite pour les autres organismes
(entre 2% et 22%, pour les milieux ayant plus de 10 incohérences). Inversement, peu
d’incohérences de gènes non-essentiels disposent d’une correction chez A. baylyi v2
(7%), alors qu’entre 9% et 60% en disposent pour les autres organismes.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
174
Afin d’évaluer l’effet de la taille des GPR et du nombre de réactions liées aux
gènes sur l’existence d’une correction, nous avons tracé les Box Plots de ces deux
grandeurs selon qu’une correction existe ou non (voir Figure 51).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
175
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
176
Figure 51. Box Plot du nombre moyen de gènes contenus dans les GPR de chaque gène incohérent et du nombre de réactions liées à chaque gène incohérent, selon qu’une correction GPR existe ou non. Box plots de Tukey : chaque boîte est délimitée par les 1er et 3ème quartiles de la statistique et coupée par la médiane (ligne épaisse). Les moustaches représentent les valeurs minimales et maximales rencontrées, dans la limite de 1,5 fois l’écart interquartile. Les cercles représentent les valeurs sortant de ces moustaches (« outliers »).
Les incohérences pour lesquelles une correction GPR existe ont tendance à être
reliées à des GPR initiales de tailles plus grandes que lorsque aucune correction
n’existe (voir Figure 51 colonne de gauche). Cet effet s’interprète aisément, aucune
correction ne pouvant naturellement être proposée par AutoGPR lorsqu’un seul gène
est contenu dans la GPR à corriger. À l’inverse, on constate peu, voire aucune,
différence entre les nombres de réactions reliées aux gènes incohérents disposant ou
non de correction GPR. L’appartenance à une GPR de grande taille semble être ainsi
le premier indicateur de l’existence d’une correction purement GPR.
Ce test d’existence de correction ne vérifie cependant pas la cohérence des
corrections entre milieux. Pour cela, il est nécessaire d’exécuter la méthode complète
AutoGPR.
12.2.3 Proposition exhaustive de corrections GPR
Un préliminaire nécessaire à l’exécution d’AutoGPR est la détermination de tous
les ensembles essentiels minimaux de réactions au sein des composantes connexes
formées par les associations gènes-réactions (voir section 11.2.1). Nous les avons
calculés pour tous les organismes et tous leurs milieux en suivant l’algorithme
présenté précédemment. Dans la très grande majorité des cas, cet algorithme nous a
permis de déterminer toutes les essentialités minimales de réactions. Celles-ci sont
constituées pour la plupart de réactions individuelles, mais aussi de quelques rares
ensembles de réactions « synthétiques létales ». Ces ensembles sont le plus souvent de
taille 2, les quelques autres étant de taille 3 à 6. L’exécution de l’algorithme échoua
sur les composantes connexes de 9 gènes d’E. coli et de 4 gènes de S. cerevisiae, tous
milieux confondus ; ces composantes contiennent des ensembles essentiels de
réactions trop grands pour être explorés par cet algorithme. Cependant, seul un de ces
treize gènes est incohérent et ne pourra être traité par la suite.
Enfin, dans un dernier temps, nous avons exécuté AutoGPR sur l’ensemble des
incohérences disposant, selon le test d’existence, d’une correction GPR sur au moins
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
177
un des milieux. Des statistiques sur les corrections proposées sont données sur la
Figure 52 ci-dessous.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
178
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
179
Figure 52. Histogrammes des nombres de GPR proposées par AutoGPR pour chaque incohérence identifiée précédemment comme ayant une correction sur chaque milieu pris séparément. Les GPR proposées sont compatibles simultanément sur tous les milieux. L’échelle des abscisses est en partie logarithmique : elle demeure linéaire entre chaque puissance de 10. Le cas « Non déterminé » indique les incohérences pour lesquelles AutoGPR n’a pu générer les corrections pour cause de nombre excessif de combinaisons.
Pour les modèles dont les données d’essentialités existent sur plusieurs milieux
(A. baylyi v3, E. coli et S. cerevisiae), une part des incohérences ne dispose d’aucune
correction GPR, alors même que des corrections étaient envisageables pour chaque
milieu pris séparément. Ceci est particulièrement marqué chez S. cerevisiae où la
quasi-totalité des incohérences ne dispose plus de correction. Ces cas révèlent des
incompatibilités entre les contraintes d’essentialités posées sur les GPR par les
différents milieux. Ces incompatibilités traduisent une différence de comportement de
l’organisme entre les milieux qui n’est pas prise en compte par le modèle74. L’origine
de l’incohérence peut dans ce cas se trouver dans les composantes RESEAU et
BIOMASSE qui ne prédisent pas correctement les essentialités des réactions sur
certains environnements. L’origine de l’incohérence peut également porter sur la
régulation des gènes, certains d’entre eux ne s’exprimant que sur des milieux
particuliers. Dans ce cas, l’hypothèse de « GPR constante sur tous les
environnements » doit être levée pour pouvoir expliquer les phénotypes. Le recours à
des règles de régulation dépendant de l’environnement qui modulent la présence des
gènes dans les GPR – à l’image de la méthode rFBA (Covert et al. 2001) – semble
être une solution permettant de prendre efficacement ces cas en compte (Covert et al.
2004). Nous évoquerons quelques cas précis de ce type dans la section suivante.
Lorsque des GPR compatibles existent, le nombre de combinaisons réalisables
peut faire varier leur nombre sur plusieurs ordres de grandeur. Une forte proportion
d’entre elles se limite néanmoins à une seule GPR compatible : dans ces cas, les
données d’essentialités spécifient intégralement les GPR concernées (toujours bien
entendu dans les limites des hypothèses d’AutoGPR). Dans les autres cas, le nombre
de propositions demeure souvent limité (<10, notamment pour A. baylyi) mais peut
rapidement atteindre des valeurs très élevées, jusqu’à rendre la recherche de GPR non
réalisable (catégorie « Non déterminé » de la Figure 52). Cet effet est directement lié
74 En supposant bien entendu que les expériences réalisées sur les différents milieux soient comparables et ne présentent pas de biais.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
180
à la taille des GPR et au nombre de réactions liées aux gènes. Afin d’aider à la
sélection des corrections GPR et rendre le calcul réalisable, les stratégies de
sélection/simplification évoquées plus haut – distance à la GPR initiale et contrainte
de GPR identiques pour plusieurs réactions – peuvent être employées (voir section
11.1).
Par exemple, l’incohérence du gène b0180 chez E. coli ne pouvait initialement
être traitée par AutoGPR. Ce gène est lié à 12 réactions effectuant une activité 3-
hydroxyacyl-ACP dehydratase pour 12 substrats distincts mais chimiquement proches
du point de vue de cette activité.
Réaction Equation bilan GPR 3HAD40 3haACP[c] -> but2eACP[c] + h2o[c] ( b0954 or b0180 ) 3HAD60 3hhexACP[c] -> h2o[c] + thex2eACP[c] ( b0954 or b0180 ) 3HAD80 3hoctACP[c] -> h2o[c] + toct2eACP[c] ( b0954 or b0180 ) 3HAD100 3hdecACP[c] -> h2o[c] + tdec2eACP[c] ( b0954 or b0180 ) 3HAD120 3hddecACP[c] -> h2o[c] + tddec2eACP[c] ( b0954 or b0180 ) 3HAD121 3hcddec5eACP[c] -> h2o[c] + t3c5ddeceACP[c] ( b0180 or b0954 ) 3HAD140 3hmrsACP[c] -> h2o[c] + tmrs2eACP[c] ( b0954 or b0180 ) 3HAD141 3hcmrs7eACP[c] -> h2o[c] + t3c7mrseACP[c] ( b0954 or b0180 ) 3HAD160 3hpalmACP[c] -> h2o[c] + tpalm2eACP[c] ( b0954 or b0180 ) 3HAD161 3hcpalm9eACP[c] -> h2o[c] + t3c9palmeACP[c] ( b0180 or b0954 ) 3HAD180 3hoctaACP[c] -> h2o[c] + toctd2eACP[c] ( b0954 or b0180 ) 3HAD181 3hcvac11eACP[c] -> h2o[c] + t3c11vaceACP[c] ( b0180 or b0954 )
Il est donc probable que ces réactions soient catalysées de manière similaire. En
les contraignant à avoir toutes la même GPR, la déduction des GPR compatibles
devient réalisable : seules deux configurations de GPR sont générées par AutoGPR75.
Cette stratégie de simplification nécessite cependant d’entrer dans le détail des
conversions chimiques catalysées par les gènes et ne peut ainsi être réalisée
automatiquement. Nous proposerons d’autres pistes de simplification dans la section
consacrée aux perspectives d’AutoGPR (section 13).
12.3 Comparaison des corrections d’AutoGPR aux interprétations expertes
Les incohérences de quatre des cinq modèles ont été examinées de manière
experte par les auteurs de ces modèles. Il s’agit d’une part des modèles A. baylyi v2 et
75 b0180 et b0954 sont tous deux essentiels, les réactions présentées ici sont essentielles. b0954 est en outre associé seul à une autre réaction essentielle. Les deux GPR proposées pour ces réactions sont donc « b0180 » et « b0180 ET b0954 ».
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
181
A. baylyi v3 pour lesquels nous avions explicitement déterminé des corrections (voir
article inclus section 8) et d’autre part des modèles B. subtilis et E. coli dont les
auteurs ont proposés des interprétations à chaque incohérence. Cette section évalue la
pertinence des propositions d’AutoGPR en les confrontant à ces corrections et
interprétations.
12.3.1 Comparaison aux corrections des modèles d’A. baylyi
Lors du processsus de raffinement du modèle d’A. baylyi, nous avions interprété
manuellement les incohérences et proposé des corrections dans les composantes GPR,
RESEAU et BIOMASSE du modèle. Le Tableau 20 ci-dessous récapitule l’ensemble
des incohérences détectées pour les modèles v2 et v3 ainsi que les corrections et
interprétations réalisées pour chacune d’entre elles, et les compare aux propositions
de correction d’AutoGPR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
182
gène ess test n cor sel gène ess test n cor sel
GPR Interprétation validée
activité nécessitant simultanément tous les gènes erreur expérimentale
2 ACIAD0661 hisG E o 1 o P 3 ACIAD0108 lldD D - -
2 ACIAD1257 hisZ E o 1 o P manque connu dans la connaissance d'une voie
2 ACIAD3103 ilvH E o 8 o SP 2 ACIAD0856 bioA E - -
gènes associés à une autre réaction 2 ACIAD0857 bioF E - -
2 ACIAD2606 E - - 2 ACIAD0859 bioD E - -
isozyme non fonctionnelle 2 ACIAD2045 bioB E - -
2 ACIAD0151 guaA E o 1 o P auxotrophie non modélisée
2 ACIAD0249 ribC E o 2 o P 2 ACIAD3523 metE E - -
2 ACIAD0871 fabG E o 2E+05 o SP Interprétation hypothétique
2 ACIAD1069 lysS E o 1 o P 2 ACIAD0556 ndk D - -
2 ACIAD1255 epd E o 9 o 2 ACIAD0650 argJ E o 2 n
2 ACIAD1323 purF E - - 2 ACIAD1150 pyrC E o 1 n
2 ACIAD1375 cdsA E o 1 o P 2 ACIAD1346 sodB E - -
2 ACIAD1736 accC E o 1 o P 2 ACIAD2282 sahH D - -
2 ACIAD1737 accB E o 1 o P 2 ACIAD2314 metZ E o 2 n
2 ACIAD1925 fda E o 1 o P 2 ACIAD2458 glnA E o 1 n
2 ACIAD2227 dctA E o 1E+06 o P 2 ACIAD2842 pckG E - -
2 ACIAD2565 gap E o 9 o 2 ACIAD2847 folD E o 5 n
2 ACIAD2666 E o 1 o P 2 ACIAD3155 mdh E - -
2 ACIAD2907 prs E o 1 o P 2 ACIAD3349 gltD E - -
2 ACIAD3062 folK E o 1 o P 2 ACIAD3350 gltB E - -
2 ACIAD3249 ribA E o 1 o P 2 ACIAD3470 msuE E - -
2 ACIAD3365 murE E o 1 o P 2 ACIAD3506 aceF E - -
2 ACIAD3371 gltX E o 4 o P 3 ACIAD0546 E - -
3 ACIAD1710 pcaC E - - 3 ACIAD0556 ndk D - -
3 ACIAD2018 ald1 E o 0 n 3 ACIAD1021 D - -
3 ACIAD2088 aspQ E o 4 o P 3 ACIAD1707 pcaB E - -
3 ACIAD2983 gcd E o 2 o P 3 ACIAD1711 pcaH E - -
présence d'un enzyme alternative 3 ACIAD1712 pcaG E - -
2 ACIAD1231 argD D - - 3 ACIAD1744 aspA E - -
2 ACIAD1642 uppP D - - Pas d'interprétation précise
2 ACIAD2968 ispA D - - 2 ACIAD0072 ugd E - -
3 ACIAD1020 acoD D o 1 n 2 ACIAD0173 rhtB E - -
3 ACIAD1715 quiX D - - 2 ACIAD0382 ubiB D - -
3 ACIAD2984 D - - 2 ACIAD0505 purU1 E - -
réaction occurant spontanément 2 ACIAD1482 kdsD D - -
3 ACIAD2819 D - - 2 ACIAD1483 kdsC D - -
fausse sous-unité d'un complexe 2 ACIAD2283 metF D - -
2 ACIAD0799 D o 1 n 2 ACIAD2290 cydA E - -
RESEAU 2 ACIAD2525 E - -
fausse voie alternative 2 ACIAD2667 pdxB D - -
2 ACIAD0239 ppa E - - 2 ACIAD2788 E - -
2 ACIAD0547 proA E - - 2 ACIAD2880 sdhA D o 1 n
2 ACIAD1105 adk E - - 2 ACIAD2911 panD D - -
2 ACIAD1920 glnS E - - 2 ACIAD3503 guaB E - -
2 ACIAD2560 proB E - - 2 ACIAD3510 lpxC D - -
2 ACIAD3032 proC E - - 3 ACIAD0086 epsM E - -
voie alternative manquante 3 ACIAD0382 ubiB D - -
2 ACIAD0106 lldP D - - 3 ACIAD0922 E - -
2 ACIAD0451 katA D - - 3 ACIAD2070 metI E - -
2 ACIAD0901 dut E - - 3 ACIAD2282 sahH D - -
2 ACIAD0930 glpK D - - 3 ACIAD2283 metF D o 2 n
2 ACIAD1045 metH D - - 3 ACIAD2667 pdxB D - -
3 ACIAD0106 lldP D - - 3 ACIAD2755 E o 0 n
BIOMASSE 3 ACIAD2875 sucB E - -
précurseur de biomasse non essentiel 3 ACIAD2876 sucA E - -
2 ACIAD0076 rmlB D - - 3 ACIAD2880 sdhA D o 147 n
2 ACIAD0078 rmlD D - - 3 ACIAD2911 panD E - -
2 ACIAD0079 rmlA D - - 3 ACIAD3071 cysM E o 0 n
2 ACIAD0080 rmlC D - - Incohérence ajoutée par la méthode FBA
2 ACIAD0086 epsM D - - 2 ACIAD2456 ubiC D - -
2 ACIAD0099 galU D - - 2 ACIAD3383 acr1 D - -
2 ACIAD0101 pgi D - - 3 ACIAD0080 rmlC D - -
2 ACIAD0104 manB D - - 3 ACIAD0099 galU D - -
2 ACIAD2429 cyoE D - - 3 ACIAD0104 manB D - -
précurseur de biomasse manquant 3 ACIAD3383 acr1 D - -
2 ACIAD1374 ispU E - - 3 ACIAD3549 gshA E - -
autogpr autogpr
CORRECTION PAS DE CORRECTION
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
183
Tableau 20. Comparaison des propositions d’AutoGPR aux corrections et interprétations des incohérences des modèles A. baylyi v2 et A. baylyi v3. Les incohérences sont classées par type de correction et d’interprétation. La colonne de gauche identifie le modèle concerné par l’incohérence (2 ou 3). Signification des colonnes : ess, essentialité de l’incohérence (sur le profil de milieux pour A. baylyi v3 ; E essentiel, D non-essentiel) ; test, résultat du test d’existence de correction GPR (o existence de correction) ; n, nombre de propositions d’AutoGPR ; cor, présence de la correction experte dans les propositions d’AutoGPR (o oui, n non) ; sel, méthode de sélection de la GPR (P la plus proche de la GPR initiale, S réactions contraintes à avoir des GPR similaires).
Sensibilité76
Parmi les 34 incohérences que nous avons corrigées dans la composante GPR
(pour les deux modèles), 24 disposent de propositions d’AutoGPR. Pour 22 d’entre
elles, la correction appliquée est incluse dans les propositions, donnant un score
global de sensibilité de 65% pour les modèles A. baylyi.
AutoGPR propose dans la majorité des cas des corrections uniques aux
incohérences. Lorsque plusieurs corrections distinctes sont suggérées, les stratégies de
sélection permettent d’identifier efficacement la correction retenue. En effet, en
contraignant dans deux cas des réactions à avoir des GPR similaires (ACIAD3103 et
ACIAD0871, cas analogues à celui présenté pour E. coli section 12.2.3), la correction
retenue correspond dans 7 cas sur 9 à la proposition d’AutoGPR la plus proche des
GPR initiales. Ces stratégies peuvent ainsi s’avérer être des outils utiles à la sélection
des GPR les plus probables.
Seuls deux types de corrections GPR (toutefois majoritaires) sont pris en compte
par AutoGPR : la détection (1) d’isozyme non fonctionnelle et (2) d’activités
nécessitant la présence de tous les gènes (sous-unités de complexes enzymatiques).
Pour le premier type de correction, AutoGPR propose dans 86% des cas (19/22) la
correction retenue. Il s’agit le plus souvent de retirer une isozyme hypothétique d’une
GPR afin de retrouver l’essentialité de l’enzyme principale. Dans le cas par exemple
des incohérences de epd (ACIAD1255) et gap (ACIAD2565) qu’AutoGPR corrigea
76 Nous utiliserons un peu par abus de langage les termes de sensibilité et de spécificité pour désigner respectivement la part de corrections expertes GPR retrouvées par AutoGPR et la part de corrections d’AutoGPR effectivement retenues. AutoGPR déduisant toutes les corrections GPR réalisables dans son champ d’application, sa spécificité est théoriquement de 100%. La « spécificité » que nous utiliserons ici cherche plutôt à évaluer quelle part des corrections expertes de la composante GPR rentre dans le champ d’application d’AutoGPR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
184
correctement, la correction consiste à associer chaque gène spécifiquement à une
réaction alors qu’ils étaient considérés initialement comme des isozymes de ces
réactions. Les trois cas où AutoGPR ne proposa pas de solution sont dus soit à la
présence d’une autre incohérence non résoluble dans la même composante connexe
(ACIAD1323) soit à la nécessité d’effectuer en plus une correction dans la
composante RESEAU du modèle (ACIAD1710 et ACIAD2018).
Pour le deuxième type de correction, AutoGPR proposa dans les trois cas la
correction experte réalisée. Parmi les corrections de ce type, celle de l’incohérence de
ilvH (ACIAD3103) mérite d’être détaillée (voir Figure 53).
Figure 53. Correction de l’incohérence du gène ilvH dans A. baylyi v2. La couleur rouge (respectivement verte) indique une réaction ou un gène essentiel (respectivement non-essentiel). Le gène en gras possède une essentialité incohérente avec la prédiction du modèle. Les métabolites en triangle sont des précurseurs de biomasse.
Initialement, deux isozymes étaient supposés catalyser deux réactions essentielles
d’activité de type acetolactate synthase : un complexe IlvI & IlvH et une protéine
codée par ACIAD0999. Cette redondance génétique contredisant l’essentialité de
ilvH, AutoGPR génère 8 corrections distinctes qui combinent indépendamment des
impacts de la délétion de ilvH sur chaque réaction. En contraignant les deux réactions
à avoir des GPR identiques, seules deux corrections demeurent : « ilvH » ou
« ( ilvI OU ACIAD0999 ) ET ilvH ». L’examen de la littérature nous avait permis de
déterminer cette deuxième correction : ilvH est en réalité un facteur de stabilisation
pouvant fonctionner indistinctement avec les unités catalytiques alternatives codées
par ACIAD0999 ou ilvI (Vyazmensky et al. 1996). Cet exemple illustre le fait que les
données d’essentialités (sur lesquelles AutoGPR repose) peuvent dans certains cas
aider à déterminer de manière précise des règles d’associations complexes entre gènes
et réactions.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
185
Les quatre autres types de corrections GPR expertes appliquées aux modèles d’A.
baylyi impliquent d’ajouter de nouveaux gènes aux GPR. Ces corrections sortent de
ce fait du cadre d’application d’AutoGPR, expliquant la quasi-inexistence de
proposition pour les incohérences de ces types.
Il est intéressant de noter ici que toutes les corrections GPR correctement
détectées par AutoGPR concernent des gènes essentiels. Il semble donc sur cet
exemple qu’AutoGPR ait un biais très fort envers les corrections d’incohérences de
gène essentiel. Ce biais peut s’interpréter de la manière suivante. La correction type
d’AutoGPR pour les gènes non-essentiels incohérents (prédits donc essentiels)
consiste à remplacer une relation ET en OU, c’est à dire à considérer les sous-unités
d’un complexe comme isozymes. Les complexes faisant généralement l’objet d’une
attention particulière lors de leur construction, il est relativement rare d’introduire par
erreur des interactions entre sous-unités. Toute autre correction GPR d’une
incohérence de gène non-essentiel consiste à ajouter une isozyme en introduisant un
nouveau gène dans la GPR (voir Tableau 20). Ce type de modification sort alors du
cadre d’action d’AutoGPR (correction à ensemble de gènes constant).
Spécificité
S’agissant de la spécificité de la méthode, sur 32 incohérences pour lesquelles
AutoGPR propose des corrections, 22 ont été corrigées manuellement selon une des
propositions d’AutoGPR (score de spécificité de 69%). Les corrections AutoGPR de
deux incohérences sont explicitement en désaccord avec la correction réelle
(ACIAD1020 et ACIAD0799), les corrections appliquées nécessitant d’ajouter un
nouveau gène à la GPR.
Il est cependant important de considérer ce score avec précaution. En effet,
certaines corrections d’AutoGPR non retenues peuvent toutefois avoir un réel sens
biologique et aider à interpréter les incohérences. Ainsi, les incohérences des gènes
essentiels pyrC et folD sont résolues par AutoGPR en supprimant leurs isozymes.
Cependant, aucune information supplémentaire ne permettant de corroborer ni
d’infirmer ces corrections, celles-ci n’ont pas été réalisées et nécessitent d’investiguer
plus avant les activités des isozymes. Dans un autre ordre d’idée, l’incohérence du
gène essentiel glnA (ACIAD2458), qui catalyse l’activité glutamine synthetase
conjointement avec le gène glnT (ACIAD2528), pourrait s’expliquer par l’existence
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
186
d’une contrainte régulatrice favorisant l’utilisation de l’un ou l’autre de ces gènes en
fonction de la disponibilité en ammonium (Reitzer 1996). Pour cette incohérence,
AutoGPR propose justement d’écarter glnT de la GPR de la glutamine synthetase,
traduisant le fait que l’enzyme de ce gène n’est potentiellement pas active dans les
conditions des expériences.
Il est ainsi probable que, dans l’ensemble des incohérences n’ayant pu être
interprétées, les propositions réalisées par AutoGPR puissent fournir des pistes
d’investigation utiles.
12.3.2 Comparaison aux interprétations expertes des modèles de B. subtilis et S. cerevisiae
Bien que les incohérences des modèles B. subtilis et S. cerevisiae n’aient pas
donné lieu à des corrections, leurs auteurs les ont tout de même examinées de manière
experte afin d’en déterminer la cause. L’ensemble de ces interprétations étant mis
librement à disposition sous la forme de données supplémentaires aux articles des
modèles (Oh et al. 2007; Duarte, Herrgard et al. 2004), nous les avons utilisées pour
évaluer la pertinence des propositions d’AutoGPR pour ces modèles.
B. subtilis
Le Tableau 21 confronte les interprétations expertes réalisées pour B. subtilis aux
propositions d’AutoGPR pour ce modèle.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
187
gène ess test n Commentaire des auteurs
GPR
BG10412 fbaA E - - Possibly regulation effect. fbaA could not be replaced by
fbaB.
BG11955 murAA E o 1 Possibly regulation effect. murAA could not replaced by a
homologue murAB.
BG11964 racE E o 1 Regulation effect. racE could not be replaced by yrpC.
BG12391 yumC E - - Possibly regulation effect. Both yumC and trxB products
seem to be essential for cell growth.
BG12398 trxB E - - Possibly regulation effect. Both yumC and trxB products
seem to be essential for cell growth.
RESEAU
BG10282 ndk D - - Metabolic gap and/or external source
BG10305 bkdB D o 1E+06 Metabolic gap and/or external source
BG10306 bkdAB D o 1E+06 Metabolic gap and/or external source
BG10307 bkdAA D o 1E+06 Metabolic gap and/or external source
BG11725 lpdV D o 1E+06 Metabolic gap and/or external source
BG13951 yubB D - - Metabolic gap and/or external source
BIOMASSE
BG10402 gtaB D - - Biomass composition
BG10548 dltD D o ND Biomass composition
BG10549 dltC D o ND Biomass composition
BG10550 dltB D o ND Biomass composition
BG10551 dltA D o ND Biomass composition
BG10724 tagE D o ND Biomass composition
BG11012 pssA D - - Biomass composition
BG11013 psd D - - Biomass composition
BG11192 ggaB D o 1 Biomass composition
BG11367 ggaA D o 1 Biomass composition
BG11611 ugtP D - - Biomass composition
BG11840 metK E - - Synthesize S-adenosylmethionine, which is necessary for
siroheme synthesis.
BG12089 acpS E - - Synthesize acyl-carrier protein.
BG12900 yfiX D - - Biomass composition
BG13824 ytaG E - - Synthesize coenzyme A.
Autre interprétation
BG10897 tpiA E - - Possibly toxic effect. Accumulation of dihydroxyacetone
phosphate, which may leads to the formation of the
bactericidal compound methylglyoxal
BG11062 pgk E - - Conditionally essential gene.
BG11937 fmt E - - Other function. Required for the formylation of methionyl
tRNA
BG12344 mrpF E - - Other function. Multiple resistance and pH homeostasis
BG12345 mrpD E - - Other function. Multiple resistance and pH homeostasis
BG12355 mrpA E - - Other function. Multiple resistance and pH homeostasis
BG12356 mrpB E - - Other function. Multiple resistance and pH homeostasis
BG12357 mrpC E - - Other function. Multiple resistance and pH homeostasis
BG13966 yueK E - - Toxic effect. Nicotinate accumulation.
Pas d'interprétation précise
BG10073 guaB E - - Not well understood.
BG10131 hprT E - - Not well understood.
BG10207 pdhA E - - Not well understood.
BG10273 odhB E - - Not well understood.
BG10410 pyrG E - - Not well understood.
BG11004 cmk E o 4 Not well understood.
BG11247 tkt E - - Not well understood.
BG11404 nrdE E - - Not well understood.
BG11405 nrdF E - - Not well understood.
BG11426 ymaA E - - Not well understood.
BG12644 pfkA E - - Not well understood.
autogpr
Tableau 21. Comparaison des propositions d’AutoGPR aux interprétations expertes des incohérences de B. subtilis. Les gènes incohérents sont classés par type d’interprétation (les commentaires des auteurs sont repris en dernière colonne). Signification des colonnes : ess, essentialité du gène (E essentiel, D non-essentiel) ; test, résultat du test d’existence de correction GPR (o existence de correction) ; n, nombre de propositions d’AutoGPR (ND proposition non réalisable).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
188
Nous avons pu classer les commentaires des auteurs en cinq catégories, selon que
l’interprétation se rattache à une des composantes du modèle (GPR, RESEAU et
BIOMASSE) ou non (« Autre interprétation » et « Pas d’interprétation précise »).
Toutes les interprétations liées à la composante GPR supposent ici l’existence
d’interactions régulatrices inhibant l’expression d’isozymes. Sur les cinq incohérences
de ce type, deux disposent d’une proposition d’AutoGPR correspondant correctement
à l’interprétation. Pour les trois cas ne correspondant pas (fbaA, yumC et trxB), les
réactions catalysées ne sont en fait elles-mêmes pas essentielles : une correction
purement GPR ne peut donc pas exister (aucune réaction essentielle à impacter par
ces gènes essentiels). Pour corriger ces incohérences selon les interprétations
avancées ici, il est nécessaire d’effectuer également des corrections aux composantes
RESEAU ou BIOMASSE afin de rendre ces réactions essentielles. Il est intéressant
de remarquer pour cet organisme aussi que l’ensemble des interprétations de type
GPR concernent des incohérences de gènes essentiels, corroborant la remarque faite
pour A. baylyi.
AutoGPR propose des corrections GPR pour une part significative des
incohérences interprétées comme liées aux composantes RESEAU et BIOMASSE.
Tous ces cas correspondent à des incohérences de gènes non-essentiels appartenant à
des complexes. Pour rendre ces gènes effectivement non-essentiels, AutoGPR
propose logiquement de transformer les relations de « complexes » en relations
d’« isozymes ». Cependant, l’examen des fonctions de ces gènes montre clairement
que ceux-ci ne peuvent se comporter comme des isozymes et forment réellement un
ensemble nécessitant leur présence conjointe. Si AutoGPR était contraint à ne pas
effectuer ce type de transformation pour ces complexes, aucune correction GPR
n’aurait alors été proposée. Ceci corrobore également une autre remarque faite ci-
dessus pour A. baylyi à propos de la correction de gènes non-essentiels.
En conclusion pour B. subtilis, la correspondance entre les interprétations et les
propositions d’AutoGPR est donc fortement altérée par ce comportement d’AutoGPR
sur les complexes. En revanche, les deux seules interprétations purement GPR (racE
et yumC) sont correctement détectées par AutoGPR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
189
S. cerevisiae
Avec des interprétations pour plus de 230 incohérences, le modèle S. cerevisiae
offre une perspective de confrontation avec les propositions d’AutoGPR plus large
que pour les modèles précédents. Cependant, les incompatibilités entre milieux font
qu’une seule incohérence dispose d’une correction GPR compatible simultanément
avec les phénotypes des huit milieux de S. cerevisiae. La présence de régulation, les
conditions expérimentales différentes entre les études et la possibilité d’erreurs dans
les composantes RESEAU et BIOMASSE peuvent expliquer ces incompatibilités.
Les auteurs n’ont cependant pas cherché à interpréter systématiquement les
incohérences sur tous les milieux à la fois. Nous avons donc plutôt confronté leurs
interprétations aux résultats des tests d’existence de correction GPR, valables pour
chaque milieu pris séparément. Le Tableau 22 présente les résultats de cette
confrontation regroupés par catégorie d’interprétation, tels que définis par les auteurs
eux-mêmes.
Catégorie d’interprétation cor. non cor. % cor. Acc Accumulation d'intermédiaire toxique 0 6 0% Bio Problème avec la constitution de la biomasse 1 41 2% Den Impasse métabolique dans le modèle 0 8 0% Dis Incohérence entre données expérimentales 2 12 14% Iso Problème avec les associations GPR 10 9 53% Med Problème dans la composition du milieu in
silico 7 22 24%
Mod Problème dans la structure du réseau métabolique
0 4 0%
Oth Implication du gène dans des processus non métaboliques
1 78 1%
Reg Régulation transcriptionnelle manquante 2 0 100% Slo Croissance ralentie in silico 0 4 0% Unk Cause de fausse prédiction inconnue 1 28 3% Incohérence non présente dans l’article 0 1 0%
Tableau 22. Comparaison des types d’interprétation des incohérences de S. cerevisiae aux tests d’existence de correction GPR. Rappel : ces tests ne vérifient l’existence de correction GPR que sur chaque milieu pris séparément, les corrections n’étant pas nécessairement compatibles entre les milieux. Signification des colonnes : cor, nombre d’incohérences disposant (selon le test) d’une correction GPR sur chaque milieu ; non cor, nombre d’incohérences ne disposant pas de correction GPR sur au moins un des milieux ; % cor, part des incohérences disposant d’une correction GPR sur chaque milieu (cor/(cor + non cor)). Les % en gras indiquent les cas où les incohérences disposant d’une correction GPR sont majoritaires.
Les incohérences disposant d’après AutoGPR de corrections GPR sont
majoritaires dans les catégories Reg et Iso, et minoritaires (souvent largement) dans
toutes les autres. Les catégories Reg et Iso sont les seules à concerner explicitement la
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
190
composante GPR, les tests d’existences de correction GPR correspondent ainsi
globalement bien aux classes interprétations.
La catégorie Reg regroupe deux incohérences dues à des régulations. Toutes deux
ont été clairement interprétées comme dépendant de l’environnement : la première
implique une pyruvate kinase (CDC19 77) dont la seule isozyme (PYK2 78) est connue
pour être active uniquement pour de faibles flux glycolytiques, rendant CDC19
essentielle sur milieu glucose ; la seconde implique la réaction acetaldehyde
dehydrogenase dont seule une des cinq isozymes (ADH1 79) est a priori exprimée sur
milieu glucose, celui-ci réprimant l’expression des autres. AutoGPR identifie
correctement l’existence de correction sur les milieux glucose (ypd et ypd_ess).
Cependant, ces corrections sont incompatibles avec les autres milieux, car les
isozymes y « redeviennent » actives.
La catégorie Iso regroupe des interprétations liées aux GPR elles-mêmes, incluant
majoritairement l’ajout ou le retrait d’isozyme et la détection de sous-unité non-
essentielle dans un complexe. Sur les 19 incohérences classées dans cette catégorie,
10 disposent de corrections individuellement sur les milieux selon AutoGPR. Parmi
ces dernières 8 sont des incohérences de gènes essentiels et 2 de gènes non-essentiels,
corroborant ici aussi le biais constaté pour A. baylyi et S. cerevisiae. Les 9
incohérences ne disposant pas de corrections sont quant à elles équiréparties entre
gènes essentiels et non-essentiels.
Tous les autres types d’interprétations ne concernent pas la composante GPR ; il
est donc naturel que l’existence de correction selon AutoGPR y soit minoritaire. Dans
ces catégories, 12 incohérences disposent tout de même d’une correction GPR. 11
d’entre elles concernent des gènes non-essentiels. Ce résultat corrobore ici aussi un
constat effectué avec B. subtilis, selon lequel les propositions de correction pour les
gènes non-essentiels ont tendance à être moins réalistes que celles pour les gènes
essentiels.
77 Nom systématique : YAL038W 78 Nom systématique : YOR347C 79 Nom systématique : YOL086C
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
191
13 Limites et perspectives
En conclusion, le développement de la méthode AutoGPR nous a montré que,
exploitées de manière appropriée, les données d’essentialité pouvaient conduire par
des déductions logiques à proposer automatiquement des corrections aux relations
GPR. L’implémentation que nous avons retenue ici – déduction systématique de
toutes les GPR envisageables, à ensemble constant de gènes – nous a permis
d’illustrer l’intérêt et de montrer la faisabilité d’une telle méthode sur cinq modèles.
Nous avons cependant évoqué à plusieurs reprises l’existence de limites et de
faiblesses. Nous allons les reprendre ici et proposer des possibilités d’amélioration de
la méthode, ainsi que des perspectives d’utilisation plus large.
13.1 Réduction de la combinatoire des propositions de correction
Lors de la génération des corrections GPR pour les cinq modèles, nous avions
constaté que le nombre de propositions pouvaient devenir particulièrement élevé, en
particulier lorsque les composantes connexes comptaient plusieurs gènes et réactions.
Cet effet, dû aux combinaisons des différents impacts possibles pour chaque délétion
de gène, s’avère particulièrement gênant. D’une part, il augmente le nombre de
propositions à considérer et, d’autre part, rend dans certains cas les déductions tout
bonnement impossibles.
Cependant, un examen plus approfondi des spécifications sur les GPR déduites
des scénarios d’impacts met en évidence des spécifications non-informatives qui
augmentent inutilement le nombre d’alternatives. La Figure 54 illustre cet effet sur
l’exemple que nous avions utilisé dans la partie théorique.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
192
Figure 54. Simplification des spécifications issues des scénarios d’impact générés par AutoGPR. Les différents scénarios proposent des spécifications alternatives pour R2 qui, lorsqu’on considère tous les ensembles de spécifications simultanément, se simplifient. Seul un ensemble de spécifications se déduit réellement des contraintes posées par les essentialités et les supports de réactions.
Les quatre scénarios d’impact générés par AutoGPR se traduisent en quatre
ensembles alternatifs de spécifications sur R1 et R2. En examinant simultanément ces
quatre ensembles, il s’avère que les spécifications alternatives pour R2 décrivent en
réalité la totalité de ses comportements possibles. De ce fait, les quatre ensembles se
simplifient pour ne retenir que les spécifications sur R1, seules spécifications
réellement à l’œuvre. Lors de l’étape d’implémentation des GPR, ces spécifications
détermineront les GPR correctes pour R1, la GPR initiale de R2 pouvant être
conservée pour R2.
En incorporant directement ce type de simplification dans la partie spécification
de la méthode AutoGPR, le nombre de propositions « non-informatives » pourrait
alors se trouver largement réduit dans certains cas.
13.2 Amélioration de la spécificité pour les corrections de gènes non-essentiels
Alors qu’AutoGPR détecte avec une relative bonne spécificité des corrections
GPR pour les gènes essentiels, nous avons relevé que la spécificité pour les gènes
non-essentiels est bien moins bonne. Comme déjà évoqué plus haut à propos du
modèle B. subtilis (voir 12.3.2), ceci est principalement dû au fait que les corrections
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
193
proposées par AutoGPR pour les gènes non-essentiels consistent à transformer des
sous-unités d’un complexe en isozymes, corrections relativement peu probables étant
donné l’attention particulière généralement portée à la construction des complexes.
La spécificité d’AutoGPR pourrait être améliorée en prenant en compte cette
information sur la fiabilité des complexes. Pour chaque complexe dont les interactions
entre sous-unités sont confirmées (ou lorsque la probabilité d’existence de
l’interaction dépasse un seuil de confiance), une méthode interdisant à AutoGPR de
remplacer la relation ET en relation OU entre les gènes permettrait d’éliminer ces cas
de fausse proposition.
13.3 Au delà des trois hypothèses fondamentales d’AutoGPR
Les trois hypothèses fondamentales sur lesquelles repose AutoGPR – associations
gènes-réactions connues, composantes RESEAU et BIOMASSE fixes, GPR
identiques sur tous les milieux – définissent précisément son champ d’action, mais, en
contrepartie, écartent d’autres types d’interprétations. Nous discuterons rapidement de
ces cas dans cette partie en proposant des pistes d’amélioration.
13.3.1 Associations gène-réaction prédéfinies
L’hypothèse d’associations gènes-réactions prédéfinies prive AutoGPR d’une part
significative des corrections réalisées dans la composante GPR, dans lesquelles de
nouveaux gènes sont ajoutés aux GPR.
La recherche de gènes candidats pouvant être nouvellement associés à des
réactions est un thème de recherche à part entière, qui sort du cadre d’AutoGPR. Un
grand nombre de méthodes, expérimentales et bioinformatiques, ont été proposées
pour identifier ces gènes – nous en avions évoqué quelques unes en introduction (voir
sections 1.4.1 et 1.4.2).
Ces méthodes pourraient être avantageusement combinées à AutoGPR pour d’une
part tenir compte de l’essentialité des gènes candidats et d’autre part définir la place
de ces nouveaux gènes dans les GPR des réactions qui leur sont associées. La Figure
55 ci-après illustre une manière d’intégrer AutoGPR avec ces approches. La
combinaison de ces approches avec AutoGPR serait d’autant plus bénéfique qu’elles
exploitent des données réellement complémentaires : AutoGPR ignore en effet
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
194
totalement les fonctions des gènes80 et la plupart des méthodes de recherche de gènes
candidats n’exploitent pas leur essentialité et prennent en considération leurs places
dans les réseaux métaboliques de manière très simple.
13.3.2 Composantes RESEAU et BIOMASSE fixes
L’hypothèse selon laquelle les composantes RESEAU et BIOMASSE sont
considérées correctes limite également la recherche de corrections par AutoGPR.
Nous avions ainsi vu pour B. subtilis que trois interprétations d’incohérence mettaient
en jeu des corrections GPR associées à des modifications des composantes RESEAU
et BIOMASSE (gènes fbaA, yumC et trxB, voir section 12.3.2). Les essentialités de
réactions étant initialement fausses et incompatibles avec les essentialités de gènes,
aucune correction GPR ne pouvaient être proposée par AutoGPR.
Dans ce cas également, AutoGPR peut être avantageusement associé à des
stratégies de correction des autres composantes (voir Figure 55).
Figure 55. Intégration de stratégies de correction des liens gènes-réactions et des composantes RESEAU et BIOMASSE avec AutoGPR.
Suivant par exemple le constat qu’aucune correction GPR n’existe, ces stratégies
pourraient être mises en œuvre pour corriger les composantes RESEAU ou
80 sauf, indirectement, à travers les liens gènes-réactions prédéfinis ; mais ceux-ci ne sont pas modifiés par AutoGPR.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
195
BIOMASSE et modifier les essentialités de réactions. AutoGPR exploiterait alors ces
nouvelles essentialités afin de rechercher à nouveau des liens GPR compatibles.
Des interactions existent entre AutoGPR et ces stratégies de correction des autres
composantes. En effet, si aucune correction GPR n’existe pour une incohérence de
gène essentiel, cela signifie qu’il manque une ou un groupe de réactions essentielles à
associer au gène. Ce constat guide la recherche de corrections dans les autres
composantes : ces dernières doivent rendre essentiel au moins un groupe de réactions
parmi celles associées au gène pour qu’une correction GPR compatible soit ensuite
envisageable. Inversement, une incohérence de gène non-essentiel sans correction
GPR « demande » aux méthodes de correction des autres composantes à rendre non-
essentielle la réaction liée à ce gène.
13.3.3 GPR constantes sur tous les milieux
Enfin, l’hypothèse d’uniformité des GPR sur tous les milieux est mise à mal par la
présence de régulations modifiant l’expression des gènes en fonction des milieux.
Dans ces cas, AutoGPR ne peut souvent pas concilier les essentialités sur les
différents milieux, ces dernières étant influencées par les régulations (voir l’exemple
des régulations pour S. cerevisiae sur milieu glucose).
La méthode AutoGPR pourrait être étendue pour, dans un deuxième temps,
chercher à introduire les règles de régulation les plus probables permettant
d’expliquer les essentialités distinctes sur les milieux. Ces règles s’exprimant déjà
sous forme booléenne dans le cadre de modélisation rFBA (Covert et al. 2001), elles
pourraient bénéficier du cadre de raisonnement logique mis en place dans AutoGPR.
Ce type de raisonnement a déjà été effectué manuellement pour corriger les
interactions de régulation d’un modèle d’E. coli à l’aide de données phénotypiques
(Covert et al. 2004).
13.4 Perspectives d’utilisation des délétions multiples
Bien que nous n’ayons ici appliqué AutoGPR qu’à des phénotypes de délétions
simples de gènes, AutoGPR peut théoriquement prendre en compte les essentialités de
n’importe quels groupes de gènes inclus dans le modèle. La disponibilité de
phénotypes de délétions multiples contribuerait d’ailleurs avantageusement à
l’efficacité d’AutoGPR. D’une part, ces essentialités ajouteraient des spécifications
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
196
supplémentaires aux GPR, réduisant de ce fait le nombre de propositions et, d’autre
part, l’utilisation de délétions multiples permet de perturber et ainsi d’étudier un plus
grand nombre de fonctions biologiques, comme constaté dans des études explorant ce
sujet (Deutscher et al. 2006; Behre et al. 2007; Deutscher et al. 2008).
Toutefois, le nombre de combinaisons de délétions multiples augmente
exponentiellement avec leur taille, rendant extrêmement lourde la génération
exhaustive de tels ensembles de données. AutoGPR pourrait être exploité afin de
proposer les délétions multiples les plus intéressantes à réaliser dans le cadre de la
recherche de GPR. En effet, les grands nombres de propositions de corrections
proposées par AutoGPR pourraient être significativement réduits en incluant des
résultats de phénotypes de délétions multiples bien choisies. Ces dernières pourraient
par exemple être sélectionnées selon un critère évaluant l’intérêt des spécifications
qu’elles apporteraient.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
197
CONCLUSIONS ET PERSPECTIVES
14 Contributions principales
Le principal objectif de cette thèse aura été de montrer que les capacités
d’analyses des modèles mathématiques du métabolisme pouvaient être
avantageusement mises à profit pour élucider le métabolisme des microorganismes.
Plus spécifiquement, cette thèse se sera concentrée sur un type de modèles – les
modèles globaux du métabolisme – et leur aptitude à exploiter une catégorie de
données expérimentales auparavant difficilement interprétable à la lumière du
métabolisme – les phénotypes de croissance. Elle se sera appuyée pour cela sur
l’organisme Acinetobacter baylyi ADP1, dont nous aurons reconstruit puis corrigé le
modèle métabolique à l’aide des phénotypes de croissance de ses mutants. Nous
allons reprendre ici succinctement les principales conclusions de nos travaux pour en
souligner nos contributions.
Dans un premier temps, nous avons abordé le problème de la reconstruction des
modèles globaux à partir de la connaissance des voies métaboliques, cette
connaissance étant pour la majorité des microorganismes principalement déduite de
l’annotation de leurs génomes. Ces reconstructions s’effectuent en deux étapes : (1)
l’identification des activités du réseau métabolique et (2) l’adaptation du réseau au
formalisme mathématique. Sur l’exemple d’A. baylyi, nous avons proposé un
processus complet de reconstruction. Nous nous sommes largement appuyés sur les
outils logiciels existants pour effectuer la première étape. Notre principale
contribution à cette étape aura été de souligner l’importance de combiner diverses
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
198
sources d’informations et de prendre en compte les niveaux de confiance des activités
identifiées. Les points difficiles de la deuxième étape étant moins clairement
maîtrisés, nous en avons décris les principaux et proposé pour une partie d’entre eux
des analyses et méthodes de résolution originales: la prise en compte de la
conservation de l’énergie, la génération de métabolites spécifiques et la recherche de
complexes enzymatiques. Enfin, nous avons réalisé l’ensemble de ce processus de
reconstruction pour A. baylyi, résultant en un modèle de son métabolisme complet
permettant d’effectuer des prédictions quantitatives de croissance.
La deuxième partie de nos travaux a été consacrée à l’exploitation des phénotypes
de croissance par les modèles globaux. Dans la lignée de travaux précédents pour
quelques autres organismes, nous avons confronté phénotypes prédits et phénotypes
expérimentaux d’A. baylyi afin d’évaluer la cohérence du modèle avec ces
observations expérimentales et de proposer, le cas échéant, des corrections au modèle.
Ce travail pour A. baylyi nous a conduit à réaliser un nombre substantiel
d’amélioration au modèle initialement reconstruit et de déduire à partir des
phénotypes de nouvelles informations sur son fonctionnement métabolique. Du point
de vue méthodologique, nous avons introduit une distinction formelle simple entre
différentes composantes des modèles métaboliques globaux – composantes GPR,
RESEAU et BIOMASSE – dont le découplage permet de rechercher indépendamment
des corrections. Du point de vue logiciel, nous avons participé au développement de
NemoStudio et CycSim, deux interfaces web facilitant la prédiction de phénotypes de
croissance, leur confrontation aux observations expérimentales et leur interprétation à
la lumière des voies métaboliques.
Enfin, la dernière partie de nos travaux s’est concentrée sur la formalisation de la
recherche de corrections pour la composante GPR. Nous avons ainsi participé au
développement d’une méthode – AutoGPR – déduisant automatiquement l’ensemble
des corrections GPR qui lèvent les incohérences des prédictions de phénotypes. Afin
de montrer la pertinence d’une telle méthode, nous l’avons appliquée à la recherche
de corrections pour cinq modèles métaboliques distincts et comparé ses propositions
aux interprétations expertes des incohérences. Dans un dernier temps, nous avons
répertorié les principales limites de cette méthode et proposé des améliorations
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
199
permettant de les surmonter et d’intégrer AutoGPR avec des stratégies de corrections
des autres composantes des modèles.
15 Revue de travaux sur le même sujet effectués sur la période de la thèse (2005–2009)
Le thème de recherche de nos travaux s’est révélé être extrêmement actif durant
les années de notre thèse. Des avancées sont ainsi venues progressivement compléter
l’état de l’art présenté en introduction de ce manuscrit. Afin de situer nos travaux dans
leur contexte actuel et d’en présenter de manière plus complète les perspectives, nous
effectuerons dans cette section un rapide tour d’horizon des travaux publiés entre fin
2005 et début 2009, et liés à la reconstruction des modèles et l’exploitation des
phénotypes de croissance81.
Initialement réalisées seulement par un nombre réduit d’équipes de recherche, les
reconstructions de modèles métaboliques ont rapidement gagné en popularité à partir
de fin 2005, impliquant aujourd’hui plus d’une dizaine d’équipes. Le nombre de
nouveaux modèles publiés chaque année a lui aussi augmenté significativement,
passant de 4 modèles publiés en 2006 à une quinzaine en 2008, et déjà une dizaine
pour le premier semestre de 200982. Parmi ces reconstructions, une proportion
toujours plus large utilise les données expérimentales de phénotypes de croissance
pour évaluer la qualité du modèle et éventuellement le compléter. C’est le cas
notamment des modèles d’E. coli (Joyce et al. 2006), B. subtilis (Oh et al. 2007;
Henry et al. 2009), Pseudomonas aeruginosa (Oberhardt et al. 2008) et Pseudomonas
putida (Pucha#ka et al. 2008), Mycoplasma genitalium (Suthers et al. 2009),
Geobacter sulfurreducens (Segura et al. 2008), et S. cerevisiae (Snitkin et al. 2008).
Cette hausse du nombre de reconstructions s’est accompagnée du développement
d’outils facilitant la transformation d’un réseau métabolique en un modèle
mathématique. Tout d’abord, la base de données métabolique MetaCyc s’est
81 Nous nous excusons auprès des lecteurs des quelques répétitions avec la revue sur les modèles métaboliques incluse en introduction. 82 Un tableau disponible à l’adresse http://gcrg.ucsd.edu/In_Silico_Organisms/Other_Organisms cherche à répertorier les modèles métaboliques globaux.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
200
progressivement adaptée aux contraintes posées par la modélisation : les
compartiments cellulaires sont désormais pris en compte et des efforts de curation ont
été réalisés pour équilibrer systématiquement toutes les réactions83. Des méthodes de
reconstruction spécifiquement adaptées aux modèles à base de contraintes ont
également vu le jour (Feist et al. 2009; Durot et al. 2009). Celle développée par
exemple par DeJongh et al (2007) reconstruit progressivement les modèles en
assemblant des « sous-modèles » des fonctions métaboliques représentées dans la
base de données SEED et dont le bon fonctionnement est vérifié isolément. D’autres
méthodes ont été développées pour corriger des aspects spécifiques aux modèles.
Ainsi, Kumar et al (2007) ont proposé les méthodes GapFill et GapFind pour détecter
et combler les impasses dans les voies métaboliques, Kümmel et al (2006b) ont
introduit des règles pour établir la réversibilité des réactions, et Gevorgyan et al
(2008) ont élaboré un algorithme pour détecter les incohérences de stœchiométrie
entre réactions sans recourir aux formules chimiques des métabolites.
S’agissant de la prédiction des phénotypes de croissance, quelques nouvelles
méthodes ont également été introduites. Kaleta et al (2008) ont par exemple exploité
la notion d’organisation chimique84 pour prédire les phénotypes de croissance de
modèles intégrant métabolisme et régulation. Whelan & King (2008) ont pour leur
part développé un modèle logique du métabolisme de S. cerevisiae dans le but
d’exploiter des techniques d’inférence logique afin d’améliorer le modèle à partir de
données de phénotypes. Plusieurs méthodes ont également été proposées pour prédire
à grande échelle les environnements de croissance d’organismes à partir de leurs
réseaux métaboliques ; c’est le cas des travaux de Borenstein et al (2008) et de
Handorf et al (2008) à l’aide de graphes métaboliques, et d’Imielinski et al (2006) à
partir des modèles à base de contraintes. Parallèlement, la recherche des ensembles
essentiels minimaux de gènes a motivé plusieurs projets distincts. Klamt et al (2004)
avaient ainsi développé une méthode basée sur les modes élémentaires pour
83 Voir les améliorations apportées à MetaCyc à l’adresse suivante : http://metacyc.org/release-notes.shtml 84 Une organisation chimique est un ensemble de métabolite ayant les propriétés de clôture (aucun métabolite extérieur à l’ensemble ne peut être produit par une réaction à partir de métabolites de l’organisation chimique) et d’autosuffisance (chaque métabolite consommé dans l’organisation peut être recréé à partir d’autres métabolites de l’organisation à une vitesse suffisante pour assurer sa présence).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
201
déterminer exhaustivement les ensembles minimaux de gènes essentiels (appelés
Minimal Cut Sets), Cette méthode et une exploration systématique étant trop
complexes pour être appliquées aux modèles métaboliques d’échelle globale,
Deutscher et al (2006) et Imielinski & Belta (2008) ont exploré les ensembles
essentiels de gènes en développant des méthodes applicables à cette échelle, basées
respectivement sur un échantillonnage des ensembles essentiels et des modes
élémentaires partiels. Behre et al (2007) ont quand à eux introduit une mesure
quantitative de la robustesse aux délétions multiples permettant d’évaluer de manière
plus complète85 la robustesse d’un réseau aux perturbations génétiques. Enfin,
Deutscher et (2008) ont élaboré un indicateur basé sur la théorie des jeux permettant
d’exploiter les phénotypes de perturbations génétiques multiples pour quantifier la
contribution d’un gène à la réalisation de fonction biologiques.
Dans le même esprit qu’AutoGPR ont été proposées des méthodes de corrections
automatiques des modèles permettant de résoudre les prédictions incohérentes de
phénotypes de croissances. Reed, Patel et al (2006) ont ainsi développé un algorithme
recherchant le nombre minimal de réactions à ajouter à un modèle pour lui permettre
de prédire la croissance sur un environnement particulier. Kumar & Maranas (2009)
ont quant à eux élaboré la méthode GrowMatch qui vise à réconcilier prédictions et
observations d’essentialités de gènes en modifiant principalement la composante
RESEAU des modèles (ajout/suppression de réactions, changement de leurs
réversibilités). Cette dernière méthode complèterait de manière appropriée AutoGPR
pour élaborer des corrections plus complètes des modèles.
Enfin, il est intéressant de signaler une initiative visant à automatiser entièrement
la recherche des gènes des activités orphelines par des approches génétiques (King et
al. 2009). En se basant sur le modèle logique du métabolisme de S. cerevisiae
mentionné plus haut (Whelan & King 2008), King et al ont implémenté une méthode
qui, pour chaque activité orpheline, (1) sélectionne des gènes candidats, (2) infère les
expériences de génétique (délétions de gènes, environnement) à réaliser pour
identifier le bon candidat, (3) effectue automatiquement les expériences à l’aide d’un
robot, et (4) conclut à partir des phénotypes observés expérimentalement. Ce
85 par rapport aux délétions uniquement simples.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
202
processus, appliqué à la recherche des gènes de 13 activités orphelines, a permis
d’identifier 20 candidats dont les fonctions ont été confirmées pour une partie d’entre
eux par des tests biochimiques directs ou des recherches dans la littérature.
16 Perspectives
Nous conclurons ce manuscrit en évoquant quelques perspectives ouvertes par
l’amélioration de la reconstruction des modèles et de leur capacité à intégrer des
données expérimentales.
Il semble en effet que la reconstruction des réseaux métaboliques devienne une
extension naturelle de l’annotation des génomes. L’essor des outils de reconstruction
et des bases de données métaboliques (notamment BioCyc et KEGG) témoignent de
cette tendance. De même, les plateformes d’annotation actuelles86 évoluent
progressivement afin de replacer les fonctions des gènes dans le contexte de processus
biologiques complets – à l’instar des sous-systèmes définis dans SEED (Overbeek et
al. 2005). Ces plateformes reconstruisent désormais systématiquement les réseaux
métaboliques correspondant à chaque génome (souvent à l’aide de KEGG ou BioCyc)
et cherchent à en exploiter la vision par voies métaboliques pour préciser les fonctions
des gènes et compléter les annotations. Ces plateformes se limitent pour le moment à
capturer les annotations expertes de la fonction des gènes ; il est probable que ces
outils évolueront pour prendre en compte des informations expertes sur les voies
métaboliques elles-mêmes, comme cela est déjà proposé aux curateurs des bases de
données BioCyc (Caspi et al. 2008).
Les modèles métaboliques peuvent également prétendre à devenir des
compléments systématiques à l’annotation des génomes. En effet, les méthodes
introduites dans cette thèse et, plus largement, les travaux portant sur la reconstruction
des modèles vont vraisemblablement réussir à lever les contraintes liées au
formalisme mathématique, qui entravent actuellement la création d’un modèle à partir
d’un réseau métabolique. De plus, comme suggéré dans cette thèse pour les
phénotypes de croissance, l’aptitude des modèles à exploiter des données
86 Notamment MaGe (Vallenet et al. 2006), IMG (Markowitz et al. 2009) ou SEED (Aziz et al. 2008).
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
203
expérimentales de diverses natures va très certainement promouvoir leur utilisation
pour élucider le métabolisme des organismes et compléter l’annotation de leurs
génomes. Cet argumentaire est à la base de Microme, un projet européen devant
débuter fin 2009 dans lequel le Genoscope est impliqué. L’objectif de Microme sera
de fournir des méthodes et des infrastructures logicielles pour reconstruire
automatiquement et effectuer la curation experte des réseaux et modèles métaboliques
d’organismes procaryotes. Microme intègrera notamment des méthodes de
confrontations des modèles aux données expérimentales qui suggèreront des pistes de
curation aux experts.
La mise en place d’infrastructures du type envisagé par Microme ouvre alors la
voie à la reconstruction en grand nombre de modèles métaboliques, offrant de
nouvelles perspectives à la communauté scientifique.
Tout d’abord, la disponibilité de modèles métaboliques pour un grand nombre
d’organismes distribués sur l’arbre de la vie fournirait de nouveaux outils pour étudier
l’évolution des organismes, notamment procaryotes. Les modèles relient en effet
directement les gènes à leurs rôles dans le métabolisme, permettant d’étudier en retour
les contraintes posées par le métabolisme sur l’évolution des gènes. Quelques travaux
ont déjà été réalisés dans cet esprit sur un nombre limité d’organismes (Pál et al.
2005; Pál et al. 2006), mais l’utilisation de modèles en plus grand nombre permettra
très certainement d’élargir leur champ d’applications dans ce domaine.
Ensuite, des modèles systématiquement reconstruits sont autant d’outils à la
disposition de la communauté scientifique pour interpréter les grands ensembles de
données expérimentales. Les progrès techniques offrent aux expérimentateurs la
possibilité de mesurer à grande échelle une large variété de grandeurs liées aux entités
biologiques : par exemple les concentrations métaboliques, flux de réactions
métaboliques, expressions de gènes, concentrations de protéines et, au niveau
macroscopique, phénotypes de croissance. Cependant, il s’avère que ces ensembles de
données ne peuvent prendre tout leurs sens que lorsqu’ils sont interprétés à la lumière
du fonctionnement biochimique réel de la cellule. Les modèles permettent justement
d’intégrer ces données et de les mettre en regard du fonctionnement métabolique
modélisé. En disposant de modèles métaboliques pour un grand nombre
d’organismes, les logiciels implémentant les méthodes d’intégration de données, telle
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
204
que CycSim pour les phénotypes de croissance, constitueraient des outils bienvenus
pour interpréter ces données.
Enfin, l’ingénierie du métabolisme est un autre domaine susceptible de bénéficier
de la disponibilité de nombreux modèles. Ces ensembles de modèles constitueraient
en effet de véritables répertoires virtuels d’organismes et de voies métaboliques,
permettant de réaliser et de tester in silico un grand nombre de « constructions
métaboliques », avant même toute expérience en laboratoire. Ils pourraient
notamment être employés pour (1) sélectionner les organismes aux caractéristiques
métaboliques les plus adaptés à l’objectif métabolique, (2) prédire les performances
théoriques de modifications métaboliques envisagées ou (3) suggérer
automatiquement des modifications métaboliques répondant à un objectif, constituant
de ce fait une véritable boîte à outils numérique à la disposition des ingénieurs du
métabolisme.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
205
REFERENCES BIBLIOGRAPHIQUES
Abbott, A., 2005. Medics braced for fresh superbug. Nature, 436(7052), 758. Abbott, B.J., Laskin, A.I. & McCoy, C.J., 1974. Effect of growth rate and nutrient
limitation on the composition and biomass yield of Acinetobacter calcoaceticus. Appl Microbiol, 28(1), 58–63.
Abd-El-Haleem, D., 2003. Acinetobacter: environmental and biotechnological
applications. Afr. J. Biotechnol., 2(4), 71–74. Aghaie, A., Lechaplais, C., Sirven, P., Tricot, S., Besnard-Gonnet, M., Muselet, D.,
de Berardinis, V., Kreimeyer, A., Gyapay, G., Salanoubat, M. & Perret, A., 2008. New insights into the alternative d-glucarate degradation pathway. J Biol Chem, 283(23), 15638–15646.
Akerley, B.J., Rubin, E.J., Novick, V.L., Amaya, K., Judson, N. & Mekalanos, J.J.,
2002. A genome-scale analysis for identification of genes required for growth or survival of Haemophilus influenzae. Proc Natl Acad Sci U S A, 99(2), 966–971.
Andersson, S.G.E., Zomorodipour, A., Andersson, J.O., Sicheritz-Ponten, T.,
Alsmark, U.C.M., Podowski, R.M., Naslund, A.K., Eriksson, A., Winkler, H.H. & Kurland, C.G., 1998. The genome sequence of Rickettsia prowazekii and the origin of mitochondria. Nature, 396(6707), 133-140.
Arigoni, F., Talabot, F., Peitsch, M., Edgerton, M.D., Meldrum, E., Allet, E., Fish, R.,
Jamotte, T., Curchod, M.L. & Loferer, H., 1998. A genome-based approach for the identification of essential bacterial genes. Nature Biotechnology, 16(9), 851-6.
Aziz, R.K., Bartels, D., Best, A.A., DeJongh, M., Disz, T., Edwards, R.A., Formsma,
K., Gerdes, S., Glass, E.M., Kubal, M., Meyer, F., Olsen, G.J., Olson, R., Osterman, A.L., Overbeek, R.A., McNeil, L.K., Paarmann, D., Paczian, T., Parrello, B., Pusch, G.D., Reich, C., Stevens, R., Vassieva, O., Vonstein, V.,
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
206
Wilke, A. & Zagnitko, O., 2008. The RAST Server: rapid annotations using subsystems technology. BMC Genomics, 9, 75.
Baba, T., Ara, T., Hasegawa, M., Takai, Y., Okumura, Y., Baba, M., Datsenko, K.A.,
Tomita, M., Wanner, B.L. & Mori, H., 2006. Construction of Escherichia coli K-12 in-frame, single-gene knockout mutants: the Keio collection. Mol Syst Biol, 2, 2006.0008.
Bairoch, A., 2000. The ENZYME database in 2000. Nucleic Acids Res, 28(1), 304–
305. Barbe, V., Vallenet, D., Fonknechten, N., Kreimeyer, A., Oztas, S., Labarre, L.,
Cruveiller, S., Robert, C., Duprat, S., Wincker, P., Ornston, L.N., Weissenbach, J., Marlière, P., Cohen, G.N. & Médigue, C., 2004. Unique features revealed by the genome sequence of Acinetobacter sp. ADP1, a versatile and naturally transformation competent bacterium. Nucleic Acids Res, 32(19), 5766–5779.
Barkai, N. & Leibler, S., 1997. Robustness in simple biochemical networks. Nature,
387(6636), 913-7. Barthelmes, J., Ebeling, C., Chang, A., Schomburg, I. & Schomburg, D., 2007.
BRENDA, AMENDA and FRENDA: the enzyme information system in 2007. Nucleic Acids Res, 35(Database issue), D511–D514.
Batada, N.N., Hurst, L.D. & Tyers, M., 2006. Evolutionary and physiological
importance of hub proteins. PLoS Computational Biology, 2(7), e88. Beard, D.A., Babson, E., Curtis, E. & Qian, H., 2004. Thermodynamic constraints for
biochemical networks. J Theor Biol, 228(3), 327–333. Beard, D.A., Liang, S. & Qian, H., 2002. Energy balance for analysis of complex
metabolic networks. Biophys J, 83(1), 79–86. Becker, S.A., Feist, A.M., Mo, M.L., Hannum, G., Palsson, B.Ø. & Herrgard, M.J.,
2007. Quantitative prediction of cellular metabolism with constraint-based models: the COBRA Toolbox. Nat Protoc, 2(3), 727–738.
Behre, J., Wilhelm, T., von Kamp, A., Ruppin, E. & Schuster, S., 2007. Structural
robustness of metabolic networks with respect to multiple knockouts. J Theor Biol, 252(3), 433–441.
de Berardinis, V., Vallenet, D., Castelli, V., Besnard, M., Pinet, A., Cruaud, C.,
Samair, S., Lechaplais, C., Gyapay, G., Richez, C., Durot, M., Kreimeyer, A., Le Fèvre, F., Schächter, V., Pezo, V., Döring, V., Scarpelli, C., Médigue, C., Cohen, G.N., Marlière, P., Salanoubat, M. & Weissenbach, J., 2008. A complete collection of single-gene deletion mutants of Acinetobacter baylyi ADP1. Mol Syst Biol, 4, 174.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
207
Bergogne-Bérézin, E. & Towner, K.J., 1996. Acinetobacter spp. as nosocomial pathogens: microbiological, clinical, and epidemiological features. Clin Microbiol Rev, 9(2), 148–165.
Bochner, B.R., 2009. Global phenotypic characterization of bacteria. FEMS
Microbiology Reviews, 33(1), 191-205. Bonneau, R., Facciotti, M.T., Reiss, D.J., Schmid, A.K., Pan, M., Kaur, A., Thorsson,
V., Shannon, P., Johnson, M.H., Bare, J.C., Longabaugh, W., Vuthoori, M., Whitehead, K., Madar, A., Suzuki, L., Mori, T., Chang, D., Diruggiero, J., Johnson, C.H., Hood, L. & Baliga, N.S., 2007. A predictive model for transcriptional control of physiology in a free living cell. Cell, 131(7), 1354-65.
Borenstein, E., Kupiec, M., Feldman, M.W. & Ruppin, E., 2008. Large-scale
reconstruction and phylogenetic analysis of metabolic environments. Proc Natl Acad Sci U S A, 105(38), 14482–14487.
Borodina, I., Krabben, P. & Nielsen, J., 2005. Genome-scale analysis of Streptomyces
coelicolor A3(2) metabolism. Genome Res, 15(6), 820–829. Boyd, S. & Vandenberghe, L., 2004. Convex Optimization, Cambridge University
Press . Available at: http://www.stanford.edu/~boyd/cvxbook/. Breitling, R., Vitkup, D. & Barrett, M.P., 2008. New surveyor tools for charting
microbial metabolic maps. Nat Rev Microbiol, 6(2), 156–161. Briggs, G.E. & Haldane, J.B., 1925. A Note on the Kinetics of Enzyme Action. The
Biochemical Journal, 19(2), 338-9. Bryan, B.A., Linhardt, R.J. & Daniels, L., 1986. Variation in composition and yield of
exopolysaccharides produced by Klebsiella sp. strain K32 and Acinetobacter calcoaceticus BD4. Appl Environ Microbiol, 51(6), 1304–1308.
Burgard, A.P. & Maranas, C.D., 2003. Optimization-based framework for inferring
and testing hypothesized metabolic objective functions. Biotechnol Bioeng, 82(6), 670–677.
Burgard, A.P., Nikolaev, E.V., Schilling, C.H. & Maranas, C.D., 2004. Flux coupling
analysis of genome-scale metabolic network reconstructions. Genome Res, 14(2), 301–312.
Butland, G., Babu, M., Díaz-Mejía, J.J., Bohdana, F., Phanse, S., Gold, B., Yang, W.,
Li, J., Gagarinova, A.G., Pogoutse, O., Mori, H., Wanner, B.L., Lo, H., Wasniewski, J., Christopolous, C., Ali, M., Venn, P., Safavi-Naini, A., Sourour, N., Caron, S., Choi, J., Laigle, L., Nazarians-Armavil, A., Deshpande, A., Joe, S., Datsenko, K.A., Yamamoto, N., Andrews, B.J., Boone, C., Ding, H., Sheikh, B., Moreno-Hagelseib, G., Greenblatt, J.F. & Emili, A., 2008. eSGA: E. coli synthetic genetic array analysis. Nature Methods, 5(9), 789-95.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
208
Carpenter, A.E. & Sabatini, D.M., 2004. Systematic genome-wide screens of gene
function. Nat Rev Genet, 5(1), 11–22. Carr, E.L., Kämpfer, P., Patel, B.K.C., Gürtler, V. & Seviour, R.J., 2003. Seven novel
species of Acinetobacter isolated from activated sludge. International Journal of Systematic and Evolutionary Microbiology, 53(Pt 4), 953-63.
Caspi, R., Foerster, H., Fulcher, C.A., Kaipa, P., Krummenacker, M., Latendresse,
M., Paley, S., Rhee, S.Y., Shearer, A.G., Tissier, C., Walk, T.C., Zhang, P. & Karp, P.D., 2008. The MetaCyc Database of metabolic pathways and enzymes and the BioCyc collection of Pathway/Genome Databases. Nucleic Acids Research, 36(Database issue), D623-31.
Chalker, A.F. & Lunsford, R.D., 2002. Rational identification of new antibacterial
drug targets that are essential for viability using a genomics-based approach. Pharmacology & Therapeutics, 95(1), 1-20.
Chen, T., Siu, L., Lee, Y., Chen, C., Huang, L., Wu, R.C., Cho, W. & Fung, C., 2008.
Acinetobacter baylyi as a pathogen for opportunistic infection. Journal of Clinical Microbiology, 46(9), 2938-44.
Christie, K.R., Weng, S., Balakrishnan, R., Costanzo, M.C., Dolinski, K., Dwight,
S.S., Engel, S.R., Feierbach, B., Fisk, D.G., Hirschman, J.E., Hong, E.L., Issel-Tarver, L., Nash, R., Sethuraman, A., Starr, B., Theesfeld, C.L., Andrada, R., Binkley, G., Dong, Q., Lane, C., Schroeder, M., Botstein, D. & Cherry, J.M., 2004. Saccharomyces Genome Database (SGD) provides tools to identify and analyze sequences from Saccharomyces cerevisiae and related sequences from other organisms. Nucleic Acids Research, 32(Database issue), D311-314.
Cornish-Bowden, A., 2004. Fundamentals of Enzyme Kinetics 3 éd., London:
Portland Press. Covert, M.W., Schilling, C.H. & Palsson, B., 2001. Regulation of gene expression in
flux balance models of metabolism. J Theor Biol, 213(1), 73–88. Covert, M.W., Knight, E.M., Reed, J.L., Herrgard, M.J. & Palsson, B.O., 2004.
Integrating high-throughput and computational data elucidates bacterial networks. Nature, 429(6987), 92–96.
Degtyarenko, K., de Matos, P., Ennis, M., Hastings, J., Zbinden, M., McNaught, A.,
Alcántara, R., Darsow, M., Guedj, M. & Ashburner, M., 2008. ChEBI: a database and ontology for chemical entities of biological interest. Nucleic Acids Research, 36(Database issue), D344-350.
DeJongh, M., Formsma, K., Boillot, P., Gould, J., Rycenga, M. & Best, A., 2007.
Toward the automated generation of genome-scale metabolic networks in the SEED. BMC Bioinformatics, 8, 139.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
209
Deutscher, D., Meilijson, I., Kupiec, M. & Ruppin, E., 2006. Multiple knockout analysis of genetic robustness in the yeast metabolic network. Nat Genet, 38(9), 993–998.
Deutscher, D., Meilijson, I., Schuster, S. & Ruppin, E., 2008. Can single knockouts
accurately single out gene functions? BMC Syst Biol, 2(1), 50. Di Ventura, B., Lemerle, C., Michalodimitrakis, K. & Serrano, L., 2006. From in vivo
to in silico biology and back. Nature, 443(7111), 527–533. Dole, M., 1965. The Natural History of Oxygen. The Journal of General Physiology,
49, 5–27. Doten, R.C., Ngai, K.L., Mitchell, D.J. & Ornston, L.N., 1987. Cloning and genetic
organization of the pca gene cluster from Acinetobacter calcoaceticus. Journal of Bacteriology, 169(7), 3168-3174.
Duarte, N.C., Herrgard, M.J. & Palsson, B.O., 2004. Reconstruction and validation of
Saccharomyces cerevisiae iND750, a fully compartmentalized genome-scale metabolic model. Genome Res, 14(7), 1298–1309.
Duarte, N.C., Palsson, B.O. & Fu, P., 2004. Integrated analysis of metabolic
phenotypes in Saccharomyces cerevisiae. BMC Genomics, 5(1), 63. Dunn, W.B., Bailey, N.J.C. & Johnson, H.E., 2005. Measuring the metabolome:
current analytical technologies. Analyst, 130(5), 606–625. Durot, M., Bourguignon, P. & Schachter, V., 2009. Genome-scale models of bacterial
metabolism: reconstruction and applications. FEMS Microbiology Reviews, 33(1), 164-90.
Durot, M., Le Fèvre, F., de Berardinis, V., Kreimeyer, A., Vallenet, D., Combe, C.,
Smidtas, S., Salanoubat, M., Weissenbach, J. & Schachter, V., 2008. Iterative reconstruction of a global metabolic model of Acinetobacter baylyi ADP1 using high-throughput growth phenotype and gene essentiality data. BMC Systems Biology, 2, 85.
Dykhuizen, D.E., Dean, A.M. & Hartl, D.L., 1987. Metabolic flux and fitness.
Genetics, 115(1), 25–31. Dykxhoorn, D.M., Novina, C.D. & Sharp, P.A., 2003. Killing the messenger: short
RNAs that silence gene expression. Nature Reviews. Molecular Cell Biology, 4(6), 457-67.
Edwards, J.S., Ibarra, R.U. & Palsson, B.O., 2001. In silico predictions of Escherichia
coli metabolic capabilities are consistent with experimental data. Nat Biotechnol, 19(2), 125–130.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
210
Edwards, J.S. & Palsson, B.O., 2000. The Escherichia coli MG1655 in silico metabolic genotype: its definition, characteristics, and capabilities. Proc Natl Acad Sci U S A, 97(10), 5528–5533.
Ellis, L.B.M., Roe, D. & Wackett, L.P., 2006. The University of Minnesota
Biocatalysis/Biodegradation Database: the first decade. Nucleic Acids Res, 34(Database issue), D517–D521.
Engdahl, H.M., Hjalt, T.A. & Wagner, E.G., 1997. A two unit antisense RNA cassette
test system for silencing of target genes. Nucleic Acids Research, 25(16), 3218-27.
Fahy, E., Subramaniam, S., Murphy, R.C., Nishijima, M., Raetz, C.R.H., Shimizu, T.,
Spener, F., van Meer, G., Wakelam, M.J.O. & Dennis, E.A., 2009. Update of the LIPID MAPS comprehensive classification system for lipids. Journal of Lipid Research, 50(Supplement), S9-14.
Famili, I., Forster, J., Nielsen, J. & Palsson, B.O., 2003. Saccharomyces cerevisiae
phenotypes can be predicted by using constraint-based analysis of a genome-scale reconstructed metabolic network. Proc Natl Acad Sci U S A, 100(23), 13134–13139.
Fang, G., Rocha, E. & Danchin, A., 2005. How essential are nonessential genes? Mol
Biol Evol, 22(11), 2147–2156. Feist, A.M., Henry, C.S., Reed, J.L., Krummenacker, M., Joyce, A.R., Karp, P.D.,
Broadbelt, L.J., Hatzimanikatis, V. & Palsson, B.Ø., 2007. A genome-scale metabolic reconstruction for Escherichia coli K-12 MG1655 that accounts for 1260 ORFs and thermodynamic information. Mol Syst Biol, 3, 121.
Feist, A.M., Herrgård, M.J., Thiele, I., Reed, J.L. & Palsson, B.Ø., 2009.
Reconstruction of biochemical networks in microorganisms. Nature Reviews. Microbiology, 7(2), 129-43.
Fell, D.A., 1992. Metabolic control analysis: a survey of its theoretical and
experimental development. Biochem J, 286 ( Pt 2), 313–330. de Figueiredo, L.F., Schuster, S., Kaleta, C. & Fell, D.A., 2009. Can sugars be
produced from fatty acids? A test case for pathway analysis tools. Bioinformatics (Oxford, England), 25(1), 152-158.
Fisher, J. & Henzinger, T.A., 2007. Executable cell biology. Nat Biotechnol, 25(11),
1239–1249. Forsyth, R.A., Haselbeck, R.J., Ohlsen, K.L., Yamamoto, R.T., Xu, H., Trawick, J.D.,
Wall, D., Wang, L., Brown-Driver, V., Froelich, J.M., C, K.G., King, P., McCarthy, M., Malone, C., Misiner, B., Robbins, D., Tan, Z., Zhu Zy, Z., Carr, G., Mosca, D.A., Zamudio, C., Foulkes, J.G. & Zyskind, J.W., 2002. A genome-wide strategy for the identification of essential genes in Staphylococcus aureus. Molecular Microbiology, 43(6), 1387-400.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
211
Fournier, P., Vallenet, D., Barbe, V., Audic, S., Ogata, H., Poirel, L., Richet, H.,
Robert, C., Mangenot, S., Abergel, C., Nordmann, P., Weissenbach, J., Raoult, D. & Claverie, J., 2006. Comparative genomics of multidrug resistance in Acinetobacter baumannii. PLoS Genet, 2(1), e7.
French, C.T., Lao, P., Loraine, A.E., Matthews, B.T., Yu, H. & Dybvig, K., 2008.
Large-scale transposon mutagenesis of Mycoplasma pulmonis. Molecular Microbiology, 69(1), 67-76.
Funahashi, A., Morohashi, M., Kitano, H. & Tanimura, N., 2003. CellDesigner: a
process diagram editor for gene-regulatory and biochemical networks. Biosilico, 1(5), 159-162.
Gallagher, L.A., Ramage, E., Jacobs, M.A., Kaul, R., Brittnacher, M. & Manoil, C.,
2007. A comprehensive transposon mutant library of Francisella novicida, a bioweapon surrogate. Proceedings of the National Academy of Sciences of the United States of America, 104(3), 1009-14.
Gennis, R.B. & Stewart, V., 1996. Respiration. Dans F. C. Neidhardt, éd. Escherichia
coli and Salmonella: cellular and molecular biology. Washington, D.C.: ASM Press, pp. 217–261.
Gerdes, S.Y., Scholle, M.D., Campbell, J.W., Balázsi, G., Ravasz, E., Daugherty,
M.D., Somera, A.L., Kyrpides, N.C., Anderson, I., Gelfand, M.S., Bhattacharya, A., Kapatral, V., D'Souza, M., Baev, M.V., Grechkin, Y., Mseeh, F., Fonstein, M.Y., Overbeek, R., Barabási, A., Oltvai, Z.N. & Osterman, A.L., 2003. Experimental determination and system level analysis of essential genes in Escherichia coli MG1655. J Bacteriol, 185(19), 5673–5684.
Gerdes, S., Edwards, R., Kubal, M., Fonstein, M., Stevens, R. & Osterman, A., 2006.
Essential genes on metabolic maps. Curr Opin Biotechnol, 17(5), 448–456. Gerischer, U., Jerg, B. & Fischer, R., 2008. Spotlight on the Acinetobacter baylyi
beta-ketoadipate pathway: multiple levels of regulation. Dans Acinetobacter Molecular Biology. Norfolk, UK: Caister Academic Press, pp. 203-230.
Gevorgyan, A., Poolman, M.G. & Fell, D.A., 2008. Detection of stoichiometric
inconsistencies in biomolecular models. Bioinformatics, 24(19), 2245–2251. Giaever, G., Chu, A.M., Ni, L., Connelly, C., Riles, L., Véronneau, S., Dow, S.,
Lucau-Danila, A., Anderson, K., André, B., Arkin, A.P., Astromoff, A., El-Bakkoury, M., Bangham, R., Benito, R., Brachat, S., Campanaro, S., Curtiss, M., Davis, K., Deutschbauer, A., Entian, K., Flaherty, P., Foury, F., Garfinkel, D.J., Gerstein, M., Gotte, D., Güldener, U., Hegemann, J.H., Hempel, S., Herman, Z., Jaramillo, D.F., Kelly, D.E., Kelly, S.L., Kötter, P., LaBonte, D., Lamb, D.C., Lan, N., Liang, H., Liao, H., Liu, L., Luo, C., Lussier, M., Mao, R., Menard, P., Ooi, S.L., Revuelta, J.L., Roberts, C.J., Rose, M., Ross-Macdonald, P., Scherens, B., Schimmack, G., Shafer, B., Shoemaker, D.D.,
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
212
Sookhai-Mahadeo, S., Storms, R.K., Strathern, J.N., Valle, G., Voet, M., Volckaert, G., Wang, C., Ward, T.R., Wilhelmy, J., Winzeler, E.A., Yang, Y., Yen, G., Youngman, E., Yu, K., Bussey, H., Boeke, J.D., Snyder, M., Philippsen, P., Davis, R.W. & Johnston, M., 2002. Functional profiling of the Saccharomyces cerevisiae genome. Nature, 418(6896), 387–391.
Gillespie, D.T., 2007. Stochastic simulation of chemical kinetics. Annu Rev Phys
Chem, 58, 35–55. Glasner, J.D., Liss, P., Plunkett, G., Darling, A., Prasad, T., Rusch, M., Byrnes, A.,
Gilson, M., Biehl, B., Blattner, F.R. & Perna, N.T., 2003. ASAP, a systematic annotation package for community analysis of genomes. Nucleic Acids Research, 31(1), 147-151.
Glass, J.I., Assad-Garcia, N., Alperovich, N., Yooseph, S., Lewis, M.R., Maruf, M.,
Hutchison, C.A., Smith, H.O. & Venter, J.C., 2006. Essential genes of a minimal bacterium. Proc Natl Acad Sci U S A, 103(2), 425–430.
Gong, X., Fan, S., Bilderbeck, A., Li, M., Pang, H. & Tao, S., 2008. Comparative
analysis of essential genes and nonessential genes in Escherichia coli K12. Molecular Genetics and Genomics, 279(1), 87-94.
Gutnick, D.L. & Bach, H., 2008. Potential Application of Acinetobacter in
Biotechnology. Dans U. Gerischer, éd. Acinetobacter Molecular Biology. Norfolk, UK: Caister Academic Press, pp. 231–264.
Hahn, M.W. & Kern, A.D., 2005. Comparative genomics of centrality and essentiality
in three eukaryotic protein-interaction networks. Molecular Biology and Evolution, 22(4), 803-6.
Handorf, T., Christian, N., Ebenhöh, O. & Kahn, D., 2008. An environmental
perspective on metabolism. Journal of Theoretical Biology, 252(3), 530-7. Handorf, T., Ebenhöh, O. & Heinrich, R., 2005. Expanding metabolic networks:
scopes of compounds, robustness, and evolution. Journal of Molecular Evolution, 61(4), 498-512.
Hare, R.S., Walker, S.S., Dorman, T.E., Greene, J.R., Guzman, L.M., Kenney, T.J.,
Sulavik, M.C., Baradaran, K., Houseweart, C., Yu, H., Foldes, Z., Motzer, A., Walbridge, M., Shimer, G.H. & Shaw, K.J., 2001. Genetic footprinting in bacteria. Journal of Bacteriology, 183(5), 1694-706.
Harrison, R., Papp, B., Pál, C., Oliver, S.G. & Delneri, D., 2007. Plasticity of genetic
interactions in metabolic networks of yeast. Proc Natl Acad Sci U S A, 104(7), 2307–2312.
Hayes, F., 2003. Transposon-based strategies for microbial functional genomics and
proteomics. Annual Review of Genetics, 37, 3-29.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
213
Heinrich, R. & Rapoport, T.A., 1974. A linear steady-state treatment of enzymatic chains. General properties, control and effector strength. European Journal of Biochemistry / FEBS, 42(1), 89-95.
Henry, C., Zinner, J., Cohoon, M. & Stevens, R., 2009. iBsu1103: a new genome-
scale metabolic model of Bacillus subtilis based on SEED annotations. Genome Biology, 10(6), R69.
Henry, C.S., Broadbelt, L.J. & Hatzimanikatis, V., 2007. Thermodynamics-based
Metabolic Flux Analysis. Biophys J, 92(5), 1792–1805. Hofestädt, R., 2003. Petri nets and the simulation of metabolic networks. In Silico
Biology, 3(3), 321-2. Hucka, M., Finney, A., Bornstein, B.J., Keating, S.M., Shapiro, B.E., Matthews, J.,
Kovitz, B.L., Schilstra, M.J., Funahashi, A., Doyle, J.C. & Kitano, H., 2004. Evolving a lingua franca and associated software infrastructure for computational systems biology: the Systems Biology Markup Language (SBML) project. Syst Biol (Stevenage), 1(1), 41–53.
Hunter, P.J. & Borg, T.K., 2003. Integration from proteins to organs: the Physiome
Project. Nature Reviews. Molecular Cell Biology, 4(3), 237-43. Hutchison, C.A., Peterson, S.N., Gill, S.R., Cline, R.T., White, O., Fraser, C.M.,
Smith, H.O. & Venter, J.C., 1999. Global transposon mutagenesis and a minimal Mycoplasma genome. Science (New York, N.Y.), 286(5447), 2165-9.
Ibarra, R.U., Edwards, J.S. & Palsson, B.O., 2002. Escherichia coli K-12 undergoes
adaptive evolution to achieve in silico predicted optimal growth. Nature, 420(6912), 186–189.
Imielinski, M. & Belta, C., 2008. Exploiting the pathway structure of metabolism to
reveal high-order epistasis. BMC Systems Biology, 2(1), 40. Imielinski, M., Belta, C., Halasz, A. & Rubin, H., 2005. Investigating metabolite
essentiality through genome-scale analysis of Escherichia coli production capabilities. Bioinformatics, 21(9), 2008–2016.
Imielinski, M., Belta, C., Rubin, H. & Halász, A., 2006. Systematic analysis of
conservation relations in Escherichia coli genome-scale metabolic network reveals novel growth media. Biophys J, 90(8), 2659–2672.
Jacobs, M.A., Alwood, A., Thaipisuttikul, I., Spencer, D., Haugen, E., Ernst, S., Will,
O., Kaul, R., Raymond, C., Levy, R., Chun-Rong, L., Guenthner, D., Bovee, D., Olson, M.V. & Manoil, C., 2003. Comprehensive transposon mutant library of Pseudomonas aeruginosa. Proc Natl Acad Sci U S A, 100(24), 14339–14344.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
214
Janssen, D.B., Dinkla, I.J.T., Poelarends, G.J. & Terpstra, P., 2005. Bacterial degradation of xenobiotic compounds: evolution and distribution of novel enzyme activities. Environ Microbiol, 7(12), 1868–1882.
Jeong, H., Mason, S.P., Barabási, A.L. & Oltvai, Z.N., 2001. Lethality and centrality
in protein networks. Nature, 411(6833), 41-2. Jeong, H., Tombor, B., Albert, R., Oltvai, Z.N. & Barabasi, A.L., 2000. The large-
scale organization of metabolic networks. Nature, 407(6804), 651–654. Ji, Y., Zhang, B., Van, S.F., Horn, Warren, P., Woodnutt, G., Burnham, M.K. &
Rosenberg, M., 2001. Identification of critical staphylococcal genes using conditional phenotypes generated by antisense RNA. Science, 293(5538), 2266-9.
Joyce, A.R. & Palsson, B.Ø., 2006. The model organism as a system: integrating
'omics' data sets. Nat Rev Mol Cell Biol, 7(3), 198–210. Joyce, A.R., Reed, J.L., White, A., Edwards, R., Osterman, A., Baba, T., Mori, H.,
Lesely, S.A., Palsson, B.Ø. & Agarwalla, S., 2006. Experimental and computational assessment of conditionally essential genes in Escherichia coli. J Bacteriol, 188(23), 8259–8271.
Juni, E. & Janik, A., 1969. Transformation of Acinetobacter calco-aceticus
(Bacterium anitratum). Journal of Bacteriology, 98(1), 281-8. Juni, E., 1972. Interspecies transformation of Acinetobacter: genetic evidence for a
ubiquitous genus. J Bacteriol, 112(2), 917–931. Kacser, H. & Burns, J.A., 1973. The control of flux. Symposia of the Society for
Experimental Biology, 27, 65-104. Kaleta, C., Centler, F., Fenizio, P.S.D. & Dittrich, P., 2008. Phenotype prediction in
regulated metabolic networks. BMC Syst Biol, 2(1), 37. Kanehisa, M., Araki, M., Goto, S., Hattori, M., Hirakawa, M., Itoh, M., Katayama, T.,
Kawashima, S., Okuda, S., Tokimatsu, T. & Yamanishi, Y., 2007. KEGG for linking genomes to life and the environment. Nucl. Acids Res., 36, D480–D484.
Kanehisa, M., Goto, S., Hattori, M., Aoki-Kinoshita, K.F., Itoh, M., Kawashima, S.,
Katayama, T., Araki, M. & Hirakawa, M., 2006. From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res, 34(Database issue), D354–D357.
Kanehisa, M., Goto, S., Kawashima, S., Okuno, Y. & Hattori, M., 2004. The KEGG
resource for deciphering the genome. Nucleic Acids Res, 32(Database issue), D277–D280.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
215
Kang, Y., Durfee, T., Glasner, J.D., Qiu, Y., Frisch, D., Winterberg, K.M. & Blattner, F.R., 2004. Systematic mutagenesis of the Escherichia coli genome. J Bacteriol, 186(15), 4921–4930.
Karp, P.D., Paley, S. & Romero, P., 2002. The Pathway Tools software.
Bioinformatics, 18 Suppl 1, S225–S232. Keseler, I.M., Bonavides-Martínez, C., Collado-Vides, J., Gama-Castro, S., Gunsalus,
R.P., Johnson, D.A., Krummenacker, M., Nolan, L.M., Paley, S., Paulsen, I.T., Peralta-Gil, M., Santos-Zavaleta, A., Shearer, A.G. & Karp, P.D., 2009. EcoCyc: a comprehensive view of Escherichia coli biology. Nucleic Acids Research, 37(Database issue), D464-70.
King, R.D., Whelan, K.E., Jones, F.M., Reiser, P.G.K., Bryant, C.H., Muggleton,
S.H., Kell, D.B. & Oliver, S.G., 2004. Functional genomic hypothesis generation and experimentation by a robot scientist. Nature, 427(6971), 247–252.
King, R.D., Rowland, J., Oliver, S.G., Young, M., Aubrey, W., Byrne, E., Liakata,
M., Markham, M., Pir, P., Soldatova, L.N., Sparkes, A., Whelan, K.E. & Clare, A., 2009. The Automation of Science. Science, 324(5923), 85-89.
Kitagawa, M., Ara, T., Arifuzzaman, M., Ioka-Nakamichi, T., Inamoto, E., Toyonaga,
H. & Mori, H., 2005. Complete set of ORF clones of Escherichia coli ASKA library (a complete set of E. coli K-12 ORF archive): unique resources for biological research. DNA Res, 12(5), 291–299.
Kitano, H., 2002. Systems biology: a brief overview. Science (New York, N.Y.),
295(5560), 1662-4. Kitano, H., 2007. Towards a theory of biological robustness. Mol Syst Biol, 3, 137. Klamt, S. & Gilles, E.D., 2004. Minimal cut sets in biochemical reaction networks.
Bioinformatics, 20(2), 226–234. Klamt, S., Saez-Rodriguez, J. & Gilles, E.D., 2007. Structural and functional analysis
of cellular networks with CellNetAnalyzer. BMC Syst Biol, 1, 2. Klipp, E., Heinrich, R. & Holzhütter, H., 2002. Prediction of temporal gene
expression. Metabolic opimization by re-distribution of enzyme activities. Eur J Biochem, 269(22), 5406–5413.
Knoll, A.H., 2003. The geological consequences of evolution. Geobiology, 1(1), 3-14. Knuth, K., Niesalla, H., Hueck, C.J. & Fuchs, T.M., 2004. Large-scale identification
of essential Salmonella genes by trapping lethal insertions. Molecular Microbiology, 51(6), 1729-44.
Kobayashi, K., Ehrlich, S.D., Albertini, A., Amati, G., Andersen, K.K., Arnaud, M.,
Asai, K., Ashikaga, S., Aymerich, S., Bessieres, P., Boland, F., Brignell, S.C.,
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
216
Bron, S., Bunai, K., Chapuis, J., Christiansen, L.C., Danchin, A., Débarbouille, M., Dervyn, E., Deuerling, E., Devine, K., Devine, S.K., Dreesen, O., Errington, J., Fillinger, S., Foster, S.J., Fujita, Y., Galizzi, A., Gardan, R., Eschevins, C., Fukushima, T., Haga, K., Harwood, C.R., Hecker, M., Hosoya, D., Hullo, M.F., Kakeshita, H., Karamata, D., Kasahara, Y., Kawamura, F., Koga, K., Koski, P., Kuwana, R., Imamura, D., Ishimaru, M., Ishikawa, S., Ishio, I., Coq, D.L., Masson, A., Mauël, C., Meima, R., Mellado, R.P., Moir, A., Moriya, S., Nagakawa, E., Nanamiya, H., Nakai, S., Nygaard, P., Ogura, M., Ohanan, T., O'Reilly, M., O'Rourke, M., Pragai, Z., Pooley, H.M., Rapoport, G., Rawlins, J.P., Rivas, L.A., Rivolta, C., Sadaie, A., Sadaie, Y., Sarvas, M., Sato, T., Saxild, H.H., Scanlan, E., Schumann, W., Seegers, J.F.M.L., Sekiguchi, J., Sekowska, A., Séror, S.J., Simon, M., Stragier, P., Studer, R., Takamatsu, H., Tanaka, T., Takeuchi, M., Thomaides, H.B., Vagner, V., Dijl, J.M.V., Watabe, K., Wipat, A., Yamamoto, H., Yamamoto, M., Yamamoto, Y., Yamane, K., Yata, K., Yoshida, K., Yoshikawa, H., Zuber, U. & Ogasawara, N., 2003. Essential Bacillus subtilis genes. Proc Natl Acad Sci U S A, 100(8), 4678–4683.
Koch, I., Junker, B.H. & Heiner, M., 2005. Application of Petri net theory for
modelling and validation of the sucrose breakdown pathway in the potato tuber. Bioinformatics (Oxford, England), 21(7), 1219-26.
Koonin, E.V., 2003. Comparative genomics, minimal gene-sets and the last universal
common ancestor. Nature Reviews. Microbiology, 1(2), 127-36. Koshland, D.E., 1958. Application of a Theory of Enzyme Specificity to Protein
Synthesis. Proceedings of the National Academy of Sciences of the United States of America, 44(2), 98-104.
Kuepfer, L., Sauer, U. & Blank, L.M., 2005. Metabolic functions of duplicate genes
in Saccharomyces cerevisiae. Genome Res, 15(10), 1421–1430. Kumar, V.S., Dasika, M.S. & Maranas, C.D., 2007. Optimization based automated
curation of metabolic reconstructions. BMC Bioinformatics, 8, 212. Kumar, V.S. & Maranas, C.D., 2009. GrowMatch: an automated method for
reconciling in silico/in vivo growth predictions. PLoS Computational Biology, 5(3), e1000308.
Kümmel, A., Panke, S. & Heinemann, M., 2006a. Putative regulatory sites unraveled
by network-embedded thermodynamic analysis of metabolome data. Mol Syst Biol, 2, 2006.0034.
Kümmel, A., Panke, S. & Heinemann, M., 2006b. Systematic assignment of
thermodynamic constraints in metabolic network models. BMC Bioinformatics, 7, 512.
Le Fèvre, F., Smidtas, S., Combe, C., Durot, M., d'Alché-Buc, F. & Schachter, V.,
2009. CycSim - an online tool for exploring and experimenting with genome-
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
217
scale metabolic models. Bioinformatics (Oxford, England), 25(15), 1987-1988.
Le Fèvre, F., Smidtas, S. & Schächter, V., 2007. Cyclone: java-based querying and
computing with Pathway/Genome databases. Bioinformatics, 23(10), 1299–1300.
Le Novère, N., Bornstein, B., Broicher, A., Courtot, M., Donizelli, M., Dharuri, H.,
Li, L., Sauro, H., Schilstra, M., Shapiro, B., Snoep, J.L. & Hucka, M., 2006. BioModels Database: a free, centralized database of curated, published, quantitative kinetic models of biochemical and cellular systems. Nucleic Acids Res, 34(Database issue), D689–D691.
Lee, J.M., Gianchandani, E.P., Eddy, J.A. & Papin, J.A., 2008. Dynamic analysis of
integrated signaling, metabolic, and regulatory networks. PLoS Comput Biol, 4(5), e1000086.
Lemerle, C., Di Ventura, B. & Serrano, L., 2005. Space as the final frontier in
stochastic simulations of biological systems. FEBS Letters, 579(8), 1789-94. Lespinet, O. & Labedan, B., 2006a. ORENZA: a web resource for studying ORphan
ENZyme activities. BMC Bioinformatics, 7, 436. Lespinet, O. & Labedan, B., 2006b. Orphan enzymes could be an unexplored
reservoir of new drug targets. Drug Discovery Today, 11(7-8), 300-5. Liberati, N.T., Urbach, J.M., Miyata, S., Lee, D.G., Drenkard, E., Wu, G., Villanueva,
J., Wei, T. & Ausubel, F.M., 2006. An ordered, nonredundant library of Pseudomonas aeruginosa strain PA14 transposon insertion mutants. Proc Natl Acad Sci U S A, 103(8), 2833–2838.
Liebermeister, W. & Klipp, E., 2006. Bringing metabolic networks to life:
convenience rate law and thermodynamic constraints. Theor Biol Med Model, 3, 41.
Löfberg, J., 2004. YALMIP : A Toolbox for Modeling and Optimization in
MATLAB. Dans Proceedings of the CACSD Conference. Taipei, Taiwan. Available at: http://control.ee.ethz.ch/~joloef/yalmip.php.
Ma, H. & Zeng, A., 2003. Reconstruction of metabolic networks from genome data
and analysis of their global structure for various organisms. Bioinformatics, 19(2), 270–277.
Mahadevan, R. & Schilling, C.H., 2003. The effects of alternate optimal solutions in
constraint-based genome-scale metabolic models. Metab Eng, 5(4), 264–276. Makula, R.A., Lockwood, P.J. & Finnerty, W.R., 1975. Comparative analysis of the
lipids of Acinetobacter species grown on hexadecane. J Bacteriol, 121(1), 250–258.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
218
Markowitz, V.M., Mavromatis, K., Ivanova, N.N., Chen, I.A., Chu, K. & Kyrpides, N.C., 2009. IMG ER: A System for Microbial Genome Annotation Expert Review and Curation. Bioinformatics (Oxford, England). Available at: http://www.ncbi.nlm.nih.gov/pubmed/19561336 [Accédé Juillet 29, 2009].
Maskow, T. & von Stockar, U., 2005. How reliable are thermodynamic feasibility
statements of biochemical pathways? Biotechnol Bioeng, 92(2), 223–230. May, R.M., 2004. Uses and abuses of mathematics in biology. Science (New York,
N.Y.), 303(5659), 790-3. McGovern, P.E., Glusker, D.L., Exner, L.J. & Voigt, M.M., 1996. Neolithic resinated
wine. Nature, 381(6582), 480-481. van der Meer, J.R., de Vos, W.M., Harayama, S. & Zehnder, A.J., 1992. Molecular
mechanisms of genetic adaptation to xenobiotic compounds. Microbiological Reviews, 56(4), 677-94.
Metzgar, D., Bacher, J.M., Pezo, V., Reader, J., Döring, V., Schimmel, P., Marlière,
P. & de Crécy-Lagard, V., 2004. Acinetobacter sp. ADP1: an ideal model organism for genetic analysis and genome engineering. Nucleic Acids Res, 32(19), 5780–5790.
Médigue, C. & Moszer, I., 2007. Annotation, comparison and databases for hundreds
of bacterial genomes. Res Microbiol, 158(10), 724–736. Michaelis, L. & Menten, M.L., 1913. Die Kinetik der Invertinwirkung. Biochem. Z,
49(333), 148. Mitchell, A., Romano, G.H., Groisman, B., Yona, A., Dekel, E., Kupiec, M., Dahan,
O. & Pilpel, Y., 2009. Adaptive prediction of environmental changes by microorganisms. Nature. Available at: http://www.ncbi.nlm.nih.gov/pubmed/19536156 [Accédé Juillet 8, 2009].
Moisdon, J., 2000. Recherche opérationnelle. Programmation linéaire, Ecole des
Mines de Paris. Moraru, I.I., Schaff, J.C., Slepchenko, B.M., Blinov, M.L., Morgan, F.,
Lakshminarayana, A., Gao, F., Li, Y. & Loew, L.M., 2008. Virtual Cell modelling and simulation software environment. IET Systems Biology, 2(5), 352-62.
Motter, A.E., Gulbahce, N., Almaas, E. & Barabási, A., 2008. Predicting synthetic
rescues in metabolic networks. Mol Syst Biol, 4, 168. Murphy, K.C., Campellone, K.G. & Poteete, A.R., 2000. PCR-mediated gene
replacement in Escherichia coli. Gene, 246(1-2), 321–330.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
219
Mushegian, A.R. & Koonin, E.V., 1996. A minimal gene set for cellular life derived by comparison of complete bacterial genomes. Proceedings of the National Academy of Sciences of the United States of America, 93(19), 10268-73.
Neidhardt, F.C., 1996. The Enteric Bacterial Cell and the Age of Bacteria. Dans F. C.
Neidhardt, éd. Escherichia coli and Salmonella: cellular and molecular biology. Washington, D.C.: ASM Press, pp. 1-4.
Neidhardt, F.C. & Umbarger, H.E., 1996. Chemical composition of Escherichia coli.
Dans F. C. Neidhardt, éd. Escherichia coli and Salmonella: cellular and molecular biology. Washington, D.C.: ASM Press, pp. 13-16.
Neidhardt, F.C. éd., 1996. Escherichia coli and Salmonella: cellular and molecular
biology 2 éd., Washington, D.C.: ASM Press. Neijssel, O.M., Teixeira de Mattos, M.J. & Tempest, D.W., 1996. Growth Yield and
Energy Distribution. Dans F. C. Neidhardt, éd. Escherichia coli and Salmonella: cellular and molecular biology. Washington, D.C.: ASM Press, pp. 1683-1692.
Noble, D., 2002. Modeling the heart--from genes to cells to the whole organ. Science,
295(5560), 1678-82. Oberhardt, M.A., Pucha#ka, J., Fryer, K.E., Santos, V.A.P.M.D. & Papin, J.A., 2008.
Genome-scale metabolic network analysis of the opportunistic pathogen Pseudomonas aeruginosa PAO1. J Bacteriol, 190(8), 2790–2803.
Oh, Y., Palsson, B.O., Park, S.M., Schilling, C.H. & Mahadevan, R., 2007. Genome-
scale reconstruction of metabolic network in Bacillus subtilis based on high-throughput phenotyping and gene essentiality data. J Biol Chem, 282(39), 28791–28799.
Oliveira, A.P., Nielsen, J. & Förster, J., 2005. Modeling Lactococcus lactis using a
genome-scale flux model. BMC Microbiology, 5, 39. Overbeek, R., Begley, T., Butler, R.M., Choudhuri, J.V., Chuang, H., Cohoon, M., de
Crécy-Lagard, V., Diaz, N., Disz, T., Edwards, R., Fonstein, M., Frank, E.D., Gerdes, S., Glass, E.M., Goesmann, A., Hanson, A., Iwata-Reuyl, D., Jensen, R., Jamshidi, N., Krause, L., Kubal, M., Larsen, N., Linke, B., McHardy, A.C., Meyer, F., Neuweger, H., Olsen, G., Olson, R., Osterman, A., Portnoy, V., Pusch, G.D., Rodionov, D.A., Rückert, C., Steiner, J., Stevens, R., Thiele, I., Vassieva, O., Ye, Y., Zagnitko, O. & Vonstein, V., 2005. The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes. Nucleic Acids Res, 33(17), 5691–5702.
Paley, S.M. & Karp, P.D., 2006. The Pathway Tools cellular overview diagram and
Omics Viewer. Nucleic Acids Res, 34(13), 3771–3778. Palmen, R. & Hellingwerf, K.J., 1997. Uptake and processing of DNA by
Acinetobacter calcoaceticus--a review. Gene, 192(1), 179-190.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
220
Papp, B., Pál, C. & Hurst, L.D., 2004. Metabolic network analysis of the causes and
evolution of enzyme dispensability in yeast. Nature, 429(6992), 661–664. Park, J.H., Lee, S.Y., Kim, T.Y. & Kim, H.U., 2008. Application of systems biology
for bioprocess development. Trends Biotechnol, 26(8), 404–412. Pál, C., Papp, B. & Lercher, M.J., 2005. Adaptive evolution of bacterial metabolic
networks by horizontal gene transfer. Nat Genet, 37(12), 1372–1375. Pál, C., Papp, B., Lercher, M.J., Csermely, P., Oliver, S.G. & Hurst, L.D., 2006.
Chance and necessity in the evolution of minimal metabolic networks. Nature, 440(7084), 667–670.
Pouliot, Y. & Karp, P.D., 2007. A survey of orphan enzyme activities. BMC
Bioinformatics, 8, 244. du Preez, J.C., Lategan, P.M. & Toerien, D.F., 1984. Influence of the growth rate on
the macromolecular composition of A cinetobacter calcoaceticus in carbon-limited chemostat culture. FEMS Microbiology Letters, 23, 71–75.
Price, N.D., Reed, J.L. & Palsson, B.O., 2004. Genome-scale models of microbial
cells: evaluating the consequences of constraints. Nat Rev Microbiol, 2(11), 886–897.
Pucha#ka, J., Oberhardt, M.A., Godinho, M., Bielecka, A., Regenhardt, D., Timmis,
K.N., Papin, J.A. & Santos, V.A.P.M.D., 2008. Genome-Scale Reconstruction and Analysis of the Pseudomonas putida KT2440 Metabolic Network Facilitates Applications in Biotechnology. PLoS Comput Biol, 4(10), e1000210.
Ravasz, E., Somera, A.L., Mongru, D.A., Oltvai, Z.N. & Barabási, A.L., 2002.
Hierarchical organization of modularity in metabolic networks. Science, 297(5586), 1551–1555.
Raymond, J. & Segrè, D., 2006. The effect of oxygen on biochemical networks and
the evolution of complex life. Science, 311(5768), 1764–1767. Reams, A.B. & Neidle, E.L., 2004. Selection for gene clustering by tandem
duplication. Annual Review of Microbiology, 58, 119-42. Reddy, V.N., Liebman, M.N. & Mavrovouniotis, M.L., 1996. Qualitative analysis of
biochemical reaction systems. Computers in Biology and Medicine, 26(1), 9-24.
Reed, J.L., Famili, I., Thiele, I. & Palsson, B.O., 2006. Towards multidimensional
genome annotation. Nat Rev Genet, 7(2), 130–141. Reed, J.L., Patel, T.R., Chen, K.H., Joyce, A.R., Applebee, M.K., Herring, C.D., Bui,
O.T., Knight, E.M., Fong, S.S. & Palsson, B.O., 2006. Systems approach to
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
221
refining genome annotation. Proc Natl Acad Sci U S A, 103(46), 17480–17484.
Reed, J.L., Vo, T.D., Schilling, C.H. & Palsson, B.O., 2003. An expanded genome-
scale model of Escherichia coli K-12 (iJR904 GSM/GPR). Genome Biol, 4(9), R54.
Reich, K.A., Chovan, L. & Hessler, P., 1999. Genome scanning in Haemophilus
influenzae for identification of essential genes. Journal of Bacteriology, 181(16), 4961-8.
Reitzer, L.J., 1996. Ammonia assimilation and the biosynthesis of glutamine,
glutamate, aspartate, asparagine, L-alanine, and D-alanine. Dans F. C. Neidhardt, éd. Escherichia coli and Salmonella: cellular and molecular biology. Washington, D.C.: ASM Press, pp. 391–407.
Ren, Q., Kang, K.H. & Paulsen, I.T., 2004. TransportDB: a relational database of
cellular membrane transport systems. Nucleic Acids Res, 32(Database issue), D284–D288.
Reznikoff, W.L. & Winterberg, K.M., 2008. Transposon-based strategies for the
identification of essential bacterial genes. Dans A. L. Osterman & S. Y. Gerdes, éd. Microbial Gene Essentiality: Protocols and bioinformatics. Methods in Molecular Biology. Totowa, NJ: Humana Press, pp. 13-26.
Ro, D., Paradise, E.M., Ouellet, M., Fisher, K.J., Newman, K.L., Ndungu, J.M., Ho,
K.A., Eachus, R.A., Ham, T.S., Kirby, J., Chang, M.C.Y., Withers, S.T., Shiba, Y., Sarpong, R. & Keasling, J.D., 2006. Production of the antimalarial drug precursor artemisinic acid in engineered yeast. Nature, 440(7086), 940–943.
Rocha, E.P.C. & Danchin, A., 2003. Essentiality, not expressiveness, drives gene-
strand bias in bacteria. Nat Genet, 34(4), 377–378. Rockafellar, R., 1970. Convex Analysis, Princeton University Press. Romero, P.R. & Karp, P., 2001. Nutrient-related analysis of pathway/genome
databases. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, 471-82.
Saghatelian, A., Trauger, S.A., Want, E.J., Hawkins, E.G., Siuzdak, G. & Cravatt,
B.F., 2004. Assignment of endogenous substrates to enzymes by global metabolite profiling. Biochemistry, 43(45), 14332–14339.
Saito, N., Robert, M., Kitamura, S., Baran, R., Soga, T., Mori, H., Nishioka, T. &
Tomita, M., 2006. Metabolomics approach for enzyme discovery. J Proteome Res, 5(8), 1979–1987.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
222
Salama, N.R., Shepherd, B. & Falkow, S., 2004. Global transposon mutagenesis and essential gene analysis of Helicobacter pylori. Journal of Bacteriology, 186(23), 7926-35.
Sassetti, C.M., Boyd, D.H. & Rubin, E.J., 2003. Genes required for mycobacterial
growth defined by high density mutagenesis. Mol Microbiol, 48(1), 77–84. Schellenberger, J. & Palsson, B.Ø., 2009. Use of randomized sampling for analysis of
metabolic networks. The Journal of Biological Chemistry, 284(9), 5457-61. Scholle, M.D. & Gerdes, S., 2008. Whole-genome detection of conditionnally
essential and dispensable genes in Escherichia coli via genetic footprinting. Dans A. L. Osterman & S. Y. Gerdes, éd. Microbial Gene Essentiality: Protocols and bioinformatics. Methods in Molecular Biology. Totowa, NJ: Humana Press, pp. 83-102.
Schuetz, R., Kuepfer, L. & Sauer, U., 2007. Systematic evaluation of objective
functions for predicting intracellular fluxes in Escherichia coli. Mol Syst Biol, 3, 119.
Schwarz, R., Liang, C., Kaleta, C., Kühnel, M., Hoffmann, E., Kuznetsov, S., Hecker,
M., Griffiths, G., Schuster, S. & Dandekar, T., 2007. Integrated network reconstruction, visualization and analysis using YANAsquare. BMC Bioinformatics, 8, 313.
Scott, C.C., Makula, S.R. & Finnerty, W.R., 1976. Isolation and characterization of
membranes from a hydrocarbon-oxidizing Acinetobacter sp. J Bacteriol, 127(1), 469–480.
Segrè, D., Vitkup, D. & Church, G.M., 2002. Analysis of optimality in natural and
perturbed metabolic networks. Proc Natl Acad Sci U S A, 99(23), 15112–15117.
Segrè, D., Zucker, J., Katz, J., Lin, X., D'haeseleer, P., Rindone, W.P., Kharchenko,
P., Nguyen, D.H., Wright, M.A. & Church, G.M., 2003. From annotated genomes to metabolic flux models and kinetic parameter fitting. OMICS, 7(3), 301–316.
Segura, D., Mahadevan, R., Juárez, K. & Lovley, D.R., 2008. Computational and
Experimental Analysis of Redundancy in the Central Metabolism of Geobacter sulfurreducens. PLoS Comput Biol, 4(2), e36.
Senger, R.S. & Papoutsakis, E.T., 2008. Genome-scale model for Clostridium
acetobutylicum: Part I. Metabolic network resolution and analysis. Biotechnol Bioeng, 101(5), 1036–1052.
Serres, M.H., Goswami, S. & Riley, M., 2004. GenProtEC: an updated and improved
analysis of functions of Escherichia coli K-12 proteins. Nucleic Acids Res, 32(Database issue), D300–D302.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
223
Shannon, P., Markiel, A., Ozier, O., Baliga, N.S., Wang, J.T., Ramage, D., Amin, N., Schwikowski, B. & Ideker, T., 2003. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Res, 13(11), 2498–2504.
Shlomi, T., Berkman, O. & Ruppin, E., 2005. Regulatory on/off minimization of
metabolic flux changes after genetic perturbations. Proc Natl Acad Sci U S A, 102(21), 7695–7700.
Simão, E., Remy, E., Thieffry, D. & Chaouiya, C., 2005. Qualitative modelling of
regulated metabolic pathways: application to the tryptophan biosynthesis in E.coli. Bioinformatics (Oxford, England), 21 Suppl 2, ii190-6.
Smith, V., Botstein, D. & Brown, P.O., 1995. Genetic footprinting: a genomic
strategy for determining a gene's function given its sequence. Proceedings of the National Academy of Sciences of the United States of America, 92(14), 6479-83.
Snitkin, E., Dudley, A., Janse, D., Wong, K., Church, G. & Segrè, D., 2008. Model-
driven analysis of experimentally determined growth phenotypes for 465 yeast gene deletion mutants under 16 different conditions. Genome Biol, 9(9), R140.
Song, J., Ko, K.S., Lee, J., Baek, J.Y., Oh, W.S., Yoon, H.S., Jeong, J. & Chun, J.,
2005. Identification of essential genes in Streptococcus pneumoniae by allelic replacement mutagenesis. Molecules and Cells, 19(3), 365-74.
Steinmetz, L.M., Scharfe, C., Deutschbauer, A.M., Mokranjac, D., Herman, Z.S.,
Jones, T., Chu, A.M., Giaever, G., Prokisch, H., Oefner, P.J. & Davis, R.W., 2002. Systematic screen for human disease genes in yeast. Nat Genet, 31(4), 400–404.
Stelling, J., 2004. Mathematical models in microbial systems biology. Curr Opin
Microbiol, 7(5), 513–518. Stelling, J., Sauer, U., Szallasi, Z., Doyle, F.J. & Doyle, J., 2004. Robustness of
cellular functions. Cell, 118(6), 675–685. Stephanopoulos, G.N., Aristidou, A.A. & Nielsen, J., 1998. Metabolic engineering.
Principles and methodologies., San Diego, CA, USA: Academic Press, Elsevier Science.
Steuer, R., 2006. Review: on the analysis and interpretation of correlations in
metabolomic data. Brief Bioinform, 7(2), 151–158. von Stockar, U. & Liu, J., 1999. Does microbial life always feed on negative entropy?
Thermodynamic analysis of microbial growth. Biochimica Et Biophysica Acta, 1412(3), 191-211.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
224
Strathern, J.N., Jones, E.W. & Broach, J. éd., 1982. Molecular Biology of the Yeast Saccharomyces: Metabolism and Gene Expression, Cold Spring Harbor Laboratory Press,U.S.A.
Suthers, P.F., Dasika, M.S., Kumar, V.S., Denisov, G., Glass, J.I. & Maranas, C.D.,
2009. A genome-scale metabolic reconstruction of Mycoplasma genitalium, iPS189. PLoS Computational Biology, 5(2), e1000285.
Tagkopoulos, I., Liu, Y. & Tavazoie, S., 2008. Predictive behavior within microbial
genetic networks. Science, 320(5881), 1313–1317. Taylor, W.H. & Juni, E., 1961a. Pathways for biosynthesis of a bacterial capsular
polysaccharide. I. Characterization of the organism and polysaccharide. Journal of Bacteriology, 81, 688-93.
Taylor, W.H. & Juni, E., 1961b. Pathways for biosynthesis of a bacterial capsular
polysaccharide. II. Carbohydrate metabolism and terminal oxidation mechanisms of a capsuleproducing coccus. Journal of Bacteriology, 81, 694-703.
Taylor, W.H. & Juni, E., 1961c. Pathways for biosynthesis of a bacterial capsular
polysaccharide. III. Syntheses from radioactive substrates. The Journal of Biological Chemistry, 236, 1231-4.
Thanassi, J.A., Hartman-Neumann, S.L., Dougherty, T.J., Dougherty, B.A. & Pucci,
M.J., 2002. Identification of 113 conserved essential genes using a high-throughput gene disruption system in Streptococcus pneumoniae. Nucleic Acids Research, 30(14), 3152-62.
Thiele, I., Vo, T.D., Price, N.D. & Palsson, B.Ø., 2005. Expanded metabolic
reconstruction of Helicobacter pylori (iIT341 GSM/GPR): an in silico genome-scale characterization of single- and double-deletion mutants. J Bacteriol, 187(16), 5818–5830.
Thorne, K.J., Thornley, M.J. & Glauert, A.M., 1973. Chemical analysis of the outer
membrane and other layers of the cell envelope of Acinetobacter sp. J Bacteriol, 116(1), 410–417.
Tong, A.H.Y., Lesage, G., Bader, G.D., Ding, H., Xu, H., Xin, X., Young, J., Berriz,
G.F., Brost, R.L., Chang, M., Chen, Y., Cheng, X., Chua, G., Friesen, H., Goldberg, D.S., Haynes, J., Humphries, C., He, G., Hussein, S., Ke, L., Krogan, N., Li, Z., Levinson, J.N., Lu, H., Ménard, P., Munyana, C., Parsons, A.B., Ryan, O., Tonikian, R., Roberts, T., Sdicu, A., Shapiro, J., Sheikh, B., Suter, B., Wong, S.L., Zhang, L.V., Zhu, H., Burd, C.G., Munro, S., Sander, C., Rine, J., Greenblatt, J., Peter, M., Bretscher, A., Bell, G., Roth, F.P., Brown, G.W., Andrews, B., Bussey, H. & Boone, C., 2004. Global mapping of the yeast genetic interaction network. Science, 303(5659), 808–813.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
225
Tong, I.T., Liao, H.H. & Cameron, D.C., 1991. 1,3-Propanediol production by Escherichia coli expressing genes from the Klebsiella pneumoniae dha regulon. Applied and Environmental Microbiology, 57(12), 3541-6.
Vallenet, D., Labarre, L., Rouy, Z., Barbe, V., Bocs, S., Cruveiller, S., Lajus, A.,
Pascal, G., Scarpelli, C. & Médigue, C., 2006. MaGe: a microbial genome annotation system supported by synteny results. Nucleic Acids Res, 34(1), 53–65.
Vallenet, D., Nordmann, P., Barbe, V., Poirel, L., Mangenot, S., Bataille, E., Dossat,
C., Gas, S., Kreimeyer, A., Lenoble, P., Oztas, S., Poulain, J., Segurens, B., Robert, C., Abergel, C., Claverie, J., Raoult, D., Médigue, C., Weissenbach, J. & Cruveiller, S., 2008. Comparative analysis of Acinetobacters: three genomes for three lifestyles. PLoS ONE, 3(3), e1805.
Vaneechoutte, M., Young, D.M., Ornston, L.N., De Baere, T., Nemec, A., Van Der
Reijden, T., Carr, E., Tjernberg, I. & Dijkshoorn, L., 2006. Naturally transformable Acinetobacter sp. strain ADP1 belongs to the newly described species Acinetobacter baylyi. Appl Environ Microbiol, 72(1), 932–936.
Varma, A. & Palsson, B.O., 1994. Metabolic Flux Balancing: Basic Concepts,
Scientific and Practical Use. Bio/Technology, 12, 994–998. Villas-Boas, S.G., Roessner, U., Hansen, M.A.E., Smedsgaard, J. & Nielsen, J., 2007.
Metabolome Analysis: An Introduction, Wiley InterScience. Vojinovi", V. & von Stockar, U., 2009. Influence of uncertainties in pH, pMg,
activity coefficients, metabolite concentrations, and other factors on the analysis of the thermodynamic feasibility of metabolic pathways. Biotechnology and Bioengineering. Available at: http://www.ncbi.nlm.nih.gov/pubmed/19365870 [Accédé Avril 16, 2009].
de Vries, J. & Wackernagel, W., 2002. Integration of foreign DNA during natural
transformation of Acinetobacter sp. by homology-facilitated illegitimate recombination. Proceedings of the National Academy of Sciences of the United States of America, 99(4), 2094-2099.
Vyazmensky, M., Sella, C., Barak, Z. & Chipman, D.M., 1996. Isolation and
characterization of subunits of acetohydroxy acid synthase isozyme III and reconstitution of the holoenzyme. Biochemistry, 35(32), 10339–10346.
Whelan, K.E. & King, R.D., 2008. Using a logical model to predict the growth of
yeast. BMC Bioinformatics, 9, 97. Williams, P.A. & Ray, C.M., 2008. Catabolism of Aromatic Compounds by
Acinetobacter. Dans U. Gerischer, éd. Acinetobacter Molecular Biology. Norfolk, UK: Caister Academic Press, pp. 99–117.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
226
Wittig, U., Golebiewski, M., Kania, R., Krebs, O., Mir, S., Weidemann, A., Anstein, S., Saric, J. & Rojas, I., 2006. SABIO-RK: integration and curation of reaction kinetics data. Lecture Notes in Computer Science, 4075, 94.
Wunderlich, Z. & Mirny, L.A., 2006. Using the topology of metabolic networks to
predict viability of mutant strains. Biophys J, 91(6), 2304–2311. Yamazaki, Y., Niki, H. & Kato, J., 2008. Profiling of Escherichia coli Chromosome
database. Dans A. L. Osterman & S. Y. Gerdes, éd. Microbial Gene Essentiality: Protocols and bioinformatics. Methods in Molecular Biology. Totowa, NJ: Humana Press, pp. 385-9.
Young, D.M., Parke, D. & Ornston, L.N., 2005. Opportunities for genetic
investigation afforded by Acinetobacter baylyi, a nutritionally versatile bacterial species that is highly competent for natural transformation. Annu Rev Microbiol, 59, 519–551.
Zaslaver, A., Mayo, A.E., Rosenberg, R., Bashkin, P., Sberro, H., Tsalyuk, M.,
Surette, M.G. & Alon, U., 2004. Just-in-time transcription program in metabolic pathways. Nat Genet, 36(5), 486–491.
Zhang, R. & Lin, Y., 2009. DEG 5.0, a database of essential genes in both
prokaryotes and eukaryotes. Nucleic Acids Research, 37(Database issue), D455-8.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Maxime DUROT Thèse de doctorat 2009
227
ANNEXE
Nous plaçons en annexes deux articles supplémentaires auxquels nous avons
contribués. Le premier présente l’interface web CycSim de prédiction des phénotypes
de croissance de mutants pour plusieurs organismes, le second est une revue des
approches de biologie systémique appliquées à l’exploration du métabolisme
d’A. baylyi.
Le Fèvre, F., Smidtas, S., Combe, C., Durot, M., d'Alché-Buc, F. & Schachter, V.,
2009. CycSim - an online tool for exploring and experimenting with genome-scale metabolic models. Bioinformatics, 25(15), 1987-1988.
de Berardinis, V., Durot, M., Weissenbach, J. & Salanoubat, M., 2009. Acinetobacter
baylyi ADP1 as a model for metabolic system biology. Curr Opin Microbiol, 12(5), 568-576.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
[11:56 3/7/2009 Bioinformatics-btp268.tex] Page: 1987 1987–1988
BIOINFORMATICS APPLICATIONS NOTE Vol. 25 no. 15 2009, pages 1987–1988doi:10.1093/bioinformatics/btp268
Systems biology
CycSim—an online tool for exploring and experimenting withgenome-scale metabolic modelsF. Le Fèvre1, S. Smidtas1, C. Combe1,2, M. Durot1, Florence d’Alché-Buc2
and V. Schachter1,!1CEA, DSV, IG, Genoscope, UMR 8030, Evry, F-91057 and 2IBISC, FRE 3190 CNRS, Université d’Evry, Evry, FranceReceived on October 7, 2008; revised on March 20, 2009; accepted on April 17, 2009
Advance Access publication May 6, 2009
Associate Editor: Thomas Lengauer
ABSTRACTSummary: CycSim is a web application dedicated to in silicoexperiments with genome-scale metabolic models coupled to theexploration of knowledge from BioCyc and KEGG. Specifically,CycSim supports the design of knockout experiments: simulation ofgrowth phenotypes of single or multiple gene deletions mutants onspecified media, comparison of these predictions with experimentalphenotypes and direct visualization of both on metabolic maps. Theweb interface is designed for simplicity, putting constraint-basedmodelling techniques within easier reach of biologists. CycSim alsofunctions as an online repository of genome-scale metabolic models.Availability: http://www.genoscope.cns.fr/cycsimContact: cycsim@genoscope.cns.fr
1 INTRODUCTIONConstraint-based modelling (Price et al., 2004) is a framework,simple and abstract enough to allow tractable modelling ofmetabolism at genome-scale, providing direct insights into thegenotype–phenotype relationship. Constraint-based models (CBM)consist of a stoichiometric representation of the whole-cellmetabolism together with a set of constraints on reaction fluxes.A wide variety of computational methods have been developedfor this framework to characterize metabolic capabilities, help todiscover new reactions, simulate scenarios of metabolic evolution ordesign experimental strategies to investigate metabolic behaviours(Feist and Palsson, 2008).
A few simulation tools (Becker et al., 2007; Beste et al., 2007;Lee et al., 2003; Sympheny, www.genomatica.com) and modelrepositories (Le Novère et al., 2006; BiGG, unpublished data,http://bigg.ucsd.edu) have been proposed to the growing communityof CBM users. These software tools have been limited in theirusefulness to biologists for several reasons. First, most are eithercommercial, or add-ons to commercial platforms (e.g. MATLAB,http://www.mathworks.com). Next, they are typically directed atusers with a background in modelling. Lastly, these tools arenot designed to explore the biochemical and genomic knowledgeunderlying the metabolic models. Currently, the most convenienttools to reconstruct metabolic networks from genome annotationare databases of reference pathways such as BioCyc (Karp et al.,2005) and KEGG (Kanehisa et al., 2008). These databases provide
!To whom correspondence should be addressed.
descriptive and queriable views of the genetic and biochemicalcomponents of metabolism, but do not support modelling, simulationor prediction.
To address these shortcomings, we introduce CycSim, a webplatform which supports in silico experiments with a variety ofmetabolic models, puts both the design and the results of theseexperiments in the visual context of reference pathways databasesand allows confrontation with experimental data.
2 FUNCTIONALITIESPredictions: CycSim supports in silico experiments with metabolicmodels. Each experiment consists in selecting a wild-type strain,choosing one or several genetic perturbations (e.g. knockout), andpicking a set of growth media. Growth phenotype predictions arethen generated for all (mutant, medium) pairs. These predictionscan be compared against experimental growth phenotypes whenavailable (Fig. 1). Two prediction methods are implemented: fluxbalance analysis and metabolites producibility check (Feist andPalsson, 2008). For any given (mutant, medium) pair, CycSim canalso compute a flux distribution that is compatible with the modelconstraints and the objective function.Visualisation: reactions, pathways and genes can be visualized intheir context through a tight coupling of the CycSim core with thepathway display layers of BioCyc and KEGG. For instance, clickingon a reaction in the simulation panel will show the correspondingBioCyc reaction page augmented with information from the activemodel (i.e. balanced reaction equations or the Boolean gene-reactioncorrespondence). Conversely, a gene can be deleted from thecurrent model by selecting it from a pathway map. Predictions andexperimental results can be directly visualized and compared onpathways.Model and data repository: the online CycSim repository storesinformation relative to three organisms: Escherichia coli (Feistet al., 2007), Saccharomyces cerevisae (Duarte et al., 2004)and Acinetobacter baylyi ADP1 (Durot et al., 2008). For each,CycSim includes (i) a genome-scale metabolic model; (ii) adetailed correspondence between that model and relevant data ofthat organism [EcoCyc, (Karp et al., 2007); YeastCyc (Christieet al., 2004); and AcinetoCyc (Durot et al., 2008)]; (iii) a set ofmedia definitions; and (iv) experimental growth phenotype datasets.Altogether, CycSim includes 2800 genes, 3700 reactions, 1400metabolites, 190 media, 20 000 experimental phenotypes and 550
© 2009 The Author(s)This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/2.0/uk/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
[11:56 3/7/2009 Bioinformatics-btp268.tex] Page: 1988 1987–1988
F.Le Fèvre et al.
Fig. 1. CycSim screenshots. From the analysis of growth phenotypes of multiple mutants on multiple media (left), a flux distribution can be computed andvisualized directly on relevant pathways (right).
pathways. Any of these four data types can be submitted online,using for models the SBML format, enhanced with MIRIAMannotations (Finney and Hucka, 2003; Le Novère et al., 2005).
3 ARCHITECTURE AND TECHNOLOGIESIn order to facilitate operations from any computer, CycSim wasdeveloped as a web application using the AndroMDA framework(http://www.andromda.org) deployed on a Java applicationserver (JBoss, http://www.jboss.org) with a MySQL backend(http://www.mysql.com). CycSim uses the AJAX technology(GWT, http://code.google.com/webtoolkit). In order to ensure theavailability of sufficient computational resources, computationsare performed on the server. A simple mechanism ensures somepersistence of user sessions: the settings of each analysis are savedon the server and can be retrieved through a unique identifier.
In order to foster extensions by its developers or by thebioinformatics community, CycSim is based on a comprehensiveUML model, which covers biochemical information (reactionsand phenotype experiments) and information specific to CBM(fluxes and perturbations). Furthermore, web services are providedto programmatically access the models contained in CycSim(http://www.genoscope.cns.fr/cycsim/webservices.html).
4 CONCLUSIONSCycSim is a simple online tool capable of handling severalgenome-scale metabolic models from a central repository in orderto perform phenotype predictions, confronted to experimentaldata, and interpreted in the context of biological knowledge.CycSim facilitates the identification of inconsistencies, the designof new experiments and the iterative refinement of models usingexperimental data. We expect that the value of the biochemicalinsights obtained using CycSim will rise as more metabolic modelsare added to the repository, facilitating comparative analyses.
Funding: European FP6 Networks of Excellence BioSapiens(LSHG-CT-2003-503265); ENFIN (LSHG-CT-2005-518254).
Conflict of Interest: none declared.
REFERENCESBecker,S. et al. (2007) Quantitative prediction of cellular metabolism with constraint-
based models: the COBRA Toolbox. Nat. Protocols, 2, 727–738.Beste,D.J. et al. (2007) GSMN-TB: a web-based genome-scale network model of
Mycobacterium tuberculosis metabolism. Genome Biol., 8, R89.Christie,K.R. et al. (2004) Saccharomyces Genome Database (SGD) provides tools
to identify and analyze sequences from Saccharomyces cerevisiae and relatedsequences from other organisms. Nucleic Acids Res., 32, D311–D314.
Duarte,N.C. et al. (2004) Reconstruction and validation of Saccharomyces cerevisiaeiND750, a fully compartmentalized genome-scale metabolic model. Genome Res.,14, 1298–1309.
Durot,M. et al. (2008) Iterative reconstruction of a global metabolic model ofAcinetobacter baylyi ADP1 using high-throughput growth phenotype and geneessentiality data. BMC Syst. Biol., 2, 85.
Feist,A.M. and Palsson,B.Ø. (2008) The growing scope of applications of genome-scalemetabolic reconstructions using Escherichia coli. Nat. Biotechnol., 26, 659–667.
Feist,A.M. et al. (2007) A genome-scale metabolic reconstruction for Escherichia coliK-12 MG1655 that accounts for 1260 ORFs and thermodynamic information. Mol.Syst. Biol., 3, 121.
Finney,A. and Hucka,M. (2003) Systems biology markup language: level 2 and beyond.Biochem. Soc. Trans., 31, 1472–1473.
Kanehisa,M. et al. (2008) KEGG for linking genomes to life and the environment.Nucleic Acids Res., 36, D480–D484.
Karp,P.D. et al. (2005) Expansion of the BioCyc collection of pathway/genomedatabases to 160 genomes. Nucleic Acids Res., 33, 6083–6089.
Karp,P.D. et al. (2007) Multidimensional annotation of the Escherichia coli K-12genome. Nucleic Acids Res., 35, 7577–7590.
Le Novère,N. et al. (2005) Minimum information requested in the annotation ofbiochemical models (MIRIAM). Nat. Biotechnol., 23, 1509–1515.
Le Novère,N. et al. (2006) BioModels Database: a free, centralized database of curated,published, quantitative kinetic models of biochemical and cellular systems. NucleicAcids Res., 34, D689–D691.
Lee,S.Y. et al. (2003) MetaFluxNet, a program package for metabolic pathwayconstruction and analysis, and its use in large-scale metabolic flux analysis ofEscherichia coli. Genome Inform., 14, 23–33.
Price,N.D. et al. (2004) Genome-scale models of microbial cells: evaluating theconsequences of constraints. Nat. Rev. Microbiol., 2, 886–897.
1988
tel-0
0425
212,
ver
sion
1 -
20 O
ct 2
009
Recommended