Upload
armand-riviere
View
114
Download
7
Embed Size (px)
Citation preview
Développement d’une méthode automatique fiable de modélisation de la structure tridimensionnelle des protéines par
homologie et application au protéome de Brucella melitensis
Christophe LambertUnité de Recherche en Biologie Moléculaire
FUNDP
FUNDP, 26 septembre 2003, Namur
Introduction
Buts
Développement de ESyPAliNN
Développement de ESyPred3D
Base de données Brucella melitensis
Conclusions / perspectives
Plan
Brucella sp.
• Bactérie Gram négative (-proteo bactérie)• Pathogène intracellulaire facultatif d’animaux (stérilité et avortement) et des humains (fièvre de Malte ou brucellose). Zoonose mondiale. • 6(8?) espèces sont définies• Les génomes de deux espèces sont séquencés (Brucella melitensis et Brucella suis)
Génome de Brucella melitensis
2 chromosomes (2118216 bp et 1178737 bp)3197 protéines déduites (fonction assignée par similarité: 2487)
NH2
RO
OH
C CH
valine (V) leucine (L)méthionine (M)
phénylalanine (F) tyrosine (Y)
isoleucine (I)
tryptophane (W)glycine (G)
Protéines
Grande partie du poids sec des êtres vivantsHétéropolymères d’acides aminés
Introduction
• Structure 3D: information importante pour
• mieux comprendre
• la fonction d’une protéine
• les interactions avec des ligands ou d’autres protéines
• planifier de la mutagenèse dirigée
• Nombre de structures connues (~15.000) est plus petit que le nombre de séquences connues (~1.500.000)
• Techniques expérimentales: longues et coûteuses
• Alternative: modélisation
Modélisation par homologieou comparative modeling
Recherche en banque de données
PDB template
Etape
critique
Construction du modèle 3D
Evaluation du modèle
Alignement Cible-template
MAO B (PDB ID: 1gos)
MAO B (template: 1f8r, LAAO)MAO B (template: 1f8r, LAAO)
21
Modélisation par homologieRecherche en banques de séquences de
structures connues
Score ESequences producing significant alignments: (bits) Value
pdb|1YUB Solution Structure Of An Rrna Methyltransferase... 58 1e-09pdb|1QAN Chain A, The Structure Of The Rrna Methyltransfe... 53 6e-08pdb|1G6Q Chain 1, Crystal Structure Of Yeast Arginine Met... 31 0.28pdb|1EI1 Chain A, Dimerization Of E. Coli Dna Gyrase B Pr... 29 1.1pdb|3HDH Chain A, Pig Heart Short Chain L-3-Hydroxyacyl C... 27 2.4pdb|1PSZ Chain A, Pneumococcal Surface Antigen Psaa 27 3.2pdb|1VID Catechol O-Methyltransferase 26 7.2
DIM1p (Saccharomyces cerevisiae)
MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVVLEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELPYFDICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSANVQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTISAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKCDQNDFLRLLYAFHQVGIHF
Modélisation par homologieAlignement cible-template
DIM1p MGKAAKKKYSGATSSKQVSAEKHLSSVFKFNTDLGQHILKNPLVAQGIVDKAQIRPSDVV1YUB ---------------------------MNKNIKYSQNFLTSEKVLNQIIKQLNLKETDTV
DIM1p LEVGPGTGNLTVRILEQAKNVVAVEMDPRMAAELTKRVRGTPVEKKLEIMLGDFMKTELP1YUB YEIGTGKGHLTTKLAKISKQVTSIELDSHLFNLSSEKLK---LNTRVTLIHQDILQFQFP ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯DIM1p YFD--ICISNTPYQISSPLVFKLINQPRPPRVSILMFQREFALRLLARPGDSLYCRLSAN1YUB NKQRYKIVGNIPYHLSTQIIKKVVFESRASDI-YLIVEEGFYKRTLD-----IHRTLGLL
DIM1p VQMWANVTHIMKVGKNNFRPPPQVESSVVRLEIKNPRPQVDYNEWDGLLRIVFVRKNRTI1YUB LHTQVSIQQLLKLPAECFHPKPKVNSVLIKLTRHTTDVPDKY--WK--LYTYFVSK----
DIM1p SAGFKSTTVMDILEKNYKTFLAMNNEMVDDTKGSMHDVVKEKIDTVLKETDLGDKRAGKC1YUB -----------WVNREYRQLFTKN-----------------QFHQAMKHAKVNN--LSTI
DIM1p DQNDFLRLLYAFHQVGIHF1YUB TYEQVLSIFNSYLLFNGR-
%id. = 18%
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
Y EI
GTG KG
HL
Modélisation par homologieAssignation des coordonnées
1YUB
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EI
GTG KG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EI
GTG KG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GTG KG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GTG KG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG KG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG KG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG T G
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG TG
HL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG TG
NL
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG TG
NL
Modélisation par homologieAssignation des coordonnées
Modélisation par homologieAssignation des coordonnées
DIM1p ...LEVGPGTGNLTVRILEQAKNV...1YUB ...YEIGTGKGHLTTKLAKISKQV...
L EV
GPG TG
NL
Modèle de DIM1p
Alignement pairé: la plupart des caractéristiques bien prédites
Alignement multiple: beaucoup de caractéristiques bien prédites
100
50
40
302520
0
Twilight zone
Midnight zone
reconnaissance de fold
(pas très fiable)
Modélisation par
homologie (fiable)
Protéines pas nécessairement homologues MAIS des protéines de séquences différentes peuvent adopter le
même fold
%id.
Combinaison d’alignements et données expérimentalesquelques caractéristiques bien prédites
Sensibilité (%)
Sél
ecti
vité
(%
)
10/535
10/10
10/20
10/100
1/1
1/2
1/10
5/5
5/10
5/50
10
50
100
10 50 100
A. Alignement de structure
1ton M E G G K - - D T C A G D S G G P L I C - - - - - D G V L Q G I T S G G A T P C A K P - - - - - - - K T P A I Y A K L I K F T S W I K K V M2pka_ab L P G G K - - D T C M G D S G G P L I C - - - - - N G M W Q G I T S W G H T P C G S A - - - - - - - N K P S I Y T K L I F Y L D W I D D T I2ptn L E G G K - - D S C Q G D S G G P V V C - - - - - S G K L Q G I V S W G S G C A Q K - - - - - - - - N K P G V Y T K V C N Y V S W I K Q T I4cha_a S G V - - - - S S C M G D S G G P L V C K K N G - A W T L V G I V S W G S S T C S T - - - - - - - - S T P G V Y A R V T A L V N W V Q Q T L3est G G D G V R - S G C Q G D S G G P L H C L V N G - Q Y A V H G V T S F V S R L G C N V T - - - - - - R K P T V F T R V S A Y I S W I N N V I3rp2_a T T L R - - - A A F M G D S G G P L L C - - - - - A G V A H G I V S Y G H P D A - - - - - - - - - - K P P A I F T R V S T Y V P W I N A V I1sgt Y P D T G G V D T C Q G D S G G P M F R K D N A D E W I Q V G I V S W G Y G C A R P - - - - - - - - G Y P G V Y T E V S T F A S A I A S A A2sga - - - - - - - C A Q P G D S G G S L F A - - - - - G S T A L G L T S G G S G N C R T - - - - - - - - G G T T F Y Q P V T E A L S A Y G A T V3sgb_e - - - - - - - C A E P G D S G G P L Y S - - - - - G T R A I G L T S G G S G N C S S - - - - - - - - G G T T F F Q P V T E A L V A Y G V S V2alp - - - - - - - C M G R G D S G G S W I T S - - - - A G Q A Q G V M S G G N V Q S N G N N C G I P A S Q R S S L F E R L Q P I L S Q Y G L S L
N col ref = 41
B. Alignement Match-Box 1.21
1ton - - M E G G K d t c a g d s g g p l i c - - - - - d g v l q g i t s g g a t p c A K P - - - - - - - k t p a i y a k l i k f t s w i k k v m2pka_ab - - L P G G K d t c m g d s g g p l i c - - - - - n g m w q g i t s w g h t p c G S A - - - - - - - n k p s i y t k l i f y l d w i d d t i2ptn - - L E G G K d s c q g d s g g p v v c - - - - - s g k l q g i v s w g s g c a Q K - - - - - - - - n k p g v y t k v c n y v s w i k q t i4cha_a - - - - S G V s s c m g d s g g p l v c K K N G - a w t l v g i v s w g s s t c S T - - - - - - - - s t p g v y a r v t a l v n w v q q t l3est - G G D G V R s g c q g d s g g p l h c L V N G - q y a v h g v t s f v s r l g C N V T - - - - - - r k p t v f t r v s a y i s w i n n v i3rp2_a - - - T T L R a a f m g d s g g p l l c - - - - - a g v a h g i v s y g h p d a - - - - - - - - - - k p p a i f t r v s t y v p w i n a v i1sgt Y P D T G G V d t c q g d s g g p m f r K D N A D e w i q v g i v s w g y g c a R P - - - - - - - - g y p g v y t e v s t f a s a i a s a a2sga - - - - - - - c a q p g d s g g s l f a - - - - - g s t a l g l t s g g s g n c R T - - - - - - - - g g t t f y q p v t e a l s a y g a t v3sgb_e - - - - - - - c a e p g d s g g p l y s - - - - - g t r a i g l t s g g s g n c S S - - - - - - - - g g t t f f q p v t e a l v a y g v s v2alp - - - - - - - c m g r g d s g g s w i t S - - - - a g q a q g v m s g g n v q s N G N N C G I P A S q r s s l f e r l q p i l s q y g l s l
N col vraies = 41 N col alignées = 48 Sensibilité = 41/41 = 100% Sélectivité = 41/48 = 85%
C. Alignement Clustal 1.74
1ton M E G G K D T C A G D S G G P L I C D G - - - - - V L Q G I T S G G - - - - A T P - C - - - A K P K T P A I Y A K L I K F T S W I K K V M K2pka_Ab L P G G K D T C M G D S G G P L I C N G - - - - - M W Q G I T S W G - - - - H T P - C - - - G S A N K P S I Y T K L I F Y L D W I D D T I T2ptn L E G G K D S C Q G D S G G P V V C S G - - - - - K L Q G I V S W G - - - - S G - - C - - - A Q K N K P G V Y T K V C N Y V S W I K Q T I A4cha_A A S G - V S S C M G D S G G P L V C K K N G - A W T L V G I V S W G - - - - S S T - C - - - S T S - T P G V Y A R V T A L V N W V Q Q T L A3est G D G V R S G C Q G D S G G P L H C L V N G - Q Y A V H G V T S F V - - - - S R L G C - - - N V T R K P T V F T R V S A Y I S W I N N V I A3rp2_a P T T L R A A F M G D S G G P L L C A G - - - - - V A H G I V S Y G - - - - H P - - - - - - - D A K P P A I F T R V S T Y V P W I N A V I N1sgt D T G G V D T C Q G D S G G P M F R K D N A D E W I Q V G I V S W G - - - - Y G - - C - - - A R P G Y P G V Y T E V S T F A S A I A S A A R2sga Q P G - - - - - - - D S G G S L F A G S - - - - - T A L G L T S G G - - - - S G N - C - - - R T G G T T F Y Q P V T E A L S A Y G A T V L -3sgb_e E P G - - - - - - - D S G G P L Y S G T - - - - - R A I G L T S G G - - - - S G N - C - - - S S G G T T F F Q P V T E A L V A Y G V S V Y -2alp - R G - - - - - - - D S G G S W I T S A G - - - - Q A Q G V M S G G N V Q S N G N N C G I P A S Q R S S L F E R L Q P I L S Q Y G L S L V T
N col vraies = 17 N col alignées = 44 Sensibilité = 17/41 = 41 % Sélectivité = 17/44 = 39%
Régions C-terminales de sérine protéases de microbes et de mammifères alignées avec Match-Box 1.21 (B) et ClustalW (C). Ces alignements sont comparés à l'alignement de structure (A). Les régions structuralement conservées sont en gris et les régions alignées sont encadrées.
Sélectivité vs sensibilité pour différents programmes d'alignement de séquences
50
55
60
65
70
75
80
85
90
20 30 40 50 60 70 80 90
Sensibilité (%)
Sé
lec
tiv
ité
(%
)
DBClustal
Dialign2
PRRP
SAGA
T-COFFEE
ClustalW
MAP
Match-Box
MB1-3
MB1-6
Multalin
Introduction
Buts
Développement de ESyPAliNN
Développement de ESyPred3D
Base de données Brucella melitensis
Conclusions / perspectives
Plan
Buts
• Développer une méthode fiable d’alignement pairé de
séquences
• Développer un programme de modélisation
automatique par homologie
• Prédire la structure 3D des protéines déduites du
génome de Brucella melitensis
Introduction
Buts
Développement de ESyPAliNN
Développement de ESyPred3D
Base de données Brucella melitensis
Conclusions / perspectives
Plan
Thompson J.D. et al. Nucleic Acids Res. 27(13):2682-2690 (1999)
• Aucun programme n’est meilleur que les autres• La qualité de l’alignement dépend de l’ensemble de séquences (séquences similaires, divergentes, courtes, longues, ...)• Il y a des erreurs systématiques lorsqu’on aligne des séquences dans la twilight zone (20-30% d’identité)
Limites de l’alignement multiple
Briffeuil P. et al. Bioinformatics 4:357-366 (1998)
• Le consensus de plusieurs méthodes augmente la sélectivité
Lambert C. et al. Current Genomics 4:131-146 (2003)
• La combinaison de plusieurs méthodes peut augmenter la précision
Deux séquences
ESyPAliExpert System for Pairwise Alignment
PSI-BLASTEtape 1
Etape 2Ensemble A Ensemble B
PURGE
Etape 3
Multalin T-COFFEE Dialign2ClustalW Match-Box
Extraction des alignements pairés
Extraction des alignements pairés
ESyPAli
Etape 4Attribution d’un
score aux positions alignées
Extraction des positions alignées
Fréquence
target ...VQADL..IIYLRTSPEVAYERIRQRARSEES..C..VPL..KYLQELHECLUSTALW LGALPEDR..HIDRLAKRQRPGERLDLAMLAAIR..R..VYGLLANTVRYLQDIALIGN2 ...LPGTN..IVLGALPEDRHIDRLAKRQRPGER..L..D............MATCHBOX ...IVLGA..LPEDRHI.....DRLAKRQRPGER..L..DLA...MLAAIRRMULTALIN ...VYVPEPMTYWRVLGASETIANIYTTQHRLDQGEISAGDA..AVVMTSAQPSI-BLAST .....GTN..IVLGALPEDRHIDRLAKRQRPGER.....LDL..AMLAAIRRT-COFFEE ....PGTN..IVLGALPEDRHIDRLAKRQRPGERLDL..AML..AAIRRVYGESyPred LPGTN IVLGALPEDRHIDRLAKRQRPGER L DLA MLAAIRRScore 12333 333333333333444444444444 2 211 2222222
Attribution d’un score aux positions alignées
Séquence 1
L-G: 3L-R: 2L-D: 1
E-D: 4E-E: 1E-A: 1
Extraction des alignements pairés
ESyPAli
Etape 4Attribution d’un
score aux positions alignées
Extraction des positions alignées
Fréquence
Choix de la position ayant le plus haut score comme point
d’ancrage
Elimination des positions
incompatiblesPoints d’ancrage
Construction de l’alignement
consensus final
Etape 5
Alignements incompatibles
A D L I I Y L R T S P E V A Y E
L P G T N I V L G A L P E D R H
1.
2.
Extraction des alignements pairés
ESyPAli
Etape 4Attribution d’un
score aux positions alignées
Extraction des positions alignées
Fréquence
Choix de la position ayant le plus haut score comme point
d’ancrage
Elimination des positions
incompatiblesPoints d’ancrage
Construction de l’alignement
consensus final
Etape 5
Etape 4
Extraction des alignements pairés
Choix de la position ayant le plus haut score comme point
d’ancrage
Elimination des positions
incompatiblesPoints d’ancrage
Attribution d’un score aux positions
alignées
Extraction des positions alignées
Construction de l’alignement
consensus final
Etape 5
Réseauneuronal
ESyPAliNN
Entraînement du réseau neuronal
Entrée
Cachée
Sortie connue
Séquence 1 V
Multalin MultalinI
PSI-BLAST PSI-BLASTT
Dialign2 Dialign2I
ClustalW ClustalWL L
Match-Box Match-BoxI
T-COFFEE T-COFFEEL L
V Structure 1
Yi
Wik
Yk ki
iikk bYWX Entrée
kXk eY
1
1
Sortie
Utilisation du réseau neuronal
Entrée Cachée Sortie
Séquence 1 Y
Multalin MultalinT
PSI-BLAST PSI-BLASTY
Dialign2 Dialign2T
ClustalW ClustalWW W
Match-Box Match-BoxT
T-COFFEE T-COFFEEW W
Y Séquence 1
Résultats de l’évaluation sur 202 alignements pairés
Programme Sensibilité (%) Sélectivité (%)
Alignement de structures 100,0 100,0MULTALIN 25,5 44,0MATCHBOX 27,1 27,8DIALIGN2 33,9 48,1PSIBLAST 35,2 47,8CLUSTALW 35,9 29,2T-COFFEE 37,5 47,4ESyPAli 44,2 36,8ESyPAliNN 46,8 38,9
% identité inférieur à 36 %%ID moyen = 20%
Alignement pairéConclusions
ESyPAli• Combinaison efficace d’alignements
ESyPAliNN• Utilisation de réseaux neuronaux• Alignements de meilleure qualité
Introduction
Buts
Développement de ESyPAliNN
Développement de ESyPred3D
Base de données Brucella melitensis
Conclusions / perspectives
Plan
ESyPred3DExpert System to Predict 3D structures of proteins
C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)
PSI-BLAST, nr (NCBI)
MODELLER v6.2
PDB template
ESyPAliNN Alignement Cible-template
Procheck
Séquence cible
Structure cible prédite
Résultat
Entrée
Qualité de l’étape ESyPAliau concours CASP4
C. Lambert et al., Bioinformatics, 18(9):1250-1256 (2002)
0
10
20
30
40
50
60
70
80
90
100
T0090
T0092
T0099
T0103
T0111
T0112
T0113
T0117
T0121
T0122
T0123
T0125
T0128
Targets
AL
0 (
in %
of
the
len
gth
)
3. b
Différence moyenne
t-student Différence moyenne
t-student
Couverture (%) 0,581 P< 0,05 1,571 P< 0,05
Positions équivalentes (%) 1,878 P< 0,05 0,643
Résidus correctement alignés (%) 4,632 P< 0,05 4,218 P< 0,05
RMSD (Å) -0,460 P< 0,05 -0,789 P< 0,05
ESyPred3D / 3D-Jigsaw ESyPred3D / Swiss-Model
ESyPred3D EVA
Système d’évaluation continue de serveurs de modélisation par homologie (catégorie CM)
853 modèles de janvier à juin 2003
ESyPred3D , 3D-Jigsaw , Swiss-Model
ESyPred3DCASP5
CASP5
• ESyPred3D parmi les 10 meilleurs serveurs évalués (sur 55)
• ESyPred3D dans le top 40 (si modélisateurs humains + serveurs (180))
• Améliorer possible de la sélection du template
ESyPred3DConclusions
• ESyPred3D est un des meilleurs serveurs de modélisation• Performances dues essentiellement à ESyPAliNN
Introduction
Buts
Développement de ESyPAli(NN)
Développement de ESyPred3D
Base de données Brucella melitensis
Conclusions / perspectives
Plan
Prédiction (détermination) de structures 3D à l’échelle d’un génome
1) Structure (prédite) accessible• Ingénierie, hypothèses mutations
2) Recherche de sites actifs• Aide à la détermination de fonction
3) Screening (docking) de petites molécules• Recherche de cibles pour antibiotiques
Banque de données structuralesIntérêt
Banque de donnéesQualité des données
Problème définition de la position des codons start des pCDS de Integrated Genomics Inc.
----> Correction: consortium de spécialistes de Brucella
Fonction prédite par similarité: BLAST/Swiss-Prot et hmmer/PfamLocalisation cellulaire: PSORTPrédiction des structures secondaires: PSI-PRED2
Application de ESyPred3D aux protéines déduites du génome de Brucella melitensis
http://serine.urbm.fundp.ac.be/~seqbruce/GENOMES
• Centraliser les informations à propos du génome de Brucella
• Fournir des prédictions pour faciliter l’annotation et la rendre
plus fiable
• Corriger les informations de la base de données suivant les
modifications des utilisateurs
• Effectuer des recherches avancées
• Aider à coordonner des corrections à l’échelle génomique
• Intégrer des données biologiques pertinentes
Objectifs atteints de la banque de données
Introduction
Buts
Développement de ESyPAli(NN)
Développement de ESyPred3D
Base de données Brucella melitensis
Conclusions / perspectives
Plan
Conclusion
• Développement d’une méthode fiable d’alignement pairé de séquences
• Utilisation de ce nouveau programme dans une méthode automatique de modélisation par homologie
• Développement d’une banque de données structurales et fonctionnelles
Alignement de séquences• Développer une méthode d’alignement multiple
Modélisation par homologie• Amélioration de l’identification du template
Base de données
• Docking de petites molécules
• Prédiction d’interactions protéine-protéine
Perspectives
Remerciements
Eric Depiereux
Guy BaudouxMonique Nadia
JohanKatalin et BernardNicolas et Isabelle
Marc Marti-Renom (UCSF)Volker Eirich (Columbia)Ernest Feytmans (SIB)
Benjamin
URBM Aïko et Etienne Xavier Jean-Jacques Jean VDH
Labo CMS
Labo CTA
Parents