11
Recherche ORF PROTOCOLE: Comme indiqué dans le cours, pour chercher des ORF on suit les étapes suivantes: > Recherche d'ORF > ORF finder > copier la séquence polynucléotidique (forme fasta) dans "the text area" > autoriser le choix de n'importe quel codon pour l'initiation (any codon) > choisir 3 cadres de lecture (1, 2 et 3); > fixer le nombre minimal de codons à 60 (les orf proposées doivent coder pour des polypeptides d'au moins 60 acides aminés). > on choisit le sens direct > submit puis le sens REVERS > submit ANALYSE DES R ةSULTATS: Le but est de trouver une séquence susceptible de coder pour une protéine ou un polypeptide. 1/ SENS DIRECT / aucune ORF n'a été trouvée dans ce sens avec les différents cadres de lecture : ==> on suppose qu'aucune séquence nucléotidique n'est susceptible de s'exprimer dans ce sens. 2/ SENS INDIRECT a- Aucune ORF n'a été trouvée dans les cadre de lecture 1 et 3 ; b- Deux ORF ont été trouvées dans le cadre de lecture 2 : la 1ère : de la base 2 à 187 la seconde: de la base 188 à 994 (elle se trouve juste après la 1ère) Pour choisir l'ORF la plus intéressante des 02, on se base sur le principe que l'ORF la plus longue est la plus significative: ==> l'ORF que je choisit d'étudier est la seconde ; elle est nettement plus longue que la 1ère sa taille est de : 994 - 188 + 1 = 807 Nucléotides, donc 269 codons. TRADUCTION / Après traduction, je remarque que ma séquence est complète : elle commence par un codon d'initiation (méthionine) et se termine par un codon stop. On peut

E gene 19

Embed Size (px)

Citation preview

Recherche ORFPROTOCOLE:Comme indiqu dans le cours, pour chercher des ORF on suit les tapes suivantes: > Recherche d'ORF > ORF finder> copier la squence polynuclotidique (forme fasta) dans "the text area"> autoriser le choix de n'importe quel codon pour l'initiation (any codon)> choisir 3 cadres de lecture (1, 2 et 3); > fixer le nombre minimal de codons 60 (les orf proposes doivent coder pour des polypeptides d'au moins 60 acides amins).> on choisit le sens direct > submit puis le sens REVERS > submit ANALYSE DES RSULTATS: Le but est de trouver une squence susceptible de coder pour une protine ou un polypeptide.1/ SENS DIRECT / aucune ORF n'a t trouve dans ce sens avec les diffrents cadres de lecture :==> on suppose qu'aucune squence nuclotidique n'est susceptible de s'exprimer dans ce sens.2/ SENS INDIRECTa- Aucune ORF n'a t trouve dans les cadre de lecture 1 et 3 ;b- Deux ORF ont t trouves dans le cadre de lecture 2 : la 1re : de la base 2 187 la seconde: de la base 188 994 (elle se trouve juste aprs la 1re)Pour choisir l'ORF la plus intressante des 02, on se base sur le principe que l'ORF la plus longue est la plus significative: ==> l'ORF que je choisit d'tudier est la seconde ; elle est nettement plus longue que la 1re sa taille est de : 994 - 188 + 1 = 807 Nuclotides, donc 269 codons. TRADUCTION / Aprs traduction, je remarque que ma squence est complte : elle commence par un codon d'initiation (mthionine) et se termine par un codon stop. On peut donc calculer sa masse molculaire toujours avec le logiciel SMS> Protein Molecular Weight Rsultat : PM = 30.33 kD (kilo Dalton).

Modlisation 3D Un gne code pour une structure 3D prcise: les aa la stabilisent par leurs proprits physico-chimiques particulires.On peut donc prdire l'alignement (la structure tri dimensionnelle) d'une protine (ou polypeptide) partir des aa qui la forment comme un pur modle physico-chimique.C'est sur ce principe que se basent les logiciels de prdiction des structure 3D pour les squences inconnues.

Le logiciel que j'ai utilis dans ce cas est "LOOP-3D".

Pour mieux visualiser la structure 3D, j'ai utilis le logiciel RasMol ; j'ai pu constater que :

* ma protine n'est forme que par des hlices (11 hlices) et 15 coudes. Les hlices sont stabilises par des liaisons Hydrogne et les Forces de VAN DER WAALS;

* Ma molcule ne comporte aucune Cystine (en tapant SELECT CYS dans la fentre de texte ===> no atoms selected)

Comme sa prsence dans les protines est trs importante, notamment parce qu'elle permet la formation des ponts disulfures, j'ai suppos que ma protine ne possde aucun pont disulfureChose que j'ai confirme (ssbonds >>>> nombre de ponts.....0).

D'aprs un cours de biochimie de l'universit d'ANGERS : """Les ponts disulfures sont forms dans un environnement cellulaire oxydant. Le cytoplasme n'tant pas un milieu oxydant, il y a trs peu de protines intracellulaires qui possdent des ponts disulfure"""" il est donc possible que ma protine soit intracellulaire.Domaines ProtiquesPROTOCOLE:> INTERPRO> copier coller la traduction> submit ........ attendre quelques instants > summary table > noter dans le tableau les domaines protiques les plus significatifs

ANALYSE DES RSULTATS: Sur le plan structural et fonctionnel, chaque partie d'un gne peut assurer une fonction indpendante du reste du gne. Cest le cas par exemple de certains gnes qui codent pour diffrentes sous-units dun mme complexe ou pour des enzymes multi-fonctionnelles. Ces parties du gne qui constituent des units dvolution part entire et qui ont une structure et une fonction propre sont appeles modules ou domaines. La plupart des protines sont modulaires, cest dire constitues de domaines et cette modularit fausse les rsultats de nombreuses mthodes en gnomique comparative.Il est donc prfrable d'utiliser comme unit non plus le gne mais le domaine.En d'autres termes : un domaine protique est une unit structurale (et fonctionnelle) indpendante, volutivement conserve. Une famille protique est un ensemble de protines relies; elles ont un ou plusieurs domaines protiques communs.le logiciel INTERPRO permet justement de trouver des domaines protiques dans la squence propose et de prdire quelle famille ils appartiennent. Dans notre cas, il n'a trouv qu'un seul domaine protique, dans la base de donne PFAM, commenant de l'AA n 139 L'AA 237. Notre ORF coderait, probabement, pour une protase " CAAX amino terminal protease" aussi dite " CAAX protease self-immunity "avec un risque d'erreur minime (4.1E-14). Son rle est peu connu chez les procaryotes, elle aurait un rle dans l'immunit bactrienne, elle protgerait les bactries des bactriocines.Elle appartiendrait la famille "abi", les membres de cette famille sont des protases.Remarque:deux domaines protiques ont t trouvs dans "unintegrated" ==> ils ne sont pas pris en considration.GO terms : 00016020 membrane (domaine galement retrouv chez les champignons "Aspergillus, Candida" et chez les plantes.Analyse BlastPROTOCOLE:> blast > protein blast> copier puis coller la squence fasta de la protine> Algorithm parameters > fixer "max target sequences" 500> Blast

ANALYSE DES RSULTATS: L'objectif est de rechercher des homologues ma protines afin de prdire sa fonction et son origine.Ce logiciel va comparer ma squence avec chacune des squences de sa banque de donnes(une par une), et va calculer un score de similitude et le E-value , le risque d'erreur, pour chacune d'entre-elles.Rsultat :* La premire chose que j'ai remarqu est que plus de la moiti des bandes sont de couleur rouge (score> 200) et le reste en rose (score de 80-200). Ma squence prsente donc de nombreux homologues avec des scores levs et des probabilits d'erreurs ngligeables. En regardant plus bas dans le tableau, je remarque que les homologues classs en 1er (les plus significatifs, ou les plus proches de ma squence) appartiennent la famille des Flavobacteriaceae (Flavobacterium, Leeuwenhoekiella,Gramella, Zobellia,...).les Flavobactriaces sont des bacilles Gram ngatif, non sporuls. Leur habitat est trs vaste : sol, eau douce et sdiments des lacs et des rivires, eau de mer et environnement marin, boues actives, biofilms, plantes, aliments , cavit buccale de l'homme ou des animaux, ponges, holothuries, oursins... Dans le milieu extrieur, ces bactries joueraient un rle important dans la dgradation de multiples substrats organiques. De manire gnrale ,les scores varient de 293 (avec E-value= 2e-95,risque d'erreur presque nul) 40 (avec e-value 0.2):* "1" la protine qui a le meilleur score et le e-value le plus significatif est : Abortive infection protein, c'est une CAAX amino terminal( CAAX protease self-immunity protease ) retrouve chez les : Flavobacteria bacterium MS024-2A; * "2" la squence qui a le score le plus bas (40) et le E-value le plus lev (0.2 => un grand risque d'erreur) est aussi une CAAX amino terminal protease mais appartenant une autre famille de bactrie , les bacillaceae[Bacillus cereus biovar anthracis str. CI].On peut donc supposer que ces squences (1, 2 et ma squence) proviennent d'un mme anctre, la "2" a peut tre subi plusieurs mutations , seul le site actif a t pargn.C'est pourquoi elle a gard la mme fonction protolytique , avec un score de similitude bas. Ces rsultats correspondent ceux trouvs par Interpro.Rapport TaxonomiquePROTOCOLE:> NCBI> blastp> taxonomy repport> slectionner un groupe d'tude et un groupe externe, les cocher sur les rsultats BlastANALYSE DES RSULTATS: Le but de cette tape est de trouver les hits qui synthtisent presque la mme protine traduite (des squences protiques similaires), toujours pour deviner la fonction de ma protine et choisir les homologues avec lesquels on va la comparer pour construire son arbre phylognique. ************ Groupe d'tude **************Ce groupe n'est constitu que par des espces du phylum [CFB group bacteria], avec des scores allant de 293 - 218 ; 13 squences ont 2 hits, et une seule a 1 hit.1/ Flavobacteria bacterium MS024-2A -------------------- 293 2 hits [CFB group bacteria] Abortive infection protein [Flavobacteria bacterium MS024-22/ Flavobacterium branchiophilum FL-15 ------------------- 253 2 hits [CFB group bacteria] yyaK gene product [Flavobacterium branchiophilum FL-15] >gi3/ Flavobacterium columnare ATCC 49512 ................... 247 2 hits [CFB group bacteria] unnamed protein product [Flavobacterium columnare ATCC 49514/ Joostella marina DSM 19592 ............................ 247 2 hits [CFB group bacteria] putative metal-dependent membrane protease [Joostella marin 5/ Flavobacterium psychrophilum JIP02/86 ................. 240 2 hits [CFB group bacteria] yyaK gene product [Flavobacterium psychrophilum JIP02/86] >6/ Flavobacteriaceae bacterium HQM9 ...................... 239 1 hit [CFB group bacteria] hypothetical protein FbacHQ_12479 [Flavobacteriaceae bacter7/ Flavobacterium frigoris PS1 ........................... 236 2 hits [CFB group bacteria] hypothetical protein HJ01_02781 [Flavobacterium frigoris PS8/ Flavobacterium johnsoniae UW101 ....................... 236 2 hits [CFB group bacteria] unnamed protein product [Flavobacterium johnsoniae UW101] >9/ Leeuwenhoekiella blandensis MED217 .................... 228 2 hits [CFB group bacteria] hypothetical protein MED217_14260 [Leeuwenhoekiella blanden10/ Zobellia galactanivorans .............................. 227 2 hits [CFB group bacteria] unnamed protein product [Zobellia galactanivorans] >gi|339711/ Polaribacter sp. MED152 ............................... 226 2 hits [CFB group bacteria] CAAX amino terminal protease family [Polaribacter sp. MED1512/ Cellulophaga algicola DSM 14237 ....................... 226 2 hits [CFB group bacteria] unnamed protein product [Cellulophaga algicola DSM 14237] >13/ Flavobacteriales bacterium ALC-1 ...................... 223 2 hits [CFB group bacteria] hypothetical protein FBALC1_07538 [Flavobacteriales bacteri14/ Maribacter sp. HTCC2170 ............................... 218 2 hits [CFB group bacteria] hypothetical protein FB2170_12846 [Maribacter sp. HTCC2170] *****************Groupe externe**********************Il est constitu de bactries appartenant diffrents groupes (Firmicutes,Cyanobacteria et GNS bacteria " Phylum des Chlorobactries"). Ce sont des squences 2 hits, leurs scores vont de 122 95.1/ Clostridium clariflavum DSM 19732 --------------------------- 122 2 hits [firmicutes] unnamed protein product [Clostridium clariflavum DSM 19732]2/ Clostridium sp. BNL1100 ..................................... 105 2 hits [firmicutes] unnamed protein product [Clostridium sp. BNL1100] >gi|373943/ Bacillus megaterium WSH-002 ................................. 99 2 hits [firmicutes] yyaK gene product [Bacillus megaterium WSH-002] >gi|3454433

4/ Nostoc sp. PCC 7120 ......................................... 96 2 hits [cyanobacteria] unnamed protein product [Nostoc sp. PCC 7120] >gi|17131232|5/ Roseiflexus sp. RS-1 ........................................ 93 2 hits [GNS bacteria] abortive infection protein [Roseiflexus sp. RS-1] >gi|148576/ Anaerolinea thermophila UNI-1 ............................... 95 2 hits [GNS bacteria] putative hydrolase [Anaerolinea thermophila UNI-1] >gi|3199Alignement MulitiplePROTOCOLE:> CLUSTALw> copier coller les homologues choisis avec ma squence> submitANALYSE DES RSULTATS: Lalignement multiple permet de comparer, contrairement au blast, PLUSIEURS SEQUENCES EN MME TEMPS. Il permet surtout d'identifier les rgions conserves par ma squence et les homologues (dtecter les rgions conserves): * ----- rsidu parfaitement conserv : ----- substitution conservative . ----- substitution semi-conservative * le dbut de ma squence correspond au dbut de la plupart des autre squences; en revanche on peut remarquer que Chloro1(786 aa) est beaucoup plus grande que toutes les autres squences.* le dbut de ma squence ne ressemble aucune autre squence (trs peu d'toiles et de points qui sont en plus loigns les uns des autres); il n'y a pas de similarit entre cette rgion et les 20 autres.* on remarque que les toiles et les points (avec quelques petits vides) apparaissent partir de l'aa 148 et jusqu' l'aa 255 .Il s'agit donc d'une seule rgion conserve (c'est ce qui a t prdit par INTERPRO). ********************Remarque******************* En revoyant les "petits vides" de la rgion conserve; on remarque que pour le vide :220 225 : les aa sont presque les mmes pour ma squence et les homologue du groupe d'tude, mais ils diffrent de ceux des membres du groupe externe , c'est ce qui explique l'absence d'toiles dans cette rgion.Mme remarque pour la rgion 239-246.

Arbre PhylogniquePROTOCOLE:> Phylogenie> Protdist/FastDist + Neighbor> Step by step> Create workflow> Copier coller les homologues dbarrasss des surplus des tiquettes (ne garder que les noms quon leur a attribus et la traduction)> Submit > Next step > Submit> Phylogeny set.> Submit > Next step > Submit> Text > Copier puis coller le rsultat dans le champ rsultat brut.ANALYSE DES RSULTATS: Le principe est le suivant : les protines aux squences similaires ont souvent un anctre commun .Le but de cette tape est de chercher l'origine de ma protine et son "degr de parent" avec les membres des deux groupes choisis.* Je remarque la prsence de trois "bloc" : 1er -> form par BACILLUS et Nostoc (cyanobactrie) ; 2e -> form par toutes les flavobactries auxquelles s'intgre ma protine ; 3e -> form par les Clostridium et les chlorobactries.* Je remarque aussi que contrairement mes prdictions (et malgr un risque d'erreur presque nul pour flavo1) ; mon inconnue est plus proche de Flavo2 (qui a donn une score de 253) que de Flavo1 (293).* Comme prvu, les membres du groupe externe sont les plus loigns de mon inconnue.* On peut supposer que la squence tudie est issue d'une Flavobactrie de l'espce Flavobacterium branchiophilum ; ou d'une espce trs proche.ConclusionLobjectif de ce travail est la prdiction de la structure, la fonction et lorigine volutive de squences biologiques prleves dans des milieux marins et stockes dans Genbank sans aucune annotation. La squence que jai tent dannoter est forme de 1012 pb. Elle provient de Cabo Marshall, Isabella Island. La date du prlvement et la profondeur do il a t pris ne sont pas mentionnes. Mon travail sest fait en plusieurs tapes successives (le protocole et lanalyse des rsultats sont dtaills dans chaque tape). En utilisant les outils mis ma disposition, jai trouv les rsultats suivants : * La phase de lecture ouverte ou ORF la plus significative, a t trouve (avec le logiciel SMS) dans le sens indirect, cadre de lecture 2. Sa taille est de 807 Nuclotides (269 codons). * Aprs traduction, jai remarqu que la protine code par mon ORF est une squence complte, elle commence par un codon dinitiation et se termine par un codon stop, jai donc calcul son poids molculaire (PM = 30.33 kD). * Le logiciel RasMol ma permis de visualiser la structure tridimensionnelle de ma protine, elle est forme de 11 hlices et 15 coudes. * Un seul domaine protique (avec un risque d'erreur minime de 4.1E-14) a t identifi par le logiciel INTERPRO, dans la base de donnes PFAM. Ce domaine commence de lacide amin n 139 laa n 237. Il sagirait dune peptidase ou protase (la famille Abi) : " CAAX amino terminal protease" aussi dite " CAAX protease self-immunity " correspondant au terme GO : 00016020 membrane. Ce rsultat a t par la suite confirm par lanalyse Blast et lalignement multiple. En effet, La rgion conserve et son rle fonctionnel concordent parfaitement avec les rsultats dINTERPRO. Selon ces mmes sources, le rle de cette enzyme est peu connu chez les procaryotes, elle aurait un rle dans l'immunit bactrienne : elle protgerait les bactries des antimicrobiens et mme de leurs propres bactriocines. Lanalyse Blast et lalignement multiple mont aussi permis de trouver des homologues ma squence et de construire un arbre phylogntique. Les rsultats de ces dernires tapes me laissent supposer que mon polypeptide provient, ventuellement, dune Flavobactrie : Flavobacterium branchiophilum. C'est l'homologue qui a prsent le second meilleur score en analyse Blast (253 ; e-value = 7e-80). Mon enzyme serait cod par le gne yyaK de cette espce. Les flavobactries appartiennent au phylum des Cytophaga-Flavobacteria-Bacteroides (CFB), sous groupe des Cytophagales. Daprs le site Genoscope (*), ces bactries sont principalement des chimio-organo-htrotrophes arobies spcialiss dans la dgradation des polymres. Des tudes ont montr leur abondance dans les SYSTEMES MARINS (ce qui renforce mon hypothse, ma squence t prleve dun milieu marin, il est donc fort possible quelle soit issue de ces bactries). Les Cytophagales nont quune faible importance dans le cadre de la sant humaine, mais suscitent des inquitudes en matire de dtrioration des aliments et de pathognicit pour les poissons.En effet, Flavobacterium branchiophilum est le principal responsable de la maladie des branchies ; une pathologie affectant principalement les salmonids. Depuis la premire description de cette bactrie au Japon, F. branchiophilum a t dtect dans de nombreuses rgions pratiquant la salmoniculture (Etats-Unis, Hongrie, Canada, Core). La synthse de protases (dont, probablement la " CAAX amino terminal protease") est voque comme tant un lment du pouvoir pathogne et pourrait expliquer les lsions de ncrose des cellules pithliales. Pour rcapituler ; la squence sur laquelle jai travaill proviendrait de lespce Flavobacterium branchiophilum . Elle coderait pour une protase. Cette enzyme jouerait un rle dans la protection de ces bactries des bactriocines et serait implique dans leur pathognicit. (*)Genoscope : Centre National de Squenage. Institut de gnomique, Direction des Sciences du vivant, 91 057 Evry Cedex, France. > http://www.genoscope.cns.fr/spip/-Flavobacterium-branchiophilum,424-.html (consult le 15/05/2012).