134
Estratégias de Estratégias de Sequenciamento Sequenciamento genoma e transcriptoma genoma e transcriptoma Prof. Adriana Dantas Prof. Adriana Dantas UERGS – Bento Gonçalves UERGS – Bento Gonçalves

Estratégias de sequenciamento

  • Upload
    uergs

  • View
    6.934

  • Download
    3

Embed Size (px)

Citation preview

  • 1. Estratgias de Sequenciamentogenoma e transcriptomaProf. Adriana DantasUERGS Bento Gonalves

2. COMO ISOLAR UM GENE DE INTERESSE?Genoma estruturalMapeamento de geneSequenciamentoAnotao gnicaGenoma funcionalPerfil de expresso TranscriptomaAnotao gnica Protemica 3. GenmicaCincia que estuda o genoma, ou oconjunto do material gentico de umorganismo.Ex.: Genoma da Xylella fastidiosa composto pelo DNA cromossomal mais oDNA plasmidial. 4. GENOMA COMO ESTUDAR?Marcador molecular Sequenciamento de DNA Polimorfismo Bancos de sequencias Biblioteca genmicaAnlise de segregaoMapa genticoGenoma funcional Mapeamento de interesse (QRL QTL)Expresso gnica - RNAm 5. Metodologias de anlise e obteno de genes de interesseSeleo diferencial e hibridizao subtrativa(Sambrook et al., 1989) cDNA-AFLP (Bachem et al.,1996)Mapeamento PosicionalHibridao Somtica assimtrica (Xu e Korban, 2000)Differential Display Reverse Transcription PCR -(DDRT-PCR) (Liang and Pardee., 1992)RFLP-coupled differential display (RC4D) (Fischer etal., 1995)Serial Analysis of Gene Expression (SAGE)(Velculescu et al., 1995)Macroarrays (Chen et al., 1998)Microarrays (Schena et al., 1995) 6. ControleTratado Extrao de RNA e sntese de cDNAConstruo da biblioteca sequenciamentosequenciamento e sequenciamentoSequncia consensuclusterizaoExpresso gnica : tratado = 2x controle 7. Biblioteca subtrativaRNA PoolsSntese de cDNAControle Tratado Digesto de cDNAcom 4 enzimas de Driver Testercorte Ligao dosAdaptador adaptadores paraamostra do testerDriver Driver andTesterHibridizao TesterTester/ driver PCR com primersespecificos paraadaptador j ligadoa amostra do Amplificao testerNo Amplificao ExponencialEnriquecimento deamplificado linearbibliotecas deEnriquecido cDNA nos genesTesterexpressos nas Eliminado Eliminadoamostras do tester 8. Construo de bibliotecas Subtrativas cDNA testercom adaptador 1 RcDNA DrivercDNAtestercom adaptador 2 R (em excesso) TesterDriver RNA tecido ARNA tecido B 1 Hibridizaoa cDNAbcRNA mensageirodDigesto com Dpn II 2 Hibridizao mistura de amostras, :adio de Driver desnaturado anelamento e cDNAa, b, c, d + eLigao ao oligo A Ligao ao oligo BPreenchimento dos terminaisDigesto comRsaIab Hibridizao com excesso de DriverLigao dos cadaptadoresd PCR com a utilizao de iniciadores complementares ao oligo Ae Adio de primers SubtraoAmplificao por PCRAmplificao seletiva dos cDNAs derivados do Testera e d - nenhuma amplificaob- b - nenhuma amplificaoc - amplificao linear Clonagem em vetores e montagem da biblioteca5 3 ee - amplificao exponencial3 5 9. cDNA-AFLP 10. cDNA-AFLPVantagens: Alta reprodutibilidade; Poucos falso positivos; Necessita de pequenas quantidadesiniciais de RNA.Desvantagens: O cDNA precisa conter o stio derestrio da enzima utilizada. 11. DDRT-PCR(Differential Display Reverse Transcription PCR) 12. SNPs (Single nucleotide polymorphisms)Polimorfismo de um nico nucleotdeo5 leader Coding sequence 3 end Poly-A(exons) Seqnciamento 3Seqnciamento 5 13. SNPs - Princpio detectar a variao de seqncia na janela de um alinhamento de ESTs de um mesmo gene, parcialmentesobrepostasVariaes mais frequentes no genoma:- 1 substituio a cada 31 pb no codificadora- 124 pb em regies codificadoras 14. Deteco e validao de SNPs 15. Princpio da genotipagemSNP site1. PCR amplificao TTACGCATAACCTATCGAATTCCATCGCATCGAC2. Restrio do produto PCR com a enzima adequada (ex: EcoRI, GAATTC)Se A est presente ocorreSe C est presente, no ocorrea restrioa restrioTAACCTATCGAATTCCATCGTAACCTATCGACTTCCATCG NR- N R-++ 16. Hibridao somtica assimtrica transferncia parcial do genoma da clula doadorapara uma clula somtica receptora...1. Eliminao do genoma doador por radiao e posterior fuso2. Microinjeo Varivel, instvel e3. Fuso de microprotoplastos contendo aleatria! microncleos com um ou poucos cromossomos do genoma doador 17. Caracterizao molecularIdentificao de marcas candidatas 18. Hibridao somtica assimtricaIdentificar marcadores genticos ligados aosgenes de interesse, nos respectivos cromossomos. AFLP Gene Vf (Sarna) Xu & Korban, 2000 19. Mapeamento por Saturao(AFLP) 20. 840marcadores:475 AFLPs235 RAPDs129 SSRs 21. Marcador PrimerGene ReferenciaRAPDSOPM18900 CACCATCCGTVf Koller et al.,1994OPU01400 ACGGACGTA Vf Koller et al.,1994OPD20500 ACCCGGTCACVf Yang & Kruger, 1994OPC081100TGGACCGGTGVf Tartarini 1996OPC09900 CTCACCGTCCVf Tartarini 1996OPAL07580CCGTCCATCCVf Tartarini 1996OPAM192200 CCAGGTCTTCVf Tartarini 1996OPA15900 TTCCGAACCCVf Durham and Korban 1994OPO141700AGCATGGCTCVf King et al. 1998OPAF132000 CCGAGGTGACVf King et al. 1998OPAG051900 CCCACTAGACVf King et al. 1998OPAG12800CTCCCAGGGTVf King et al. 1998SSRCH05e03For:CGAATATTTTCACTCTGACTGGG VbjM.Gygax (Frey et al.,2004) Rev:CAAGTTGTTGTACTGCTCCGACH02B10For: CAAGGAAATCATCAAAGATTCAAG Vr Hemmat et al.,2002 Rev: CAAGTGGCTTCGGATAGTCHVf1For: ATCACCACCAGCAGCAAAGVf C.Gessler (Frey et al.,2004) Rev: CATACAAATCAAAGCACAACCCCH02c06For: TGACGAAATCCACTACTAATGCAVr Baldi et al.,2004 Rev: GATTGCGCGCTTTTTAACATCH02C02a For: CTTCAAGTTCAGCATCAAGACAAVr2Patocchi et al., 2003 Rev: TAGGGCACACTTGCTGGTCCH02B07For: CCAGACAAGTCATCACAACACTCVd Calenge et al., 2005 Rev: ATGTCGATGTCGCTCTGTTGPrimers especficos VfVfa1 For: TCTATCTCAGTAGTTTCTATAATTCC Vf Xu & Korban (2002) Rev:GTAGTTACTCTCAAGATTAAGAACTTVfa2 For: CTCAATCTCAGTAGTTTCTATGGA Vf Xu & Korban (2002) Rev: CCCCCGAGATTAAGAGTTGVfa3 For:ATATTAGTAGTTTCTATAATCTGAAGG Vf Xu & Korban (2002) Rev:CCCCCGAGATTAAGAGATGVfa4 For:TATCTCAATCTCAGTAGTAATAGTATC Vf Xu & Korban (2002) Rev:GACCTTGGAAACCACAATCAL07/SCAR 450 464 For: TCCTTACTGAGGAGGAAACCAG Tartarini et al. (1999) Rev: CAAGGGAACTGATCTTTCGTTGARGHARGH 25/CH02B07 For:CAAACATCATCGTAATTTTGACGVd Baldi et al.,2004 Rev:CATACTCTTCATGAGGATAATTCARGH37 For:TGCACGACATTAGCAACACTG Vr2Baldi et al.,2004 Rev:GAAACAACTTCTTTTGAGAGTTCARGH17 For:TTGCCGACGTTCGTGATGCTVr2Baldi et al.,2004 Rev:GATATCCTTTGTTTGGACAACCARGH 34/CHVf1For:TGTATGACCAGCCGAAGGTGVf1Baldi et al.,2004 REv:CCAGGACAACAATGTACCTCSeleo assistida por marcadoresmoleculares (SAM) 22. A.C.M. Dantas, N. F. Martins, M. Costa, M.S.Teixeira Junior. Characterization ofResistance gene analogs in apple resistant and susceptible cultivars toGromerella leaf spot.Cluster Acesso NCBIIdentificaoe-value CL1Contig2AAP45181.1 putative disease resistant protein rga3 [Solanum bulbocastanum]1.49657E-51 CL1Contig2AAT09451.putative NBS-LRR type disease resistance protein [Prunus 1.89882E-71pbpersica]",39F1/1R1 1F/P3b3F2/13R12F/13R1F G F GF GF GCL2Contig2AY599223.1 Prunus persica putative NBS-LRR type disease resistance2.79193E-27 protein (RPM1) mRNA CL3Contig1AM167520.1 Malus x domestica transposon gene for putative DNA 7.5496E-22 topoisomerase II, hypothetical protein, putative CC-NBS- LRR resistance protein, and putative cyclin-related protein CL6Contig1AC130799.19Medicago truncatula clone mth2-34b13, complete sequence1.30146E-21 1000 CL6Contig1CAB79834.1 putative protein [Arabidopsis thaliana]2.1971E-79 CL7Contig1ABE86887.1 Disease resistance protein; Peptidase aspartic, active site4.05789E-65 [Medicago truncatula] 500 370 CL7Contig1ABE87630.1 Disease resistance protein; AAA ATPase [Medicago truncatula] 9.04004E-65 CL12Contig1 ABE86887.1 Disease resistance protein; Peptidase aspartic, active site3.26504E-56 [Medicago truncatula] CL12Contig1 ABE86891.1 Disease resistance protein; Peptidase aspartic, active site1.62042E-55 [Medicago truncatula] CL12Contig1 AAQ15192.1 resistance protein [Vitis vinifera]4.41283E-53NBS-ARC domain RNBSCl1|Sequence RNBS-B-------------------------MQDHG-------TTRKEE----------------- 11 CL12Contig1 AJ581790.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 2.28422E-34 90leucine-rich repeat disease resistance protein, cloneCl23|Sequence MRYFLVLDDVWTRDRKKWEQLEAALIQSGAKGSRIVVTTRQHE----------------- 43 RGA03Cl16|Sequence ---------MGPLDACSSGRQCDGYLQNSPLRYFLVLDDVWNDNYSDWDLVRTPFTYGAR 51Cl19|Sequence ---------MGPLDACSSGRQCDGYLQNSPFG--QVVHNVVQN----------------- 32CL12Contig1 ABE87630.1 Disease resistance protein; AAA ATPase [Medicago truncatula6.37212E-52Cl18|Sequence ---------MITTRDVNVAKFMG------------------------------------- 14Cl7|Sequence------------------------------------------------------------ CL13Contig1 AJ581790.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 3.4056E-55Cl8|Sequence------------------------------------------------------------ 90leucine-rich repeat disease resistance protein, cloneCl17|Sequence ---------MVTTRKKDIA----------------------------------------- 10 RGA03Kinase 2 CL13Contig1 PCO581780Pyrus communis partial gene for putative nucleotide binding site 1.03544E-33Cl1|Sequence-----------VVRMIGAVTQKIDLERLSEPDCLAIFNRMAFF-SRD--KDSVLESIGEE 57leucine-rich repeat disease resistance protein, clonecl23|Sequence -----------VADMMRAKSHMISMGELSEQFCLSIFNHMAFY-GKEVNKSNKFEDISQE 91RGA13cl16|Sequence GSKVIVTTRNKSVASIVHTGPIHYLKHLSHKDCWLLLRKHAFR-NENPSAHPHLKEIGKQ 110cl19|Sequence ------------------TIPIHDLEKLSDDDCWLLLAKHAFR-NENSSAHPDLEEVGKK 73 CL13Contig1 ABE86887.1 Disease resistance protein; Peptidase aspartic, active site6.47369E-57cl18|Sequence ------------------AAGVHNLKCMRDDDCLEIFERHAFG-ELNDGKPVNYELIRRK 55 [Medicago truncatula]","cl7|Sequence-------------------------------------MIKKFHEGRKEEVPEHLNSMRY- 22CL15Contig1 AF516631.1 Malus prunifolia putative disease resistance gene analog-like8.3607E-25cl8|Sequence-------------------------------------MIKQFHQGRKEEVTEHLNSMSY- 22NBS-LRR (RGA-I8)cl17|Sequence ------------LYSFEVESRPFEIEPLENNEAWELFSKKAFSSYDNKSCPPELESLAWK 58 * .: : CL15Contig1 AM075244.1"Rosa hybrid cultivar partial brp36 gene for putative LZ-NBS-LRR1.75467E-10RNBS-C LRRresistance proteinCl1|SequenceIAKKCKGLPLAAKTMGSLMRYKQTRKEWQEVLNSKIWELEEVEQQVFKPLLLS--YFDLA 115 CL16Contig1 BAC56785.1 unknown protein [Oryza sativa (japonica cultivar-group)]"1.95037E-22cl23|Sequence IVKKCKGLPLAAQTLGSLMHNKTTRREWQDVLSSKMWGLKDVEQEVFQPLLLS--YYDLA 149cl16|Sequence IARKCNGLPLAAKALGGLLGCNVGYREWSHILNSNLWETLHTDKNVLPSLRLS--YHYLP 168 CL17Contig1 AAQ15192.1 resistance protein [Vitis vinifera]1.02163E-52cl19|Sequence IAHKCNGLPLASKTLGGLLGCNLDYKEWNHILESNFWDLPHSDS-VLPSLRLS--YHYLP 130 CL15Contig1 AAR19096.1 NBS-LRR type disease resistance protein RPG1-B [Glycine max] 1.46353E-46cl18|Sequence IVEKCRGLPFAARTLGGLLRCKE-KDEWEEILNNKLWNIADKSD-ILPVLKLS--YHYLP 111cl7|Sequence-----EEL---LEMLSTYLKSKRYLVVLDDVWDIKLWQEIRIPLLN----------RHHG 64CL17Contig1 AJ581789.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 3.59679E-42cl9|Sequence-----EEL---LEMLSTYLKSKRYLTVLDDVWDIKLWQEIRIPLLN----------RHHG 6489leucine-rich repeat disease resistance protein, clonecl17|Sequence LVEKCEGLPLAVVTLGGLMSSKRSSSEWRSVYNSLNWHLTNNPMLEPMSSILLLSFNNLP 118 RGA02 . * :. : :: . * CL17Contig1 AJ581791.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 5.6158E-41 91leucine-rich repeat disease resistance protein, cloneCl1|SequencePAVKRCLLYCVIFPKDYLIYKDYLIELWMSQDYLYSKGNTEK--EIIGQRCFDNLAMRSF 173 RGA04"cl23|Sequence PEVKCCLLYCAIFPKDYQFDKDCLINLWMAQDYLNS---------LDGQAYFDNLVARSF 200cl16|Sequence TYLKQCFAYLSIFPKDYEFEKENIIQLWMALGLIPQ-AESGQGLEELGGRYFDELLSRSL 227 CL17Contig1 AY369228.1 Malus x domestica NBS-LRR resistance gene-like protein 2.21901E-40cl19|Sequence SYLKRCFAYCSIFPKGYELEKENVLLLWVAEGLIPQ-SESGNTMEEVGERYFDELLSRSL 189 ARGH04 genecl18|Sequence SNLKRCFAYCSILPNDYEFREKQLVLLWMAEGLIQQKPKDNKQMEDLGRDYFRELLSRSL 171 CL17Contig1 AJ581781.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 1.369E-38cl7|SequenceSRIM-------------LTTRKKDIAFYSFEVESRPFE---IEPLEYNE--AWELFSKKA 106 81leucine-rich repeat disease resistance protein, clonecl8|SequenceSRIM-------------LTTRKKDIASYSFEVESCPLE---IEPLENNE--AWELFSKKA 106 RGA14cl17|Sequence NRLKPCFLYCAFFPEDCLIKRKRLIRLWIAEGFVEPIDG--VTPEEVAEGYLLELIVRSM 176 23. Hibridao somtica assimtrica Controle do processo datransferncia genmica parcialusando microprotoplastos,micromanipulao e citometria de fluxo. 24. Mapeamento Posicional 25. Predio dos aminocidos 26. Genoma Expresso (Transcriptoma):SUCEST Sugarcane EST Project Cana: Desafio & Oportunidade 27. A Arquitetura da ResistnciaSequncias similares conferem resistncia adiversos patgenos como vrus, bactrias, fungosand nematides.A maioria dos genes de resistncia (genes R)pertence a famlias multignicas.Genes R so altamente polimrficos e apresentamdiversas especificidades de reconhecimento.Grupos vegetais diferentes apresentam genes R comdomnios e padres (motifs) com significativaconservao.Clusters de genes R parecem evoluir maisrapidamente do que outras regies do genoma. 28. Modelo da Interao Gene-a- GenePatgen oInteraoR & avrProduto ElicitoresavrGene R HRSA JA EtilenoMorte CelulaCalosisr Genes PR Etileno Genes PR Fitoalexinas SA 29. Interao Hospedeiro-Patgeno Avr & R NematideFungoBactriaAfter Bonas &Lahaye Curr. Opn. Transferabilidade & Diversas localizaesMicrobiol. 2002 Mudana de Funo subcelulares 30. Estrutura de Genes RA Ser/Thre KinaseBLRR-Ser/Thre-KinaseC NBS-LRR TIR NBS-DLRRE LRR Nucleot. Binding Site Domniosconservado Toll-Interleukins de genes Dom. R Transmembrane Dom. Leucine Rich Repeats 31. Arabidopsis thalianaEstima-se que contenhaaproximadamente 220 genesque codificam protenas com odomnios NBS (em 21clusters genmicos e 14 loci)Seqncias TIR ainda maisabundantesCerca de 600 seqncias no-TIR 32. Estratgias de Amplificao Diferencial(RGAs = Resistance Gene Analogs)Isolamento de genes da classe NBSKinase-1a and Transmembrane Region: 550 Bp H2 N COOH Kinase-1a and Kinase-3a: 340 BpNucleotide-binding Site (NBS)(Kinase-1a, Kinase-2, and Kinase-3a Domain)Putative Transmembrane Region Leucine-rich Repeats 33. Obteno e Identificao de RGAs Amplificao por PCR Clonagem dos Produtos de PCR Mapeamento de RestrioSeqenciamento AutomticoAnlise de ORF (Open Reading Frame)Anotao e Identificao do Gene 34. Isolamento de RGAs (Resistance Gene Analogs): Domnio Kinase (1a) & Regio Transmembrana Questes em Aberto sobre Genes RMacroevoluo Evoluo em plantas silvestresComportamento em lenhosas e grupos primitivos 35. Isolamento de RGAs (Resistance GeneAnalogs):Domnio Kinase 1a & Kinase 3a 36. Tcnica de AFLP e SSAPRestriction of Genomic DNA Ligation of AdaptorsPre-Amplification with Adaptor PrimerAFLPSelective Amplification SSAP(Amplified Fragment Length Polymorphism) (Sequence-specific Amplified Polymorphism)32Eco+32GRP1PMse+3PMse0 232 Eco+ 32GRP2PMse+3PMse02 37. Mapeamento Gentico Cruzamento Interespecfico Cicer arietinum XC. reticulatum ICC4959PI489777(Resistant) (Susceptible) F7 to F8 Recombinant Inbred Lines131 Individuals Fusarium oxysporum fsp. ciceriResistance Loci Linkage Group 2 38. Marcadores MolecularesDAF - DNA Amplification FingerprintingRAPD - Random Amplified Polymorphic DNASSR Simple Sequence RepeatsSTMS - Sequence Tagged Microsatellite MarkersAFLP - Amplification Fragment Length PolymorphismSCAR - Sequence Characterized Amplified RegionsISSR - Inter Simple Sequence RepeatsRGA - Resistance Gene AnalogsSSAP - Sequence-Specific Amplified Polymorphism 39. Mapa Gentico GeradoCaractersticas:412 marcadores em 8 grupos de ligaoTamanho total 2.330 cM 8 grandes + 8Distncia Mdia entre os marcadores: 6,7 cMRelao Mdia Kb / cM = 322 (genoma = 750 pequenos grupos deMb)Ilhas ou clusters com acmulo de ligao 40. Mapeamento FinoAnlise Segregante de BulksCaando um Gene EspecficoRespectivamente 12 Linhagens: Bulk Resistente:R14, R18, R22, R29, R53, R56, R72, R74, R87, R88, R94, R96 Bulk Suscetvel:S11, S25, S32, S37, S40, S49, S55, S61, S63, S64, S65, S77 Primeira Seleo de Primers: 432 Primers Testados em 2 Semanas 174 Primers Polimrficos Anlise nos parentais e em sete indivduos R e S 41. ltima Seleo de MarcadoresR1 R7 S1 S 7 PRPSPR= AParental ResistentePS=Parental suscetvel 500 kb R=indivduo resistenteS=indivduo suscetvel32 Primers testados B24 Ligados (no LG 2) 500 kb18 seqenciados 42. Mapeamento Fino do Gene Foc 4 Regio deresistnciaao redor dos genesFoc 4 e Foc 5 43. Identidade de Marcadores Seqenciados OP-P08-1 840 bp = N-Polyacetil-Benzoyltransferase (protenareguladora da sntese de fitoalexinas) OP-M20-1/3 1103 bp = Disease resistance N (Nicotiana)-likeprotein from Arabidopsis thaliana (E-value 0.0) OP-P15-3/1 577 bp = Hypersensitivity response related gene 201isolog from Arabidopsis thaliana (2e-28) P-U17-1 1014 bp = Pathogenic related thaumatin-like proteinprecursor from Prunus avium (1e-10) OP-M20-1/2 1045 bp = MUTS2 DNA mismatch repair protein fromArabidopsis thaliana (7e-09) OP-P06-1 784 bp = Retrotransposon-like gag-protein sequence fromNicotiana tabacum putatively linked to black root rot resistance in -04 44. Sintenia e Colinearidade 45. SEQUENCIAMENTO MOLECULARBreve histrico: Gilbert e Sanger: 70s: 20 bases em dois anos Seqenciamento manual Gis de poliacrilamida Radioistopos Seqenciamento automticoSlab gelCapilar 2001: Genoma humano Sanger Institute Celera Genomics 500 bases / segundo 46. Como ???Atravs de sequenciamento de DNA Determinao da sua seqncia nucleotdica (ACGTs). Utilizar uma tecnologia de sequenciamento : Sanger sequencing Pirosequenciamento 47. Sequenciamento de DNADeterminar a seqncia nucleotdica (ACGTs).A tecnologia de sequenciamento atualexige que se quebre o DNA em pequenos fragmentos de cerca de 2.000 pares de bases (shotgun), exigindo a montagem dos fragmentos. 48. TranscriptomaSeqenciamento de material gentico,DNA e RNA, de organismo e anotao deestruturas dos genes encontrados.Ex.: Seqenciamento do genomahumano; do cromossomo IV de S.cerevisiae; de ESTs de diferentesespcies de Eucalyptus. 49. Tipos de ProjetosDNA seqenciamento de estruturas dogenoma ou de trechos destas.ESTs sequenciamento de cDNA, feitos partir de bibliotecas de mRNA. Ex.:ESTs de cana-de-acarSAGE sequenciamento de fragmentosem torno de 20 pb do cDNA (especificocom conhecimento) 50. Sequenciamento DNASequenciamento de DNA, feito de formaaleatriaInformaes sobre regies codantes (genes) epromotoresGera sequncias em regies inter-gnicas (aprincpio sem nenhuma funo) 51. Sequenciamento de mRNAInformao direta sobre os genes e tambmsobre a expresso gnicaMas genes pouco expressos so mais rarosde serem sequenciados por essa tcnica 52. SAGESAGE fornece informao sobre aexpresso gnica de forma mais eficienteque ESTs, mas til apenas quando ogenoma completo do organismo forconhecido A situao ideal para um projeto genoma sequenciar ambos DNA e cDNA 53. Serial Analysis ofGene Expression(SAGE) 54. Serial Analysis of Gene Expression(SAGE)Vantagens:Comparvel ao microarray;Permite uma anlise digital dos resultados;Permite identificar pequenas variaes dequantidade do transcrito;No depende de informao anterior deseqncia.Desvantagens:Pode apresentar possveis problemasdurante a realizao da tcnica. 55. Estratgias de Sequenciamento DNA Shotgun de genoma inteiro Shotgun em pedaos do genoma clonados em BACs Primer walking ESTs RNA oriundos de diferentes tecidos ou condies Biblioteca subtrativa 56. Sequenciamento por shot-gunParte de bibliotecas genmicas representativasSeqenciamento aleatrio de clonesMontagens das seqncias em contigsMontagem de scaffoldsFinishing 57. Shot-gunsequencing 58. Shotgun do genoma inteiroQuebrar em pedaos aleatrios ~2000pb(shotgun)readsclonar em vetor sequenciamento 59. Reconstruo do DNA original a partir dofragmentos (clusterizao)reads Sequncia consensu (DNA original)A reconstruo feita a partir de sobreposio dos fragmentos 60. montagemAGATATGAGAGACACAGAAATTTCCGGACACAGAAATTTCCGATAATTTCCGATACAAACCTGGTAAGACAGCAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC TTAGGACGACTTTAGGACCGATACCCCAAATACC TACCCCAAATACCCTAAGATTA 61. GACACAGAAATTTCCGATAAGATATGAGAGACACAGAAATTTCCG ATTTCCGATACAAACCTGGTAAGACAGCAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC TTAGGACGACTTTAGGACCGATACCCCAAATACC TACCCCAAATACCCTAAGATTAAGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTA 62. GACACAGAAATTTCCGATAAGATATGAGAGACACAGAAATTTCCG ATTTCCGATACAAACCTGGTAAGACAGCAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC TTAGGACGACTTTAGGACCGATACCCCAAATACC TACCCCAAATACCCTAAGATTA ContigAGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTA 63. Os reads so agrupados em contigsACGTTGCCTAGTAGATGCTAreadsGATGCTAACGTTGCCTAGTAGCCTAGTAGATAACGTTGCCTAGTAGCTclusterizao Contig (contguo)ACGTTGCCTAGTAGATGCTAACGTTGCCTAGTAGCT 64. Visualizando o ContigContigReads 65. Montagem do scaffold Cosmdeos/BACScaffold 1contigs Scaffold 2 66. Evoluo do projeto 67. Anlise de transcriptomaExpressed Sequence TagsSerial Analysis of Gene ExpressionMicroarranjos 68. Expression Sequences TagsAAAAAAAAATTTTTTTTTRTPCRClonagem Seqenciamento 69. Genes diferencialmente expressosGenes exclusivos de uma formaBiblioteca de miclioBiblioteca de levedura Genes comuns 70. Expressed sequence tags (ESTs) Extrair RNA de diferentes tecidos/condies Sntese de cDNA5 EST3 EST clonar em vetor sequenciamento 71. 250200150100 72. Serial Analysis of Gene Expression 73. O SAGE se baseia na anlisede pequenas seqnciasrtulo de cDNA (10-14 pb)concatenados.O processo de concatenaomantm a proporcionalidadedos rtulos.O seqenciamento maciodos rtulos permite aquantificao da expressode cada rtulo. 74. Shotgun de pedaos do genomaQuebrar em pedaosaleatoriamente desde50Kpb at 300KpbClonar em BACs e sequenciar apenas as pontas de cada fragmento~800 bp ~800 bpQuebrar em pedaos de2000pb clonar em vetor e sequenciar os fragmentos 75. Shotgun do genoma inteiroDNA genmicoQuebrar em pedaos aleatrios ~2000pb(shotgun)Ligao do adaptador e separao em fitasimples 76. Primer WalkingVector Clone to sequencePrimerSequence New Sequence PrimerRepeatSempre desenhar o primer de forma que a sequncia amplificada tenhasobreposio com a anterior (tipicamente 100 pb de sobreposio) 77. Chemical SequencingMtodo de Maxam e GilbertDNA pode ser sequenciado , atravs de uma marcao terminalque quebra a molcula, em cada base do DNAO tamanho dos fragmentos ir determinar posteriormente aposio das bases.Para G = tratamento com dimetil sulfato metilaPara G+A = tratamento com cido frmico que enfraquece asligaes glicosdicas, protonando os nitrognios dos anis depurinaPara T+C = tratamento com hidrazinal cliva anis de timina ecitosinaPara C = tratamento com hidrazina na presena de NaCl. NaCl 78. Chemical Sequencing - Mtodo de Maxam e Gilbert G+AGCC+TCACCTTGGCAA 79. Tecnologias atuais parasequenciamentoSanger sequencing PNAS 74 (1977), n. 12, 5463-5467 Sequenciador MegaBACE (1Mpb/24 horas)Pirosequenciamento Science 281 (1998), n. 5375, 363-365 Nature 437 (2005), 362-7 Sequenciador 454 (150Mpb/24 horas) 80. Seqenciamento de DNAFrederick Sanger (1918-)Graduado em Cincias em CambridgeEstudou protenas insulina1943 tcnicas de sequenciamentoPrmio Nobel de medicina e fisiologia em 1980J. Mol. Biol. v.94, p. 441-448, 1975 81. Dideoxy Sequencing, Mtodo Sanger (1977)Terminao de cadeia com didesoxirribonucleosdeotrifosfato, ou ainda dideoxinucleotdeo o mais empregado, permitindo o sequenciamentode DNA tanto de fita simples, como de fita dupla,desnaturado.Neste mtodo o DNA hibridizado com umoligonucleosdeo ou iniciador (foward ou reverseseparadamente), na presena dos quatrodesoxinucleotdeos (dATP, dCTP, dGTP e dTTP),um dideoxinucleotdeo 32P-dATP ou 35S-dATP eDNA polimerase. 82. PRE PA RA O DO DNA (C LONA GE M)PlasmdeoClivagem com Insero denuclease defragmentorestriode DNAMultiplicaovia colniasbacterianas 83. Sanger Sequencing anelamento dos primers desnaturao 84. ddATP32ddCTP32 Repetidos ciclos de:DNA polimerase DNA polimerasedesnaturao,DNADNA A, C, G e TA, C, G e Tanelamento extensoddTTP32ddGTP32DNA polimerase DNA polimeraseDNADNA A, C, G e TA, C, G e T A C TG InterpretaoCACCTTGGCAA 85. Filme de Sequenciamento Exemplo de gel utilizado nos seqenciadores de gel (ex.: 377). A diferena de tamanho permite a separao dos grupos de fragmentos, eesta distribuio normal da passagem dos fragmentos Representada pelo eletroferograma (ou cromatograma) de cada seqncia(read). 86. Eletroforese dos produtos de amplificaoda reao de sequenciamento 87. Mtodo de SeqenciamentoAutomatizadoSubstituio damarcao radioativapela marcao comfluorocromosMais segurana,rapidez e economiaMarcao dasquatro bases em um mesmo tubo 88. PROJETOS GENOMA 89. SEQUENCIAMENTO DE DNAComponentes da reao: DNA tampo apropriado primer enzima (Polimerase) dNTPs normais dNTPs (Menor quant.)GGAAC T+C T 90. primer polimerase templatedNTPslabelled ddNTPs 91. ATCTCGTAGCTATCTCGTAGCTAAATCTCGTAGCTATCTCGTAGCTAG GATCTCGTAGCTATCTCGTAGCTAGCCATCTCGTAGCTATCTCGTAGCTAGCT TATCTCGTAGCTATCTCGTAGCTAGCTAAATCTCGTAGCTATCTCGTAGCTAGCTAC CATCTCGTAGCTATCTCGTAGCTAGCTACGGATCTCGTAGCTATCTCGTAGCTAGCTACGA AATCTCGTAGCTATCTCGTAGCTAGCTACGACCATCTCGTAGCTATCTCGTAGCTAGCTACGACG GATCTCGTAGCTATCTCGTAGCTAGCTACGACGTTATCTCGTAGCTATCTCGTAGCTAGCTACGACGTC CATCTCGTAGCTATCTCGTAGCTAGCTACGACGTCTTATCTCGTAGCTATCTCGTAGCTAGCTACGACGTCTA ATAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG 92. Sequenciamento de DNAT G C A C G T G A C A G T Fita MoldeG T G C AG T G C A CG T G C A C TG T G C A C T G 93. Eletroforese capilar e deteco fluorescenteSequnciaAdaptado de Belo,2003 94. Incio Receber Processar Anotar DepositarFim 95. O programa PHRED l o cromatograma identificando e dando uma notapara cada base que forma a sequncia :0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ... Genome Research 8 (3) (1998), 175-185 96. background- A identificao dos picos feita atravs de uma transformada de fourier do sinal- A nota ligada com a resoluo entre os picos vizinhos e a altura do background 97. Analisando o GenomaRegio de qualidade alta Picos bem definidos e grandes. Linha de base boa. Distncia entre picos anterior e posterior constante. 98. Regio de qualidade mdia poucas ambigidades Picos razoavelmente bem definidos e de tamanho mdio. Linha de base boa a razovel. Distncia entre picos anterior e posterior razovel. 99. Regio de qualidade baixa baixa confiabilidade Picos mal definidos e de tamanho pequeno. Linha de base confusa. Distncia entre picos anterior e posterior inconstante. 100. Sequenciamento de seqncias da ordem de 500 pbOnde q a nota phred e P a probabilidade encontrar uma baseerrada :- Nota phred = 20 => 1 base errada a cada 100 (99%)- Nota phred = 30 => 1 base errada a cada 1000 (99.9%) 101. PirosequenciamentoFita simples Cmera de CCDReao dedegradao Filme sequenciamentoScience 281 (1998), n. 5375, 363-365 102. ProtocoloO adaptador permite que o DNA se ligue em grnulos minsculos(dimetro de 28 mm). Apenas um DNA ligado em cada grnulo; Os grnulos so envolvidos em gotas de leo que contm todosos reagentes necessrios para amplificar o DNA; Cada gota contendo o grnulo mantida isolada para evitarcontaminaoProduz 10 milhes de cpias numa reao depirosequenciamento; Um pmol de DNA numa reao de piroseq. produz 1011molculas de ATP gerando mais de 109 ftons, num comprimentode onda de 560 nm, e num perodo de 3-4 segundos.Facilmente detectado por uma cmera de CCD Nature 437 (2005), 326-327 103. O sequenciador 454 Cmara de fluxo contendo as amostras e as fibras pticas (1,6 milhes/slide) Bombeamento Cmera de de fludos CCDComputador Nature 437 (2005), 376-380 104. PirogramaLinearidade mantida at homopolmeros de 8 nt 105. So obtidas seqncias de at 100-120 b 106. Sanger x PirosequenciamentoSANGERPirosequenciamento Depende de clonagem embactria (2 semanas de No h clonagemtrabalho) 1 milho de pb em 24 horas 25 milhes de bp em 4 horas(100x mais rpido) Reads de ~700 bp Reads de ~100 bp Clones de fita dupla permitem Fragmentos fita simples noseqenciamento em ambaspermitem seqenciamento emdirees (facilita orientao eambas direesmontagem) 6 meses de sequenciamento,24 hs/dia, para sequenciar o 24 horas para sequenciar ogenoma de um fungogenoma de um fungoConcluso : a unio faz a foraPNAS 103 (2006), 11240 107. Caminhos map (Mbp)YACsBACs ormap (200kbp)Cosmidsm13, plasmidsequence (kbp) 108. Produto gnicoTransposonGene hipotticoGene preditoContig Gene 1Gene 2....actctagt.... Dados de outros genes e genomas permitem anotar uma funo e produto para o Gene 2 com o auxlio do programa BLAST. A presena do suposto Gene 1 foi assinalada Regies repetitivas como transposons por um algoritmo que busca por ORFs podem ser anotadas com o auxlio de significativas, enquanto no se conhece seu programas como BLAST, RepeatMasker e produto (protena), considerado hipottico. outros. bioinformtica Receber Processar Anotar Depositar 109. Predio de genes em procariotosSinais na sequncia de DNA de um procarioto quepodem ser utilizados na predio de genesRegies da sequncia de DNA de um procarioto queapresentam diferenas nas anlises de contedo GC ecodon usage 110. Contedo GC - Regies condantes (que codificam um gene) tem alto contedo GC(rica em nucleotdeos G e C) Regio do DNA que contm um geneContedo GC elevado nessa regio- Regies rica em GC so mais difceis de sofrerem mutaes (ligao qumica forte) 111. ORF open read frameACGTG TAACA CTGAG ACTAT AGGTG TGAAA A TC A T C G G GTA ACT GAC TAGGTGAAT TAA CTGACTAGGTGA- Cada grupo de nucleotdeos em trincas consecutivasconstituem um read frame- Existem 3 diferentes read frames na direo 5 -> 3 e mais 3na direo contrria (outra fita)- Uma sequncia de trincas que no contm um stop dentro chamanda de open read frame (ORF) 112. -A probabilidade de uma sequncia aleatria de n nucleotdeosno conter um cdon de stop (61/64)n- Quando n=50 a probabilidade de ter um cdon de stop no meio dasequncia de 92%- Normalmente usa-se, para procariotos, ORFs de tamanho n>=60para definir possveis candidatos a genes 113. Cdon usage-Baseado no fato que o uso do cdon diferente para cada organismo- Regies codantes seguem o codon usage do organismodiferentemente das regies intergnicasL, S, R => 6 combinaesV, P, A, G => 4 combinaesI,* => 3 combinaesF, Y, H, Q, N, K, D, E, C => 2combinaesM, W => 1 combinaes 114. Clculo do cdon usagehttp://www.kazusa.or.jp/codon/ 115. - A tabela de uso do cdon do organismo facilmente obtida usando programas como codonw ou cusp e usando como entrada sequncias em nucleotdeo que codificam protenas e no frame correto (tipicamente obtidas via similaridade entre a sequncia e a protena)http://bioweb.pasteur.fr/docs/EMBOSS/cusp.html http://codonw.sourceforge.net/ 116. Sinais no promotor One type of RNA polymerase.- Com o alinhamento de sequncias de promotores ortlogos possvel reconhecer regies que se mantm conversadas durantea evoluo, observem que as distncias tambm so conservadas 117. Positional Weight MatrixFor TATA box: 118. Juntando tudo-Promotor e incio de transcrio so sinais obtidos atravs de alinhamentos entrepromotores ortlogos (treinamento feito usando sequncias de organismosprximos)- Regies codantes (exons) so obtidos por codon usage (treinamento feitousando regies do DNA que possuam com similaridade forte com protenasconhecidas) e contedo GC- Outro vnculo importante a ordem dos sinais. No tem sentido um sinal deincio de transcrio no meio do exon 119. Predio de genes em eucariotos Gene length: 30kb, coding region: 1-2kb Binding site: ~6bp; ~30bp upstream of TSS Long Introns Average of 6 exons, 150bp long 120. Identificando splice sites (juno ntron-exon)- Com o alinhamento entre sequncias de cDNA e DNA possvel identificar as regies dos ntrons 121. - Com o alinhamento global entre os ntrons constroem-se amatriz de posio com os padres de splice sites, branch site etamanho mdio dos ntrons 122. Juntando tudo-Promotor e incio de transcrio so sinais obtidos atravs de alinhamentos entrepromotores ortlogos (treinamento feito usando sequncias de organismosprximos)- Regies codantes (exons) so obtidos por codon usage (treinamento feitousando regies do DNA que possuam com similaridade forte com protenasconhecidas) e contedo GC- Informaes sobre os ntrons so obtidas atravs de alinhamento do DNA comESTs- Outro vnculo importante a ordem dos sinais. No tem sentido um sinal deincio de transcrio no meio do exon 123. Sp=TP/(TP+FP)- Usando genes conhecidos e de preferncia no usados no conjunto detreinamento podem ser usados para medir a performance do preditor 124. - Usando genes conhecidos e de preferncia no usados no conjunto detreinamento podem ser usados para medir a performance do preditor 125. PerformanceSn=TP/(TP+FN) Sp=TP/(TP+FP)KORF, I. Gene finding in novel genomes. BMC Bioinformatics 5:59. 2004.